СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И/ИЛИ ДЕКОДИРОВАНИЯ ПРОСТРАНСТВЕННОГО ФОНОВОГО ШУМА В МНОГОКАНАЛЬНОМ ВХОДНОМ СИГНАЛЕ Российский патент 2025 года по МПК G10L19/08 

Описание патента на изобретение RU2836622C1

Перекрестные ссылки на родственные заявки

По данной заявке испрашивается приоритет на основании предварительной заявки на патент США № 63/193,946, поданной 27 мая 2021 г., и предварительной заявки на патент США № 63/037,650, поданной 11 июня 2020 г., каждая из которых полностью включена в данный документ путем ссылки.

Уровень техники

Звук или звуковое поле в окружении прослушивания слушателя, который расположен в положении прослушивания, могут быть описаны с использованием амбиофонического сигнала. Амбиофонический сигнал может рассматриваться в качестве многоканального аудиосигнала, причем каждый канал соответствует конкретной диаграмме направленности звукового поля в положении прослушивания слушателя. Амбиофонический сигнал может быть описан с использованием трехмерной декартовой системы координат, причем начало системы координат соответствует положению прослушивания, ось X указывает вперед, ось Y указывает влево, и ось Z указывает вверх.

Многоканальный аудиосигнал может содержать активные секции активной речи или аудио и другие неактивные секции без речи или аудио, которые обычно содержат только фоновый шум. Фоновый шум может иметь пространственные характеристики, такие как шум кондиционера, исходящий из конкретного направления.

Настоящий документ решает техническую проблему моделирования пространственного фонового шума эффективным способом, в частности, для обеспечения перцепционно приятных переходов между активными и неактивными секциями многоканального аудиосигнала. Техническая проблема решается посредством независимых пунктов формулы изобретения. Предпочтительные примеры описаны в зависимых пунктах формулы изобретения.

Раскрытие изобретения

Согласно аспекту, описан способ кодирования многоканального входного (аудио-)сигнала, который содержит N различных каналов, где N>1, в частности, N>2. Способ содержит определение, является ли текущий кадр многоканального входного сигнала активным кадром или неактивным кадром, с использованием детектора активности сигналов и/или голосовой активности. Кроме того, способ содержит определение сигнала понижающего микширования на основе многоканального входного сигнала и/или на основе целевой скорости передачи битов для кодирования многоканального входного сигнала, при этом сигнал понижающего микширования содержит менее чем или ровно N каналов. Способ дополнительно содержит определение метаданных повышающего микширования, содержащих набор (пространственных) параметров для формирования, на основе сигнала понижающего микширования, восстановленного многоканального сигнала, содержащего N каналов. Метаданные повышающего микширования могут определяться в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром. Помимо этого, способ содержит кодирование метаданных повышающего микширования в битовый поток.

Согласно дополнительному аспекту, описан способ декодирования битового потока, который указывает восстановленный многоканальный сигнал, содержащий N каналов (где N является положительным целым числом, большим единицы, предпочтительно, N>2). Способ содержит определение, на основе битового потока, является ли текущий кадр активным кадр или неактивным кадром. Помимо этого, способ содержит определение восстановленного сигнала понижающего микширования, при этом восстановленный сигнал понижающего микширования содержит менее чем или ровно N каналов. Способ дополнительно содержит формирование восстановленного многоканального сигнала на основе восстановленного сигнала понижающего микширования и на основе метаданных повышающего микширования, содержащихся в битовом потоке. Восстановленный многоканальный сигнал может формироваться в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром.

Согласно дополнительному аспекту, описана программа в виде программного обеспечения. Программа в виде программного обеспечения может быть адаптирована для выполнения в процессоре и для осуществления этапов способа, указанных в настоящем документе, при выполнении в процессоре.

Согласно другому аспекту, описан носитель данных. Носитель данных может содержать программу в виде программного обеспечения, адаптированную для выполнения в процессоре и для осуществления этапов способа, указанных в настоящем документе, при выполнении в процессоре.

Согласно дополнительному аспекту, описан компьютерный программный продукт. Компьютерная программа может содержать выполняемые инструкции для осуществления этапов способа, указанных в настоящем документе, при выполнении на компьютере.

Согласно другому аспекту, описан блок кодирования для кодирования многоканального входного сигнала, который содержит N различных каналов, где N является положительным целым числом больше единицы, предпочтительно N>2. Блок кодирования выполнен с возможностью определения, является ли текущий кадр входного сигнала активным кадром или неактивным кадром, с использованием детектора активности сигналов и/или голосовой активности. Кроме того, блок кодирования выполнен с возможностью определения сигнала понижающего микширования на основе многоканального входного сигнала и/или на основе скорости передачи битов, при этом сигнал понижающего микширования содержит менее чем или ровно N каналов. Помимо этого, блок кодирования выполнен с возможностью определения метаданных повышающего микширования, содержащие набор параметров для формирования, на основе сигнала понижающего микширования, восстановленного многоканального сигнала, содержащего N каналов. Метаданные повышающего микширования могут определяться в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром. Блок кодирования дополнительно выполнен с возможностью кодирования метаданных повышающего микширования в битовый поток.

Согласно другому аспекту, описан блок декодирования для декодирования битового потока, который указывает восстановленный многоканальный сигнал, содержащий N каналов. Восстановленный сигнал содержит последовательность кадров. Блок декодирования выполнен с возможностью определения восстановленного сигнала понижающего микширования, при этом восстановленный сигнал понижающего микширования содержит менее чем или ровно N каналов. Блок декодирования дополнительно выполнен с возможностью определения на основе битового потока, является ли текущий кадр сигнала активным кадром или неактивным кадром. Помимо этого, блок декодирования выполнен с возможностью формирования восстановленного многоканального сигнала на основе восстановленного сигнала понижающего микширования и на основе метаданных повышающего микширования, содержащихся в битовом потоке. Восстановленный многоканальный сигнал может формироваться в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром.

Следует отметить, что способы, устройства и системы, включающие в себя их предпочтительные варианты осуществления, как указано в настоящей заявке на патент, могут использоваться автономно или в сочетании с другими способами, устройствами и системами, раскрытыми в этом документе. Кроме того, все аспекты способов, устройств и систем, указанных в настоящей заявке на патент, могут быть произвольно объединены. В частности, признаки пунктов формулы изобретения могут быть объединены между собой произвольным способом.

Краткое описание чертежей

Ниже изобретение поясняется в качестве примера с обращением к сопровождающим чертежам, на которых:

Фиг. 1 показывает примерный блок кодирования и блок декодирования для кодирования и декодирования многоканального сигнала;

Фиг. 2 показывает примерный модуль пространственного синтеза (или восстановления);

Фиг. 3 показывает примерный блок кодирования и блок декодирования для кодирования SPAR и декодирования SPAR многоканального сигнала;

Фиг. 4a-4c иллюстрируют кодирование неактивного кадра амбиофонического сигнала для различных ситуаций понижающего микширования для различных ситуаций понижающего микширования;

Фиг. 5 показывает примерную архитектуру устройства;

Фиг. 6a показывает блок-схему примерного способа кодирования многоканального сигнала; и

Фиг. 6b показывает блок-схему примерного способа декодирования многоканального сигнала.

Осуществление изобретения

Как указано выше, настоящий документ относится к эффективному кодированию пространственного комфортного шума для иммерсивных аудиосигналов, таких как сигналы амбиофонии первого порядка (FOA) или HOA (амбиофонии высшего порядка). А именно, сигналы FOA или HOA в общем называются в данном документе «сигналами представления звукового поля (SR)». Сигнал SR может содержать относительно высокое число каналов или форм сигналов, при этом различные каналы связаны с различными функциями панорамирования и/или с различными диаграммами направленности. В качестве примера, трехмерный сигнал FOA или HOA L-ого порядка содержит (L+1)2 каналов.

Фиг. 1 иллюстрирует блок 100 кодирования и блок 150 декодирования для кодирования и декодирования многоканального входного сигнала 101, который может содержать сигнал SR. В частности, многоканальный входной сигнал 101 может содержать (возможно сочетание) один или более моносигналов, один или более стереосигналов, один или более бинауральных сигналов, один или более (традиционных) многоканальных сигналов (к примеру, сигнал 5.1- или 7.1), один или более аудиообъектов и/или один или более сигналов SR. Различные сигнальные компоненты могут считаться отдельными каналами многоканального входного сигнала 101.

Блок 100 кодирования содержит модуль 120 пространственного анализа и понижающего микширования, выполненный с возможностью понижающего микширования многоканального входного сигнала 101 в сигнал 103 понижающего микширования, содержащий один или более каналов. Сигнал 103 понижающего микширования может непосредственно представлять собой сигнал SR, а именно, сигнал амбиофонии первого порядка (FOA), если входной сигнал 101 содержит сигнал HOA. Понижающее микширование может выполняться в подполосной области или в области QMF (например, с использованием 10 или более подполос частот).

Модуль 120 пространственного анализа и понижающего микширования дополнительно выполнен с возможностью определения метаданных 105 SPAR (восстановления разрешения пространственного аудио, или пространственного восстановления), которые выполнены с возможностью восстановления многоканального входного сигнала 101 из сигнала 103 понижающего микширования. Модуль 120 пространственного анализа и понижающего микширования может быть выполнен с возможностью определения метаданных 105 SPAR в подполосной области. Метаданные 105 SPAR также называются в данном документе «метаданными повышающего микширования».

Помимо этого, блок 100 кодирования может содержать модуль 140 кодирования, который выполнен с возможностью выполнения кодирования на основе формы сигналов (например, кодирования EVS) сигнала 103 понижающего микширования, за счет этого обеспечивая кодированные аудиоданные 106. Каждый канал сигнала 103 понижающего микширования может кодироваться с использованием монокодера на основе формы сигналов, за счет этого обеспечивая эффективное кодирование. Кроме того, блок 100 кодирования содержит модуль 141 квантования, который выполнен с возможностью квантования метаданных 105 SPAR и выполнения энтропийного кодирования (квантованных) метаданных 105 SPAR, за счет этого обеспечивая кодированные метаданные 107. Кодированные аудиоданные 106 и кодированные метаданные 107 могут вставляться в битовый поток. Кодирование сигнала 103 понижающего микширования и/или метаданных 105 SPAR обычно управляется с использованием модуля 142 управления режимом и/или скоростью передачи битов.

Обычно работа модуля 120 пространственного анализа и/или понижающего микширования зависит от целевой скорости передачи битов. В частности, число каналов сигнала 103 понижающего микширования может зависеть от целевой скорости передачи битов. Более высокое число каналов понижающего микширования обычно обеспечивает повышенную производительность, поскольку оно обеспечивает большее восстановление формы сигнала, чем параметрическое восстановление. С другой стороны, более высокое число каналов понижающего микширования обычно приводит к увеличенной скорости передачи битов, поскольку увеличенное число каналов должно кодироваться посредством модуля кодирования аудио 140.

На низких скоростях передачи битов, может быть предпочтительным использовать только одноканальное понижающее микширование. С другой стороны, число каналов понижающего микширования может увеличиваться с увеличением скорости передачи битов. Это также применяется к режиму работы DTX, описанному в настоящем документе.

Блок 150 декодирования по фиг. 1 содержит модуль 160 декодирования, который выполнен с возможностью извлечения восстановленных сигналов 114 понижающего микширования из кодированных аудиоданных 106. Кроме того, блок 150 декодирования содержит модуль 161 декодирования метаданных, который выполнен с возможностью извлечения метаданных 105 SPAR из кодированных метаданных 107.

Помимо этого, блок 150 декодирования содержит модуль 170 восстановления, который выполнен с возможностью извлечения восстановленного многоканального сигнала 111 из метаданных 105 SPAR и из восстановленного сигнала 114 понижающего микширования. Восстановленный многоканальный сигнал 111 может содержать восстановленный сигнал SR. В частности, восстановленный многоканальный сигнал 111 может содержать те же типы каналов, что и типы каналов многоканального входного сигнала 101. Восстановленный многоканальный сигнал 111 может использоваться для рендеринга в динамиках, для рендеринга в наушниках и/или для рендеринга SR.

Фиг. 2 иллюстрирует примерный модуль 170 восстановления. Модуль 170 восстановления принимает в качестве входного сигнала один или более каналов восстановленного сигнала 114 понижающего микширования. Первый микшер 211 может быть выполнен с возможностью повышающего микширования одного или более каналов восстановленного сигнала 114 понижающего микширования в увеличенное число сигналов. Первый микшер 211 зависит от метаданных 105 SPAR.

Модуль 170 восстановления может содержать один или более декорреляторов 201, которые выполнены с возможностью формирования сигналов из представления канала W восстановленного сигнала 114 понижающего микширования, которые обрабатываются во втором микшере 212, для формирования увеличенного числа каналов. Второй микшер 212 зависит от метаданных 105 SPAR. Вывод первого микшера 211 и вывод второго микшера 212 суммируются для формирования восстановленного многоканального сигнала 111. Восстановленный многоканальный сигнал 111 может иметь тот же тип (в частности, может содержать то же число каналов), что и многоканальный входной сигнал 101.

Метаданные 105 SPAR могут состоять из данных, которые представляют коэффициенты матриц повышающего микширования, используемых посредством первого микшера 211 и/или посредством второго микшера 212. Микшеры 211, 212 могут работать в подполосной области (а именно, в области QMF). В этом случае, метаданные 105 SPAR содержат данные, которые представляют коэффициенты матриц повышающего микширования, используемых посредством первого микшера 211 и посредством второго микшера 212 для множества различных подполос частот (например, для 10 или более подполос частот).

Фиг. 2 иллюстрирует пример сигнала 114 одноканального понижающего микширования, который содержит представление канала W (называется "W'"). Первый микшер 211 формирует восстановление прогнозируемых частей каналов X, Y и/или Z на основе W' (с использованием коэффициентов прогнозирования из метаданных 105 SPAR). Второй микшер 212 формирует представления декоррелированных остаточных сигналов X', Y' и/или Z'. Другими словами, второй микшер 212 использует метаданные 105 SPAR для спектрального формирования сигналов, которые декоррелируются относительно W' в соответствии с исходными остаточными сигналами X', Y' и/или Z', соответственно, за счет этого обеспечивая представления или восстановления остаточных сигналов X', Y' и/или Z'.

Блок 100 кодирования может быть выполнен с возможностью преобразования входного сигнала 101 FOA в сигнал 103 понижающего микширования и в параметры, т.е. метаданные 105 SPAR, используемые для повторного формирования входного сигнала 101 в блоке 150 декодирования. Число каналов сигнала 103 понижающего микширования может варьироваться от 1 до 4 каналов. Параметры могут включать в себя параметры Pr прогнозирования, параметры C кросс-прогнозирования и/или параметры P декорреляции. Эти параметры могут вычисляться из ковариационной матрицы кодированного со взвешиванием входного сигнала 101. Кроме того, параметры могут вычисляться в указанном числе подполос частот. В случае комфортного шума, может использоваться сокращенное число подполос частот (также называются «полосами частот»), например, 6 подполос частот вместо 12 подполос частот.

Примерное представление извлечения параметров SPAR может заключаться в следующем (как описано со ссылкой на фиг. 3):

1. Прогнозирование всех боковых сигналов (Y, Z, X) входного сигнала 101 из основного сигнала W входного сигнала 101:

- где, в качестве примера, коэффициент прогнозирования для прогнозированного канала Y' может вычисляться следующим образом:

- и являются элементами входной ковариационной матрицы, соответствующими сигналам A и B. Аналогично, остаточные каналы Z' и X' имеют соответствующие параметры, prz и prx. Они могут вычисляться посредством замены буквы "Y" буквой "Z" или "X" в вышеприведенной формуле. Параметры Pr прогнозирования (также называются "PR") могут представлять собой вектор коэффициентов прогнозирования.

Параметры прогнозирования могут определяться в модуле 311 прогнозирования, показанном на фиг. 3, за счет этого обеспечивая остаточные каналы Y', Z' и X' 301.

В примерной реализации, W может представлять собой активный канал (или другими словами, с активным прогнозированием, в дальнейшем называемый "W'"). В качестве примера (но не в качестве ограничения), активный канал W', который обеспечивает возможность некоторого микширования каналов X, Y, Z в канал W, может задаваться следующим образом:

Здесь, f является коэффициентом микширования и может быть статическим или динамическим во времени и/или по частоте. В реализации, f может варьироваться между активными и неактивными кадрами. Другими словами, коэффициент микширования может зависеть от того, является ли текущий кадр активным кадром или неактивным кадром. Иными словами, микширование канала X, Y и/или Z в канал W может отличаться для активных кадров и для неактивных кадров. Следовательно, представление канала W, т.е. канал W', может определяться посредством микширования начального канала W с одним или более других каналов. За счет этого, перцепционное качество дополнительно может повышаться.

2. Повторное микширование W- и прогнозированных (Y'-, Z'-, X'-) каналов от наиболее к наименее акустически релевантным. Повторное микширование может соответствовать переупорядочению или рекомбинированию сигналов, на основе заданной технологии. Примерная технология для повторного микширования может представлять собой переупорядочение входных сигналов W, Y', X', Z', при таком допущении, что сигнальные аудиометки слева направо являются более важными, чем спереди назад, которые являются более важными для сигнальных меток сверху вниз. Технология повторного микширования может быть известной в соответствующем блоке 150 декодирования таким образом, что параметры не должны передаваться в битовом потоке. Повторное микширование может выполняться в модуле 312 повторного микширования по фиг. 3, за счет этого обеспечивая повторно микшированные каналы 302.

3. Вычисление ковариации четырехканального постпрогнозирования и понижающего микширования 302 с повторным микшированием.

где dd представляет один или более дополнительных каналов понижающего микширования за рамками W (т.е. второй - n-ый каналы), и u представляет один или более каналов, которые должны полностью повторно формироваться (т.е. n+1-ый - четвертый каналы), поскольку они не содержатся в сигнале 103 понижающего микширования (при этом n является числом каналов в сигнале 103 понижающего микширования).

Для примера повторного WABC-микширования 302 с 1-4 каналами, d и u представляют следующие каналы:

n каналы d каналы u 1 -- A', B', C' 2 A' B', C' 3 A', B' C' 4 A', B', C' --

- при этом n является числом каналов в сигнале 103 понижающего микширования. Главный интерес для вычисления метаданных 105 SPAR представляют собой ковариации Rdd, Rud и Ruu. метаданные SPAR могут определяться в модуле 313 вычисления по фиг. 3.

4. Из этого, определение, возможно ли кросс-прогнозирование какой-либо оставшейся части полнопараметрических каналов (т.е. каналов u) из отправляемых остаточных каналов (т.е. из каналов d).

Коэффициенты C кросс-прогнозирования могут вычисляться следующим образом:

Следовательно, C может иметь форму (1×2) для трехканального понижающего микширования и (2×1) для двухканального понижающего микширования.

5. Вычисление оставшейся энергии в параметризованных каналах, которые должны быть заполнены посредством декорреляторов 201. Остаточная энергия Resuu в каналах повышающего микширования является разностью между фактической энергией Ruu (постпрогнозирования) и повторно сформированной энергией Reguu кросс-прогнозирования.

Параметр scale является константой, где 0≤scale≤1. Параметр scale Th может быть частотно-зависимым. В частности, различные значения параметра scale могут использоваться для различных полос частот. Матрица P параметров декорреляции может представлять собой ковариационную матрицу, которая является эрмитово-симметричной, и в силу этого только параметры декорреляции из верхнего или нижнего треугольника матрицы декорреляции, возможно, должны включаться в метаданные 105 SPAR. Диагональные записи являются действительнозначными, в то время как внедиагональные элементы могут быть комплекснозначными. Коэффициенты P предписывают то, сколько декоррелированных компонентов канала W используются для реконструкции каналов A, B и C до выполнения обратного прогнозирования и обратного микширования.

В некоторых реализациях, только диагональные значения P вычисляются и отправляются в блок 150 декодирования. Эти диагональные значения могут вычисляться следующим образом:

Фиг. 3 иллюстрирует дополнительные компоненты модуля 170 восстановления блока 150 декодирования. В частности, модуль 170 восстановления может содержать модуль 322 повторного микширования, выполненный с возможностью повторного микширования каналов согласно вышеуказанной технологии повторного микширования. Кроме того, параметры прогнозирования могут использоваться в модуле 321 обратного прогнозирования для формирования каналов восстановленного многоканального сигнала 111 из восстановленных остаточных каналов.

Настоящий документ решает техническую проблему моделирования пространственных параметров фонового шума в системе голосовой связи таким образом, что блок 150 декодирования может формировать высококачественный пространственный комфортный шум с использованием этих пространственных параметров и многоканального сигнала возбуждения. Многоканальный сигнал возбуждения может представлять собой многоканальный белый шумовой сигнал, в котором все каналы формируются с различным порождающим числом и декоррелируются друг с другом.

С этой целью, блок 100 кодирования может быть выполнен с возможностью дискретизации окружающего шума и кодирования одного или более параметров, которые описывают окружающий шум. Один или более параметров для пространственного аспекта шума могут оцениваться, кодироваться и отправляться в течение периодов «отсутствия голосовой активности» в блок 150 декодирования. Блок 150 декодирования может быть выполнен с возможностью реконструкции шума, который должен воспроизводиться, на основе одного или более параметров.

Другими словами, описан способ кодирования пространственного фонового шума с относительно небольшим набором параметров для обеспечения возможности передачи одного или более параметров для блока 150 декодирования. Один или более параметров могут использоваться для создания пространственного комфортного шума на приемном конце системы передачи. Термин «пространственный» означает, что шум имеет окружение, ассоциированное с «слева направо», «сверху вниз» и/или «спереди назад». Шум может быть анизотропным, так что может возникать более сильный окружающий шум в одном направлении, чем в другом направлении. Пространственный шум может конструироваться с возможностью воспроизведения в сочетании со слежением за положением головы в блоке 150 декодирования, при воспроизведении по громкоговорителям.

Общая технология формирования пространственного комфортного шума в декодере раскрыта в US 10,224,046, который в полном объеме включен в данный документ путем ссылки. Настоящий документ решает техническую проблему касательно того, как моделировать пространственный комфортный шум в блоке 100 кодирования. Этот документ, в частности, раскрывает процедуру для моделирования и/или квантования одного или более пространственных параметров для пространственного комфортного шума в блоке 100 кодирования таким образом, что пространственный комфортный шум может формироваться в блоке 150 декодирования.

Способ, описанный в этом документе, характеризует пространственные характеристики окружающего шума как отличающиеся от механизмов характеризации частотного спектра окружающего шума. В частности, этот документ описывает создание одного или более параметров пространственного комфортного шума при использовании кодера комфортного шума на основе монокодека, при этом параметры пространственного комфортного шума характеризуют пространственный компонент шума. Пространственные и спектральные компоненты могут использоваться в блоке 150 декодирования для формирования пространственного комфортного шума.

Входной аудиосигнал 101 может передаваться в блок 100 кодирования, при этом входной аудиосигнал 101 содержит последовательность кадров. Кадры, например, могут иметь временную длину в 20 мс. Последовательность кадров может содержать поднабор аудиокадров или речевых кадров и поднабор кадров, которые состоят только из фонового шума. Примерная последовательность аудиокадров может рассматриваться как:

A---A--S---S----S---S---S----S---S---S----S---S----S---S---S---S----S---S---S----S---S---S----S---A---A--A--A,

- при этом "A" указывает активный речевой и/или аудиокадр, и при этом "S" указывает кадр молчания (также называется в данном документе «неактивным кадром»).

Для системы прерывистой передачи (DTX), в которой фактическая скорость передачи битов кодека может существенно уменьшаться в течение неактивных кадров за счет отправки только параметров формирования шума, и при условии, что фоновые шумовые характеристики не изменяются насколько часто, как активные речевые или аудиокадры, вышеуказанная последовательность может транслироваться в следующую последовательность кадров посредством блока 100 кодирования:

AB-AB-SID-ND-ND-ND-ND-ND-ND-ND-SID-ND-ND-ND-ND-ND-ND-ND-SID-ND-ND-ND-ND-AB-AB-AB-AB,

- при этом "AB" указывает битовый поток кодера для активного кадра, при этом "SID" указывает индикаторный кадр молчания, который содержит последовательность битов для формирования комфортного шума, и при этом "ND" указывает кадры без данных, т.е. ничего не передается в блок 150 декодирования в течение этих кадров.

Следовательно, блок 100 кодирования может быть выполнен с возможностью классификации различных кадров входного сигнала 101 на активные (A) или тихие (S) кадры (которые также называются «неактивными кадрами»). Кроме того, блок 100 кодирования может быть выполнен с возможностью определения и кодирования данных для формирования комфортного шума в кадре "SID" (который соответствует, например, текущему кадру S из последовательности кадров S). Кадры SID могут многократно отправляться, в частности, периодически, для последовательности S-кадров. В качестве примера, кадр SID может отправляться каждый восьмой кадр (что соответствует временному интервалу в 160 мс между последующими кадрами SID, при использовании 20-миллисекундных кадров). Данные не могут передаваться в течение одного или более следующих кадров S из последовательности кадров S. Следовательно, блок 100 кодирования может быть выполнен с возможностью выполнения DTX (прерывистой передачи) или переключения на режим DTX.

Другими словами, блок 100 кодирования может быть выполнен с возможностью отправки аудиоданных 106 и кодированных метаданных 107 в блок 150 декодирования для каждого активного кадра. С другой стороны, блок 100 кодирования может быть выполнен с возможностью отправки только кодированных метаданных 107 (и неотправки аудиоданных 106) для части неактивных кадров (т.е. для кадров SID). Для оставшихся неактивных кадров (т.е. для кадров ND) данные могут не отправляться вообще (даже кодированные метаданные 107). Кодированные метаданные 107, которые отправляются для кадра SID, могут уменьшаться и/или сжиматься относительно кодированных метаданных 107, которые отправляются для активного кадра.

Блок 100 кодирования может содержать детектор голосовой активности, который выполнен с возможностью переключения кодера на режим DTX. Если задан флаг DTX (например, флаг CombinedVAD, упомянутый ниже), то пакеты могут формироваться в прерывистом режиме на основе входного кадра, иначе кадр может кодироваться в качестве активного речевого и/или аудиокадра.

Блок 100 кодирования может быть выполнен с возможностью определения сигнала 103 понижающего мономикширования, и сигнал 103 понижающего мономикширования может использоваться для обнаружения неактивного кадра посредством управления детектором активности сигналов или детектором голосовой активности (SAD/VAD) для сигнала 103 понижающего мономикширования. Для примера входного сигнала 101 в формате B звукового поля, SAD/VAD может работать для представления сигнала канала W. В альтернативном примере, SAD/VAD может работать для множества (а именно, для всех) канальных сигналов для входного сигнала 101. Отдельные результаты для сигналов отдельного канала затем могут быть объединены в один флаг CombinedVAD. Если флаг CombinedVAD установлен, кадр может считаться неактивным. С другой стороны, если флаг CombinedVAD не установлен, кадр может считаться активным.

Следовательно, VAD и/или SAD могут использоваться для классификации кадров из последовательности кадров на активные кадры или неактивные кадры. Кодирование и/или формирование комфортного шума может применяться к неактивным кадрам. Кодирование комфортного шума (а именно, кодирование параметров формирования шума) в блоке 100 кодирования может выполняться таким образом, что блок 150 декодирования имеет возможность формировать высококачественный комфортный шум для звукового поля. Комфортный шум, который формируется посредством блока 150 декодирования, предпочтительно совпадает со спектральными и/или пространственными характеристиками фонового шума во входном сигнале 101. Это не обязательно подразумевает восстановление формы сигнала входного фонового шума. Комфортный шум, сформированный посредством блока 150 декодирования звукового поля для последовательности неактивных кадров, предпочтительно является таким, что комфортный шум звучит непрерывно относительно шума в непосредственно предшествующих активных кадрах. Следовательно, переход между активными и неактивными кадрами в блоке 150 декодирования предпочтительно является сглаженным и нерезким.

Блок 150 декодирования может быть выполнен с возможностью формирования случайного белого шума в качестве сигнала возбуждения. Сигнал возбуждения может содержать множество каналов белого шума, при этом белый шум в различных каналах обычно декоррелируется между собой. Битовый поток из блока 100 кодирования может содержать только параметры формирования шума (в качестве кодированных метаданных 107), и блок 150 декодирования может быть выполнен с возможностью формирования случайного белого шума в различных каналах (спектрально и пространственно) с использованием параметров формирования шума, которые предусмотрены в битовом потоке. За счет этого, пространственный комфортный шум может формироваться эффективным способом.

Ниже по тексту описан способ определения параметров пространственного и/или спектрального комфортного шума в блоке 150 кодирования. Как указано выше, «активный кадр» может представлять собой кадр, в котором обнаруживается голосовой и/или аудиосигнал. «Не- или неактивный кадр» может представлять собой кадр, в котором голос и речь не обнаруживаются, так что присутствует только фоновый шум. Кадры могут классифицироваться на активные и неактивные кадры с использованием алгоритма обнаружения голоса и/или речи (VAD и/или SAD).

WYZX могут представлять собой четыре канала сигнала звукового поля в формате B. Сокращение "CNG" может означать формирование комфортного шума. Сокращение "SPAR" может означать модуль пространственного восстановления. Как указано в контексте по фиг. 3, схема SPAR может представлять собой алгоритм, который принимает входной сигнал 101 с N каналов (предпочтительно, входной сигнал FOA с N=4) и формирует понижающее микширование 103 таким образом, что число n каналов понижающего микширования (dmx_ch) равно 1≤n≤N, а также пространственные метаданные 105 (так называемые параметры SPAR). Кроме того, схема SPAR восстанавливает многоканальный сигнал 111 с N каналов из (восстановленного) понижающего микширования 103, 114 с n каналов 103, с использованием набора параметров 105 SPAR.

Параметры 105 SPAR для входного сигнала 101 FOA могут содержать PR (коэффициенты прогнозирования), коэффициенты C (кросс-члена) и коэффициенты P (декорреляции). Ypred или Y' может представлять собой остаток сигнала канала Y после линейного прогнозирования из одного или более других канальных сигналов (а именно, из сигнала канала W). Xpred или X' может представлять собой остаток сигнала канала X после линейного прогнозирования из одного или более других канальных сигналов (а именно, из сигнала канала W). Zpred или Z' может представлять собой остаток сигнала канала Z после линейного прогнозирования из одного или более других канальных сигналов (а именно, из сигнала канала W).

Следует отметить, что даже если настоящий документ главным образом означает моделирование пространственного шума в сигнале звукового поля, способы, которые описаны в данном документе, не ограничены сигналами звукового поля и могут применяться к любому многомерному шумовому полю и/или к любому виду многоканального сигнала. В частности, способы, описанные в данном документе, могут применяться к кодерам на основе каналов и звукового поля для входных сигналов 101, имеющих размерность N больше 1 и предпочтительно больше 2 (т.е. больше, чем стерео).

Способ кодирования пространственного комфортного шума может содержать VAD и/или SAD для кадра сигнала 103 понижающего мономикширования (например, сигнала канала W для сигнала звукового поля). Кодирование параметров пространственного комфортного шума может выполняться, если обнаружено, что кадр является неактивным кадром.

Ковариация различных канальных сигналов кадра может определяться для множества различных полос частот или подполос частот. Ковариационная матрица может определяться так, как указано выше; тем не менее, для сокращенного числа полос частот. Сглаживание ковариации, т.е. сглаживание ковариационной матрицы может выполняться по множеству последующих кадров. Следовательно, ковариация может подвергаться фильтрации (нижних частот) по множеству кадров с использованием фильтра. Различные фильтры могут использоваться для различных полос частот. Другими словами, различные сглаживающие функции и/или различные коэффициенты отсутствия последействия могут использоваться в различных полосах частот. Следовательно, временное сглаживание ковариации может выполняться. В результате этого, скорость передачи данных для параметров кодирования для фонового шума может уменьшаться. Кроме того, слышимые разрывности пространственного комфортного шума могут исключаться. Пример временного ковариационного сглаживания описан в US 63/057,533, которая полностью включена в данный документ путем ссылки.

Ковариационная оценка Rdtx для формирования комфортного шума предпочтительно использует относительно широкомасштабное ковариационное сглаживание. Посредством увеличения коэффициента отсутствия последействия для моделирования комфортного шума, восприятие пространственных характеристик шума может стабилизироваться, в силу этого исключая шум, который звучит нестационарно, что может быть перцепционно раздражающим. Следовательно, сглаженная ковариация Rdtx для кадра может определяться, и метаданные 105 SPAR могут определяться на основе сглаженной Для обеспечения возможности сглаженного перехода между активным кадром и последующим неактивным кадром, схема вычисления ковариации может переключаться с нормальной ковариационной оценки (используемой для активных кадров) на шумовую ковариационную оценку, как только SAD и/или VAD обнаруживают неактивный кадр.

Кадр может содержать относительный короткий всплеск или переходную часть (например, голосовой всплеск или холм). Такая переходная часть может быть относительно короткой, например, 200 мс. Такой всплеск может прерывать последовательность неактивных кадров. Прерывание должно нормально приводить к сбросу вычисления ковариации (поскольку короткий всплеск активных кадров должен вычисляться с использованием схемы без сглаживания или модифицированной схемы сглаживания). Блок 100 кодирования может быть выполнен с возможностью удаления кадров, которые переносят переходную часть или короткий всплеск, из схемы сглаживания для определения ковариационных оценок. После того, как переходная часть или голосовой всплеск обнаруживается, затем ковариационная оценка может поддерживаться постоянной до тех пор, пока не завершен всплеск или переходная часть. Для случая, в котором всплеск или переходная часть является относительно коротким, например, 200 мс или меньше, ковариационное сглаживание может продолжаться после переходной части (на основе сохраненной ковариации до всплеска или переходной части). Следовательно, ковариационное сглаживание может продолжаться с использованием сохраненной ковариации для кадра, который непосредственно предшествует всплеску или переходной части. Другими словами, усреднение со взвешиванием ковариаций может продолжаться посредством исключения одного или более активных кадров, которые соответствуют переходной части или всплеску.

С другой стороны, если всплеск длится в течение относительно длительного времени, ковариационная оценка может сбрасываться, и ковариационные оценки до сброса могут не использоваться для усреднения.

За счет этого, можно учитывать, что пространственные аспекты фонового шума являются относительно стабильными во времени. Посредством удаления переходных частей, холмов, пиков, тактов и т.д. из вычисления сглаженной ковариации, воспринимаемые сбои пространственных аспектов фонового шума могут исключаться надежным способом. В частности, сброс ковариации вследствие обнаружения относительно короткой последовательности активных кадров, которые могут приводить к заметному артефакту, может исключаться.

Вычисление метаданных 105 SPAR может содержать вычисление коэффициентов прогнозирования (Pr), коэффициентов C кросс-члена, если 1<n<4, и/или коэффициентов декорреляции (P) (как указано выше), при этом n является числом каналов в сигнале 103 понижающего микширования.

Как указано выше, для неактивного кадра, ковариация может вычисляться для сокращенного числа полос частот по сравнению со случаем активного кадра (например, 6 полос частот вместо 12 полос частот). Предположение в отношении уменьшения числа полос частот для неактивных кадров заключается в том, что обычно меньшее частотное разрешение требуется для захвата параметров шума вследствие широкополосного характера фонового шума. За счет уменьшения числа полос частот, может уменьшаться скорость передачи данных, т.е. скорость передачи битов. Кроме того, только действительнозначные коэффициенты могут отправляться из блока 100 кодирования в блок 150 декодирования. Следовательно, сокращенная модель, содержащая сокращенное число полос частот, может использоваться для моделирования фонового шума. Эта модель обеспечивает возможность моделирования пространственных характеристик широкополосного шума эффективным способом.

Для случая двухканального понижающего микширования 103 (которое содержит, например, представление сигнала канала W и сигнала канала Ypred или Y'), данные, содержащиеся в битовом потоке из блока 100 кодирования в блок 150 декодирования, могут содержать (для кадра входного сигнала 101):

-- представление сигнала канала W, кодированное посредством модуля 140 кодирования;

-- сигнал канала Ypred, кодированный посредством модуля 140 кодирования. Как указано выше, сигнал канала Ypred может представлять собой декоррелированную часть сигнала канала Y, которая не может прогнозироваться из сигнала канала W с использованием одного или более коэффициентов прогнозирования;

-- (действительнозначные) коэффициенты прогнозирования для сигналов каналов Y, Z и X;

-- прямые коэффициенты (к примеру, коэффициенты кросс-прогнозирования или коэффициенты C) могут не отправляться в блок 150 декодирования для неактивных кадров в ходе DTX; и

-- (действительнозначные) коэффициенты P декорреляции, которые указывают уровень декоррелированного сигнала канала W, который должен использоваться для формирования сигналов каналов X и Z.

Обработка, которая может выполняться посредством блока 100 кодирования в случае сигнала 103 двухканального понижающего микширования, проиллюстрирована на фиг. 4b.

Для случая полнопараметрического понижающего W-микширования 103 (содержащего только сигнал канала W в качестве сигнала 103 понижающего микширования), данные, содержащиеся в битовом потоке из блока 100 кодирования в блок 150 декодирования, могут содержать (для кадра входного сигнала 101):

-- представление сигнала канала W, кодированное посредством модуля 140 кодирования;

-- (действительнозначные) коэффициенты прогнозирования для сигналов каналов Y, Z и X; и

-- (действительнозначные) коэффициенты P декорреляции, которые указывают уровень декоррелированного сигнала канала W, который должен использоваться для формирования сигналов каналов Y, X и Z.

Обработка, которая может выполняться посредством блока 100 кодирования в случае сигнала 103 одноканального понижающего микширования, проиллюстрирована на фиг. 4a. Фиг. 4c иллюстрирует случай сигнала 103 трехканального понижающего микширования.

Для случая понижающего микширования в один моноканал (например, понижающего микширования 3-1-3 или 4-1-4, указывающего то, что многоканальный входной сигнал 101 с 3 или 4 каналами микшируется с понижением в 1 канал и микшируется с повышением в 3 или 4 канала), только аудиоданные 106 относительно сигнала 103 моноканального (W') понижающего микширования (который может быть представлением канала W) включаются в битовый поток. Метаданные 105 SPAR могут использоваться для формирования пространственного комфортного шума FOA на основе восстановленного сигнала 114 понижающего микширования. Когда блок 100 кодирования обнаруживает неактивный кадр, вычисление метаданных 105 SPAR адаптируется, как указано в настоящем документе. В частности, первый неактивный кадр после активного кадра может кодироваться для формирования кадра SID. С этой целью кодированные метаданные 107 SPAR могут быть предусмотрены в битовом потоке для первого неактивного кадра. Кроме того, в течение последовательности неактивных кадров могут быть многократно, в частности периодически, предусмотрены дополнительные -кадры SID.

Для примера одноканального понижающего микширования, блок 150 декодирования может быть выполнен с возможностью формирования восстановленного сигнала 114 понижающего микширования на основе аудиоданных 106. Этот восстановленный сигнал 114 понижающего микширования может называться "WCNG", который, в течение неактивных кадров, может включать в себя параметрическое восстановление фонового шума, присутствующего в некодированном представлении канала W при понижающем микшировании с использованием белого шума в качестве сигнала возбуждения и с использованием параметров формирования спектра, кодированных посредством моноаудиокодека (например, EVS). Три декоррелированных канала для восстановления сигналов каналов Y, X и Z могут формироваться из WCNG с использованием декорреляторов 201 (например, декорреляторов во временной области или в области гребенки фильтров). В качестве альтернативы, три декоррелированных канала для восстановления сигналов каналов Y, X и Z могут формироваться посредством формирования декоррелированного комфортного шума с различными порождающими числами и формированием спектра нескорректированного комфортного шума согласно WCNG. Метаданные 105 SPAR могут применяться к WCNG и к декоррелированным каналам для формирования комфортного шума в формате звукового поля, имеющий спектральные и пространственные характеристики исходного фонового шума.

Для примера двухканального понижающего микширования (4-2-4, для звукового поля первого порядка), в блок 150 декодирования могут передаваться параметры комфортного шума для моноканала (W'-) понижающего микширования и для одного прогнозного канала. Блок 150 декодирования может применять способ формирования пространственного комфортного шума FOA из двухканального понижающего микширования 103 и из метаданных 105 SPAR. Два канала понижающего микширования могут представлять собой декоррелированные комфортные шумовые сигналы, один из которых имеет спектр, сформированный согласно исходному представлению канала W, и другой имеет спектр, сформированный согласно исходному остаточному каналу.

Для кадров SID, два независимых экземпляра модуля 140 кодера кодируют спектральную информацию относительно моноканала (W') и спектральную информацию относительно остаточного канала, соответственно. Кроме того, два независимых экземпляра блока 150 декодирования могут формировать декоррелированные комфортные шумовые сигналы с различными порождающими числами. Декоррелированные комфортные шумовые сигналы могут спектрально формироваться на основе представления канала W и остаточного канала в некодированном понижающем микшировании, соответственно. Восстановленный канал W может называться "WCNG", и восстановленный остаточный канал может называться "PCNG".

PCNG обычно представляет собой лучшую аппроксимацию исходного декоррелированного остаточного канала по сравнению с декорреляцией WCNG и применением коэффициентов декорреляции (что выполняется в полнопараметрическом подходе, который использует только один канал понижающего микширования). В результате этого, перцепционное качество фонового шума обычно является более высоким при использовании сигнала 103 многоканального понижающего микширования.

Два декоррелированных канала могут создаваться посредством прохождения WCNG через декорреляторы во временной области или в области гребенки фильтров либо посредством формирования декоррелированного комфортного шума с различным порождающим числом и посредством формирования спектра декоррелированных комфортных шумовых каналов согласно WCNG. Комфортные шумовые сигналы WCNG-PCNG и два декоррелированных сигнала затем могут микшироваться с повышением в вывод FOA с использованием метаданных 105 SPAR.

Поскольку сигналы 103 понижающего микширования непрерывно проходят с одинаковой конфигурацией понижающего микширования в активных и неактивных кадрах, фоновый шум обычно звучит сглаженно даже в течение переходных кадров. Кроме того, поскольку блок 150 декодирования использует коэффициенты прогнозирования и коэффициенты декорреляции, вычисленные посредством кодера 120 SPAR, пространственные свойства реплицируются в комфортном шуме, который формируется посредством декодера 150 SPAR.

Коэффициенты C, или коэффициенты кросс-прогнозирования могут задаваться равными 0, за счет этого дополнительно уменьшая скорость передачи данных для неактивных кадров в ходе DTX. Альтернативная реализация моделирования комфортного шума может включать в себя параметры C.

В примерной реализации моделирования комфортного шума, параметры верхнего или нижнего треугольника P-матрицы не используются. Только действительнозначные диагональные элементы P-матрицы могут использоваться для моделирования комфортного шума. В альтернативной реализации моделирования комфортного шума, параметры верхнего или нижнего треугольника P-матрицы могут учитываться.

Для случая понижающего микширования 4-3-4, параметры CNG монокодека могут формироваться и отправляться для монопредставления канала W понижающего микширования и для двух прогнозных каналов. Пространственный комфортный шум FOA затем может формироваться из трехканального понижающего микширования 103 и из метаданных 105 SPAR. Три канала понижающего микширования могут представлять собой декоррелированные комфортные шумовые сигналы, один из которых имеет спектр, сформированный в качестве некодированного представления канала W при понижающем микшировании, и другие два имеют спектр, сформированный в качестве некодированного остаточного канала Y и остаточного канала X при понижающем микшировании.

Фиг. 4a, 4b и 4c иллюстрируют покадровое вычисление параметров пространственного комфортного шума при кодировании входного сигнала 101 FOA с помощью одно-, двух- или трехканального понижающего микширования 103, соответственно. Y' указывает остаток после прогнозирования канала Y из каналов W. X' указывает прогнозирование канала X из канала W.

В предпочтительном примере, может выполняться равномерное квантование параметров Pr (коэффициентов прогнозирования) и/или P (коэффициентов декорреляции). Схема квантования может зависеть от направления шума. В частности, число точек квантования, которое выделяется для различных каналов, может зависеть от направления шума.

Квантование коэффициентов прогнозирования (Pr) может выполняться следующим образом:

-- для случая 4-1-4, коэффициенты прогнозирования могут квантоваться с равномерным квантованием. Коэффициенты могут квантоваться между -1,2 и 1,2 с 9 равномерно распределенными точками квантования.

-- для случая 4-2-4, коэффициенты прогнозирования, соответствующие Y' и X', могут квантоваться между -1 и 1 с 9 равномерно распределенными точками квантования. Коэффициенты прогнозирования, соответствующие каналу Z', могут квантоваться между -1 и 1 с 7 равномерно распределенными точками квантования. Увеличенное число точек квантования для Y' и X' по сравнению с Z' может быть обусловлено увеличенной перцепционной важностью каналов Y' и X' по сравнению с каналом Z'.

-- для случая 4-3-4, коэффициенты прогнозирования, соответствующие Y', могут квантоваться между -1 и 1 с 9 равномерно распределенными точками квантования. Коэффициенты прогнозирования, соответствующие каналу X', могут квантоваться между -1 и 1 с 7 равномерно распределенными точками квантования. Коэффициенты прогнозирования, соответствующие каналу Z', могут квантоваться между -1 и 1 с 5 равномерно распределенными точками квантования.

Квантование коэффициентов декорреляции (P) может заключаться в следующем:

-- коэффициенты декорреляции могут квантоваться между 0 и 1,6.

-- для случая 4-1-4, дополнительная рассеянность может добавляться посредством повышения коэффициентов декорреляции (это может выполняться только тогда, когда коэффициенты декорреляции являются относительно низкими, например, ниже 0,4). (Повышенные) коэффициенты декорреляции затем могут квантоваться с использованием 7 равномерно распределенных точек квантования. Посредством повышения коэффициентов декорреляции, может достигаться неравномерное квантование.

-- для случая 4-2-4, повышение не может добавляться, и коэффициенты декорреляции могут квантоваться с использованием 7 равномерно распределенных точек квантования.

-- для случая 4-3-4, повышение не может добавляться, и коэффициенты декорреляции могут квантоваться с использованием 3 равномерно распределенных точек квантования.

Следует отметить, что обозначение N-n-N указывает число N каналов входного сигнала 101, число n каналов сигнала 103 понижающего микширования и число N каналов восстановленного сигнала 111.

Фиг. 6a показывает блок-схему последовательности операций примерного способа 600 для кодирования многоканального входного сигнала 101, который содержит N различных каналов, где N является положительным целым числом, большим единицы, предпочтительно, N>2. Многоканальный входной сигнал 101 может представлять собой сигнал SR, в частности, амбиофонический сигнал, к примеру, сигнал FOA. Входной сигнал 101 содержит последовательность кадров, при этом каждый кадр может покрывать определенную временную длину входного сигнала 101, например, между 10 мс и 30 мс. Кадр многоканального входного сигнала 101 обычно содержит блок многоканальных данных PCM. В частности, кадр может содержать аудиовыборки (на определенной частоте дискретизации, например, 20 кГц или более либо 40 кГц или более, в частности, 48 кГц) для определенного временного сегмента (например, 20 мс) для каждого канала многоканального входного сигнала 101.

Способ 600 может повторяться для каждого кадра из последовательности кадров. Способ 600 может содержать, для текущего кадра из последовательности кадров, определение 601, является ли текущий кадр активным кадром или неактивным кадром, с использованием детектора активности сигналов и/или голосовой активности. Другими словами, текущий кадр может классифицироваться как являющийся активным кадром (который содержит сигнал, а именно, речь) или являющийся неактивным кадром (который содержит (только) фоновый шум). С этой целью, выборки текущего кадра могут анализироваться, например, относительно энергии аудиосигнала в текущем кадре и/или относительно спектральной композиции аудиосигнала в текущем кадре. SAD и/или VAD могут выполняться на основе одного канала (например, канала W) многоканального входного сигнала 101 или на основе множества, в частности, всех каналов многоканального входного сигнала 101.

Кроме того, способ 600 может содержать определение 602 сигнала 103 понижающего микширования на основе многоканального входного сигнала 101 и/или на основе рабочей и/или целевой скорости передачи битов, при этом сигнал 103 понижающего микширования обычно содержит менее чем или ровно N каналов. В частности, сигнал 103 понижающего микширования содержит n каналов, где обычно n≤N, предпочтительно n<N. Число n каналов сигнала 103 понижающего микширования может быть равным числу N каналов многоканального входного сигнала 101, в частности, для относительно высоких скоростей передачи битов. Сигнал 103 понижающего микширования может формироваться посредством выбора одного или более каналов из многоканального входного сигнала 101. Сигнал 103 понижающего микширования, например, может содержать канал W сигнала FOA. Кроме того, сигнал 103 понижающего микширования может содержать один или более остаточных каналов сигнала FOA (которые могут извлекаться с использованием операций прогнозирования, описанных в данном документе).

Сигнал 103 понижающего микширования, в частности, число n каналов сигнала 103 понижающего микширования, обычно определяется в зависимости от целевой скорости передачи данных для битового потока.

Способ 600 дополнительно может содержать определение 603 метаданных 105 повышающего микширования, в частности, метаданных SPAR, содержащих набор параметров. Метаданные 105 повышающего микширования могут определяться таким образом, что они обеспечивают возможность формирования восстановленного многоканального сигнала 111, содержащего N каналов, на основе сигнала 103 понижающего микширования (или на основе соответствующего восстановленного сигнала 114 понижающего микширования). Набор параметров метаданных 105 повышающего микширования может описывать и/или моделировать одну или более пространственных характеристик аудиосодержимого, в частности шума, содержащегося в текущем кадре многоканального входного сигнала 101.

Как указано выше, многоканальный входной сигнал 101 может содержать амбиофонический сигнал, а именно, сигнал FOA, с каналом W, каналом Y, каналом Z и каналом X. Набор параметров метаданных 105 повышающего микширования может содержать коэффициенты прогнозирования для прогнозирования Y-канала, канала Z и канала X на основе канала W, за счет этого обеспечивая остаточные каналы, называемые «каналом Y'», «каналом Z'» и «каналом X'», соответственно. Коэффициенты прогнозирования называются в данном документе "Pr" или "PR". Сигнал 103 понижающего микширования может содержать представление канала W и один или более остаточных сигналов (в частности, один или более остаточных сигналов, имеющих наибольшую энергию).

Если сигнал понижающего микширования содержит первый остаточный канал в дополнение к представлению канала W, параметр кросс-прогнозирования может определяться (возможно в качестве части метаданных 105 повышающего микширования), при этом параметр кросс-прогнозирования зависит от ковариации между одним или более остаточных каналов, включенных в сигнал понижающего микширования, и одним или более оставшихся остаточных каналов (которые не включаются в сигнал 103 понижающего микширования). Один или более коэффициентов кросс-прогнозирования называются в данном документе "C".

Кроме того, параметр декорреляции для формирования декоррелированного канала при восстановлении остаточного канала, который не включается в сигнал 103 понижающего микширования, может определяться на основе ковариации остаточного канала. Параметр декорреляции может называться в данном документе "P" и может представлять собой часть метаданных повышающего микширования.

Метаданные 105 повышающего микширования могут определяться в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром. В частности, набор параметров, который содержится в метаданных 105 повышающего микширования, может зависеть от того, является ли текущий кадр активным кадром или неактивным кадром. Если текущий кадр является активным кадром, набор параметров для параметров 105 повышающего микширования может быть большим и/или может содержать более высокое число различных параметров, чем если текущий кадр является неактивным кадром.

В частности, параметр кросс-прогнозирования может не являться частью метаданных 105 повышающего микширования для текущего кадра, если текущий кадр является неактивным кадром. С другой стороны, параметр кросс-прогнозирования может являться частью метаданных 105 повышающего микширования для текущего кадра, если текущий кадр является активным кадром.

В качестве альтернативы или дополнения, если более одного остаточного канала включаются в сигнал 103 понижающего микширования, набор параметров метаданных 105 повышающего микширования для текущего кадра может содержать параметр декорреляции для каждого возможного сочетания невключенного остаточного канала либо с собой, либо с другим из невключенных остаточных каналов, если текущий кадр является активным кадром. С другой стороны, набор параметров метаданных 105 повышающего микширования для текущего кадра может содержать параметр декорреляции только для сочетания невключенного остаточного канала с собой, если текущий кадр является неактивным кадром.

Следовательно, тип параметров, которые включены в метаданные 105 повышающего микширования, может отличаться для активного кадра и для неактивного кадра. В частности, один или более параметров, которые являются менее релевантными для восстановления пространственных характеристик фонового шума, могут быть исключены для неактивного кадра. В результате этого, скорость передачи данных для кодирования фонового шума может уменьшаться без влияния на перцепционное качество.

Набор параметров может содержать соответствующие параметры для числа различных полос частот. Другими словами, параметры данного типа (например, параметры Pr, C и/или P) могут определяться для множества различных полос частот (также называются в данном документе «подполосами частот»). Число различных полос частот, для которых определяются параметры, может зависеть от того, является ли текущий кадр активным кадром или неактивным кадром. В частности, если текущий кадр является активным кадром, число различных полос частот может быть выше, чем если текущий кадр является неактивным кадром.

Следовательно, частотное разрешение набора параметров, который описывает пространственные характеристики многоканального входного сигнала, может адаптироваться в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром. В частности, для активного кадра может использоваться более высокое частотное разрешение, чем для неактивного кадра. За счет этого скорость передачи данных для кодирования фонового шума может уменьшаться без влияния на перцепционное качество.

Способ 600 дополнительно может содержать кодирование 604 метаданных 105 повышающего микширования в битовый поток (при этом битовый поток может передаваться или вводиться в соответствующий блок 150 декодирования). Может выполняться энтропийное кодирование набора параметров метаданных 105 повышающего микширования для обеспечения кодированных метаданных 107, подлежащих вставке в битовый поток. В результате обеспечивается эффективное кодирование пространственного фонового шума.

Способ 600 дополнительно может содержать кодирование сигнала 103 понижающего микширования в битовый поток, если, в частности только если, текущий кадр является активным кадром. Один или более каналов сигнала 103 понижающего микширования могут кодироваться по отдельности с использованием (одного или более экземпляров) одноканального аудиокодера (к примеру, кодера на основе стандарта EVS (улучшенных голосовых услуг)) для обеспечения аудиоданных 106, подлежащих вставке в битовый поток.

Способ 600 может содержать квантование параметров из набора параметров для кодирования 604 метаданных 105 повышающего микширования для текущего кадра в битовый поток, с использованием квантователя. Другими словами, квантователь может использоваться для квантования набора параметров, который должен кодироваться в битовый поток. Квантователь, в частности, размер шага квантования и/или число шагов квантования квантователя может зависеть от того, является ли текущий кадр активным кадром или неактивным кадром. В частности, размер шага квантования может быть более низким, и/или число шагов квантования может быть более высоким для активного кадра, чем для неактивного кадра. В качестве альтернативы или дополнения, квантователь, в частности, размер шага квантования и/или число шагов квантования квантователя может зависеть от числа каналов сигнала понижающего микширования. За счет этого, эффективность кодирования пространственного фонового шума с высоким перцепционным качеством дополнительно может повышаться.

В качестве альтернативы или дополнения, квантователь, в частности, размер шага квантования и/или число шагов квантования квантователя может зависеть от канала и/или от типа канала, для которого кодируются метаданные 105 повышающего микширования. Различные каналы и/или различные типы каналов могут быть связаны с различными направлениями. В качестве примера, размер шага квантования может быть меньшим, и/или число шагов квантования может быть более высоким для канала Y по сравнению с каналом X и/или каналом Z, поскольку сигнальные метки слева направо могут быть перцепционно более важными, чем сигнальные метки спереди назад или сверху вниз.

Способ может содержать определение ковариации, в частности, ковариационной матрицы и/или набора ковариационных значений, для текущего кадра многоканального входного сигнала, посредством выполнения временного сглаживания по множеству кадров из последовательности кадров. Временное сглаживание может выполняться в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром. В качестве примера, коэффициент отсутствия последействия для временного сглаживания может зависеть от того, является ли текущий кадр активным кадром или неактивным кадром. В частности, если текущий кадр является активным кадром, коэффициент отсутствия последействия может быть меньше, чем если текущий кадр является неактивным кадром. Другими словами, меньшее временное сглаживание может выполняться для активного кадра по сравнению с неактивным кадром. В одном примере ковариация для текущего кадра может определяться без временного сглаживания, если текущий кадр является активным кадром. С другой стороны, ковариация для текущего кадра может определяться с временным сглаживанием, если текущий кадр является неактивным кадром.

Коэффициент отсутствия последействия может быть частотно-зависимым. В частности, различные коэффициенты отсутствия последействия, т.е. различные значения коэффициента отсутствия последействия могут использоваться по меньшей мере для части множества различных полос частот. Следовательно, временное сглаживание ковариации может отличаться для различных частот и/или полос частот. За счет этого, перцепционное качество пространственного фонового шума дополнительно может повышаться.

Большее сглаживание может выполняться в течение неактивных кадров (по сравнению с активными кадрами), поскольку пространственные характеристики фонового шума обычно предполагаются более стабильными по сравнению с активной речью или общим аудио. Это также может обеспечивать более стабильное восприятие пространственного комфортного шума в выводе декодера.

Коэффициент отсутствия последействия может зависеть от полосы пропускания различных полос частот. В частности, коэффициент отсутствия последействия для полосы частот может зависеть от полосы пропускания полосы частот. Коэффициент отсутствия последействия может увеличиваться с частотным разрешением полос частот (и наоборот).

Один или более параметров метаданных повышающего микширования (а именно, один или более параметров прогнозирования, один или более коэффициентов кросс-прогнозирования и/или один или более параметров декорреляции) могут определяться точно на основе ковариации для текущего кадра.

Следовательно, временное сглаживание ковариации (которое является основой для описания пространственных характеристик) может выполняться для неактивных кадров, содержащих фоновый шум. За счет этого, перцепционное качество восстановленного фонового шума в блоке 150 декодирования может повышаться. Кроме того, эффективность в отношении скорости передачи данных может повышаться (вследствие повышенной производительности энтропийного кодирования).

Способ 600 может содержать идентификацию одного или более кадров из последовательности кадров, которые соответствуют переходному шуму или разговорному всплеску. Переходный шум и/или разговорный всплеск могут представлять собой акустические события, которые длятся самое большее в течение заданного порогового значения длительности всплеска. Пороговое значение длительности всплеска, например, может задаваться между 100 мс и 300 мс, например, равным 200 мс. Может быть перцепционно важным захватывать пространственные параметры для переходного шума и/или разговорного всплеска без временного сглаживания таким образом, что блок 150 декодирования может восстанавливать переходный шум и/или разговорный всплеск в корректном пространственном местоположении. Тем не менее, также может быть перцепционно важным поддерживать состояние ковариационного сглаживающего фильтра для моделирования пространственного фонового шума (без влияния переходного шума и/или разговорных всплесков), поскольку резкие изменения ковариации фонового шума могут вызывать слышимую разрывность и/или артефакты.

Способ 600 может содержать игнорирование одного или более идентифицированных кадров (которые содержат переходный шум и/или разговорный всплеск) при выполнении временного сглаживания и/или удаление одного или более идентифицированных кадров из вычисления временного сглаживания для определения ковариации для текущего кадра. Другими словами, один или более промежуточных активных кадров, которые содержат относительно короткий переходный шум и/или разговорный всплеск, могут удаляться из операции временного сглаживания ковариации. В результате этого, перцепционное качество пространственного фонового шума может повышаться. Как результат, могут исключаться резкие изменения пространственных характеристик восстановленного пространственного фонового шума в блоке 150 декодирования, что приводит к повышенному перцепционному качеству.

Способ 600 может содержать определение того, что текущий кадр является активным кадром (непосредственно) после набора из одного или более предшествующих неактивных кадров из последовательности кадров менее чем на заданное пороговое значение длительности всплеска. Ковариация для текущего кадра затем может определяться без учета текущего кадра. Ковариация для текущего кадра затем может определяться на основе опорной ковариации, которая определена на основе набора из одного или более предшествующих неактивных кадров. Следовательно, активный кадр после последовательности неактивных кадров может игнорироваться во время временного сглаживания ковариации, за счет этого повышая перцепционное качество пространственного фонового шума в блоке 150 декодирования.

В качестве альтернативы, способ 600 может содержать определение того, что текущий кадр является активным кадром (непосредственно) после набора из одного или более предшествующих неактивных кадров из последовательности кадров более чем на заданное пороговое значение длительности всплеска. Другими словами, может определяться, что текущий кадр не является частью относительно короткой переходной части и/или всплеска, но содержит речь и/или сигнал. Ковариация для текущего кадра затем может определяться на основе выборок, в частности только на основе выборок из текущего кадра. Следовательно, сброс вычисления ковариации может выполняться после обнаружения вступления речи и/или сигнала в многоканальном входном сигнале 101. В результате этого, перцепционное качество восстановленного многоканального сигнала 111 может повышаться.

Способ 600 может содержать определение того, что текущий кадр является неактивным кадром. В этом случае ковариация для текущего кадра может сохраняться в качестве опорной ковариации для выполнения временного сглаживания для определения ковариации для одного или более последующих кадров из последовательности кадров, которые (непосредственно) следуют после текущего кадра. Посредством сохранения ковариации неактивного кадра в качестве опорной ковариации для вычисления ковариации одного из более последующих (неактивных) кадров, временное сглаживание может выполняться эффективным способом.

Кроме того, способ 600 может содержать, для последующего кадра из последовательности кадров, который (непосредственно) следует после текущего кадра, и если текущий кадр является неактивным кадром, определение, является ли последующий кадр активным кадром или неактивным кадром, с использованием детектора активности сигналов и/или голосовой активности. Если последующий кадр является неактивным кадром, ковариация для последующего кадра может определяться на основе выборок текущего кадра, в частности, на основе ковариации для текущего кадра и на основе выборок последующего кадра (с учетом коэффициента отсутствия последействия). За счет этого, временное сглаживание может выполняться надежным и эффективным способом.

Способ 600 может содержать определение ковариации, в частности, ковариационной матрицы для текущего кадра многоканального входного сигнала 101 в пределах числа различных полос частот. Как указано выше, число полос частот может зависеть от того, является ли текущий кадр активным кадром или неактивным кадром. В частности, если текущий кадр является активным кадром, число полос частот может быть выше, чем если текущий кадр является неактивным кадром. Один или более параметров метаданных 105 повышающего микширования затем могут определяться на основе ковариации для текущего кадра. В частности, множество параметров могут определяться для множества полос частот на основе соответствующего множества ковариаций для множества полос частот. В результате этого, частотно-зависимые параметры могут определяться надежно и точно.

Если определено, что текущий кадр является неактивным кадром, может определяться, является ли предшествующий кадр из последовательности кадров, который непосредственно предшествует текущему кадру, неактивным кадром. Другими словами, может определяться, является ли текущий кадр кадром SID (индикатора молчания) или кадром ND (без данных). Если предшествующий кадр является неактивным кадром, и число последовательных неактивных кадров с момента последнего кадра SID меньше предварительно вычисленного кадрового интервала SID (т.е. текущий кадр представляет собой кадр ND), можно отказываться от кодирования 604 сигнала 103 понижающего микширования и/или метаданных 105 повышающего микширования для текущего кадра в битовый поток, за счет этого дополнительно уменьшая скорость передачи данных для передачи в служебных сигналах пространственного фонового шума. С другой стороны, если предшествующий кадр является активным кадром, или число последовательных неактивных кадров с момента последнего -кадра SID равно предварительно вычисленному кадровому интервалу SID (т.е. текущий кадр представляет собой кадр SID), сигнал 103 понижающего микширования и метаданные 105 повышающего микширования для текущего кадра могут кодироваться в битовый поток, за счет этого обеспечивая точную передачу в служебных сигналах пространственного фонового шума.

Если текущий кадр является активным кадром, каждый канал сигнала 103 понижающего микширования может кодироваться по отдельности с использованием экземпляра моноаудиокодера (такого как EVS), при этом моноаудиокодер может быть выполнен с возможностью кодирования аудиосигнала в канале сигнала 103 понижающего микширования в (кодированный) сигнал возбуждения и в (кодированные) спектральные данные.

Если текущий кадр является неактивным кадром (SID), каждый канал сигнала 103 понижающего микширования может кодироваться по отдельности с использованием экземпляра моноаудиокодера (такого как EVS). Тем не менее, в этом случае, (кодированный) сигнал возбуждения может не вставляться в битовый поток. С другой стороны, (кодированные) спектральные данные могут вставляться в битовый поток. В результате этого, спектральные данные относительно спектральных характеристик фонового шума могут вставляться в битовый поток эффективным способом.

В соответствующем блоке 150 декодирования сигналы возбуждения одного или более каналов сигнала 103 понижающего микширования могут заменяться посредством белого шума (при этом белый шум для различных каналов обычно является независимым между собой). Кроме того, (кодированные) спектральные данные могут использоваться для добавления спектральных характеристик в один или более каналов сигнала 103 понижающего микширования для обеспечения восстановленного сигнала 114 понижающего микширования.

Способ 600 может содержать DTX с переменной скоростью, при этом частота передачи кадров SID является переменной. Частота передачи кадров SID может варьироваться в зависимости от изменения пространственных и/или спектральных характеристик фонового шума или отношения сигнала к шуму входного сигнала 101. Как указано выше, кадры входного сигнала 101 могут классифицироваться на активные кадры или неактивные кадры. Последовательность кадров входного сигнала 101 может содержать подпоследовательность неактивных кадров. Для обеспечения информации относительно пространственных и/или спектральных характеристик шума, содержащегося в подпоследовательности неактивных кадров, блок 100 кодирования может быть выполнен с возможностью многократной, в частности периодической, вставки кадров SID в битовый поток. Каждый кадр SID может содержать метаданные 105 повышающего микширования, описанные в настоящем документе. Частота либо частота повторения для кадров SID может адаптироваться в зависимости от входного сигнала 101.

В частности, текущий неактивный кадр может анализироваться для определения, имеется ли вероятность в пространственной и/или спектральной характеристике шума в текущем неактивном кадре относительно предыдущего неактивного кадра. В качестве примера, может определяться, является ли значение показателя расстояния между метаданными 105 повышающего микширования для текущего неактивного кадра и метаданными 105 повышающего микширования предыдущего неактивного кадра большим, чем заданное пороговое значение расстояния. Если это имеет место, кадр SID может вставляться для текущего неактивного кадра для передачи в служебных сигналах измененных метаданных 105 повышающего микширования в блок 150 декодирования. С другой стороны, если значение показателя расстояния меньше порогового значения расстояния, текущий неактивный кадр может обрабатываться в качестве кадра ND.

Как указано выше, входной аудиосигнал 101 может передаваться в блок 100 кодирования, при этом входной аудиосигнал 101 содержит последовательность кадров. Кадры, например, могут иметь временную длину в 20 мс. Последовательность кадров может содержать поднабор аудиокадров или речевых кадров и поднабор кадров, которые состоят только из фонового шума. Примерная последовательность аудиокадров может рассматриваться:

A---A--ST---S----S---S---S----S---S---S----S---S----S---S---S---ST----S---S---S----S---S---S----S---A---A--A--A,,

- при этом "A" указывает активную речь и/или аудиокадр, и при этом "S" указывает кадр молчания (также называется в данном документе "неактивным кадром"), и "ST" указывает передаваемый кадр молчания, для которого обнаруживается изменение спектральной и/или пространственной характеристики фонового шума, и в силу этого пространственные и/или спектральные параметры должны кодироваться и отправляться в блок 150 декодирования.

Для системы прерывистой передачи (DTX), для которой фактическая скорость передачи битов кодека значительно уменьшается в течение неактивных кадров за счет отправки только параметров формирования шума, и при условии, что фоновые шумовые характеристики не изменяются настолько часто, как активные речевые или аудиокадры, вышеуказанная последовательность может транслироваться в следующую последовательность кадров посредством блока 100 кодирования:

AB-AB-SID-ND-ND-ND-ND-ND-ND-ND-ND-ND-ND-ND-ND-SID-ND-ND-ND-ND-ND-ND-ND-AB-AB-AB-AB,,

- при этом "AB" указывает битовый поток кодера для активного кадра, при этом "SID" указывает индикаторный кадр молчания, который содержит последовательность битов для формирования комфортного шума, и при этом "ND" указывает кадры без данных, т.е. ничего не передается в блок 150 декодирования в течение этих кадров. Следует отметить, что частота передачи кадров SID в вышеуказанной последовательности не является заданной и зависит от изменения спектральных и/или пространственных характеристик входного фонового шума.

Следовательно, способ 600 может содержать, если текущий кадр является неактивным кадром, обнаружение изменения пространственных и/или спектральных характеристик фонового шума на основе изменения ковариационной матрицы для текущего кадра. Кадр SID может отправляться только в том случае, если изменение больше заданного порогового значения.

Другими словами, способ 600 может содержать определение того, что текущий кадр является неактивным кадром после подпоследовательности из одного или более предыдущих неактивных кадров (которая непосредственно предшествует текущему кадру). Кроме того, способ 600 может содержать определение, изменена ли пространственная и/или спектральная характеристика фонового шума, содержащаяся в текущем кадре, и/или изменено ли отношение сигнала к шуму текущего кадра относительно соответствующей пространственной и/или спектральной характеристики фонового шума в подпоследовательности из одного или более предыдущих неактивных кадров и/или относительно отношения сигнала к шуму подпоследовательности из одного или более предыдущих неактивных кадров.

Способ 600 дополнительно может содержать кодирование 604 метаданных 105 повышающего микширования для текущего кадра в битовый поток, если, в частности только если, определено, что пространственная и/или спектральная характеристика фонового шума, содержащегося в текущем кадре, и/или отношение сигнала к шуму текущего кадра относительно подпоследовательности из одного или более предыдущих неактивных кадров изменены. Следовательно, текущий кадр может кодироваться как кадр SID, если, в частности только если, пространственная и/или спектральная характеристика фонового шума, содержащегося в текущем кадре, и/или отношение сигнала к шуму текущего кадра изменены.

В качестве альтернативы или дополнения, способ 600 может содержать определение того, что текущий кадр является неактивным кадром после одного или более предыдущих неактивных кадров. Помимо этого, способ 600 может содержать определение значения показателя расстояния (например, среднеквадратической ошибки) между ковариацией и/или метаданными 105 повышающего микширования для текущего кадра и предыдущей ковариацией и/или предыдущими метаданными 105 повышающего микширования для одного или более предыдущих неактивных кадров. Другими словами, может определяться то, насколько ковариация для текущего кадра отклоняется от соответствующей предыдущей ковариации для одного или более предыдущих неактивных кадров, и/или то, насколько метаданные 105 повышающего микширования для текущего кадра отклоняются от предыдущих метаданных 105 повышающего микширования для одного или более предыдущих неактивных кадров. Предыдущие метаданные 105 повышающего микширования могут представлять собой метаданные повышающего микширования, которые отправлены в последнем кадре SID. Предыдущая ковариация может представлять собой ковариацию, которая использована для формирования предыдущих метаданных 105 повышающего микширования.

Способ 600 дополнительно может содержать определение, является ли значение показателя расстояния большим, чем заданное пороговое значение расстояния. Кодирование 604 метаданных 105 повышающего микширования для текущего кадра в битовый поток может выполняться, если, в частности только если, значение показателя расстояния больше заданного порогового значения расстояния. В качестве альтернативы, можно отказаться от кодирования 604 метаданных 105 повышающего микширования для текущего кадра в битовый поток, если, в частности только если, значение показателя расстояния меньше заданного порогового значения расстояния.

Следовательно, передача параметров фонового шума (т.е. метаданных 105 повышающего микширования) может быть непериодической и может зависеть от изменения пространственных и/или спектральных характеристик входного фонового шума и/или отношения сигнала к шуму. В частности, только если изменение пространственных и/или спектральных характеристик и/или отношения сигнала к шуму выше заданного порогового значения, параметры фонового шума могут обновляться и отправляться в блок 150 декодирования.

За счет обеспечения адаптивной передачи кадров SID, скорость передачи данных может уменьшаться дополнительно без влияния на перцепционное качество комфортного шума.

Соответствующий способ декодирования может содержать, если текущий кадр является неактивный кадр, определение в блоке 150 декодирования того, является ли текущий кадр кадром SID или кадрами NO_DATA. Плавный переход параметров пространственного фонового шума в текущем кадре SID с параметрами пространственного фонового шума в одном или более предыдущих кадров SID для определенного числа кадров NO_DATA. Например, если Pcurr_sid представляют собой параметры для текущего кадра SID, и Pprev_sid представляют собой параметры для предыдущего кадра SID, то изменение Pcurr_sid-Pprev_sid параметров фонового шума может применяться для определенного числа x кадров (где x>1), при этом пространственные параметры в каждом последующем кадре изменяются на (Pcurr_sid-Pprev_sid)/x. Это обеспечивает сглаженный переход пространственного комфортного шума от одного пространственного местоположения до другого.

Способ 600 может содержать, если (непосредственно) предшествующий кадр для текущего кадра является активным кадром, определение числа каналов сигнала 103 понижающего микширования для предшествующего кадра и поддержание одинакового числа каналов сигнала 103 понижающего микширования для текущего кадра с числом каналов сигнала 103 понижающего микширования для предшествующего кадра. Другими словами, число каналов в сигнале 103 понижающего микширования может поддерживаться во время перехода между активным кадром и неактивным кадром. В результате этого, перцепционное качество пространственного фонового шума дополнительно может повышаться.

Как указано выше, многоканальный входной сигнал 101 может содержать амбиофонический сигнал с каналом W, каналом Y, каналом Z и каналом X. В частности, многоканальный входной сигнал 101 может представлять собой сигнал FOA. Способ 600 может содержать микширование канала W с каналом Y, каналом Z и/или каналом X с использованием коэффициента f микширования для формирования канала сигнала 103 понижающего микширования. В результате процесса микширования, может получаться представление канала W, называемое в данном документе «-каналом W'». Посредством микширования информации из канала Y, Z и/или X в канал W получается модифицированный канал W', который содержит больше пространственной информации, чем исходный канал W. В результате может повышаться перцепционное качество схемы кодирования и/или может уменьшаться число каналов понижающего микширования в сигнале 103 понижающего микширования.

Коэффициент микширования (который задает протяженность, до которой каналы Y, Z и/или X микшируются в канал W) может зависеть от того, является ли текущий кадр активным кадром или неактивным кадром. В частности, если текущий кадр является активным кадром, коэффициент микширования может быть выше, чем если текущий кадр является неактивным кадром. Другими словами, каналы Y, Z и/или X могут микшироваться в канал W на более высокой протяженности для активных кадров, чем для неактивных кадров. За счет этого может дополнительно повышаться перцепционное качество схемы кодирования.

Фиг. 6b показывает блок-схему примерного способа 610 декодирования битового потока, который указывает восстановленный многоканальный сигнал 111, содержащий N каналов. Битовый поток может содержать аудиоданные 106 и/или кодированные метаданные 107 повышающего микширования. Восстановленный сигнал 111 содержит последовательность кадров.

Способ 610 содержит, для текущего кадра из последовательности кадров, определение 611 на основе битового потока, является ли текущий кадр активным кадром или неактивным кадром. Это, например, может определяться на основе кодированных метаданных 107 повышающего микширования, содержащихся в битовом потоке. Кроме того, способ 610 может содержать определение 612 восстановленного сигнала 114 понижающего микширования. Восстановленный сигнал 114 понижающего микширования обычно содержит менее чем N каналов (но может содержать N каналов). Восстановленный сигнал 114 понижающего микширования может формироваться на основе аудиоданных 106, содержащихся в битовом потоке, если текущий кадр представляет собой активный кадр. С другой стороны, битовый поток обычно не содержит аудиоданные 106 для неактивного кадра. Восстановленный сигнал 114 понижающего микширования может формироваться с использованием генератора случайного шума, если текущий кадр является неактивным кадром. Статистически независимые генераторы шума могут использоваться для одного или более различных каналов восстановленного сигнала 114 понижающего микширования.

Способ 610 дополнительно содержит формирование 613 восстановленного многоканального сигнала 111 на основе восстановленного сигнала 114 понижающего микширования и на основе метаданных 105 повышающего микширования, содержащих набор параметров. Восстановленный многоканальный сигнал 111 может формироваться в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром.

В частности, способ 610 может содержать формирование декоррелированного канала для канала восстановленного многоканального сигнала 111, который не включается в восстановленный сигнал 114 понижающего микширования. Декоррелированный канал может формироваться на основе восстановленного сигнала 103 понижающего микширования (а именно, на основе восстановленного канала W). Кроме того, способ 610 может содержать добавление пространственного свойства в декоррелированный канал на основе метаданных 105 повышающего микширования для формирования восстановленного канала восстановленного многоканального сигнала 111, отличного от одного или более восстановленных каналов, содержащихся в восстановленном сигнале 114 понижающего микширования.

Посредством адаптации восстановления восстановленного многоканального сигнала 111, а именно, одного или более восстановленных каналов многоканального сигнала 111, в зависимости от того, является ли кадр сигнала 111 активным кадром или неактивным кадром, может обеспечиваться высококачественный пространственный фоновый шум.

Как указано в контексте соответствующего способа 600 кодирования, метаданные 105 повышающего микширования обычно передаются только для части неактивных кадров. Блок 150 декодирования может быть выполнен с возможностью использования метаданных 105 повышающего микширования, которые переданы в кадре SID, для множества неактивных кадров после кадра SID. В частности, метаданные 105 повышающего микширования могут использоваться до тех пор, пока не будет принят новый кадр SID. За счет этого, высококачественный комфортный шум может формироваться эффективным в отношении скорости передачи данных способом.

Способ 610 может содержать определение того, что текущий кадр является неактивным кадром после одного или более предыдущих неактивных кадров, при этом предыдущие метаданные 105 повышающего микширования использованы для формирования восстановленного многоканального сигнала 111 для одного или более предыдущих неактивных кадров. Кроме того, способ 610 может содержать определение того, что битовый поток содержит обновленные метаданные 105 повышающего микширования для текущего кадра. Другими словами, может определяться, что текущий кадр является кадром SID (который содержит обновленные метаданные 105 повышающего микширования для передачи в служебных сигналах обновленной пространственной и/или спектральной характеристики фонового шума).

Восстановленный многоканальный сигнал 111 (т.е. пространственный фоновый шум) для текущего кадра затем может формироваться на основе обновленных метаданных 105 повышающего микширования. Посредством приема кадров SID с обновленными метаданными 105 повышающего микширования, изменения в фоновом режиме шум в блоке 100 кодирования могут отслеживаться эффективным способом.

Способ 610 может содержать сглаживание метаданных выполнения на основе обновленных метаданных 105 повышающего микширования и предыдущих метаданных 105 повышающего микширования для определения сглаженных метаданных 105 повышающего микширования. Сглаживание метаданных может содержать плавный переход от предыдущих метаданных 105 повышающего микширования к обновленным метаданным 105 повышающего микширования в одном или более неактивных кадров, начиная с текущего кадра. Восстановленный многоканальный сигнал 111 для текущего кадра затем может определяться на основе сглаженных метаданных 105 повышающего микширования.

Другими словами, сглаживание пространственных метаданных может выполняться посредством блока 150 декодирования, и пространственные параметры, отправленные в текущем кадре SID, могут подвергаться плавному переходу с пространственными параметрами, отправленными в одном или более предыдущих -кадров SID для определенного числа кадров NO_DATA (ND).

Следовательно, сглаженный переход между предыдущими пространственными и/или спектральными характеристиками и обновленными пространственными и/или спектральными характеристиками фонового шума может выполняться в одном или более кадров. За счет этого перцепционное качество комфортного шума может дополнительно повышаться.

Кроме того, в настоящем документе описаны блок 100 кодирования, соответствующий способу 600 кодирования, и/или блок 150 декодирования, соответствующий способу 610 декодирования.

Следовательно, описан способ 600 использования пространственных параметров 105 и одинаковых или различных понижающих микширований 103, используемых для активных кадров для моделирования пространственных характеристик шума, в силу этого обеспечивая возможность формирования комфортного шума в декодере 150, который является пространственно согласованным между активными и неактивными кадрами. Способ 600 может содержать определение, присутствует ли голосовой сигнал в одном или более кадров входного аудиосигнала 101. В ответ на определение, что голосовой сигнал не присутствует, ковариация может оцениваться с использованием межкадрового усреднения. Кроме того, параметры 105 пространственного шума могут вычисляться, и энтропийное кодирование параметров 105 пространственного шума может выполняться. Энтропийно кодированные параметры пространственного шума 107 могут пакетироваться в битовый поток для одного или более кадров.

Способ 600 может содержать, в ответ на обнаружение переходных частей в кадре для одного или более кадров, удаление кадра из ковариационного усреднения. Вычисление параметров 105 пространственного шума может выполняться с оценкой сглаженной ковариации, которая сглаживается по множеству кадров для исключения пространственной переменности в шуме. Способ 600 может содержать ковариацию сглаживания по переходным частям и коротким разговорным всплескам и их удаление из вычисления. В качестве альтернативы или дополнения, способ 600 может содержать использование ограниченного набора полос частот и/или ограниченного набора параметров для уменьшения скорости передачи параметров в битах для шума, и переключение обратно на полный набор, когда аудио присутствует. В качестве альтернативы или дополнения, способ 600 может содержать вычисление пространственных элементов по отдельности от спектральных элементов шума для обеспечения возможности многократного использования существующих генераторов комфортного шума.

Фиг. 5 является архитектурой мобильного устройства для реализации признаков и процессов, описанных в отношении фиг. 1-4c. Мобильное устройство, например, может содержать блок 150 декодирования. Архитектура 800 может быть реализована в любом электронном устройстве, включающем в себя, не ограничиваясь: настольный компьютер, потребительское аудиовизуальное (AV) устройство, широковещательное радиоустройство, мобильные устройства (например, смартфон, планшетный компьютер, переносной компьютер, носимое устройство). В показанном примерном варианте осуществления, архитектура 800 служит для смартфона и включает в себя процессор(ы) 801, периферийный интерфейс 802, подсистему 803 аудио, громкоговорители 804, микрофон 805, датчики 806 (например, акселерометры, гироскопы, барометр, магнитометр, камеру), процессор 807 определения местоположения (например, приемное GNSS-устройство), подсистемы 808 беспроводной связи (например, Wi-Fi, Bluetooth, сотовую) и подсистему(ы) 809 ввода-вывода, которая включает в себя сенсорный контроллер 810 и другие контроллеры 811 ввода, сенсорную поверхность 812 и другие устройства 813 ввода/управления. Другие архитектуры с большим или меньшим числом компонентов также могут использоваться для реализации раскрытых вариантов осуществления.

Интерфейс 814 запоминающего устройства соединяется с процессорами 801, периферийным интерфейсом 802 и запоминающим устройством 815 (например, флэш-памятью, RAM, ROM). Запоминающее устройство 815 сохраняет компьютерные программные инструкции и данные, в том числе, не ограничиваясь: инструкции 816 операционной системы, инструкции 817 связи, GUI-инструкции 818, инструкции 819 обработки датчиков, телефонные инструкции 820, инструкции 821 обмена электронными сообщениями, инструкции 822 для просмотра веб-страниц, инструкции 823 аудиообработки, GNSS-/навигационные инструкции 824 и приложения/данные 825. Инструкции 823 аудиообработки включают в себя инструкции для выполнения аудиообработки, описанной в отношении фиг. 1-4c.

Аспекты систем, описанных в данном документе, могут быть реализованы в надлежащем компьютерном сетевом окружении звуковой обработки для обработки цифровых или оцифрованных аудиофайлов. Части адаптивной аудиосистемы могут включать в себя одну или более сетей, которые содержат любое требуемое число отдельных машин, включающих в себя один или более маршрутизаторов (не показаны), которые служат для буферизации и маршрутизации данных, передаваемых между компьютерами. Эта сеть может быть основана на различных специальных сетевых протоколах и может представлять собой Интернет, глобальную вычислительную сеть (WAN), локальную вычислительную сеть (LAN) или любое их сочетание.

Один или более компонентов, блоков, процессов или других функциональных компонентов могут быть реализованы через компьютерную программу, которая управляет выполнением процессорного вычислительного устройства системы. Также следует отметить, что различные функции, раскрытые в данном документе, могут быть описаны с использованием любого числа сочетаний аппаратных средств, микропрограммного обеспечения и/или в качестве данных и/или инструкций, осуществленных на различных машиночитаемых или считываемых компьютером носителях, с точки зрения их поведения, межрегистровых пересылок, логических компонентов и/или других характеристик. Машиночитаемые носители, на которых могут быть реализованы такие форматированные данные и/или инструкции, включают в себя, не ограничиваясь, физические (постоянные) энергонезависимые носители хранения данных в различных формах, такие как оптические, магнитные или полупроводниковые носители хранения данных.

Хотя одна или более реализаций описаны в качестве примера и с точки зрения конкретных вариантов осуществления, следует понимать, что одна или более реализаций не ограничены раскрытыми вариантами осуществления. Наоборот, они имеют намерение охватывать различные модификации и аналогичные компоновки, как должно быть очевидным для специалистов в данной области техники. Следовательно, объем прилагаемой формулы изобретения должен соответствовать самой широкой интерпретации, так что он охватывает все такие модификации и аналогичные компоновки.

Похожие патенты RU2836622C1

название год авторы номер документа
ИММЕРСИВНЫЕ ГОЛОСОВЫЕ И АУДИОСЛУЖБЫ (IVAS) СО СТРАТЕГИЯМИ АДАПТИВНОГО ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ 2021
  • Мундт, Харальд
  • Макграт, Дэвид С.
  • Тияги, Ришабх
RU2821064C1
СПОСОБЫ И УСТРОЙСТВА ДЛЯ ФОРМИРОВАНИЯ ИЛИ ДЕКОДИРОВАНИЯ БИТОВОГО ПОТОКА, СОДЕРЖАЩЕГО ИММЕРСИВНЫЕ АУДИОСИГНАЛЫ 2019
  • Брун, Стефан
  • Торрес, Хуан Феликс
RU2802677C2
УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ КОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА ИЛИ ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОЙ АУДИОСЦЕНЫ 2021
  • Фукс, Гийом
  • Тамарапу, Арчит
  • Айхензер, Андреа
  • Корсе, Срикантх
  • Дёла, Штефан
  • Мультрус, Маркус
RU2809587C1
СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И/ИЛИ ДЕКОДИРОВАНИЯ АУДИОСИГНАЛОВ ПОГРУЖЕНИЯ 2019
  • Макграт, Дэвид С.
  • Эккерт, Майкл
  • Пурнхаген, Хейко
  • Брун, Стефан
RU2802803C2
СТРУКТУРА ДЕКОРРЕЛЯТОРА ДЛЯ ПАРАМЕТРИЧЕСКОГО ВОССТАНОВЛЕНИЯ ЗВУКОВЫХ СИГНАЛОВ 2014
  • Виллемоес Ларс
  • Хирвонен Тони
  • Пурнхаген Хейко
RU2641463C2
РАСПРЕДЕЛЕНИЕ СКОРОСТЕЙ ПЕРЕДАЧИ БИТОВ В ИММЕРСИВНЫХ ГОЛОСОВЫХ И АУДИОСЛУЖБАХ 2020
  • Тияги, Ришабх
  • Торрес, Хуан Феликс
  • Браун, Стефани
RU2821284C1
МАСКИРОВАНИЕ ПОТЕРИ ПАКЕТОВ 2021
  • Мундт, Харальд
  • Брун, Стефан
  • Пурнхаген, Хейко
  • Плеин, Саймон
  • Шуг, Михель
RU2817065C1
СПОСОБ И СИСТЕМА ДЛЯ ГЕНЕРИРОВАНИЯ БИТОВОГО ПОТОКА 2020
  • Тяги, Ришаб
  • Торрес, Хуан Феликс
RU2822169C2
ПАРАМЕТРИЧЕСКАЯ РЕКОНСТРУКЦИЯ АУДИОСИГНАЛОВ 2014
  • Виллемоес Ларс
  • Лехтонен Хейди-Мария
  • Пурнхаген Хейко
  • Хирвонен Тони
RU2648947C2
ГЕНЕРАТОР МНОГОКАНАЛЬНЫХ СИГНАЛОВ, АУДИОКОДЕР И СООТВЕТСТВУЮЩИЕ СПОСОБЫ, ОСНОВАННЫЕ НА ШУМОВОМ СИГНАЛЕ МИКШИРОВАНИЯ 2021
  • Равелли, Эммануэль
  • Кине, Ян Фредерик
  • Фукс, Гийом
  • Корсе, Срикантх
  • Мультрус, Маркус
  • Фотопоулоу, Элени
RU2809646C1

Иллюстрации к изобретению RU 2 836 622 C1

Реферат патента 2025 года СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И/ИЛИ ДЕКОДИРОВАНИЯ ПРОСТРАНСТВЕННОГО ФОНОВОГО ШУМА В МНОГОКАНАЛЬНОМ ВХОДНОМ СИГНАЛЕ

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении перцепционно приятных переходов между активными и неактивными секциями многоканального аудиосигнала. Технический результат достигается за счет этапов, на которых определяют метаданные повышающего микширования, содержащие набор параметров для формирования, на основе сигнала понижающего микширования, восстановленного многоканального сигнала, содержащего N каналов, при этом метаданные повышающего микширования определяются в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром; кодируют метаданные повышающего микширования в битовый поток, определяют ковариацию, в частности ковариационную матрицу, для текущего кадра многоканального входного сигнала посредством выполнения временного сглаживания по множеству кадров из последовательности кадров в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром; и определяют один или более параметров метаданных повышающего микширования на основе ковариации для текущего кадра. 2 н. и 6 з.п. ф-лы, 9 ил.

Формула изобретения RU 2 836 622 C1

1. Способ (600) кодирования многоканального входного сигнала (101), который содержит N различных каналов, при этом входной сигнал (101) содержит последовательность кадров, при этом способ (600) содержит, для текущего кадра из последовательности кадров, этапы, на которых:

- определяют (601), является ли текущий кадр активным кадром или неактивным кадром, с использованием детектора активности сигналов и/или голосовой активности;

- определяют (602) сигнал (103) понижающего микширования на основе многоканального входного сигнала (101), при этом сигнал (103) понижающего микширования содержит менее чем или ровно N каналов;

- определяют (603) метаданные (105) повышающего микширования, содержащие набор параметров для формирования, на основе сигнала (103) понижающего микширования, восстановленного многоканального сигнала (111), содержащего N каналов, при этом метаданные (105) повышающего микширования определяются в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром; и

- кодируют (604) метаданные (105) повышающего микширования в битовый поток, при этом способ (600) дополнительно содержит этапы, на которых:

- определяют ковариацию, в частности ковариационную матрицу, для текущего кадра многоканального входного сигнала (101) посредством выполнения временного сглаживания по множеству кадров из последовательности кадров в зависимости от того, является ли текущий кадр активным кадром или неактивным кадром; и

- определяют один или более параметров метаданных (105) повышающего микширования на основе ковариации для текущего кадра.

2. Способ (600) по п. 1, при этом способ (600) содержит этапы, на которых:

- определяют, что текущий кадр является активным кадром после набора из одного или более предшествующих неактивных кадров из последовательности кадров менее чем на заданное пороговое значение длительности всплеска; и

- определяют ковариацию для текущего кадра без учета текущего кадра.

3. Способ (600) по п. 2, в котором ковариация для текущего кадра определяется на основе опорной ковариации, которая определена на основе набора из одного или более предшествующих неактивных кадров.

4. Способ (600) по любому из пп. 1-3, при этом способ (600) содержит этапы, на которых:

- определяют, что текущий кадр является активным кадром после набора из одного или более предшествующих неактивных кадров из последовательности кадров более чем на заданное пороговое значение длительности всплеска; и

- определяют ковариацию для текущего кадра на основе выборок, в частности только на основе выборок из текущего кадра.

5. Способ (600) по любому из предшествующих пунктов, при этом способ (600) содержит этапы, на которых:

- определяют, что текущий кадр является неактивным кадром; и

- сохраняют ковариацию для текущего кадра в качестве опорной ковариации для выполнения временного сглаживания для определения ковариации для последующего кадра из последовательности кадров, который следует после текущего кадра.

6. Способ (600) по любому из предшествующих пунктов, при этом способ (600) содержит, для последующего кадра из последовательности кадров, который следует после текущего кадра, и если текущий кадр является неактивным кадром, этапы, на которых:

- определяют, является ли последующий кадр активным кадром или неактивным кадром, с использованием детектора активности сигналов и/или голосовой активности;

- если последующий кадр является неактивным кадром, определяют ковариацию для последующего кадра на основе выборок текущего кадра, в частности на основе ковариации для текущего кадра и на основе выборок последующего кадра.

7. Способ (600) по любому из предшествующих пунктов, при этом способ (600) содержит этапы, на которых:

- определяют ковариацию, в частности ковариационную матрицу, для текущего кадра многоканального входного сигнала (101) в пределах числа различных полос частот, при этом число полос частот зависит от того, является ли текущий кадр активным кадром или неактивным кадром; и

- определяют один или более параметров метаданных (105) повышающего микширования на основе ковариации для текущего кадра.

8. Постоянный машиночитаемый носитель, сохраняющий инструкции, которые при выполнении одним или более процессорами предписывают одному или более процессорам выполнять операции по любому из пп. 1-7.

Документы, цитированные в отчете о поиске Патент 2025 года RU2836622C1

Способ восстановления спиралей из вольфрамовой проволоки для электрических ламп накаливания, наполненных газом 1924
  • Вейнрейх А.С.
  • Гладков К.К.
SU2020A1
Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами 1924
  • Ф.А. Клейн
SU2017A1
Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами 1924
  • Ф.А. Клейн
SU2017A1
Многоступенчатая активно-реактивная турбина 1924
  • Ф. Лезель
SU2013A1
СПОСОБ И СРЕДСТВО ДЛЯ ДЕКОДИРОВАНИЯ ИНФОРМАЦИИ О ФОНОВОМ ШУМЕ 2009
  • Сетиаван Панджи
  • Шандль Штефан
  • Таддей Эрве
RU2454737C2

RU 2 836 622 C1

Авторы

Эккерт, Майкл

Тиаги, Ришабх

Даты

2025-03-18Публикация

2021-06-10Подача