СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И/ИЛИ ДЕКОДИРОВАНИЯ АУДИОСИГНАЛОВ ПОГРУЖЕНИЯ Российский патент 2023 года по МПК G10L19/16 G10L19/08 G10L19/18 

Описание патента на изобретение RU2802803C2

Перекрестные ссылки на родственные заявки

Данная заявка притязает на приоритет предварительной заявки на патент (США) № 62/693246, поданной 2 июля 2018 года, которая настоящим содержится по ссылке в данном документе.

Область техники, к которой относится изобретение

Настоящий документ относится к аудиосигналам погружения, которые могут содержать сигналы представления звукового поля, а именно, к амбиофоническим сигналам. В частности, настоящий документ относится к предоставлению кодера и соответствующего декодера, которые обеспечивают возможность передачи и/или сохранения аудиосигналов погружения эффективным по скорости передачи битов способом и/или с высоким перцепционным качеством.

Уровень техники

Звук или звуковое поле в окружении прослушивания слушателя, который размещается в позиции прослушивания, может описываться с использованием амбиофонического сигнала. Амбиофонический сигнал может рассматриваться в качестве многоканального аудиосигнала, причем каждый канал соответствует конкретной диаграмме направленности звукового поля в позиции прослушивания слушателя. Амбиофонический сигнал может описываться с использованием трехмерной декартовой системы координат, причем начало системы координат соответствует позиции прослушивания, ось X указывает вперед, ось Y указывает влево, и ось Z указывает вверх.

Посредством увеличения числа аудиосигналов или каналов и посредством увеличения числа соответствующих диаграмм направленности (и соответствующих функций панорамирования), может увеличиваться точность, с которой описывается звуковое поле. В качестве примера, амбиофонический сигнал первого порядка содержит 4 канала или формы сигналов, а именно, W-канал, указывающий всенаправленный компонент звукового поля, X-канал, описывающий звуковое поле с дипольной диаграммой направленности, соответствующей оси X, Y-канал, описывающий звуковое поле с дипольной диаграммой направленности, соответствующей оси Y, и Z-канал, описывающий звуковое поле с дипольной диаграммой направленности, соответствующей оси Z. Амбиофонический сигнал второго порядка содержит 9 каналов, включающих в себя 4 канала амбиофонического сигнала первого порядка (также называемых "B-форматом") плюс 5 дополнительных каналов для различных диаграмм направленности. В общем, амбиофонический сигнал L-порядка содержит (L+1)2 каналов, включающих в себя L2 каналов амбиофонических сигналов (L-1)-порядка плюс [(L+1)2-L2] дополнительных каналов для дополнительных диаграмм направленности (при использовании формата трехмерной амбиофонии). Амбиофонические сигналы L-порядка для L>1 могут называться "сигналами на основе амбиофонии высшего порядка (HOA)".

HOA-сигнал может использоваться для того, чтобы описывать трехмерное звуковое поле независимо из компоновки динамиков, которая используется для рендеринга HOA-сигнала. Примерные компоновки динамиков содержат наушники или одну или более компоновок громкоговорителей, или окружение рендеринга в стиле виртуальной реальности. Следовательно, может быть преимущественным предоставлять HOA-сигнал в модуль аудиорендеринга, чтобы обеспечивать возможность модулю аудиорендеринга гибко адаптироваться к различным компоновкам динамиков.

Сигналы представления звукового поля (SR), такие как амбиофонические сигналы, могут дополняться аудиообъектами и/или многоканальными (нагрузочными) сигналами, чтобы предоставлять аудиосигнал погружения (IA). Настоящий документ решает техническую проблему передачи и/или сохранения IA-сигналов с высоким перцепционным качеством эффективным по полосе пропускания способом. Техническая проблема решается посредством независимых пунктов формулы изобретения. Предпочтительные примеры описываются в зависимых пунктах формулы изобретения.

Сущность изобретения

Согласно аспекту, описывается способ для кодирования многоканального входного сигнала. Многоканальный входной сигнал может представлять собой часть аудиосигнала погружения (IA). Многоканальный входной сигнал может содержать сигнал представления звукового поля (SR), а именно, амбиофонический сигнал первого или высшего порядка. Способ содержит определение множества канальных сигналов понижающего микширования из многоканального входного сигнала. Кроме того, способ содержит выполнение энергетического уплотнения множества канальных сигналов понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов. Помимо этого, способ содержит определение метаданных объединенного кодирования (а именно, метаданных восстановления разрешения пространственного аудио (SPAR)) на основе множества уплотненных канальных сигналов и на основе многоканального входного сигнала, при этом метаданные объединенного кодирования являются такими, что они обеспечивают возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного сигнала. Способ дополнительно содержит кодирование множества уплотненных канальных сигналов и метаданных объединенного кодирования.

Согласно дополнительному аспекту, описывается способ для определения восстановленного многоканального сигнала из кодированных аудиоданных, указывающих множество восстановленных канальных сигналов, и из кодированных метаданных, указывающих метаданные объединенного кодирования. Способ содержит декодирование кодированных аудиоданных, чтобы предоставлять множество восстановленных канальных сигналов, и декодирование кодированных метаданных, чтобы предоставлять метаданные объединенного кодирования. Кроме того, способ содержит определение восстановленного многоканального сигнала из множества восстановленных канальных сигналов с использованием метаданных объединенного кодирования.

Согласно дополнительному аспекту, описывается программно-реализованная программа. Программно-реализованная программа может адаптироваться с возможностью выполнения на процессоре и с возможностью осуществления этапов способа, указанных в настоящем документе, при выполнении на процессоре.

Согласно другому аспекту, описывается носитель хранения данных. Носитель хранения данных может содержать программно-реализованную программу, адаптированную с возможностью выполнения на процессоре и с возможностью осуществления этапов способа, указанных в настоящем документе, при выполнении на процессоре.

Согласно дополнительному аспекту, описывается компьютерный программный продукт. Компьютерная программа может содержать выполняемые инструкции для осуществления этапов способа, указанных в настоящем документе, при выполнении на компьютере.

Согласно другому аспекту, описывается блок кодирования или устройство кодирования для кодирования многоканального входного сигнала и/или аудиосигнала погружения (IA). Блок кодирования выполнен с возможностью определять множество канальных сигналов понижающего микширования из многоканального входного сигнала. Кроме того, блок кодирования выполнен с возможностью выполнять энергетическое уплотнение множества канальных сигналов понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов. Помимо этого, блок кодирования выполнен с возможностью определять метаданные объединенного кодирования на основе множества уплотненных канальных сигналов и на основе многоканального входного сигнала, при этом метаданные объединенного кодирования являются такими, что они обеспечивают возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного сигнала. Блок кодирования дополнительно выполнен с возможностью кодировать множество уплотненных канальных сигналов и метаданных объединенного кодирования.

Согласно другому аспекту, описывается блок декодирования или устройство декодирования для определения восстановленного многоканального сигнала из кодированных аудиоданных, указывающих множество восстановленных канальных сигналов, и из кодированных метаданных, указывающих метаданные объединенного кодирования. Блок декодирования выполнен с возможностью декодировать кодированные аудиоданные, чтобы предоставлять множество восстановленных канальных сигналов, и декодировать кодированные метаданные, чтобы предоставлять метаданные объединенного кодирования. Кроме того, блок декодирования выполнен с возможностью определять восстановленный многоканальный сигнал из множества восстановленных канальных сигналов с использованием метаданных объединенного кодирования.

Следует отметить, что способы, устройства и системы, включающие в себя их предпочтительные варианты осуществления, как указано в настоящей заявке на патент, могут использоваться автономно или в комбинации с другими способами, устройствами и системами, раскрытыми в этом документе. Кроме того, все аспекты способов, устройств и систем, указанных в настоящей заявке на патент, могут произвольно комбинироваться. В частности, признаки пунктов формулы изобретения могут комбинироваться между собой произвольным способом.

Краткое описание чертежей

Ниже поясняется изобретение примерным способом со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 показывает примерную систему кодирования;

Фиг. 2 показывает примерный блок кодирования для кодирования аудиосигнала погружения;

Фиг. 3 показывает другой пример блок декодирования для декодирования аудиосигнала погружения;

Фиг. 4 показывает примерный блок кодирования и блок декодирования для кодирования и декодирования аудиосигнала погружения;

Фиг. 5 показывает примерный блок кодирования и блок декодирования с переключением режимов;

Фиг. 6 показывает примерный модуль восстановления;

Фиг. 7 показывает блок-схему последовательности операций примерного способа для кодирования аудиосигнала погружения; и

Фиг. 8 показывает блок-схему последовательности операций примерного способа для декодирования данных, указывающих аудиосигнал погружения.

Подробное описание изобретения

Как указано выше, настоящий документ относится к эффективному кодированию аудиосигналов погружения (IA), таких как сигналы амбиофонии первого порядка (FOA) или HOA-сигналы, многоканальные и/или объектные аудиосигналы, при этом именно FOA- или HOA-сигналы, если обобщить, называются в данном документе "сигналами представления звукового поля (SR)".

Как указано в разделе введения, SR-сигнал может содержать относительно высокое число каналов или форм сигналов, при этом различные каналы связаны с различными функциями панорамирования и/или с различными диаграммами направленности. В качестве примера, трехмерный FOA- или HOA-сигнал L-ого порядка содержит (L+1)2 каналов. SR-сигнал может представляться во всевозможных форматах.

Звуковое поле может рассматриваться как состоящее из одного или более акустических событий, исходящих из произвольных направлений вокруг позиции прослушивания. Как следствие, местоположения одного или более акустических событий могут задаваться на поверхности сферы (при этом позиция прослушивания или опорная позиция находится в центре сферы).

Формат звукового поля, такой как FOA или амбиофония высшего порядка (HOA), задается таким образом, чтобы обеспечивать возможность рендеринга звукового поля для произвольных компоновок динамиков (т.е. для произвольных систем рендеринга). Тем не менее, системы рендеринга (такие как система Dolby Atmos) типично ограничены в том смысле, что возможные подъемы динамиков являются фиксированно равными заданному числу плоскостей (например, (горизонтальная) плоскость на высоте ушей, потолок или верхняя плоскость и/или пол или нижняя плоскость). Следовательно, понятие идеального сферического звукового поля может модифицироваться до звукового поля, которое состоит из акустических объектов, которые расположены в различных кольцах на различных высотах на поверхности сферы (аналогично многоярусным кольцам, которые составляют улей).

Как показано на фиг. 1, система 100 кодирования аудио содержит блок 110 кодирования и блок 120 декодирования. Блок 110 кодирования может быть выполнен с возможностью формировать поток 101 битов для передачи в блок 120 декодирования на основе входного сигнала 111, при этом входной сигнал 111 может содержать аудиосигнал погружения (используемый, например, для вариантов применения в стиле виртуальной реальности (VR)). Аудиосигнал погружения может содержать SR-сигнал, многоканальные (нагрузочные) сигналы и/или множество объектов (причем каждый объект содержит объектный сигнал и метаданные объектов). Блок 120 декодирования может быть выполнен с возможностью предоставлять выходной сигнал 121 на основе потока 101 битов, при этом выходной сигнал 121 может содержать восстановленный аудиосигнал погружения.

Фиг. 2 иллюстрирует примерный блок 110, 200 кодирования. Блок 200 кодирования может быть выполнен с возможностью кодировать входной сигнал 111, причем входной сигнал 111 может представлять собой входной аудиосигнал 111 погружения (IA). Входной IA-сигнал 111 может содержать многоканальный входной сигнал 201. Многоканальный входной сигнал 201 может содержать SR-сигнал и один или более объектных сигналов. Кроме того, метаданные 202 объектов для множества объектных сигналов могут предоставляться в качестве части входного IA-сигнала 111. Входной IA-сигнал 111 может предоставляться посредством механизма приема контента, при этом механизм приема контента может быть выполнен с возможностью извлекать объекты и/или SR-сигналы из (комплексного) VR-контента.

Блок 200 кодирования содержит модуль 210 понижающего микширования, выполненный с возможностью понижающе сводить многоканальный входной сигнал 201 во множество канальных сигналов 203 понижающего микширования. Множество канальных сигналов 203 понижающего микширования могут соответствовать SR-сигналу, а именно, сигналу амбиофонии первого порядка (FOA). Понижающее микширование может выполняться в подполосной области или в QMF-области (например, с использованием 10 или более подполос частот).

Блок 200 кодирования дополнительно содержит модуль 230 объединенного кодирования (а именно, SPAR-модуль), который выполнен с возможностью определять метаданные 205 объединенного кодирования (а именно, метаданные SPAR (восстановления разрешения пространственного аудио)), которые выполнены с возможностью восстанавливать многоканальный входной сигнал 201 из множества канальных сигналов 203 понижающего микширования. Модуль 230 объединенного кодирования может быть выполнен с возможностью определять метаданные 205 объединенного кодирования в подполосной области.

Для определения метаданных 205 объединенного кодирования, множество канальных сигналов 203 понижающего микширования могут преобразовываться в подполосную область и/или могут обрабатываться в подполосной области. Кроме того, многоканальный входной сигнал 201 может преобразовываться в подполосную область. Затем, метаданные 205 объединенного кодирования могут определяться в расчете на каждую подполосу частот, а именно, таким образом, что посредством повышающего микширования подполосного сигнала из множества канальных сигналов 203 понижающего микширования с использованием метаданных 205 объединенного кодирования, получается аппроксимация подполосного сигнала многоканального входного сигнала 201. Метаданные 205 объединенного кодирования для различных подполос частот могут вставляться в поток 101 битов для передачи в соответствующий блок 120 декодирования.

Помимо этого, блок 200 кодирования может содержать модуль 240 кодирования, который выполнен с возможностью выполнять кодирование на основе формы сигналов множества канальных сигналов 203 понижающего микширования, за счет этого предоставляя кодированные аудиоданные 206. Каждый из канальных сигналов 203 понижающего микширования может кодироваться с использованием монокодера на основе формы сигналов (например, 3GPP EVS-кодирования), за счет этого обеспечивая эффективное кодирование. Дополнительные примеры для кодирования множества канальных сигналов 203 понижающего микширования представляют собой MPEG AAC, MPEG HE-AAC и другие MPEG-аудиокодеки, 3GPP-кодеки, Dolby Digital/Dolby Digital Plus (AC-3, eAC-3), Opus, LC-3 и аналогичные кодеки. В качестве дополнительного примера, инструментальные средства кодирования, содержащиеся в AC-4-кодеке, также могут быть выполнены с возможностью выполнять операции блока 200 кодирования.

Кроме того, модуль 240 кодирования может быть выполнен с возможностью выполнять энтропийное кодирование метаданных 205 объединенного кодирования (т.е. SPAR-метаданных) и метаданных 202 объектов, за счет этого предоставляя кодированные метаданные 207. Кодированные аудиоданные 206 и кодированные метаданные 207 могут вставляться в поток 101 битов.

Фиг. 3 показывает примерный блок 120, 350 декодирования. Блок 120, 350 декодирования может включать в себя приемное устройство, которое принимает поток 101 битов, который может включать в себя кодированные аудиоданные 206 и кодированные метаданные 207. Блок 120, 350 декодирования может включать в себя процессор и/или демультиплексор, который демультиплексирует кодированные аудиоданные 206 и кодированные метаданные 207 из потока 101 битов. Блок 350 декодирования содержит модуль 360 декодирования, который выполнен с возможностью извлекать множество восстановленных канальных сигналов 314 из кодированных аудиоданных 206. Модуль 360 декодирования дополнительно может быть выполнен с возможностью извлекать метаданные 205 объединенного кодирования и метаданные 202 объектов из кодированных метаданных 207.

Помимо этого, блок 350 декодирования содержит модуль 370 восстановления, который выполнен с возможностью извлекать восстановленный многоканальный сигнал 311 из метаданных 205 объединенного кодирования и из множества восстановленных канальных сигналов 314. Метаданные 205 объединенного кодирования могут передавать изменяющиеся во времени и/или по частоте элементы матрицы повышающего микширования, которая обеспечивает возможность восстановления многоканального сигнала 311 из множества восстановленных канальных сигналов 314. Процесс повышающего микширования может выполняться в подполосной области на основе QMF (квадратурных зеркальных фильтров). Альтернативно, другое частотно-временное преобразование, а именно, преобразование на основе FFT (быстрого преобразования Фурье), может использоваться для того, чтобы выполнять процесс повышающего микширования. В общем, может применяться преобразование, которое обеспечивает частотно-избирательный анализ и обработку (повышающего микширования). Процесс повышающего микширования также может включать в себя декорреляторы, которые обеспечивают улучшенное восстановление ковариации восстановленного многоканального сигнала 311, при этом декорреляторы могут управляться посредством дополнительных метаданных 205 объединенного кодирования.

Восстановленный многоканальный сигнал 311 может содержать сигнал, известный как восстановленный SR-сигнал, и один или более восстановленных объектных сигналов. Восстановленный многоканальный сигнал 311 и метаданные объектов могут формировать восстановленный IA-сигнал 121. Восстановленный IA-сигнал 121 может использоваться для рендеринга 330 в динамиках, для рендеринга 331 в наушниках и/или для SR-рендеринга 332.

Фиг. 4 иллюстрирует блок 200 кодирования и блок 350 декодирования. Блок 200 кодирования содержит компоненты, описанные в контексте фиг. 2. Кроме того, блок 200 кодирования содержит модуль 420 энергетического уплотнения, который выполнен с возможностью концентрировать энергию множества канальных сигналов 203 понижающего микширования в одном или более канальных сигналов 203 понижающего микширования. Модуль 420 энергетического уплотнения может преобразовывать канальные сигналы 203 понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов 404. Преобразование может выполняться таким образом, что один или более уплотненных канальных сигналов 404 имеют меньше энергии, чем соответствующий один или более канальных сигналов 203 понижающего микширования.

В качестве примера, множество канальных сигналов 203 понижающего микширования могут содержать W-канальный сигнал, X-канальный сигнал, Y-канальный сигнал и Z-канальный сигнал. Множество уплотненных канальных сигналов 404 могут содержать W-канальный сигнал, X'-канальный сигнал, Y'-канальный сигнал и Z'-канальный сигнал. X'-канальный сигнал, Y'-канальный сигнал и Z'-канальный сигнал могут определяться таким образом, что X'-канальный сигнал имеет меньше энергии, чем X-канальный сигнал, таким образом, что Y'-канальный сигнал имеет меньше энергии, чем Y-канальный сигнал, и/или таким образом, что Z'-канальный сигнал имеет меньше энергии, чем Z-канальный сигнал.

Модуль 420 энергетического уплотнения может быть выполнен с возможностью выполнять энергетическое уплотнение с использованием операции прогнозирования. В частности, первый поднабор множества канальных сигналов 203 понижающего микширования (например, X-канального сигнала, Y-канального сигнала и Z-канального сигнала) может прогнозироваться из второго поднабора множества канальных сигналов 203 понижающего микширования (например, W-канального сигнала). Энергетическое уплотнение может содержать вычитание масштабированной версии одного из канальных сигналов 203 понижающего микширования (например, W-канального сигнала) из других канальных сигналов 203 понижающего микширования (например, X-канального сигнала, Y-канального сигнала и/или Z-канального сигнала). Коэффициент масштабирования может определяться таким образом, что энергия других канальных сигналов 203 понижающего микширования уменьшается, а именно, минимизируется.

Посредством выполнения энергетического уплотнения, эффективность для кодирования множества уплотненного канального сигнала 404 может увеличиваться по сравнению с кодированием множества канальных сигналов 203 понижающего микширования. Блок 200 кодирования выполнен с возможностью неявно вставлять метаданные для выполнения инверсии операции энергетического уплотнения в метаданные 205 объединенного кодирования. В результате этого, достигается эффективное кодирование в качестве входного IA-сигнала 111.

Как указано выше, блок декодирования содержит модуль 370 восстановления. Фиг. 6 иллюстрирует примерный модуль 370 восстановления. Модуль 370 восстановления принимает в качестве ввода множество восстановленных канальных сигналов 314 (который, например, может формировать амбиофонический сигнал первого порядка). Первый микшер 611 может быть выполнен с возможностью повышающе сводить множество восстановленных канальных сигналов 314 (например, четыре канальных сигнала) в увеличенное число сигналов (например, в одиннадцать сигналов, представляющих амбиофонический сигнал второго порядка, и в два объектных сигнала). Первый микшер 611 зависит от метаданных 205 объединенного кодирования.

Модуль 370 восстановления может содержать декорреляторы 601, 602, которые выполнены с возможностью формировать два сигнала из W-канального сигнала, которые обрабатываются во втором микшере 612, чтобы формировать увеличенное число сигналов (например, одиннадцать сигналов). Второй микшер 612 зависит от метаданных 205 объединенного кодирования. Вывод первого микшера 611 и вывод второго микшера 612 суммируются, чтобы предоставлять восстановленный многоканальный сигнал 311.

Как указано выше, метаданные 205 объединенного кодирования или SPAR-метаданные могут состоять из данных, которые представляют коэффициенты матриц повышающего микширования, используемых посредством первого микшера 611 и посредством второго микшера 612. Микшеры 611, 612 могут работать в подполосной области (а именно, в QMF-области). В этом случае, метаданные 205 объединенного кодирования или SPAR-метаданные содержат данные, которые представляют коэффициенты матриц повышающего микширования, используемых посредством первого микшера 611 и посредством второго микшера 612 для множества различных подполос частот (например, 10 или более подполос частот).

Фиг. 5 показывает блок 200 кодирования, который содержит две ветви для кодирования многоканального входного сигнала 201 и для кодирования метаданных 202 объектов (которые формируют входной IA-сигнал 111). Верхняя ветвь соответствует схеме кодирования, описанной в контексте фиг. 4. В нижней ветви, блок 230 объединенного кодирования модифицируется, чтобы определять метаданные 205, которые обеспечивают возможность восстановления множества канальных сигналов 203 понижающего микширования из множества уплотненных канальных сигналов 404. Следовательно, метаданные 205 указывают предиктор (а именно, один или более коэффициентов масштабирования), который использован для того, чтобы формировать множество уплотненных канальных сигналов 404 из множества канальных сигналов 203 понижающего микширования. В разновидности, метаданные 205 могут предоставляться непосредственно из модуля 220 энергетического уплотнения (без необходимости использования модуля 230 объединенного кодирования).

Блок 200 кодирования по фиг. 5 содержит модуль 500 переключения режимов, который выполнен с возможностью переключаться между первым режимом (соответствующим верхней ветви) и вторым режимом (соответствующим нижней ветви). Первый режим может использоваться для предоставления высокого перцепционного качества на увеличенной скорости передачи битов, и второй режим может использоваться для предоставления уменьшенного перцепционного качества на уменьшенной скорости передачи битов. Модуль 500 переключения режимов может быть выполнен с возможностью переключаться между первым режимом и вторым режимом в зависимости от состояния сети передачи.

Кроме того, фиг. 5 показывает соответствующий блок 350 декодирования, который выполнен с возможностью выполнять декодирование согласно первому режиму (верхняя ветвь) и согласно второму режиму (нижняя ветвь). Модуль 550 переключения режимов может быть выполнен с возможностью определять то, какой режим использован посредством блока 200 кодирования (например, на покадровой основе). Если использован первый режим, то могут определяться восстановленный многоканальный сигнал 311 и метаданные 202 объектов (как указано в контексте фиг. 4). С другой стороны, если использован второй режим, то множество восстановленных канальных сигналов 513 понижающего микширования (соответствующих множеству канальных сигналов 203 понижающего микширования) могут определяться посредством блока 350 декодирования.

Следовательно, описывается блок 200 кодирования, который содержит модуль 210 понижающего микширования, который выполнен с возможностью обрабатывать объекты и входной HOA-сигнал 111, с тем чтобы формировать выходной сигнал 203, имеющий сокращенное число каналов, например, сигнал амбиофонии первого порядка (FOA). Модуль 230 SPAR-кодирования формирует метаданные 205 (т.е. SPAR-метаданные), которые указывают то, как исходные вводы 111, 201 (например, объектные сигналы плюс HOA) могут повторно формироваться из FOA-сигнала 203. Набор EVS-кодеров 240 может принимать 4-канальный FOA-сигнал 203 и может создавать кодированные аудиоданные 206, которые должны вставляться в поток 101 битов, который затем декодируется посредством набора EVS-декодеров 360, чтобы создавать четырехканальный FOA-сигнал 314. SPAR-метаданные 205 могут предоставляться в качестве (энтропийно) кодированных метаданных 207 в потоке 101 битов в декодер 360. Модуль 370 восстановления затем повторно формирует вывод 121, состоящий из аудиообъектов и HOA-сигнала.

Сигнал 203 низкого разрешения, сформированный посредством модуля 210 понижающего микширования, может модифицироваться посредством WXYZ-преобразования для энергетического уплотнения (в модуле 420), которое формирует выходной сигнал 404, который имеет меньшую межканальную корреляцию, по сравнению с выводом модуля 210 понижающего микширования. Цель фильтра 420 энергетического уплотнения состоит в том, чтобы уменьшать энергию в XYZ-каналах таким образом, что W-канал может кодироваться на более высокой скорости передачи битов, и низкоэнергетические X'Y'Z'-каналы могут кодироваться на более низких скоростях передачи битов. Артефакты кодирования эффективнее маскируются за счет этого, так что качество звука повышается.

Помимо этого или альтернативно выполнению прогнозирования, энергетическое уплотнение может использовать преобразование Карунена-Лоэва (KLT), преобразование на основе анализа главных компонентов (PCA) и/или преобразование на основе разложения по сингулярным значениям (SVD). В частности, может использоваться фильтр 420 энергетического уплотнения, который содержит отбеливающий фильтр, KLT, PCA-преобразование и/или SVD-преобразование. Отбеливающий фильтр может реализовываться с использованием вышеуказанной схемы прогнозирования. В частности, фильтр 420 энергетического уплотнения может содержать комбинацию отбеливающего фильтра и KLT-, PCA- и/или SVD-преобразования, при этом второе размещается последовательно с отбеливающим фильтром. KLT-, PCA- и/или SVD-преобразование может применяться к X, Y, Z-каналам, а именно, к остаткам прогнозирования.

Фиг. 7 показывает блок-схему последовательности операций примерного способа 700 для кодирования многоканального входного сигнала 201. В частности, способ 700 направлен на кодирование IA-сигнала, который содержит многоканальный входной сигнал 201. Многоканальный входной сигнал 201 может содержать сигнал представления звукового поля (SR). В частности, многоканальный входной сигнал 201 может содержать комбинацию SR-сигнала (например, HOA-сигнала, а именно, амбиофонического сигнала второго порядка) и одного или более (а именно, двух) объектных сигналов одного или более аудиообъектов 303.

Способ 700 содержит определение 701 множества канальных сигналов 203 понижающего микширования из многоканального входного сигнала 201. Множество канальных сигналов 203 понижающего микширования могут содержать сокращенное число каналов по сравнению с многоканальным входным сигналом 201. Как указано выше, многоканальный входной сигнал 201 может содержать SR-сигнал, а именно, амбиофонический сигнал L-ого порядка, при L≥1, и один или более объектных сигналов одного или более аудиообъектов 303. Множество канальных сигналов 203 понижающего микширования могут определяться посредством понижающего микширования многоканального входного сигнала 201 в SR-сигнал, а именно, в амбиофонический сигнал K-го порядка, при L≥K. Следовательно, множество канальных сигналов 203 понижающего микширования могут представлять собой SR-сигнал, а именно, амбиофонический сигнал K-го порядка.

В частности, определение 701 множества канальных сигналов 203 понижающего микширования может содержать микширование одного или более объектных сигналов одного или более аудиообъектов 303 (многоканального входного сигнала 201) в SR-сигнал многоканального входного сигнала 201 (или в микшированную с понижением версию SR-сигнала). Микширование (а именно, панорамирование) может выполняться в зависимости от метаданных 202 объектов одного или более аудиообъектов 303, при этом метаданные 202 объектов аудиообъекта 303 указывают пространственную позицию аудиообъекта 303. Понижающее микширование SR-сигнала может содержать удаление [(L+1)2-L2] дополнительных каналов из SR-сигнала L-ого порядка, за счет этого предоставляя SR-сигнал (L-1)-го порядка.

В предпочтительном примере, множество канальных сигналов 203 понижающего микширования формируют амбиофонический сигнал первого порядка, а именно, в B-формате или в A-формате. SR-сигнал многоканального входного сигнала 201 может представлять собой амбиофонический сигнал второго (или более высокого) порядка.

Кроме того, способ 700 содержит выполнение 702 энергетического уплотнения множества канальных сигналов 203 понижающего микширования таким образом, чтобы предоставлять множество уплотненных канальных сигналов 404. Число каналов множества канальных сигналов 203 понижающего микширования и множества уплотненных канальных сигналов 404 может быть идентичным. В частности, множество уплотненных канальных сигналов 404 могут формировать или могут иметь формат амбиофонического сигнала первого порядка, а именно, B-формат или A-формат.

Энергетическое уплотнение может выполняться таким образом, что межканальная корреляция между различными канальными сигналами 203 уменьшается. В частности, множество уплотненных канальных сигналов 404 могут демонстрировать меньшую межканальную корреляцию, чем множество канальных сигналов 203 понижающего микширования. Кроме того, или помимо этого, энергетическое уплотнение может выполняться таким образом, что энергия уплотненного канального сигнала ниже или равна энергии соответствующего канального сигнала понижающего микширования. Это условие может удовлетворяться для каждого канала.

Выполнение 702 энергетического уплотнения может содержать прогнозирование первого канального сигнала 203 понижающего микширования (например, X-, Y- или Z-канала) из второго канального сигнала понижающего микширования (например, W-канала), чтобы предоставлять первый прогнозированный канальный сигнал. Первый прогнозированный канальный сигнал может вычитаться из первого канального сигнала 203 понижающего микширования (или наоборот), чтобы предоставлять первый уплотненный канальный сигнал 404.

Прогнозирование первого канального сигнала 203 понижающего микширования из второго канального сигнала 203 понижающего микширования может содержать определение коэффициента масштабирования для масштабирования второго канального сигнала 203 понижающего микширования. Коэффициент масштабирования может определяться таким образом, что энергия первого уплотненного канального сигнала 404 уменьшается по сравнению с энергией первого канального сигнала 203 понижающего микширования, и/или таким образом, что энергия первого уплотненного канального сигнала 404 минимизируется. Первый прогнозированный канальный сигнал затем может соответствовать второму канальному сигналу 203 понижающего микширования, масштабируемому согласно коэффициенту масштабирования. Для различных каналов, могут определяться различные коэффициенты масштабирования.

В частности, (в случае амбиофонического сигнала первого порядка), выполнение 702 энергетического уплотнения может содержать прогнозирование X-канального сигнала, Y-канального сигнала и Z-канального сигнала из W-канального сигнала из множества канальных сигналов 203 понижающего микширования таким образом, чтобы предоставлять прогнозированный X-канальный сигнал, прогнозированный Y-канальный сигнал и прогнозированный Z-канальный сигнал, соответственно. Прогнозированный X-канальный сигнал может вычитаться из X-канального сигнала (или наоборот), чтобы определять X'-канальный сигнал из множества уплотненных канальных сигналов 404. Прогнозированный Y-канальный сигнал может вычитаться из Y-канального сигнала (или наоборот), чтобы определять Y'-канальный сигнал из множества уплотненных канальных сигналов 404. Прогнозированный Z-канальный сигнал может вычитаться из Z-канального сигнала (или наоборот), чтобы определять Z'-канальный сигнал из множества уплотненных канальных сигналов 404. Кроме того, W-канальный сигнал из множества канальных сигналов 203 понижающего микширования может использоваться в качестве W-канального сигнала из множества уплотненных канальных сигналов 404.

В результате этого, энергия всех каналов (кроме одного, т.е. W-канала) может уменьшаться, за счет этого обеспечивая эффективное кодирование множества уплотненных канальных сигналов 404.

Способ 700 дополнительно может содержать определение 703 метаданных 205 объединенного кодирования (также называются в данном документе "SPAR-метаданными") на основе множества уплотненных канальных сигналов 404 и на основе многоканального входного сигнала 201. Метаданные 205 объединенного кодирования могут определяться таким образом, что метаданные 205 объединенного кодирования обеспечивают возможность повышающего микширования множества уплотненных канальных сигналов 404 в аппроксимацию многоканального входного сигнала 201. Посредством использования множества уплотненных канальных сигналов 404 для определения метаданных объединенного кодирования, процесс инверсии энергетического уплотнения автоматически включается в метаданные 205 объединенного кодирования (без необходимости предоставления дополнительных метаданных специально для инверсии операции энергетического уплотнения).

Метаданные 205 объединенного кодирования могут содержать данные повышающего микширования, а именно, одну или более матриц повышающего микширования, обеспечивающих повышающее микширование множества уплотненных канальных сигналов 404 в аппроксимацию многоканального входного сигнала 201. Аппроксимация многоканального входного сигнала 201 содержит число каналов, идентичное числу каналов многоканального входного сигнала 201. Кроме того, метаданные 205 объединенного кодирования могут содержать декорреляционные данные, обеспечивающие восстановление ковариации многоканального входного сигнала 201.

Метаданные 205 объединенного кодирования могут определяться для множества различных подполос частот многоканального входного сигнала 201 (например, для 10 или более подполос частот, а именно, в QMF-области). Посредством предоставления метаданных 205 объединенного кодирования для различных подполос частот (т.е. в различных полосах частот), может выполняться точная операция повышающего микширования.

Помимо этого, способ 700 содержит кодирование 704 множества уплотненных канальных сигналов 404 и метаданных 205 объединенного кодирования (также известных как SPAR-метаданные). Кодирование 704 множества уплотненных канальных сигналов 404 может содержать выполнение кодирования на основе формы сигналов (а именно, EVS-кодирования) каждого из множества уплотненных канальных сигналов 404, в частности, с использованием монокодера для каждого уплотненного канального сигнала 404. Кроме того, или помимо этого, метаданные 205 объединенного кодирования могут кодироваться с использованием энтропийного кодера. Как указано выше, многоканальный входной сигнал 201 может содержать один или более объектных сигналов одного или более аудиообъектов 303. В таких случаях, способ 700 может содержать кодирование, в частности, с использованием энтропийного кодера, метаданных 202 объектов для одного или более аудиообъектов 303.

Способ 700 обеспечивает возможность кодирования многоканального входного сигнала 201, который может указывать SR-сигнал и/или один или более сигналов аудиообъектов, эффективным по скорости передачи битов способом, при обеспечении возможности декодеру восстанавливать многоканальный входной сигнал 201 с высоким перцепционным качеством.

Определение метаданных 205 объединенного кодирования на основе множества уплотненных канальных сигналов 404 и на основе многоканального входного сигнала 201 может соответствовать первому режиму для кодирования многоканального входного сигнала 201.

Кроме того, или в дополнение к использованию прогнозирования, выполнение 702 энергетического уплотнения может содержать применение преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям, по меньшей мере, к некоторым из множества канальных сигналов 203 понижающего микширования. За счет этого, может дополнительно повышаться эффективность кодирования множества уплотненных канальных сигналов 404.

В частности, преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов и/или преобразование на основе разложения по сингулярным значениям могут применяться к уплотненным канальным сигналам 404, которые соответствуют остаткам прогнозирования, которые извлечены на основе второго канального сигнала 203 понижающего микширования (а именно, на основе W-канального сигнала). Другими словами, преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов и/или преобразование на основе разложения по сингулярным значениям могут применяться к остаткам прогнозирования.

Как указано выше, в контексте прогнозирования, X'-канальный сигнал, Y'-канальный сигнал и Z'-канальный сигнал могут извлекаться на основе W-канального сигнала из множества канальных сигналов 203 понижающего микширования, формирующих амбиофонический сигнал. В частности, X'-канальный сигнал может соответствовать X-канальному сигналу минус прогнозирование X-канального сигнала, которое основано на W-канальном сигнале. Таким же образом, Y'-канальный сигнал может соответствовать Y-канальному сигналу минус прогнозирование Y-канального сигнала, которое основано на W-канальном сигнале. Таким же образом, Z'-канальный сигнал может соответствовать Z-канальному сигналу минус прогнозирование Z-канального сигнала, которое основано на W-канальном сигнале. Множество уплотненных канальных сигналов 404 могут определяться на основе либо могут соответствовать W-канальному сигналу, X'-канальному сигналу, Y'-канальному сигналу и Z'-канальному сигналу.

Чтобы дополнительно повышать эффективность кодирования множества уплотненных канальных сигналов 404, преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов и/или преобразование на основе разложения по сингулярным значениям могут применяться к X'-канальному сигналу, Y'-канальному сигналу и Z'-канальному сигналу, чтобы предоставлять X''-канальный сигнал, Y''-канальный сигнал и Z''-канальный сигнал. Множество уплотненных канальных сигналов 404 затем могут определяться на основе W-канального сигнала, X''-канального сигнала, Y''-канального сигнала и Z''-канального сигнала.

Во втором режиме, метаданные 205 объединенного кодирования могут определяться на основе множества уплотненных канальных сигналов 404 и на основе множества канальных сигналов 203 понижающего микширования. Метаданные 205 объединенного кодирования могут определяться таким образом, что метаданные 205 объединенного кодирования обеспечивают возможность восстановления множества канальных сигналов 203 понижающего микширования из множества уплотненных канальных сигналов 404. В частности, метаданные 205 объединенного кодирования могут определяться таким образом, что метаданные 205 объединенного кодирования (только) оборачивают или инвертируют операцию энергетического уплотнения (без выполнения операции повышающего микширования). Второй режим может использоваться для уменьшения скорости передачи битов (с уменьшенным перцепционным качеством).

Как указано выше, многоканальный входной сигнал 201 может содержать SR-сигнал и один или более объектных сигналов. Первый режим и второй режим могут обеспечивать возможность восстановления SR-сигнала (на основе множества уплотненных канальных сигналов 404). Следовательно, общее восприятие при прослушивании слушателя может поддерживаться (даже при использовании второго режима).

Многоканальный входной сигнал 201 может содержать последовательность кадров. Обработка, описанная в настоящем документе, может выполняться покадрово для каждого кадра из последовательности кадров. В частности, способ 700 может содержать определение, для каждого кадра из последовательности кадров, того, следует использовать первый режим или второй режим. За счет этого, кодирование может быть выполнено с возможностью изменения условий сети передачи быстрым способом.

Способ 700 может содержать формирование потока битов 101 на основе кодированных аудиоданных 206, извлекаемых посредством кодирования 704 множества уплотненных канальных сигналов 404, и на основе кодированных метаданных 207, извлекаемых посредством кодирования 704 метаданных 205 объединенного кодирования. Кроме того, способ 700 может содержать вставку в поток 101 битов индикатора, который указывает то, использован второй режим или первый режим. Индикатор может вставляться на покадровой основе. В результате этого, соответствующему блоку 350 декодирования обеспечивается возможность адаптировать декодирование надежным способом.

Фиг. 8 показывает блок-схему последовательности операций примерного способа 800 для определения восстановленного многоканального сигнала 311 из кодированных аудиоданных 206, указывающих множество восстановленных канальных сигналов 314, и из кодированных метаданных 207, указывающих метаданные 205 объединенного кодирования. Способ 800 может содержать извлечение кодированных аудиоданных 206 и кодированных метаданных 207 из потока 101 битов.

Кроме того, способ 800 может содержать декодирование 801 кодированных аудиоданных 206, чтобы предоставлять множество восстановленных канальных сигналов 314, и декодирование кодированных метаданных 207, чтобы предоставлять метаданные 205 объединенного кодирования. В предпочтительном примере, множество восстановленных канальных сигналов 203 формируют амбиофонический сигнал первого порядка, а именно, в B-формате или в A-формате.

Декодирование 801 кодированных аудиоданных 206 может содержать декодирование на основе формы сигналов каждого из множества восстановленных канальных сигналов 314, в частности, с использованием монодекодера (например, EVS-декодера) для каждого восстановленного канального сигнала 314. Кодированные метаданные 207 могут декодироваться с использованием энтропийного декодера.

Кроме того, способ 800 содержит определение 802 восстановленного многоканального сигнала 311 из множества восстановленных канальных сигналов 314 с использованием метаданных 205 объединенного кодирования, при этом восстановленный многоканальный сигнал 311 может содержать восстановленный сигнал представления звукового поля (SR). В частности, восстановленный многоканальный сигнал 311 соответствует аппроксимации или восстановлению многоканального входного сигнала 201. Восстановленный многоканальный сигнал 311 и метаданные 202 объектов могут вместе формировать восстановленный аудиосигнал 121 погружения (IA).

Помимо этого, способ 800 может содержать рендеринг восстановленного многоканального сигнала 311 (типично в сочетании с метаданными 202 объектов). Рендеринг может выполняться с использованием рендеринга в наушниках, рендеринга в динамиках и/или рендеринга звукового поля. В результате этого, обеспечивается гибкий рендеринг контента пространственного аудио (в частности, для VR-вариантов применения).

Как указано выше, метаданные 205 объединенного кодирования могут содержать данные повышающего микширования, а именно, одну или более матриц повышающего микширования, обеспечивающих повышающее микширование множества восстановленных канальных сигналов 404 в восстановленный многоканальный сигнал 311. Кроме того, метаданные 205 объединенного кодирования могут содержать декорреляционные данные, обеспечивающие формирование восстановленного многоканального сигнала 311, имеющего предварительно определенную ковариацию. Метаданные 205 объединенного кодирования могут содержать различные метаданные для различных подполос частот восстановленного многоканального сигнала 311. В результате этого, может достигаться точное восстановление многоканального входного сигнала 201.

В соответствующем кодере 200, энергетические уплотнения могут применяться ко множеству канальных сигналов 304 понижающего микширования. Энергетическое уплотнение может выполняться с использованием прогнозирования и/или с использованием преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям. Метаданные 205 объединенного кодирования могут быть такими, что, в дополнение к повышающему микшированию, они неявно выполняют инверсию операции энергетического уплотнения. В частности, метаданные 205 объединенного кодирования могут быть такими, что, помимо этого, они неявно выполняют инверсию операции прогнозирования и/или инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям.

Другими словами, метаданные 205 объединенного кодирования могут быть выполнены с возможностью обеспечивать повышающее микширование множества восстановленных канальных сигналов 404 в восстановленный многоканальный сигнал 311 и (неявно) выполнять инверсию операции энергетического уплотнения для множества восстановленных канальных сигналов 314. В частности, метаданные 205 объединенного кодирования могут быть выполнены с возможностью (неявно) выполнять операцию обратного прогнозирования (инверсию относительно операции прогнозирования, выполняемой посредством кодера 200), по меньшей мере, для некоторых из множества восстановленных канальных сигналов 314. Кроме того, или помимо этого, метаданные 205 объединенного кодирования могут быть выполнены с возможностью выполнять инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям (инверсию относительно преобразования, выполняемого посредством кодера 200), по меньшей мере, для некоторых из множества восстановленных канальных сигналов 314. В результате этого, может предоставляться очень эффективная схема кодирования.

Восстановленный многоканальный сигнал 311 может содержать один или более восстановленных объектных сигналов одного или более аудиообъектов 303 (в дополнение к SR-сигналу, например, FOA- или HOA-сигналу). Способ 800 может содержать декодирование, в частности, с использованием энтропийного декодера, метаданных 202 объектов для одного или более аудиообъектов 303 из кодированных метаданных 207. В результате этого, один или более объектов 303 могут подготавливаться посредством рендеринга точным способом.

Как указано выше, множество восстановленных канальных сигналов 314 могут формировать SR-сигнал, а именно, амбиофонический сигнал K-го порядка, при K≥1 (а именно, K=1). С другой стороны, восстановленный многоканальный сигнал 311 может содержать восстановленный SR-сигнал, а именно, амбиофонический сигнал L-ого порядка, при L≥K (а именно, L=K или L=K+1) и один или более (например, n=2) восстановленных объектных сигналов одного или более аудиообъектов 303. Восстановленный многоканальный сигнал 311 может определяться посредством повышающего микширования множества восстановленных канальных сигналов 314 с использованием метаданных 205 объединенного кодирования, за счет этого предоставляя восстановленный многоканальный сигнал 311 с существенными пространственными акустическими событиями.

Как указано выше, использование повышающего микширования может соответствовать первому режиму (для высокого перцепционного качества). В первом режиме, объединенные метаданные 205 объектов содержат данные повышающего микширования для обеспечения возможности операции повышающего микширования. Во втором режиме, восстановленный многоканальный сигнал 311 может содержать число каналов, идентичное числу каналов множества восстановленных канальных сигналов 314 (таким образом, что операция повышающего микширования не требуется).

Во втором режиме, метаданные 205 объединенного кодирования могут содержать прогнозирующие данные (например, один или более коэффициентов масштабирования), выполненные с возможностью перераспределять энергию между различными восстановленными канальными сигналами 314. Кроме того, во втором режиме, определение 802 восстановленного многоканального сигнала 311 может содержать перераспределение энергии между различными восстановленными канальными сигналами 314 с использованием прогнозирующих данных. В частности, инверсия вышеуказанной операции энергетического уплотнения может выполняться с использованием метаданных 205 объединенного кодирования. В результате этого, множество канальных сигналов 203 понижающего микширования могут восстанавливаться эффективным и точным способом.

Как указано выше, операция энергетического уплотнения, которая выполняется во время кодирования, может содержать применение преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям, по меньшей мере, к некоторым из множества канальных сигналов 203 понижающего микширования. Метаданные 205 объединенного кодирования могут содержать данные преобразования, которые обеспечивают возможность декодеру 350 выполнять инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям. Другими словами, данные преобразования указывают инверсию преобразования Карунена-Лоэва, преобразования на основе анализа главных компонентов и/или преобразования на основе разложения по сингулярным значениям, которое должно применяться, по меньшей мере, к некоторым из множества восстановленных канальных сигналов 314 для определения восстановленного многоканального сигнала 311. В результате этого, множество канальных сигналов 203 понижающего микширования могут восстанавливаться эффективным и точным способом.

Как указано выше, восстановленный многоканальный входной сигнал 311 может содержать последовательность кадров. Способ 800 может содержать определение, для каждого кадра из последовательности кадров, того, должен или нет использоваться второй режим. С этой целью, из потока 101 битов может извлекаться индикатор, который указывает то, должен или нет использоваться второй режим.

Различные примерные варианты осуществления настоящего изобретения могут реализовываться в аппаратных средствах или в схемах специального назначения, в программном обеспечении, в логике либо в любой комбинации вышеозначенного. Некоторые аспекты могут реализовываться в аппаратных средствах, тогда как другие аспекты могут реализовываться в микропрограммном обеспечении или программном обеспечении, которое может выполняться посредством контроллера, микропроцессора или другого вычислительного устройства. В общем, следует понимать, что настоящее раскрытие сущности также охватывает оборудование, подходящее для осуществления способов, описанных выше, например, оборудование (модуль пространственного рендеринга), имеющее запоминающее устройство и процессор, соединенный с запоминающим устройством, при этом процессор выполнен с возможностью выполнять инструкции и осуществлять способы согласно вариантам осуществления раскрытия сущности.

Хотя различные аспекты примерных вариантов осуществления настоящего изобретения проиллюстрированы и описаны в качестве блок-схем, блок-схем последовательности операций способа или с использованием некоторого другого графического представления, следует принимать во внимание, что блоки, оборудование, системы, технологии или способы, описанные в данном документе, могут реализовываться, в качестве неограничивающих примеров, в аппаратных средствах, в программном обеспечении, в микропрограммном обеспечении, в схемах специального назначения или в логике, в аппаратных средствах общего назначения или в контроллере, или в других вычислительных устройствах, или в некоторой комбинации вышеозначенного.

Дополнительно, различные блоки, показанные на блок-схемах последовательности операций способа, могут рассматриваться в качестве этапов способа и/или в качестве операций, которые получаются в результате операции компьютерного программного кода, и/или в качестве множества соединенных логических схемных элементов, сконструированных с возможностью выполнять ассоциированную функцию(и). Например, варианты осуществления настоящего изобретения включают в себя компьютерный программный продукт, содержащий компьютерную программу, материально осуществленную на машиночитаемом носителе, при этом компьютерная программа содержит программные коды, выполненные с возможностью осуществлять способы, как описано выше.

В контексте раскрытия сущности, машиночитаемый носитель может представлять собой любой материальный носитель, который может содержать или сохранять программу для использования посредством или в связи с системой, оборудованием или устройством выполнения инструкций. Машиночитаемый носитель может представлять собой машиночитаемую среду передачи сигналов или машиночитаемый носитель хранения данных. Машиночитаемый носитель может включать в себя, но не только, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, оборудование или устройство либо любую подходящую комбинацию вышеприведенного. Более конкретные примеры машиночитаемого носителя хранения данных должны включать в себя электрическое соединение, имеющее один или более проводов, портативную компьютерную дискету, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флэш-память), оптоволокно, портативное постоянное запоминающее устройство на компакт-дисках (CD-ROM), оптическое устройство хранения данных, магнитное устройство хранения данных либо любую подходящую комбинацию вышеприведенного.

Компьютерный программный код для осуществления способов настоящего изобретения может быть написан на любой комбинации одного или более языков программирования. Эти компьютерные программные коды могут предоставляться в процессор компьютера общего назначения, компьютер специального назначения или другое программируемое оборудование обработки данных таким образом, что программные коды, при выполнении посредством процессора компьютера или другого программируемого оборудования обработки данных, инструктируют реализацию функций/операций, указываемых на блок-схемах последовательности операций способа и/или на блок-схемах. Программный код может выполняться полностью на компьютере, частично на компьютере, в качестве автономного программного пакета, частично на компьютере и частично на удаленном компьютере либо полностью на удаленном компьютере или сервере.

Дополнительно, хотя операции проиллюстрированы в конкретном порядке, это не следует понимать как обязательность того, что такие операции должны выполняться в конкретном показанном порядке либо в последовательном порядке, или того, что все проиллюстрированные операции должны выполняться для того, чтобы достигать требуемых результатов. При определенных обстоятельствах, может быть преимущественной многозадачная и параллельная обработка. Аналогично, хотя несколько конкретных сведений по реализации содержатся в вышеприведенном пояснении, они должны истолковываться не как ограничения на объем любого изобретения либо на формулу изобретения, а вместо этого как описания признаков, которые могут быть характерными для конкретных вариантов осуществления конкретных изобретений. Определенные признаки, которые поясняются в этом подробном описании в контексте отдельных вариантов осуществления, также могут реализовываться в комбинации в одном варианте осуществления. Наоборот, различные признаки, которые описываются в контексте одного варианта осуществления, также могут реализовываться в нескольких вариантах осуществления по отдельности либо в любой подходящей субкомбинации.

Следует отметить, что описание и чертежи иллюстрируют только принципы предложенных способов и оборудования. Таким образом, следует принимать во внимание, что специалисты в данной области техники должны иметь возможность разрабатывать различные компоновки, которые, хотя не описаны или показаны явно в данном документе, осуществляют принципы изобретения и включаются в его сущность и объем. Кроме того, все примеры, изложенные в данном документе, принципиально предназначаются в явной форме только в педагогических целях, чтобы помогать читателю в понимании принципов предлагаемых способов и оборудования, а также идей, вносимых авторами изобретения для совершенствования области техники, и должны трактоваться как не имеющие ограничения такими конкретно изложенными примерами и условиями. Кроме того, все утверждения в данном документе в отношении принципов, аспектов и вариантов осуществления изобретения, а также их конкретных примеров, имеют намерение охватывать их эквиваленты.

Похожие патенты RU2802803C2

название год авторы номер документа
СПОСОБЫ И УСТРОЙСТВА ДЛЯ ФОРМИРОВАНИЯ ИЛИ ДЕКОДИРОВАНИЯ БИТОВОГО ПОТОКА, СОДЕРЖАЩЕГО ИММЕРСИВНЫЕ АУДИОСИГНАЛЫ 2019
  • Брун, Стефан
  • Торрес, Хуан Феликс
RU2802677C2
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ МНОГОКАНАЛЬНОГО АУДИО С ИСПОЛЬЗОВАНИЕМ МЕТАДАННЫХ НАПРАВЛЕННОСТИ 2020
  • Макграт, Дэвид С.
RU2826480C1
ПРЕДСТАВЛЕНИЕ ПРОСТРАНСТВЕННОГО ЗВУКА ПОСРЕДСТВОМ ЗВУКОВОГО СИГНАЛА И АССОЦИИРОВАННЫХ С НИМ МЕТАДАННЫХ 2019
  • Брун, Стефан
RU2809609C2
СИСТЕМЫ, СПОСОБЫ И ОБОРУДОВАНИЕ ДЛЯ ПРЕОБРАЗОВАНИЯ ИЗ КАНАЛЬНО-ОРИЕНТИРОВАННОГО АУДИО В ОБЪЕКТНО-ОРИЕНТИРОВАННОЕ АУДИО 2020
  • Уорд, Майкл С.
  • Санчес, Фредди
  • Ферш, Кристоф
RU2793271C1
КОДЕК С МАЛОЙ ЗАДЕРЖКОЙ И НИЗКОЧАСТОТНЫМИ ЭФФЕКТАМИ 2020
  • Тияги, Ришабх
  • Макграт, Дэвид
RU2809977C1
ГИБРИДНОЕ КОДИРОВАНИЕ МНОГОКАНАЛЬНОГО ЗВУКА 2014
  • Уильямс, Филип
  • Шуг, Михель
  • Тезинг, Робин
RU2581782C1
ПРИНЦИП ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ АУДИО ДЛЯ АУДИОКАНАЛОВ И АУДИООБЪЕКТОВ 2014
  • Адами Александер
  • Борсс Кристиан
  • Дик Саша
  • Эртель Кристиан
  • Фюг Зимоне
  • Херре Юрген
  • Хильперт Йоханнес
  • Хельцер Андреас
  • Крачмер Михаэль
  • Кюх Фабиан
  • Кунтц Ахим
  • Муртаза Адриан
  • Плогстис Ян
  • Зильцле Андреас
  • Штенцель Ханне
RU2641481C2
ИНТЕГРАЦИЯ МЕТОДИК РЕКОНСТРУКЦИИ ВЫСОКИХ ЧАСТОТ С СОКРАЩЕННОЙ ЗАДЕРЖКОЙ ПОСТОБРАБОТКИ 2019
  • Чоэрлинг, Кристофер
  • Виллемоес, Ларс
  • Пурнхаген, Хейко
  • Экстранд, Пер
RU2758199C1
МИКШИРОВАНИЕ АУДИОПОТОКА С НОРМАЛИЗАЦИЕЙ ДИАЛОГОВОГО УРОВНЯ 2011
  • Грешель Александер
  • Уильямс Филип А
  • Купер Джарет А
  • Шильдбах Вольфганг А
RU2526746C1
ИНТЕГРАЦИЯ МЕТОДИК РЕКОНСТРУКЦИИ ВЫСОКИХ ЧАСТОТ ЗВУКА 2019
  • Чоэрлинг, Кристофер
  • Виллемоес, Ларс
  • Пурнхаген, Хейко
  • Экстранд, Пер
RU2792114C2

Иллюстрации к изобретению RU 2 802 803 C2

Реферат патента 2023 года СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И/ИЛИ ДЕКОДИРОВАНИЯ АУДИОСИГНАЛОВ ПОГРУЖЕНИЯ

Изобретение относится к средствам для кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования аудиосигналов. Определяют множество канальных сигналов понижающего микширования из многоканального входного амбиофонического сигнала. Выполняют энергетическое уплотнение множества канальных сигналов понижающего микширования для получения множества уплотненных канальных сигналов. Определяют метаданные восстановления аудио на основе множества уплотненных канальных сигналов и на основе многоканального входного амбиофонического сигнала. При этом метаданные восстановления аудио обеспечивают устройству получателю возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного амбиофонического сигнала. Кодируют множество уплотненных канальных сигналов и метаданных восстановления аудио. 2 н. и 6 з.п. ф-лы, 8 ил.

Формула изобретения RU 2 802 803 C2

1. Способ для кодирования многоканального входного амбиофонического сигнала, при этом способ содержит этапы, на которых:

- определяют множество канальных сигналов понижающего микширования из многоканального входного амбиофонического сигнала;

- выполняют энергетическое уплотнение множества канальных сигналов понижающего микширования для получения множества уплотненных канальных сигналов;

- определяют метаданные восстановления аудио на основе множества уплотненных канальных сигналов и на основе многоканального входного амбиофонического сигнала, при этом метаданные восстановления аудио обеспечивают устройству получателю возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного амбиофонического сигнала; и

- кодируют множество уплотненных канальных сигналов и метаданных восстановления аудио.

2. Способ по п. 1, в котором выполнение энергетического уплотнения содержит

- прогнозирование первого канального сигнала понижающего микширования из второго канального сигнала понижающего микширования для обеспечения первого прогнозированного канального сигнала; и

- вычитают первый прогнозированный канальный сигнал из первого канального сигнала понижающего микширования для обеспечения первого уплотненного канального сигнала.

3. Способ по п. 1, в котором по крайней мере, одно из приведенных ниже (1) или (2) верно:

- (1) множество канальных сигналов понижающего микширования представляют собой амбиофонический сигнал первого порядка, в B-формате или в A-формате;

- (2) множество уплотненных канальных сигналов представляются в формате амбиофонического сигнала первого порядка, в B-формате или в A-формате.

4. Способ по п. 1, в котором выполнение энергетического уплотнения содержит применение одного из: преобразование Карунена-Лоэва, преобразование на основе анализа главных компонентов или преобразование на основе разложения по сингулярным значениям, по меньшей мере, к некоторым из множества канальных сигналов понижающего микширования.

5. Способ по п. 1, в котором метаданные восстановления аудио содержат:

- данные повышающего микширования, матрицу повышающего микширования, обеспечивающую повышающее микширование множества уплотненных канальных сигналов в аппроксимацию многоканального входного амбиофонического сигнала, содержащего число каналов, идентичное числу каналов многоканального входного амбиофонического сигнала; или

- декорреляционные данные, обеспечивающие восстановление ковариации многоканального входного амбиофонического сигнала.

6. Способ по п. 1, в котором:

- многоканальный входной амбиофонический сигнал содержит сигнал представления звукового поля, называемого "SR", амбиофонический сигнал L-ого порядка, при L≥1, и один или более объектных сигналов одного или более аудиообъектов; и

- множество канальных сигналов понижающего микширования определяются посредством понижающего микширования многоканального входного амбиофонического сигнала в SR-сигнал, в амбиофонический сигнал K-го порядка, при L≥K.

7. Способ по п. 1, в котором:

- способ содержит этап, на котором определяют то, что многоканальный входной амбиофонический сигнал должен кодироваться с использованием второго режима; и

- во втором режиме, метаданные восстановления аудио определяются на основе множества уплотненных канальных сигналов и на основе множества канальных сигналов понижающего микширования таким образом, что метаданные восстановления аудио обеспечивают возможность восстановления множества канальных сигналов понижающего микширования из множества уплотненных канальных сигналов.

8. Устройство кодирования для кодирования многоканального входного амбиофонического сигнала, при этом устройство кодирования выполнено с возможностью:

- определять множество канальных сигналов понижающего микширования из многоканального входного амбиофонического сигнала;

- выполнять энергетическое уплотнение множества канальных сигналов понижающего микширования для обеспечения множества уплотненных канальных сигналов;

- определять метаданные восстановления аудио на основе множества уплотненных канальных сигналов и на основе многоканального входного амбиофонического сигнала, при этом метаданные восстановления аудио обеспечивают устройству получателю возможность повышающего микширования множества уплотненных канальных сигналов в аппроксимацию многоканального входного амбиофонического сигнала; и

- кодировать множество уплотненных канальных сигналов и метаданных восстановления аудио.

Документы, цитированные в отчете о поиске Патент 2023 года RU2802803C2

Mikko-Ville Laitinen et al
Кипятильник для воды 1921
  • Богач Б.И.
SU5A1
Устройство для сортировки каменного угля 1921
  • Фоняков А.П.
SU61A1
Способ приготовления лака 1924
  • Петров Г.С.
SU2011A1
Heiko Purnhagen et al
"Immersive Audio Delivery Using Joint Object Coding", AES, presented at the 140th Convention,

RU 2 802 803 C2

Авторы

Макграт, Дэвид С.

Эккерт, Майкл

Пурнхаген, Хейко

Брун, Стефан

Даты

2023-09-04Публикация

2019-07-02Подача