Перекрестная ссылка на родственные заявки
[0001] По данной заявке испрашивается приоритет на основании предварительной заявки на патент США № 62/927,772, поданной 30 октября 2019 г.; и предварительной заявки на патент США № 63/092,830, поданной 16 октября 2020 г., которые включены в данный документ путём ссылки.
Область техники, к которой относится изобретение
[0002] Данное изобретение относится в общем к кодированию и декодированию битовых потоков аудиоданных.
Уровень техники
[0003] Разработка стандартов для голосовых и аудиокодеров/декодеров («кодеков») в последнее время акцентирует внимание на разработке кодека для иммерсивных голосовых и аудиослужб (IVAS). IVAS предположительно должен поддерживать диапазон характеристик служб передачи аудио, включающих в себя, не ограничиваясь, повышающее микширование из моно в стерео и кодирование, декодирование и рендеринг полностью иммерсивного аудио. IVAS имеет намерение поддерживаться посредством широкого диапазона устройств, конечных точек и сетевых узлов, включающих в себя, не ограничиваясь: мобильные телефоны и смартфоны, электронные планшетные компьютеры, персональные компьютеры, конференц-телефоны, конференц-залы, устройства в стиле виртуальной реальности (VR) и дополненной реальности (AR), устройства-домашние кинотеатры и другие подходящие устройства. Эти устройства, конечные точки и сетевые узлы могут иметь различные акустические интерфейсы для захвата и рендеринга звука.
Раскрытие изобретения
[0004] Раскрыты реализации для распределения скоростей передачи битов в иммерсивных голосовых и аудиослужбах.
[0005] В варианте осуществления, способ кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS), при этом способ содержит: прием, с использованием одного или более процессоров, входного аудиосигнала; понижающее микширование, с использованием одного или более процессоров, входного аудиосигнала в один или более каналов понижающего микширования и пространственные метаданные, ассоциированные с одним или более каналов входного аудиосигнала; считывание, с использованием одного или более процессоров, набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов; определение, с использованием одного или более процессоров, сочетания одной или более скоростей передачи битов для каналов понижающего микширования; определение, с использованием одного или более процессоров, уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов; квантование и кодирование, с использованием одного или более процессоров, пространственных метаданных с использованием уровня квантования метаданных; формирование, с использованием одного или более процессоров и сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования; объединение, с использованием одного или более процессоров, битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS; и потоковую передачу или сохранение битовый поток IVAS для воспроизведения на устройстве с поддержкой IVAS.
[0006] В варианте осуществления, входной аудиосигнал представляет собой четырехканальный аудиосигнал амбиофонии первого порядка (FoA), трехканальный плоский сигнал FoA или двухканальный стереоаудиосигнал.
[0007] В варианте осуществления, одна или более скоростей передачи битов представляют собой скорости передачи битов одного или более каналов скоростей передачи битов моноаудиокодера/декодера (кодека).
[0008] В варианте осуществления, моноаудиокодек представляет собой кодек с поддержкой улучшенных голосовых служб (EVS), и битовый поток понижающего микширования представляет собой битовый поток EVS.
[0009] В варианте осуществления, получение, с использованием одного или более процессоров, одной или более скоростей передачи битов для каналов понижающего микширования и пространственных метаданных с использованием таблицы управления распределением скоростей передачи битов дополнительно содержит: идентификацию строки в таблице управления распределением скоростей передачи битов с использованием табличного индекса, который включает в себя формат входного аудиосигнала, полосу пропускания входного аудиосигнала, разрешенное инструментальное средство пространственного кодирования, переходный режим и обратно совместимый режим для понижающего мономикширования; извлечение, из идентифицированной строки таблицы управления распределением скоростей передачи битов, целевой скорости передачи битов, отношения скоростей передачи битов, минимальной скорости передачи битов и шагов отклонения скорости передачи битов, при этом отношение скоростей передачи битов указывает отношение, с которым полная скорость передачи битов должна распределяться между каналами передачи аудиосигналов понижающего микширования, минимальная скорость передачи битов представляет собой значение, ниже которого не разрешается снижение полной скорости передачи битов, и шаги отклонения скорости передачи битов представляют собой шаги уменьшения целевой скорости передачи битов, когда первый приоритет для сигналов понижающего микширования выше или равен либо ниже второго приоритета пространственных метаданных; и определение одной или более скоростей передачи битов для каналов понижающего микширования и пространственных метаданных на основе целевой скорости передачи битов, отношения скоростей передачи битов, минимальной скорости передачи битов и шагов отклонения скорости передачи битов.
[0010] В варианте осуществления, квантование пространственных метаданных для одного или более каналов входного аудиосигнала с использованием набора квантования уровней квантования выполняется в контуре квантования, который применяет стратегии все более приблизительного квантования на основе разности между целевой скоростью передачи в битах метаданных и фактической скоростью передачи в битах метаданных.
[0011] В варианте осуществления, квантование определяется в соответствии с приоритетом монокодека и приоритетом пространственных метаданных на основе свойств, извлеченных из входного аудиосигнала, и ковариационных значений в полосе частот канала.
[0012] В варианте осуществления, входной аудиосигнал представляет собой стереосигнал, и сигналы понижающего микширования включают в себя представление среднего сигнала, остатки из стереосигнала и пространственные метаданные.
[0013] В варианте осуществления, пространственные метаданные включают в себя коэффициенты прогнозирования (PR), коэффициенты кросс-прогнозирования (C) и коэффициенты декорреляции (P) для формата для модуля пространственного восстановления (SPAR) и коэффициенты прогнозирования (P) и коэффициенты декорреляции (PR) для формата улучшенной сложной связи (CACPL).
[0014] В варианте осуществления, способ кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS), при этом способ содержит: прием, с использованием одного или более процессоров, входного аудиосигнала; извлечение, с использованием одного или более процессоров, свойств входного аудиосигнала; вычисление, с использованием одного или более процессоров, пространственных метаданных для каналов входного аудиосигнала; считывание, с использованием одного или более процессоров, набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов; определение, с использованием одного или более процессоров, сочетания одной или более скоростей передачи битов для каналов понижающего микширования; определение, с использованием одного или более процессоров, уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов; квантование и кодирование, с использованием одного или более процессоров, пространственных метаданных с использованием уровня квантования метаданных; формирование, с использованием одного или более процессоров и сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования с использованием одной или более скоростей передачи битов; объединение, с использованием одного или более процессоров, битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS; и потоковую передачу или сохранение битового потока IVAS для воспроизведения на устройстве с поддержкой IVAS.
[0015] В варианте осуществления, свойства входного аудиосигнала включают в себя одно или более из полосы пропускания, данных классификации речи/музыки и данных обнаружения голосовой активности (VAD).
[0016] В варианте осуществления, число каналов понижающего микширования, которые должны кодироваться в битовый поток IVAS, выбирается на основе индикатора остаточного уровня в пространственных метаданных.
[0017] В варианте осуществления, способ кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS) дополнительно содержит: прием, с использованием одного или более процессоров, входного аудиосигнала амбиофонии первого порядка (FoA); извлечение, с использованием одного или более процессоров и скорости передачи битов IVAS, свойств входного аудиосигнала FoA, при этом одно из свойств представляет собой полосу пропускания входного аудиосигнала FoA; формирование, с использованием одного или более процессоров, пространственных метаданных для входного аудиосигнала FoA с использованием свойств сигналов FoA; выбор, с использованием одного или более процессоров, числа остаточных каналов, которые следует отправлять, на основе индикатора остаточного уровня и коэффициентов декорреляции в пространственных метаданных; получение, с использованием одного или более процессоров, табличного индекса управления распределением скоростей передачи битов на основе скорости передачи битов IVAS, полосы пропускания и числа каналов понижающего микширования; считывание, с использованием одного или более процессоров, конфигурации модуля пространственного восстановления (SPAR) из строки в таблице управления распределением скоростей передачи битов, на которую указывает табличный индекс управления распределением скоростей передачи битов; определение, с использованием одного или более процессоров, целевой скорости передачи в битах метаданных из скорости передачи битов IVAS, суммы целевых скоростей передачи битов EVS и длины заголовка IVAS; определение, с использованием одного или более процессоров, максимальной скорости передачи в битах метаданных из скорости передачи битов IVAS, суммы минимальных скоростей передачи битов EVS и длины заголовка IVAS; квантование, с использованием одного или более процессоров и контура квантования, пространственных метаданных недифференциальным во времени способом согласно первой стратегии квантования; энтропийное кодирование, с использованием одного или более процессоров, квантованных пространственных метаданных; вычисление, с использованием одного или более процессоров, первой фактической скорости передачи в битах метаданных; определение, с использованием одного или более процессоров, того, является ли первая фактическая скорость передачи в битах метаданных меньшей или равной целевой скорости передачи в битах метаданных; и в соответствии с первой фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.
[0018] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, первой полной фактической скорости передачи битов EVS посредством суммирования первого количества битов, равного разности между целевой скоростью передачи в битах метаданных и первой фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием первой полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии с первой фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных: квантование, с использованием одного или более процессоров, пространственных метаданных дифференциальным во времени способом согласно первой стратегии квантования; энтропийное кодирование, с использованием одного или более процессоров, квантованных пространственных метаданных; вычисление, с использованием одного или более процессоров, второй фактической скорости передачи в битах метаданных; определение, с использованием одного или более процессоров, того, является ли вторая фактическая скорость передачи в битах метаданных меньшей или равной целевой скорости передачи в битах метаданных; и в соответствии со второй фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.
[0019] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, второй полной фактической скорости передачи битов EVS посредством суммирования второго количества битов, равного разности между целевой скоростью передачи в битах метаданных и второй фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием второй полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии со второй фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных: квантование, с использованием одного или более процессоров, пространственных метаданных недифференциальным во времени способом согласно первой стратегии квантования; кодирование, с использованием одного или более процессоров и кодера по основанию 2, квантованных пространственных метаданных; вычисление, с использованием одного или более процессоров, третьей фактической скорости передачи в битах метаданных; и в соответствии с третьей фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.
[0020] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, третьей полной фактической скорости передачи битов EVS посредством суммирования третьего количества битов, равного разности между целевой скоростью передачи в битах метаданных и третьей фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием третьей полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии с третьей фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных: задание, с использованием одного или более процессоров, четвертой фактической скорости передачи в битах метаданных в качестве минимума из первой, второй и третьей фактических скоростей передачи в битах метаданных; определение, с использованием одного или более процессоров, того, является ли четвертая фактическая скорость передачи в битах метаданных меньшей или равной максимальной скорости передачи в битах метаданных; в соответствии с четвертой фактической скоростью передачи в битах метаданных, меньшей или равной максимальной скорости передачи в битах метаданных: определение, с использованием одного или более процессоров, того, является ли четвертая фактическая скорость передачи в битах метаданных меньшей или равной целевой скорости передачи в битах метаданных; и в соответствии с четвертой фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.
[0021] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, четвертой полной фактической скорости передачи битов EVS посредством суммирования четвертого количества битов, равного разности между целевой скоростью передачи в битах метаданных и четвертой фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием четвертой полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; и в соответствии с четвертой фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных и меньшей или равной максимальной скорости передачи в битах метаданных: выход из контура квантования.
[0022] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, пятой полной фактической скорости передачи битов EVS посредством вычитания количества битов, равного разности между четвертой фактической скоростью передачи в битах метаданных и целевой скоростью передачи в битах метаданных, из полной целевой скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием пятой фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии с четвертой фактической скоростью передачи в битах метаданных, большей максимальной скорости передачи в битах метаданных: изменение первой стратегии квантования на вторую стратегию квантования и вход в контур квантования снова с использованием второй стратегии квантования, причем вторая стратегия квантования является более приблизительной, чем первая стратегия квантования. В варианте осуществления, может использоваться третья стратегия квантования, которая гарантированно обеспечивает фактическую скорость передачи битов MD, меньшую, чем максимальная скорость передачи битов MD.
[0023] В варианте осуществления, конфигурация SPAR задается посредством строки понижающего микширования, активного флага W, флага комплексных пространственных метаданных, стратегий квантования пространственных метаданных, минимальной, максимальной и целевой скоростей передачи битов для одного или более экземпляров монокодера/декодера (кодека) с поддержкой улучшенных голосовых служб (EVS) и флага приглушения декоррелятора во временной области.
[0024] В варианте осуществления, общее фактическое число битов EVS равно числу битов IVAS минус число битов заголовка минус фактическая скорость передачи в битах метаданных, и при этом если общее число фактических битов EVS меньше общего числа целевых битов EVS, то биты извлекаются из каналов EVS в следующем порядке: Z, X, Y и W, и при этом максимальное число битов, которые могут извлекаться из любого канала, равно числу целевых битов EVS для канала минус минимальное число битов EVS для канала, и при этом если число фактических битов EVS больше числа целевых EVS-битов, то все дополнительные биты назначаются каналам понижающего микширования в следующем порядке: W, Y, X и Z, и максимальное число дополнительных битов, которые могут добавляться в любой канал, равно максимальному числу битов EVS минус число целевых битов EVS.
[0025] В варианте осуществления, способ декодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS) содержит: прием, с использованием одного или более процессоров, битового потока IVAS; получение, с использованием одного или более процессоров, скорости передачи битов IVAS из длины в битах битового потока IVAS; получение, с использованием одного или более процессоров, табличного индекса управления распределением скоростей передачи битов из битового потока IVAS; синтаксический анализ, с использованием одного или более процессоров, стратегии квантования метаданных из заголовка битового потока IVAS; синтаксический анализ и деквантование, с использованием одного или более процессоров, битов квантованных пространственных метаданных на основе стратегии квантования метаданных; задание, с использованием одного или более процессоров, фактического числа битов с поддержкой улучшенных голосовых служб (EVS), равного оставшейся длине в битах битового потока IVAS; считывание, с использованием одного или более процессоров и табличного индекса управления распределением скоростей передачи битов, записей таблицы для таблицы управления распределением скоростей передачи битов, которые содержат целевую и минимальную скорость передачи битов EVS и максимальную скорость передачи битов EVS для одного или более экземпляров EVS; получение, с использованием одного или более процессоров, фактической скорости передачи битов EVS для каждого канала понижающего микширования; и декодирование, с использованием одного или более процессоров, каждого канала EVS с использованием фактической скорости передачи битов EVS для канала; и повышающее микширование, с использованием одного или более процессоров, каналов EVS в каналы амбиофонии первого порядка (FoA).
[0026] В варианте осуществления, система содержит: один или более процессоров; и постоянный машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством одного или более процессоров, предписывают одному или более процессорам выполнять операции любого из способов, описанных выше.
[0027] В варианте осуществления, постоянный машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством одного или более процессоров, предписывают одному или более процессорам выполнять операции любого из способов, описанных выше.
[0028] Другие реализации, раскрытые в данном документе, относятся к системе, устройству и машиночитаемому носителю. Подробности раскрытых реализаций представлены на сопровождающих чертежах и в нижеприведенном описании. Другие признаки, задачи и преимущества должны стать очевидными из описания, чертежей и формулы изобретения.
[0029] Конкретные реализации, раскрытые в данном документе, обеспечивают одно или более из следующих преимуществ. Скорость передачи битов кодека IVAS распределяется между монокодеком и пространственными метаданными (MD) и между множеством экземпляров монокодека. Для определённого аудиокадра, кодек IVAS определяет режим пространственного кодирования аудио (параметрическое или остаточное кодирование). Битовый поток IVAS оптимизируется таким образом, чтобы уменьшить пространственные MD, уменьшить объем служебной информации монокодека и минимизировать потери битов до нуля.
Краткое описание чертежей
[0030] На чертежах, конкретные компоновки или упорядочения схематичных элементов, к примеру, элементов, которые представляют устройства, модули, блоки обработки инструкций и элементы данных, показаны для простоты описания. Тем не менее, специалисты в данной области техники должны понимать, что конкретное упорядочение или компоновка схематичных элементов на чертежах не имеют намерение подразумевать то, что требуется конкретный порядок или последовательность обработки или разделение процессов. Кроме того, включение схематичного элемента на чертеже не имеет намерение подразумевать то, что такой элемент требуется во всех вариантах осуществления, или то, что в некоторых реализациях признаки, представленные таким элементом, могут не быть включены или могут быть объединены с другими элементами.
[0031] Кроме того, на чертежах, на которых соединительные элементы, такие как сплошные или пунктирные линии либо стрелки, используются для иллюстрации соединения, взаимосвязи или ассоциации между двумя или более других схематичных элементов, отсутствие таких соединительных элементов не имеет намерение подразумевать то, что соединение, взаимосвязь или ассоциирование не может существовать. Другими словами, некоторые соединения, взаимосвязи или ассоциирования между элементами не показаны на чертежах с тем, чтобы не затруднять понимание изобретения. Помимо этого, для простоты иллюстрации, для представления множества соединений, взаимосвязей или ассоциаций между элементами используется один соединительный элемент. Например, если соединительный элемент представляет обмен сигналами, данными или инструкциями, специалисты в данной области техники должны понимать, что такой элемент представляет один или более трактов передачи сигналов, в зависимости от необходимости для осуществления связи.
[0032] Фиг. 1 иллюстрирует варианты использования для кодека IVAS, согласно варианту осуществления.
[0033] Фиг. 2 является блок-схемой системы для кодирования и декодирования битовых потоков IVAS согласно варианту осуществления.
[0034] Фиг. 3 является блок-схемой кодера/декодера («кодека») на основе амбиофонии первого порядка (FoA) для модуля пространственного восстановления (SPAR) для кодирования и декодирования битовых потоков IVAS в формате FoA согласно варианту осуществления.
[0035] Фиг. 4A является блок-схемой сигнальной цепочки IVAS для входных сигналов FoA и стереосигналов, согласно варианту осуществления.
[0036] Фиг. 4B является блок-схемой альтернативной сигнальной цепочки IVAS для входных сигналов FoA и стереосигналов, согласно варианту осуществления.
[0037] Фиг. 5A является блок-схемой процесса распределения скоростей передачи битов для входных стереосигналов, плоских FoA и сигналов FoA согласно варианту осуществления.
[0038] Фиг. 5B и 5C являются блок-схемой процесса распределения скоростей передачи битов для входных сигналов FoA для модуля пространственного восстановления (SPAR), согласно варианту осуществления.
[0039] Фиг. 6 является блок-схемой процесса распределения скоростей передачи битов для входных стереосигналов, плоских FoA и сигналов FoA, согласно варианту осуществления.
[0040] Фиг. 7 является блок-схемой для процесса распределения скоростей передачи битов для входного сигнала FoA SPAR, согласно варианту осуществления.
[0041] Фиг. 8 является блок-схемой примерной архитектуры устройства, согласно варианту осуществления.
[0042] Одинаковые ссылочные позиции, используемые на различных чертежах, указывают на аналогичные элементы.
Осуществление изобретения
[0043] В нижеприведенном подробном описании приведено множество конкретных подробностей для обеспечения полного понимания различных описанных вариантов осуществления. Специалистам в данной области техники должно быть очевидным, что различные описанные реализации могут осуществляться на практике без этих конкретных подробностей. В других случаях, хорошо известные способы, процедуры, компоненты и схемы не описаны подробно с тем, чтобы не затруднять понимание аспектов вариантов осуществления. Ниже описано множество признаков, которые могут использоваться независимо друг от друга либо с любым сочетанием других признаков.
Терминология
[0044] При использовании в данном документе термин «включает в себя» и его разновидности следует читать как неисключающие термины, которые означают «включает в себя, не ограничиваясь». Термин «или» следует читать как «и/или», если контекст явным образом не указывает иное. Термин «на основе» следует трактовать как «по меньшей мере частично на основе». Термин «одна примерная реализация» и «примерная реализация» следует читать как «по меньшей мере одна примерная реализация». Термин «другая реализация» следует читать как «по меньшей мере одна другая реализация». Термины «определенный», «определяет» или «определение» следует читать как получение, прием, расчет, вычисление, оценка, прогнозирование или извлечение. Помимо этого, в нижеприведенном описании и в формуле изобретения, если не указано иное, все технические и научные термины, используемые в данном документе, имеют тот же смысл, в котором их обычно понимают специалисты в той области техники, к которой относится данное изобретение.
Примеры вариантов использования IVAS
[0045] Фиг. 1 иллюстрирует варианты 100 использования для кодека 100 IVAS согласно одной или более реализациям. В некоторых реализациях, различные устройства обмениваются данными через сервер 102 вызовов, который выполнен с возможностью приёма аудиосигналов, например, из коммутируемой телефонной сети общего пользования (PSTN) или наземной сети мобильной связи общего пользования (PLMN), проиллюстрированной посредством PSTN/другой PLMN 104. Варианты 100 использования поддерживают ранее созданные устройства 106, которые выполняют рендеринг и захватывают только аудио в моно, включающие в себя, не ограничиваясь: устройства, которые поддерживают улучшенные голосовые службы (EVS), стандарт широкополосного адаптивного многоскоростного кодирования (AMR-WB) и стандарт узкополосного адаптивного многоскоростного кодирования (AMR-NB). Варианты 100 использования также поддерживают абонентское устройство 108, 114 (UE), которое захватывает и выполняет рендеринг стереоаудиосигналов, или UE 110, которое захватывает и выполняет бинауральный рендеринг моносигналов в многоканальные сигналы. Варианты 100 использования также поддерживают иммерсивные и стереосигналы, захваченные и подготовленные посредством рендеринга посредством систем 116, 118 в видеоконференц-залах, соответственно. Варианты 100 использования также поддерживают стереозахват и иммерсивный рендеринг стереоаудиосигналов для систем 120 домашнего кинотеатра и компьютера 112 и монозахват и иммерсивный рендеринг аудиосигналов для гарнитуры 122 системы виртуальной реальности (VR) и модуля 124 поглощения иммерсивного содержимого.
Примерные системы кодирования/декодирования IVAS
[0046] Фиг. 2 является блок-схемой системы 200 для кодирования и декодирования битовых потоков IVAS согласно одной или более реализациям. Для кодирования, кодер IVAS включает в себя модуль 202 пространственного анализа и понижающего микширования, который принимает аудиоданные 201, включающие в себя, не ограничиваясь: моносигналы, стереосигналы, бинауральные сигналы, пространственные аудиосигналы (например, многоканальные пространственные аудиообъекты), FoA, амбиофонию высшего порядка (HoA) и любые другие аудиоданные. В некоторых реализациях, модуль 202 пространственного анализа и понижающего микширования реализует улучшенную сложную связь (CACPL) для анализа/понижающего микширования аудиосигналов стерео/FoA- и/или SPAR для анализа/понижающего микширования аудиосигналов FoA. В других реализациях, модуль 202 пространственного анализа и понижающего микширования реализует другие форматы.
[0047] Вывод модуля 202 пространственного анализа и понижающего микширования включает в себя пространственные метаданные и 1-N каналов понижающего микширования аудио, где N является числом входных каналов. Пространственные метаданные вводятся в модуль 203 квантования и энтропийного кодирования, который квантует и выполняет энтропийное кодирование пространственных данных. В некоторых реализациях, квантование может включать в себя несколько уровней все более приблизительного квантования, таких как, например, стратегии точного, среднего, приблизительного и сверхприблизительного квантования, и энтропийное кодирование может включать в себя кодирование кодом Хаффмана или арифметическое кодирование. Модуль 206 кодирования с поддержкой улучшенных голосовых служб (EVS) кодирует 1-N каналов аудио в один или более битовых потоков EVS.
[0048] В некоторых реализациях, модуль 206 кодирования EVS соответствует 3GPP TS 26.445 и обеспечивает широкий диапазон функциональностей, к примеру, повышенное качество и эффективность кодирования для узкополосных (EVS-NB) и широкополосных (EVS-WB) речевых служб, повышенное качество с использованием сверхширокополосной (EVS-SWB) речи, повышенное качество для микшированного содержимого и музыки в разговорных вариантах применения, устойчивость к потерям пакетов и дрожанию времени задержки и обратную совместимость с кодеком AMR-WB. В некоторых реализациях, модуль 206 кодирования EVS включает в себя модуль предварительной обработки и выбора режима, который выбирает между речевым кодером для кодирования речевых сигналов и перцепционным кодером для кодирования аудиосигналов на указанной скорости передачи битов на основе управления 207 режимом/скоростью передачи битов. В некоторых реализациях, речевой кодер представляет собой улучшенный вариант линейного прогнозирования с возбуждением по алгебраическому коду (ACELP), расширенного со специализированными режимами на основе линейного прогнозирования (LP) для различных речевых классов. В некоторых реализациях, аудиокодер представляет собой кодер на основе модифицированного дискретного косинусного преобразования (MDCT) с повышенной эффективностью при низкой задержке/на низких скоростях передачи битов и проектируется с возможностью выполнения прозрачного и надежного переключения между речевыми и аудиокодерами.
[0049] В некоторых реализациях, декодер IVAS включает в себя модуль 204 квантования и энтропийного декодирования, выполненный с возможностью восстановления пространственных метаданных, и декодер(ы) 208 EVS, выполненный(е) с возможностью восстанавливать 1-N канальных аудиосигналов. Восстановленные пространственные метаданные и аудиосигналы вводятся в модуль 209 пространственного синтеза/рендеринга, который синтезирует/выполняет рендеринг аудиосигналов с использованием пространственных метаданных для воспроизведения на различных аудиосистемах 210.
Примерный кодек IVAS/SPAR
[0050] Фиг. 3 является блок-схемой кодека 300 FoA для кодирования и декодирования FoA в формате SPAR, согласно некоторым реализациям. Кодек 300 FoA включает в себя кодер 301 FoA SPAR, кодер 305 EVS, декодер 306 FoA SPAR и декодер 307 EVS. Кодер 301 FoA SPAR преобразует входной сигнал FoA в набор каналов понижающего микширования и параметры, используемые для повторного формирования входного сигнала в декодере 306 FoA SPAR. Сигналы понижающего микширования могут варьироваться от 1 до 4 каналов, и параметры включают в себя коэффициенты прогнозирования (PR), коэффициенты кросс-прогнозирования (C) и коэффициенты декорреляции (P). Следует отметить, что SPAR представляет собой процесс, используемый для восстановления аудиосигнала из микшированной с понижением версии аудиосигнала с использованием параметров PR, C и P, как подробнее описано ниже.
[0051] Следует отметить, что примерная реализация, показанная на фиг. 3, иллюстрирует номинальное двухканальное понижающее микширование, при котором канал W (пассивный прогнозный) или W' (активный прогнозный) отправляется с одним прогнозированным каналом Y' в декодер 306. В некоторых реализациях, W может представлять собой активный канал. Активный канал W обеспечивает возможность некоторого микширования каналов X, Y, Z в канал W следующим образом:
W'=W+f*pry*Y+f*prz*Z+f*prx*X,
где f является константой (например, 0,5), которая обеспечивает возможность микширования некоторых каналов X, Y, Z в канал W, и pry, prx и prz являются коэффициентами прогнозирования (PR). В пассивном W, f=0, так что отсутствует микширование каналов X, Y, Z в канал W.
[0052] Коэффициенты кросс-прогнозирования (C) обеспечивают возможность восстановления некоторой части параметрических каналов из остаточных каналов, в случаях, если по меньшей мере один канал отправляется в качестве остатка, и по меньшей мере один отправляется параметрически, т. е. для двух- или трехканальных понижающих микширований. Для двухканальных понижающих микширований (как подробнее описано ниже), коэффициенты C обеспечивают возможность восстановления некоторых каналов X и Z из Y', и оставшиеся каналы восстанавливаются посредством декоррелированных версий канала W, как подробнее описано ниже. В случае трехканального понижающего микширования, Y' и X' используются для восстановления только Z.
[0053] В некоторых реализациях, кодер 301 FoA SPAR включает в себя модуль 302 пассивного/активного прогнозирования, модуль 303 повторного микширования и модуль 304 извлечения/выбора понижающего микширования. Модуль пассивного/активного прогнозирования принимает каналы FoA в 4-канальном формате B (W, Y, Z, X) и вычисляет каналы понижающего микширования (представление W, Y', Z', X').
[0054] Модуль 304 извлечения/выбора понижающего микширования извлекает SPAR метаданные FoA из секции рабочих данных метаданных битового потока IVAS, как подробнее описано ниже. Модуль 302 пассивного/активного прогнозирования и модуль 303 повторного микширования используют SPAR метаданные FoA для формирования повторно микшированных каналов FoA (W или W' и A'), которые вводятся в кодер 305 EVS для кодирования в битовый поток EVS, который инкапсулирован в битовом потоке IVAS, отправленном в декодер 306. В этом примере следует отметить, что амбиофонические каналы в формате B компонуются согласно условному обозначению AmbiX. Тем не менее, также могут использоваться другие условные обозначения, к примеру, условное обозначение Фурса-Малхама (FuMa) (W, X, Y, Z).
[0055] Что касается SPAR -декодера 306 FoA, битовый поток EVS декодируется посредством декодера 307 EVS, приводя к N_dmx (например, N_dmx=2) каналов понижающего микширования. В некоторых реализациях, декодер 306 FoA SPAR выполняет в обратном порядке операции, выполняемые посредством кодера 301 SPAR. Например, в примере по фиг. 3 повторно микшированные каналы FoA (представление W', A', B', C') восстанавливаются из 2 каналов понижающего микширования с использованием пространственных метаданных FoA SPAR. Повторно микшированные каналы FoA SPAR вводятся в обратный микшер 311 для восстановления каналов FoA SPAR понижающего микширования (представление W', Y', Z', X'). Прогнозированные каналы FoA SPAR затем вводятся в модуль 312 обратного прогнозирования, чтобы восстанавливать исходные немикшированные каналы FoA SPAR (W, Y, Z, X).
Следует отметить, что в этом двухканальном примере, блоки 309A (dec1) и 309B (dec2) декоррелятора используются для формирования декоррелированных версий канала W с использованием декоррелятора во временной области или в частотной области. Каналы понижающего микширования и декоррелированные каналы используются в сочетании с -метаданными FoA SPAR для восстановления каналов X и Z полностью или параметрически. Блок 308 C означает умножение остаточного канала на матрицу коэффициентов C 2×1, с созданием двух кросс-прогнозных сигналов, которые суммируются в параметрически восстановленные каналы, как показано на фиг. 3. Блок 310A P1 и блок 310B P2 означают умножение выводов декоррелятора на столбцы матрицы коэффициентов P 2×2, с созданием четырех выводов, которые суммируются в параметрически восстановленные каналы, как показано на фиг. 3.
[0056] В некоторых реализациях, в зависимости от числа каналов понижающего микширования, один из вводов FoA отправляется в декодер 306 FoA SPAR нетронутым (канал W), и один-три других канала (Y, Z и X) отправляются в качестве остатков или полностью параметрически в декодер 306 FoA SPAR. Коэффициенты PR, которые остаются одинаковыми независимо от числа N каналов понижающего микширования, используются для минимизации прогнозируемой энергии в каналах остаточного понижающего микширования. Коэффициенты C используются для дополнительной помощи при повторном формировании полностью параметрических каналов из остатков. В связи с этим, коэффициенты C не требуются в случаях одно- и четырехканального понижающего микширования, в которых отсутствуют остаточные каналы или параметризованные каналы для прогнозирования. Коэффициенты P используются для заполнения оставшейся энергии, не учитываемой коэффициентами PR и C. Число коэффициентов P зависит от числа N каналов понижающего микширования в каждой полосе частот. В некоторых реализациях, коэффициенты PR SPAR (только пассивный W) вычисляются следующим образом.
[0057] Этап 1. Прогнозирование всех боковых сигналов (Y, Z, X) из основного сигнала W с использованием уравнения [1].
, [1]
где, в качестве примера, параметр прогнозирования для прогнозированного канала Y' вычисляется с использованием уравнения [2].
, [2]
где являются элементами входной ковариационной матрицы, соответствующими сигналам A и B, и могут вычисляться в расчете на полосу частот. Аналогично, остаточные Z'- и X'-каналы имеют соответствующие параметры прогнозирования, prz и prx. PR является вектором коэффициентов прогнозирования.
[0058] Этап 2. Повторное микширование сигнала W и прогнозированных сигналов (Y', Z', X') от наиболее к наименее акустически релевантным, при этом «повторное микширование» означает переупорядочение или повторное объединение сигналов на основе некоторой технологии,
. [3]
[0059] Одна реализация повторного микширования представляет собой переупорядочение входных сигналов в W, Y', X', Z', при таком допущении, что сигнальные аудиометки слева и справа являются более акустически релевантными, чем спереди назад, и сигнальные метки спереди назад являются более акустически релевантными, чем сигнальные метки сверху вниз.
[0060] Этап 3. Вычисление ковариации четырехканального постпрогнозирования и понижающего микширования с повторным микшированием, как показано в уравнениях [4] и [5].
[4]
. [5]
где d представляет остаточные каналы (т. е. второй - N_dmx-ый каналы), и u представляет параметрические каналы, которые должны полностью повторно формироваться (т. е. (N_dmx+1)-ый - четвертый каналы).
[0061] Для примера понижающего микширования WABC с 1-4 каналами, d и u представляют следующие каналы, показанные в таблице I:
Таблица I. Представления d- и u-каналов
[0062] Основной интерес при вычислении метаданных FoA SPAR представляют величины R_dd, R_ud и R_uu. Из величин R_dd, R_ud и R_uu, кодек 300 определяет, можно ли кросс-прогнозировать какую-либо оставшуюся часть полнопараметрических каналов из остаточных каналов, отправляемых в декодер. В некоторых реализациях, требуемые дополнительные коэффициенты C задаются следующим образом:
[6]
[0063] Следовательно, параметр C имеет форму (1×2) для трехканального понижающего микширования и (2×1) для двухканального понижающего микширования.
[0064] Этап 4. Вычисление оставшейся энергии в параметризованных каналах, которые должны восстанавливаться посредством декорреляторов 309A, 309B. Остаточная энергия в каналах Res_uu повышающего микширования представляет собой разность между фактической энергией R_uu (постпрогнозирования) и повторно сформированной энергией Reg_uu кросс-прогнозирования.
, [7]
[8]
. [9]
В варианте осуществления, квадратный корень матрицы извлекается после того, как нормализованная матрица Resuu имеет внедиагональные элементы, заданные равными нулю. P также представляет собой ковариационную матрицу, в силу чего является эрмитово-симметричной, и в силу этого только параметры из верхнего или нижнего треугольника должны отправляться в декодер 306. Диагональные записи являются действительными, в то время как внедиагональные элементы могут быть комплексными. В варианте осуществления, коэффициенты P дополнительно могут разделяться на диагональные и внедиагональные элементы P_d и P_o.
Примерная сигнальная цепочка IVAS (FoA или стереоввод)
[0065] Фиг. 4A является блок-схемой сигнальной цепочки 400 IVAS для входных аудиосигналов FoA и стерео согласно варианту осуществления. В этой примерной конфигурации, аудиоввод в сигнальную цепочку 400 может представлять собой четырехканальный аудиосигнал FoA или двухканальный стереоаудиосигнал. Модуль 401 понижающего микширования формирует аудиоканалы понижающего микширования (dmx_ch) и пространственные MD. Каналы понижающего микширования вводятся в модуль 402 распределения скоростей передачи битов (BR), который выполнен с возможностью квантования пространственных MD и обеспечения скоростей передачи битов монокодека для аудиоканалов понижающего микширования с использованием таблицы управления BR-распределением и скорости передачи битов IVAS, как подробно поясняется ниже. Вывод модуля 402 распределения BR вводится в модуль 403 EVS, который кодирует аудиоканалы понижающего микширования в битовый поток EVS. Битовый поток EVS и квантованные и кодированные пространственные MD вводятся в модуль 405 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройствах IVAS.
[0066] Для входных стереосигналов модуль 401 понижающего микширования выполнен с возможностью формирования представления среднего сигнала (M'), остатки (Re) из стереосигнала и пространственные MD. Пространственные MD включают в себя коэффициенты PR, C и P для SPAR и коэффициенты PR и P для CACPL, как подробнее описано ниже. Сигнал M', Re, пространственные MD и таблица управления распределением BR вводятся в модуль 402 распределения BR (скоростей передачи битов), который выполнен с возможностью квантования пространственных метаданных и обеспечения скоростей передачи битов монокодека для каналов понижающего микширования с использованием характеристик сигналов сигнала M' и таблицы управления распределением BR. Сигнал M', Re и BR монокодека вводятся в модуль 403 EVS, который кодирует сигнал M' и Re в битовый поток EVS. Битовый поток EVS и квантованные и кодированные пространственные MD вводятся в модуль 405 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройствах IVAS.
[0067] Для входных сигналов FoA модуль 401 понижающего микширования выполнен с возможностью формирования 1-4 канала W', Y', X' и Z' понижающего микширования FoA и пространственные MD. Пространственные MD включают в себя коэффициенты PR, C и P для SPAR и коэффициенты PR и P для CACPL, как подробнее описано ниже. 1-4 канала (W', Y', X', Z') понижающего микширования FoA вводятся в модуль 402 распределения BR, который выполнен с возможностью квантования пространственных MD и обеспечения скоростей передачи битов монокодека для канала(ов) понижающего микширования FoA с использованием характеристик сигналов канала(ов) понижающего микширования FoA и таблицы управления BR-распределением. Канал(ы) понижающего микширования FoA вводится(ятся) в модуль 403 EVS, который кодирует канал(ы) понижающего микширования FoA в битовый поток EVS. Битовый поток EVS и квантованные и кодированные пространственные MD вводятся в модуль 405 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройствах IVAS. Декодер IVAS может выполнять в обратном порядке операции, выполняемые кодером IVAS, для восстановления входных аудиосигналов для воспроизведения на устройстве IVAS.
[0068] Фиг. 4B является блок-схемой альтернативной сигнальной цепочки 405 IVAS для входных аудиосигналов FoA и стерео согласно варианту осуществления. В этой примерной конфигурации аудиоввод в сигнальную цепочку 405 может представлять собой четырехканальный аудиосигнал FoA или двухканальный стереоаудиосигнал. В этом варианте осуществления, препроцессор 406 извлекает свойства сигналов из входных аудиосигналов, такие как полоса пропускания (BW), данные классификации речи/музыки, данные обнаружения голосовой активности (VAD) и т. д.
[0069] Модуль 407 обработки пространственных MD формирует пространственные MD из входного аудиосигнала с использованием извлеченных свойств сигналов. Входной аудиосигнал, свойства сигналов и пространственные MD вводятся в модуль 408 BR-распределения, который выполнен с возможностью квантования пространственных MD и обеспечения скоростей передачи битов монокодека для аудиоканалов понижающего микширования с использованием таблицы управления BR-распределением и скорости передачи битов IVAS, подробно описанных ниже.
[0070] Входные аудиосигналы, квантованные пространственные MD и число каналов (d_dmx) понижающего микширования, выводимые посредством модуля 408 BR-распределения, вводятся в модуль 409 понижающего микширования, который формирует канал(ы) понижающего микширования. Например, для сигналов FoA, каналы понижающего микширования могут включать в себя W' и N_dmx-1 остатков (Re).
[0071] Скорости передачи битов EVS, выводимые посредством модуля 408 BR-распределения, и канал(ы) понижающего микширования вводятся в модуль 410 EVS, который кодирует канал(ы) понижающего микширования в битовый поток EVS. Битовый поток EVS и квантованные кодированные пространственные MD вводятся в модуль 411 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройств IVAS. Декодер IVAS может выполнять в обратном порядке операции, выполняемые кодером IVAS, для восстановления входных аудиосигналов для воспроизведения на устройстве IVAS.
Примерная стратегия управления распределением скоростей передачи битов
[0072] В варианте осуществления, стратегия управления распределением скоростей передачи битов IVAS включает в себя два компонента. Первый компонент представляет собой таблицу управления распределением BR, которая обеспечивает начальные условия для процесса управления распределением BR. Индекс в таблицу управления распределением BR определяется посредством конфигурационных параметров кодека. Конфигурационные параметры кодека могут включать в себя скорость передачи битов IVAS, входной формат, такой как стереоформат, FoA, плоский FoA или любой другой формат, полосу пропускания аудиосигнала (BW), режим пространственного кодирования (или число Nre остаточных каналов), приоритет монокодека и пространственных MD. Для стереокодирования, Nre=0 соответствует полнопараметрическому (FP) режиму, и Nre=1 соответствует средне-остаточному (MR) режиму. В варианте осуществления, табличный индекс управления распределением BR указывает на целевую, минимальную и максимальную скорости передачи битов монокодека для каждого из каналов понижающего микширования и множество стратегий квантования (например, точное, среднеприблизительное, приблизительное) для кодирования пространственных MD. В другом варианте осуществления, табличный индекс управления распределением BR указывает на полную целевую и минимальную скорость передачи битов для всех экземпляров монокодека, отношение, с которым доступная скорость передачи битов должна разделяться между всеми каналами понижающего микширования, и несколько стратегий квантования, чтобы кодировать пространственные MD. Второй компонент стратегии управления распределением скоростей передачи битов IVAS представляет собой процесс, который использует выводы таблицы управления распределением BR и свойства входных аудиосигналов для определения уровней квантования и скорости передачи в битах пространственных метаданных, а также скорости передачи битов каждого канала понижающего микширования, как описано в отношении фиг. 5A и 5B.
Процесс распределения скоростей передачи битов: общее представление
[0073] Основные компоненты обработки процессов распределения скоростей передачи битов, раскрытых в данном документе, включают в себя:
- обнаружение полосы пропускания аудиосигнала (BW) (например, узкая полоса частот (NB), широкая полоса частот (WB), сверхширокая полоса частот (SWB), полная полоса частот (FB)). На этом этапе обнаруживается BW среднего или сигнала W, и метаданные квантуются соответствующим образом. EVS затем обрабатывает IVAS BW в качестве верхнего предела и кодирует каналы понижающего микширования соответствующим образом;
- извлечение свойств входных аудиосигналов (например, речь или музыка);
- выбор режима пространственного кодирования (например, полнопараметрический (FP), средне-остаточный (MR)) или числа остаточных каналов, N_re, при этом для стереокодирования выбирается режим FP, если N_re=0, и выбирается режим MR, если N_re=1;
- решение по приоритету монокодека и пространственных MD: целевая скорость передачи битов, минимальная и максимальная скорости передачи битов для каждого канала понижающего микширования или отношения, с которыми полная скорость передачи битов монокодека должна разделяться между каналами понижающего микширования.
Обнаружение BW аудиосигнала
[0074] Этот компонент обнаруживает BW среднего или сигнала W. В варианте осуществления, кодек IVAS использует детектор EVS BW, описанный в EVS TS 26.445.
Извлечение свойств входных сигналов
[0075] Этот компонент классифицирует каждый кадр входного аудиосигнала в качестве речи или музыки. В варианте осуществления, кодек IVAS использует классификатор EVS речи/музыки, как описано в EVS TS 26.445.
Решение по приоритету монокодека относительно пространственных MD
[0076] Этот компонент определяет приоритет монокодека по сравнению с пространственными MD на основе свойств сигналов понижающего микширования. Примеры свойств сигналов понижающего микширования включают в себя речь или музыку, как определено посредством данных классификатора речи/музыки, и ковариационные оценки в полосе средних (M-S) частот для стерео- и ковариационные оцени в полосе частот W-Y, W-X, W-Z-канала для FoA. Данные классификатора речи/музыки могут использоваться для обеспечения более высокого приоритета монокодеку, если входной аудиосигнал представляет собой музыку, и ковариационные оценки могут использоваться для обеспечения большего приоритета пространственным MD, когда входной аудиосигнал жестко панорамируется.
[0077] В варианте осуществления, решение по приоритету вычисляется для каждого кадра входного аудиосигнала. Для данной скорости передачи битов IVAS, BW среднего или сигнала W и входной конфигурации, распределение скоростей передачи битов начинается с целевыми или требуемыми скоростями передачи битов для каналов понижающего микширования (например, скорость передачи битов монокодека определяется согласно субъективной или объективной оценки), присутствующих в таблице управления BR-распределением, и стратегии самого точного квантования для метаданных. Если начальное условие не вписывается в данный бюджет по скорости передачи битов IVAS, то скорость передачи битов монокодека или уровень квантования пространственных MD либо оба из означенного уменьшаются итеративно в контуре квантования на основе их соответствующих приоритетов до тех пор, пока они оба не вписываются в бюджет по скорости передачи битов IVAS.
Распределение скоростей передачи битов между каналами понижающего микширования
Полнопараметрический по сравнению со средне-остаточным
[0078] В режиме FP, только -канал M' или W' кодируется посредством монокодека, и дополнительные параметры кодируются в пространственных MD, указывающих уровень остаточного канала или уровень декорреляции, которая должна добавляться посредством декодера. Для скоростей передачи битов, при которых FP и MR являются целесообразными, процесс распределения BR IVAS динамически выбирает число остаточных каналов, которые должны кодироваться посредством монокодека и передаваться/передаваться в потоковом режиме в декодер, на основе пространственных MD на покадровой основе. Если уровень любого остаточного канала выше порогового значения, то этот остаточный канал кодируется посредством монокодека; в противном случае, процесс выполняется в FP-режиме. Обработка переходных кадров выполняется для сброса буферов состояния кодека, когда число остаточных каналов, которые должны кодироваться посредством монокодека, изменяется.
Распределение скоростей передачи битов при понижающем MR-микшировании
[0079] Оценка с помощью прослушивания проведена с различными входными сигналами и распределениями скоростей передачи битов между средним каналом и остаточным каналом. На основе сфокусированных тестов на основе прослушивания, наиболее эффективное отношение скоростей передачи битов среднего и остаточного канала составляет 3:2. Тем не менее, другие отношения могут использоваться на основе требований варианта применения. В варианте осуществления, распределение скоростей передачи битов использует фиксированное отношение, которое настраивается дополнительно на фазе настройки. Во время итеративного процесса выбора стратегии квантования и BR для каналов понижающего микширования, BR для каждого канала понижающего микширования модифицируется согласно данному отношению.
[0080] В варианте осуществления, вместо поддержания фиксированного отношения между скоростями передачи битов канала понижающего микширования, целевая скорость передачи битов и минимальная и максимальная скорости передачи битов для каждого канала понижающего микширования отдельно перечисляются в таблице управления BR-распределением. Эти скорости передачи битов выбираются на основе тщательных субъективных и объективных оценок. Во время итеративного процесса выбора стратегии квантования и BR для каналов понижающего микширования, биты добавляются или извлекаются из каналов понижающего микширования на основе приоритета всех каналов понижающего микширования. Приоритет каналов понижающего микширования может быть фиксированным или динамическим на покадровой основе. В варианте осуществления, приоритет каналов понижающего микширования является фиксированным.
Процесс распределения скоростей передачи битов: последовательность операций процесса
[0081] Фиг. 5A является блок-схемой процесса 500 распределения скоростей передачи битов для входных стереосигналов и сигналов FoA, согласно варианту осуществления. Вводы в процесс 500 представляют собой скорость передачи битов IVAS, константы (например, таблицу управления распределением скоростей передачи битов, скорость передачи битов IVAS), каналы понижающего микширования, пространственные MD, входной формат (например, стерео, FoA, плоский FoA) и принудительные параметры командной строки (например, максимальную полосу пропускания, режим кодирования, обратно совместимый режим EVS для понижающего мономикширования). Выводы процесса 500 представляют собой скорость передачи битов EVS для каждого канала понижающего микширования, уровни квантования метаданных и биты кодированных метаданных. Следующие этапы выполняются в качестве части процесса 500.
Извлечение аудиопризнаков понижающего микширования
[0082] На этапе 501, следующие свойства сигналов извлекаются из входного аудиосигнала: полоса пропускания (например, узкая полоса частот, широкая полоса частот, сверхширокая полоса частот, полная полоса частот) и данные классификации речи/музыки, данные обнаружения голосовой активности (VAD). Полоса пропускания (BW) представляет собой минимум фактической полосы пропускания входного аудиосигнала и максимальной полосы пропускания для командной строки, указываемый пользователем. В варианте осуществления, аудиосигнал понижающего микширования может иметь формат с импульсно-кодовой модуляцией (PCM).
Определение табличного индекса
[0083] На этапе 502, процесс 500 извлекает табличные индексы управления распределением скоростей передачи битов IVAS из таблицы управления распределением скоростей передачи битов IVAS с использованием скорости передачи битов IVAS. На этапе 503, процесс 500 определяет табличные индексы входных форматов на основе параметров сигналов, извлеченных на этапе 501 (т.е. BW и классификации речи/музыки), формата входных аудиосигналов, табличных индексов управления распределением скоростей передачи битов IVAS, извлеченных на этапе 502, и режима EVS обратной совместимости для понижающего мономикширования. На этапе 504, процесс 500 выбирает режим пространственного кодирования (т. е. FP или MR) или число остаточных каналов (т. е. N_re=0-3) на основе табличных индексов управления распределением скоростей передачи битов, переходного режима кодирования аудио и пространственных MD. На этапе 505, процесс 500 определяет конечный точный табличный индекс на основе шести параметров, описанных выше. В варианте осуществления, выбор режима пространственного кодирования аудио на этапе 504 основан на индикаторе остаточного канального уровня в пространственных MD. Режим пространственного кодирования аудио указывает либо MR-режим кодирования, в котором представление среднего или канала W (M' или W') сопровождается одним или более остаточными каналами в микшированном с понижением аудиосигнале, либо режим кодирования FP, в котором только представление среднего или канала W (M' или W') присутствует в микшированном с понижением аудиосигнале. В варианте осуществления, переходный режим кодирования аудио задается равным 1, если режим пространственного кодирования аудио в предыдущем кадре включает в себя кодирование остаточных каналов, в то время как текущий кадр требует только канального M'- или W'-кодирования. В противном случае, переходный режим кодирования аудио задается равным 0. Если число остаточных каналов, которые должны кодироваться, отличается между текущим кадром и предыдущим кадром, переходный режим кодирования аудио задается равным 1.
Вычисление приоритета монокодека и пространственных MD
[0084] На этапе 506, процесс 500 определяет приоритет монокодека/пространственных MD на основе свойств входных аудиосигналов, извлеченных на этапе 1, и ковариационных оценок в полосе средних частот или в полосе частот W-Y, W-X, W-Z-канала, или в полосе частот W-Y, W-X, W-Z-канала. В варианте осуществления, предусмотрено четыре возможных результата в отношении приоритета: высокий приоритет монокодека и низкий приоритет пространственных MD, низкий приоритет монокодека и высокий приоритет пространственных MD, высокий приоритет монокодека и высокий приоритет пространственных MD; и низкий приоритет монокодека и низкий приоритет пространственных MD.
Извлечение связанных со скоростью передачи битов монокодека переменных из таблицы
[0085] На этапе 507, следующие параметры считываются из записи таблицы, на которую указывает конечный табличный индекс, вычисленный на этапе 505: целевая скорость передачи битов монокодека (EVS), отношение скоростей передачи битов, минимальная скорость передачи битов EVS и шаги отклонения скорости передачи битов EVS. Фактическая скорость передачи битов монокодека (EVS) может быть выше или ниже целевой скорости передачи битов монокодека (EVS), указываемой в таблице управления BR-распределением, в зависимости от приоритета монокодека/пространственных MD, определенного на этапе 506, и скорости передачи битов пространственных MD с различными уровнями квантования. Отношение скоростей передачи битов указывает отношение, с которым полная скорость передачи битов EVS должна распределяться между каналами передачи входных аудиосигналов. Минимальная скорость передачи битов EVS представляет собой значение, ниже которого не разрешается снижение полной скорости передачи битов EVS. Шаги отклонения скорости передачи битов EVS представляют собой шаги уменьшения целевой скорости передачи битов EVS, когда приоритет EVS выше или равен либо ниже приоритета пространственных MD.
Вычисление наилучшей скорости передачи битов EVS и уровня квантования метаданных на основе входных параметров
[0086] На этапе 508, оптимальная скорость передачи битов EVS и стратегия квантования метаданных вычисляется на основе входных параметров, полученных на этапах 501-503, согласно следующим подэтапам. Высокая скорость передачи битов для каналов понижающего микширования и стратегия приблизительного квантования могут приводить к пространственным проблемам, в то время как стратегия точного квантования и низкая скорость передачи битов аудиоканала понижающего микширования могут приводить к артефактам кодирования монокодека. «Оптимальный» при использовании в данном документе представляет собой наиболее сбалансированное распределение скорости передачи битов IVAS между скоростью передачи битов EVS и уровнем квантования метаданных при использовании всех доступных битов в бюджете по скорости передачи битов IVAS или по меньшей мере значительном уменьшении потерь битов.
[0087] Этап 508.1: Квантование метаданных с самым точным уровнем квантования и проверка условия 508.a (показано ниже). Если условие 508.a является истинным, то выполнение этапа 508.b (показано ниже). В противном случае, переход к этапу 508.2 или 508.3, или 508.4, на основе приоритетов, вычисленных на этапе 503.
[0088] Этап 508.2: Если приоритет EVS является высоким, и приоритет пространственных MD является низким, то уменьшение уровня квантования пространственных MD и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, уменьшение целевой скорости передачи битов EVS на основе этапа 507 (шагов отклонения скорости передачи битов EVS) и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b, иначе повторение этапа 508.2.
[0089] Этап 508.3: Если приоритет EVS является низким, и приоритет пространственных MD является высоким, то уменьшение целевой скорости передачи битов EVS на основе этапа 507 (шагов отклонения скорости передачи битов EVS) и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, уменьшение уровня квантования пространственных MD и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, повторение этапа 508.3.
[0090] Этап 508.4: Если приоритет EVS равен приоритету пространственных MD, то уменьшение целевой скорости передачи битов EVS на основе этапа 507 (шагов отклонения скорости передачи битов EVS) и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, уменьшение уровня квантования пространственных метаданных и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b, иначе повторение этапа 5.4.
[0091] Условие 508.a, упомянутое выше, проверяет, является ли сумма скорости передачи в битах метаданных, целевой скорости передачи битов EVS и служебных битов меньшей или равной скорости передачи битов IVAS.
[0092] Этап 508.b, упомянутый выше, вычисляет скорость передачи битов EVS как равную скорости передачи битов IVAS минус скорость передачи в битах метаданных минус служебные биты. Скорость передачи битов EVS затем распределяется между аудиоканалами понижающего микширования согласно отношению скоростей передачи битов, упомянутому на этапе 507.
[0093] Если минимальная целевая скорость передачи битов EVS и самый приблизительный уровень квантования не вписываются в бюджет по скорости передачи битов IVAS, то процесс 500 распределения скоростей передачи битов выполняется с более низкой полосой пропускания.
[0094] В варианте осуществления, табличный индекс и информация уровня квантования метаданных включаются в служебные биты битового потока IVAS, отправленного в декодер IVAS. Декодер IVAS считывает табличный индекс и уровень квантования метаданных из служебных битов в битовом потоке IVAS и декодирует пространственные MD. Это оставляет для декодера IVAS только обработку битов EVS в битовом потоке IVS. Биты EVS разделяются между каналами передачи входных аудиосигналов согласно отношению, указываемому табличным индексом (этап 508.b). Затем каждый экземпляр декодера EVS вызывается с соответствующими битами, что приводит к восстановлению аудиоканалов понижающего микширования.
Примерная таблица управления распределением скоростей передачи битов IVAS
[0095] Ниже приводится примерная таблица управления распределением скоростей передачи битов IVAS (таблица II). Следующие параметры, показанные в таблице II, имеют значения, указанные ниже:
[0096] Входной формат: стерео - 1, плоский FoA - 2, FoA - 3
[0097] BW: NB - 0, WB - 1, SWB - 2, FB - 3
[0098] Разрешенное инструментальное средство пространственного кодирования: FP - 1, MR - 2
[0099] Переходный режим: 1 → MR/FP-переход, 0 → иначе
[00100] Обратно совместимый режим для понижающего мономикширования: 1 → если средний канал должен быть совместимым с 3GPP EVS, 0 → иначе.
Таблица II. Примерная таблица распределения скоростей передачи битов IVAS
с)
с)
с)
[00101] Также на фиг. 5A показан битовый поток IVAS. В варианте осуществления, битовый поток IVAS включает в себя общий заголовок (CH) 509 IVAS фиксированной длины и общий заголовок 510 инструментального средства (CTH) переменной длины. В варианте осуществления, длина в битах секции CTH вычисляется на основе числа записей, соответствующего данной скорости передачи битов IVAS в таблице управления распределением скоростей передачи битов IVAS. Относительный табличный индекс (смещение от первого индекса для этой скорости передачи битов IVAS в таблице) сохраняется в секции CTH. При работе в обратно совместимом режиме для понижающего мономикширования, после CTH 510 следуют рабочие данные 511 EVS, после которых следуют рабочие данные 513 пространственных MD. При работе в режиме IVAS, после CTH 510 следуют рабочие данные 512 пространственных MD, после которых следуют рабочие данные 514 EVS. В других вариантах осуществления порядок может быть другим.
Примерные процессы
[00102] Примерный процесс распределения скоростей передачи битов может выполняться кодеком IVAS либо системы кодирования/декодирования, включающей в себя один или более процессоров, выполняющих инструкции, сохраненные на постоянном машиночитаемом носителе данных.
[00103] В варианте осуществления, система кодирования аудио принимает аудиоввод и метаданные. Система определяет, на основе аудиоввода, метаданных и параметров кодека IVAS, используемого при кодировании аудиоввода, один или более индексов таблицы управления распределением скоростей передачи битов, причем параметры включают в себя скорость передачи битов IVAS, входной формат и монорежим обратной совместимости, причем один или более индексов включают в себя режим пространственного кодирования аудио и полосу пропускания аудиоввода.
[00104] Система выполняет поиск в таблице управления распределением скоростей передачи битов на основе скорости передачи битов IVAS, входного формата, режима пространственного кодирования аудио и одного или более индексов, причем поиск идентифицирует запись в таблице управления распределением скоростей передачи битов, причем запись включает в себя целевую скорость передачи битов EVS, отношение скоростей передачи битов, минимальную скорость передачи битов EVS и представление шагов отклонения скорости передачи битов EVS.
[00105] Система передаёт идентифицированную запись в процесс вычисления скорости передачи битов, который программируется с возможностью определения скоростей передачи битов аудиовводов (например, каналов понижающего микширования), скорость передачи битов метаданных и уровни квантования метаданных. Система обеспечивает скорости передачи битов каналов понижающего микширования и по меньшей мере одно из скорости передачи битов метаданных или уровней квантования метаданных в нисходящее устройство IVAS.
[00106] В некоторых реализациях, система может извлекать свойства из аудиоввода, причем свойства включают в себя индикатор того, является ли аудиоввод речью или музыкой, и полосу пропускания аудиоввода. Система определяет, на основе свойств, приоритет между скоростью передачи битов каналов понижающего микширования и скоростью передачи битов метаданных. Система обеспечивает приоритет в процесс вычисления скорости передачи битов.
[00107] В некоторых реализациях, система извлекает один или более параметров, включающих в себя остаточный уровень (ошибки прогнозирования боковых каналов), из пространственных MD. Система определяет, на основе параметров, режим пространственного кодирования аудио, который указывает необходимость одного или более остаточных каналов в битовом потоке IVAS. Система обеспечивает режим пространственного кодирования аудио в процесс вычисления скорости передачи битов.
[00108] В некоторых реализациях, табличный индекс управления распределением скоростей передачи битов сохраняется в общем заголовке инструментального средства (CTH) битового потока IVAS.
[00109] Система для декодирования аудио выполнена с возможностью приёма битового потока IVAS. Система определяет, на основе битового потока IVAS, скорость передачи битов IVAS и табличные индексы управления распределением скоростей передачи битов. Система выполняет поиск в таблице управления распределением скоростей передачи битов на основе табличных индексов и извлекает входной формат, режим пространственного кодирования, монорежим обратной совместимости и один или более индексов, целевую скорость передачи битов EVS и отношение скоростей передачи битов. Система извлекает и декодирует аудиобиты понижающего микширования в расчете на канал понижающего микширования и биты пространственных MD. Система передаёт извлеченные биты сигнала понижающего микширования и биты пространственных MD в нисходящее устройство IVAS. Нисходящее устройство IVAS может представлять собой устройство аудиообработки или устройство хранения данных.
Процесс распределения скоростей передачи битов FoA SPAR
[00110] В варианте осуществления, процесс распределения скоростей передачи битов, описанный выше для входных стереосигналов, также может модифицироваться и применяться к распределению скоростей передачи битов FoA SPAR с использованием таблицы управления распределением скоростей передачи битов FoA SPAR, показанной ниже. Определения для терминов, включенных в таблицу, приведены ниже, чтобы помочь читателям, в соответствии с таблицей управления распределением скоростей передачи битов FoA SPAR.
- Целевое число битов метаданных (MDtar)=IVAS_bits-header_bits-evs_target_bits (EVStar)
- Максимальное число битов метаданных (MDmax)=IVAS_bits-header_bits-evs_minimum_bits (EVSmin)
- Целевое число битов метаданных всегда должно быть меньше "MDmax".
Таблица III. Примерная таблица управления распределением скоростей передачи битов FoA SPAR
Целевой
Восстановление 1 после сбоя
Восстановление 2 после сбоя
(Обозначение: [PR, C, P_d, P_o])
(24, 20.45, 31.95)
F1: [15,1,5,1]
F2: [15,1,3,1]
Y': (16, 15.60, 20.40)
F1: [15,7,5,1]
F2: [15,7,3,1]
Y': (23, 22.6, 31.95;
X': (16, 15.60, 20.4)
F1: [21,7,5,1]
F2: [21,7,5,1]
Y': (41, 40.05, 56)
X': (35, 34.05, 56)
F1: [21,9,9,1]
F2: [21,7,7,1]
Y': (70, 70, 112)
X': (50, 50, 56)
Z': (36.6, 36.6, 56)
F1: [31,1,1,1]
F2: [31,1,1,1]
[00111] Некоторые примерные вычисления максимальных скоростей передачи битов MD (действительные коэффициенты) показаны в нижеприведенной таблице IV.
Таблица IV. Вычисления максимальных скоростей передачи битов MD (действительные коэффициенты)
Примерный контур квантования метаданных
[00112] В варианте осуществления, контур квантования метаданных реализуется так, как описано ниже. Контур квантования метаданных включает в себя два пороговых значения (заданы выше): MDtar и MDmax.
[00113] Этап 1: Для каждого кадра входного аудиосигнала, параметры MD квантуются недифференциальным во времени способом и кодируются с помощью арифметического кодера. Фактическая скорость передачи в битах метаданных (MDact) вычисляется на основе кодированных битов MD. Если MDact ниже MDtar, то этот этап рассматривается как проход, и процесс выходит из контура квантования, и биты MDact интегрируются в битовый поток IVAS. Дополнительные доступные биты (MDtar-MDact) подаются в кодер с поддержкой монокодека (EVS), чтобы увеличивать существенную скорость передачи битов аудиоканалов понижающего микширования. Большая скорость передачи битов обеспечивает возможность кодирования большего объема информации посредством монокодека, и декодированный аудиовывод должен иметь сравнительно меньшие потери.
[00114] Этап 2: Если этап 1 завершается неудачно, то поднабор значений параметров MD в кадре квантуется и затем вычитается из квантованных значений параметров MD в предыдущем кадре, и дифференциальное квантованное значение параметра кодируется с помощью арифметического кодера (т.е. дифференциального во времени кодирования). MDact вычисляется на основе кодированных битов MD. Если MDact ниже MDtar, то этот этап рассматривается как проход, и процесс выходит из контура квантования, и биты MDact интегрируются в битовый поток IVAS. Дополнительные доступные биты (MDtar-MDact) подаются в кодер с поддержкой монокодека (EVS), чтобы увеличивать существенную скорость передачи битов аудиоканалов понижающего микширования.
[00115] Этап 3: Если этап 2 завершается неудачно, то скорость передачи битов (MDact) квантованных параметров MD вычисляется без энтропии.
[00116] Этап 4: Значения скорости передачи битов MDact, вычисленные на этапах 1-3, сравниваются с MDmax. Если минимум скоростей передачи битов MDact, вычисленных на этапе 1, этапе 2 и этапе 3, находится в пределах MDmax, то этот этап рассматривается как проход, и процесс выходит из контура квантования, и битовый поток MD с минимальным MDact интегрируется в битовый поток IVAS. Если MDact выше MDtar, то биты (MDact-MDtar) извлекаются из кодера с поддержкой монокодека (EVS).
[00117] Этап 5: Если этап 4 завершается неудачно, параметры квантуются более приблизительно, и вышеприведенные этапы повторяются в качестве первой стратегии восстановления после сбоя (восстановление 1 после сбоя).
[00118] Этап 6: Если этап 5 завершается неудачно, параметры квантуются с помощью схемы квантования, которая гарантированно вписывается в пределы MDmax, в качестве второй стратегии восстановления после сбоя (восстановление 2 после сбоя).
[00119] После всех итераций, упомянутых выше, гарантируется, что скорость передачи в битах метаданных должна вписываться в пределы MDmax, и кодер должен формировать фактические биты метаданных или MDact.
Распределение скоростей передачи битов EVS для каналов понижающего микширования (EVSbd)
[00120] В варианте осуществления, фактические биты EVS (EVSact)=IVAS_bits-header_bits-MDact. Если "EVSact" меньше "EVStar", то биты извлекаются из каналов EVS в следующем порядке: (Z, X, Y, W). Максимальное число битов, которые могут быть извлекаться из любого канала, составляет EVStar(ch) минус EVSmin(ch). Если "EVSact" больше "EVStar", то все дополнительные биты назначаются каналам понижающего микширования в следующем порядке: W, Y, X и Z. Максимальное число дополнительных битов, которые могут добавляться в любой канал, составляет EVSmax(ch)-EVStar(ch).
Распаковка посредством декодера SPAR
[00121] В варианте осуществления, декодер SPAR распаковывает битовый поток IVAS следующим образом:
1. Получение скорости передачи битов IVAS из длины в битах и получение табличного индекса из заголовка инструментального средства (CTH) в битовом потоке IVAS.
2. Синтаксический анализ битов заголовка/метаданных в битовом потоке IVAS.
3. Синтаксический анализ и деквантование битов метаданных.
4. Задание "EVSact"=оставшаяся длина в битах.
5. Считывание записей таблицы, связанных с целевыми, минимальными и максимальными скоростями передачи битов EVS, и повторение этапа "EVSbd" в декодере, чтобы получать фактическую скорость передачи битов EVS для каждого канала.
6. Декодирование каналов EVS и повышающее микширование в каналы FoA.
Процесс BR-распределения для входных аудиосигналов FoA SPAR
[00122] Фиг. 5B и 5C являются блок-схемой процесса 515 распределения скоростей передачи битов для входных сигналов FoA SPAR, согласно варианту осуществления. Процесс 515 начинается посредством предварительной обработки 517 ввода 516 FoA (W, Y, Z, X), с тем чтобы извлекать свойства сигналов с использованием скорости передачи битов IVAS, такие как BW, данные классификации речи/музыки, VAD-данные и т.д. Процесс 515 продолжается посредством формирования пространственных MD 518 (например, коэффициентов PR, C, P) и выбора числа остаточных каналов, которые следует отправлять в декодер IVAS, на основе индикатора остаточного уровня в пространственных MD (520), и получения табличного индекса управления BR-распределением на основе скорости передачи битов IVAS, BW и числа каналов понижающего микширования (N_dmx) (521). В некоторых вариантах осуществления, коэффициенты P в пространственных MD могут служить в качестве индикатора остаточного уровня. Табличный индекс управления BR-распределением отправляется в модуль пакетирования битов IVAS (см. фиг. 4A, 4B) для включения в битовый поток IVAS, который может сохраняться и/или отправляться в декодер IVAS.
[00123] Процесс 515 продолжается посредством считывания конфигурации SPAR из строки в таблице управления BR-распределением, на которую указывает табличный индекс (521). Как показано в вышеприведенной таблице III, конфигурация SPAR задается посредством одного или более признаков, включающих в себя, не ограничиваясь: строку понижающего микширования (повторное микширование), активный флаг W, комплексный флаг пространственных MD, стратегии квантования пространственных MD, минимальные/целевые/максимальные скорости передачи битов EVS и флаг приглушения декоррелятора во временной области.
[00124] Процесс 515 продолжается посредством определения скоростей передачи битов MDmax, MDtar из скорости передачи битов IVAS, значений скорости передачи EVSmin и битов EVStar (522), как описано выше, и входа в контур квантования, который включает в себя квантование пространственных MD недифференциальным во времени способом с использованием стратегии квантования, кодирование квантованных пространственных MD с помощью энтропийного кодера (например, арифметического кодера) и вычисление MDact (523). В варианте осуществления, первая итерация контура квантования использует стратегию точного квантования.
[00125] Процесс 515 продолжается посредством проверки, является ли MDact меньшим или равным MDtar (524). Если MDact меньше или равен MDtar, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и (MDtar-MDact) битов суммируются со скоростями передачи EVStar-битов (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact не меньше или равен MDtar, то процесс 515 квантует пространственные MD дифференциальным во времени способом с помощью стратегии точного квантования, кодирует квантованные пространственные MD с помощью энтропийного кодера и вычисляет MDact снова (525). Если MDact меньше или равен MDtar, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и (MDtar-MDact) битов суммируются со скоростями передачи битов EVStar (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact больше MDtar, пространственные MD квантуются недифференциальным во времени способом с использованием стратегии точного квантования и энтропийно кодируются и кодируются по основанию 2, и новое значение для MDact вычисляется (527). Следует отметить, что максимальное число битов, которые могут суммироваться с любым экземпляром EVS, равно EVSmax-EVStar.
[00126] Процесс 515 снова определяет, является ли MDact меньшим или равным MDtar (528). Если MDact меньше или равен MDtar, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и (MDtar-MDact) битов суммируются со скоростями передачи битов EVStar (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact больше в MDtar, то процесс 515 задает MDact в качества минимума из трех скоростей передачи битов MDact, вычисленных на (523), (525), (527), и сравнивает MDact с MDmax (529). Если MDact больше MDmax (530), контур квантования (этапы 523-530) повторяется с использованием стратегии приблизительного квантования, как описано выше.
[00127] Если MDact меньше или равен MDmax, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и процесс 515 снова определяет, является ли MDact меньшим или равным MDtar (531). Если MDact меньше или равен MDtar, то (MDtar-MDact) битов суммируются со скоростями передачи битов EVStar (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact больше MDtar, то (MDtar-MDact) битов вычитаются из скоростей передачи битов EVStar (532) в следующем порядке: Z, X, Y, W; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Следует отметить, что максимальное число битов, которые могут вычитаться из любого экземпляра EVS, равно EVStar-EVSmin.
Примерные процессы
[00128] Фиг. 6 является блок-схемой процесса 600 кодирования IVAS, согласно варианту осуществления. Процесс 600 может быть реализован с использованием архитектуры устройства, как описано в отношении фиг. 8.
[00129] Процесс 600 включает в себя прием входного аудиосигнала (601), понижающее микширование входного аудиосигнала в один или более каналов понижающего микширования и пространственные метаданные, ассоциированные с одним или более каналов входного аудиосигнала (602); считывание набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов (603); определение сочетания одной или более скоростей передачи битов для каналов понижающего микширования (604); определение уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов (605); квантование и кодирование пространственных метаданных с использованием уровня квантования метаданных (606); формирование, с использованием сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования (607); объединение битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS (608); и потоковую передачу или сохранение битового потока IVAS для воспроизведения на устройстве с поддержкой IVAS (609).
[00130] Фиг. 7 является блок-схемой альтернативного процесса 700 кодирования IVAS, согласно варианту осуществления. Процесс 700 может быть реализован с использованием архитектуры устройства, как описано в отношении фиг. 8.
[00131] Процесс 700 включает в себя прием входного аудиосигнала (701); извлечение свойств входного аудиосигнала (702); вычисление пространственных метаданных для каналов входного аудиосигнала (703); считывание набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов (704); определение сочетания одной или более скоростей передачи битов для каналов понижающего микширования (705); определение уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов (706); квантование и кодирование пространственных метаданных с использованием уровня квантования метаданных (707); формирование, с использованием сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования с использованием одной или более скоростей передачи битов (708); объединение битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS (709); и потоковую передачу или сохранение битового потока IVAS для воспроизведения на устройстве с поддержкой IVAS (710).
Примерная архитектура системы
[00132] Фиг. 8 показывает блок-схему примерной системы 800, подходящей для реализации примерных вариантов осуществления настоящего изобретения. Система 800 включает в себя один или более серверных компьютеров либо любое клиентское устройство, включающее в себя, не ограничиваясь, любые из устройств, показанных на фиг. 1, таких как сервер 102 вызовов, ранее созданные устройства 106, абонентское устройство 108, 114, системы 116, 118 в конференц-залах, системы домашнего кинотеатра, гарнитура 122 VR и модуль 124 поглощения иммерсивного содержимого. Система 800 включает в себя любые бытовые устройства, включающие в себя, не ограничиваясь: смартфоны, планшетные компьютеры, носимые компьютеры, компьютеры в транспортных средствах, игровые консоли, системы объемного звучания, киоски.
[00133] Как показано, система 800 включает в себя центральный процессор 801 (CPU), который допускает выполнение различных процессов в соответствии с программой, сохраненной, например, в постоянном запоминающем устройстве 802 (ROM), или с программой, загружаемой, например, из модуля 808 хранения в оперативное запоминающее устройство 803 (RAM). В RAM 803, также сохраняются данные, требуемые, когда CPU 801 выполняет различные процессы, по мере необходимости. CPU 801, ROM 802 и RAM 803 соединяются между собой через шину 804. Интерфейс 805 ввода-вывода также соединяется с шиной 804.
[00134] Следующие компоненты соединяются с интерфейсом 805 ввода-вывода: модуль 806 ввода, который может включать в себя клавиатуру, мышь и т. п.; модуль 807 вывода, который может включать в себя дисплей, такой как жидкокристаллический дисплей (ЖК-дисплей) и один или более динамиков; модуль 808 хранения, включающий в себя жесткий диск или другое подходящее устройство хранения данных; и модуль 809 связи, включающий в себя сетевую интерфейсную плату, к примеру, сетевую плату (например, проводную или беспроводную).
[00135] В некоторых реализациях, модуль 806 ввода включает в себя один или более микрофонов в различных позициях (в зависимости от хост-устройства), обеспечивающих захват аудиосигналов в различных форматах (например, в моно-, стерео-, пространственном, иммерсивном и других подходящих форматах).
[00136] В некоторых реализациях, модуль 807 вывода включает в себя системы с различным числом динамиков. Как проиллюстрировано на фиг. 1, модуль 807 вывода (в зависимости от характеристик хост-устройства) может выполнять рендеринг аудиосигналов в различных форматах (например, в моно-, стерео-, иммерсивном, бинауральном и других подходящих форматах).
Модуль 809 связи выполнен с возможностью обмена данными с другими устройствами (например, через сеть). Накопитель 810 также соединяется с интерфейсом 805 ввода-вывода по мере необходимости. Съемный носитель 811, такой как магнитный диск, оптический диск, магнитооптический диск, флеш-накопитель или другой подходящий съемный носитель, монтируется на накопителе 810 таким образом, что компьютерная программа, считываемая с него, устанавливается в модуль 808 хранения по мере необходимости. Специалисты в данной области техники должны понимать, что, хотя система 800 описана как включающая в себя вышеописанные компоненты, в реальных вариантах применения, можно добавлять, удалять и/или заменять некоторые из этих компонентов, и все эти модификации или изменения попадают в пределы объема настоящего изобретения.
[00137] В соответствии с примерными вариантами осуществления настоящего изобретения, процессы, описанные выше, могут быть реализованы в виде программ, реализованных в форме компьютерного программного обеспечения, либо на машиночитаемом носителе данных. Например, варианты осуществления настоящего изобретения включают в себя компьютерный программный продукт, включающий в себя компьютерную программу, материально реализованную на машиночитаемом носителе, причем компьютерная программа включает в себя программный код для осуществления способов. В таких вариантах осуществления, компьютерная программа может загружаться и монтироваться из сети через модуль 809 связи и/или устанавливаться со съемного носителя 811, как показано на фиг. 8.
[00138] В общем случае, различные примерные варианты осуществления настоящего изобретения могут быть реализованы в аппаратных средствах или специализированных схемах (например, в схеме управления), в программном обеспечении, в логике либо в любом их сочетании. Например, модули, поясненные выше, могут выполняться посредством схемы управления (например, CPU в комбинации с другими компонентами по фиг. 8) таким образом, что схема управления может выполнять действия, описанные в данном описании. Некоторые аспекты могут быть реализованы в аппаратных средствах, тогда как другие аспекты могут быть реализованы в микропрограммном обеспечении или программном обеспечении, которое может выполняться посредством контроллера, микропроцессора или другого вычислительного устройства (например, схемы управления). Хотя различные аспекты примерных вариантов осуществления настоящего изобретения проиллюстрированы и описаны в виде блок-схем, блок-схем способов или с использованием некоторого другого графического представления, следует учитывать, что блоки, устройства, системы, технологии или способы, описанные в данном документе, могут быть реализованы, в качестве неограничивающих примеров, в аппаратных средствах, в программном обеспечении, в микропрограммном обеспечении, в специализированных схемах или в логике, в аппаратных средствах общего назначения или в контроллере, или в других вычислительных устройствах, или в некотором их сочетании.
[00139] Кроме того, различные блоки, показанные на блок-схемах, могут рассматриваться в качестве этапов способа и/или в качестве операций, которые получаются в результате операции компьютерного программного кода, и/или в качестве множества соединенных логических схемных элементов, сконструированных с возможностью выполнения ассоциированной функции. Например, варианты осуществления настоящего изобретения включают в себя компьютерный программный продукт, включающий в себя компьютерную программу, материально реализованную на машиночитаемом носителе, причем компьютерная программа содержит программные коды, выполненные с возможностью осуществления способов, описанных выше.
[00140] В контексте изобретения, машиночитаемый носитель может представлять собой любой материальный носитель, который может содержать или сохранять программу для использования посредством или в связи с системой, устройством или устройством выполнения инструкций. Машиночитаемый носитель может представлять собой машиночитаемую среду передачи сигналов или машиночитаемый носитель данных. Машиночитаемый носитель может быть постоянным и может включать в себя, не ограничиваясь, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, устройство или устройство либо любое подходящее их сочетание. Более конкретные примеры машиночитаемого носителя данных должны включать в себя электрическое соединение, имеющее один или более проводов, портативную компьютерную дискету, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флэш-память), оптоволокно, портативное постоянное запоминающее устройство на компакт-дисках (CD-ROM), оптическое устройство хранения данных, магнитное устройство хранения данных либо любое подходящее их сочетание.
[00141] Компьютерный программный код для осуществления способов настоящего изобретения может быть написан на любом сочетании одного или более языков программирования. Эти компьютерные программные коды могут передаваться в процессор компьютера общего назначения, компьютер специального назначения или другое программируемое устройство обработки данных, которое имеет схему управления, таким образом, что программные коды, при выполнении посредством процессора компьютера или другого программируемого устройства обработки данных, предписывают реализацию функций/операций, указываемых на блок-схемах способов и/или на блок-схемах. Программный код может выполняться полностью на компьютере, частично на компьютере, в качестве автономного программного пакета, частично на компьютере и частично на удаленном компьютере или полностью на удаленном компьютере или сервере, либо может быть распределён по одному или более удаленным компьютерам и/или серверам.
[00142] Хотя данный документ содержит множество конкретных сведений по реализации, они должны истолковываться не в качестве ограничений на объем того, что может быть заявлено в качестве формулы изобретения, а напротив - в качестве описания признаков, которые могут относиться к конкретным вариантам осуществления. Определенные признаки, которые поясняются в этом подробном описании в контексте отдельных вариантов осуществления, также могут быть реализованы объединённо в одном варианте осуществления. Наоборот, различные признаки, которые описан в контексте одного варианта осуществления, также могут быть реализованы во множестве вариантах осуществления по отдельности либо в любом подходящем подсочетании. Кроме того, хотя признаки могут быть описаны выше как работающие в определенных сочетаниях и даже первоначально определяться в формуле изобретения как таковые, один или более признаков из заявленного сочетания в некоторых случаях могут быть исключены из сочетания, и заявленное сочетание может относиться к подсочетанию или вариантам подсочетания. Логические последовательности операций, проиллюстрированные на чертежах, не требуют конкретного показанного порядка или последовательного порядка для достижения требуемых результатов. Помимо этого, могут быть предусмотрены другие этапы , или этапы могут исключаться из описанных процессов, и другие компоненты могут добавляться или удаляться из описанных систем. Соответственно, другие реализации находятся в пределах объема прилагаемой формулы изобретения.
Изобретение относится к области вычислительной техники для обработки битовых потоков аудиоданных. Технический результат заключается в уменьшении пространственных метаданных, объема служебной информации монокодека и минимизации потерь битов до нуля. Технический результат достигается за счет определения, с использованием одного или более процессоров, сочетания одной или более скоростей передачи битов для каналов понижающего микширования; определения, с использованием одного или более процессоров, уровня квантования метаданных из набора уровней квантования метаданных; квантования и кодирования, с использованием одного или более процессоров, пространственных метаданных с использованием уровня квантования метаданных; формирования, с использованием одного или более процессоров и сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования; объединения, с использованием одного или более процессоров, битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS. 3 н. и 9 з.п. ф-лы, 11 ил., 4 табл.
1. Способ кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS), при этом способ содержит этапы, на которых:
- принимают, с использованием одного или более процессоров, входной аудиосигнал;
- выполняют понижающее микширование, с использованием одного или более процессоров, входного аудиосигнала в один или более каналов понижающего микширования и пространственные метаданные, ассоциированные с одним или более каналов входного аудиосигнала;
- получают, с использованием одного или более процессоров, набор из одной или более скоростей передачи битов для каналов понижающего микширования и набор уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов;
- определяют, с использованием одного или более процессоров, сочетание одной или более скоростей передачи битов для каналов понижающего микширования;
- определяют, с использованием одного или более процессоров, уровень квантования метаданных из набора уровней квантования метаданных;
- квантуют и кодируют, с использованием одного или более процессоров, пространственные метаданные с использованием уровня квантования метаданных;
- формируют, с использованием одного или более процессоров и сочетания одной или более скоростей передачи битов, битовый поток понижающего микширования для одного или более каналов понижающего микширования;
- объединяют, с использованием одного или более процессоров, битовый поток понижающего микширования, квантованные и кодированные пространственные метаданные и набор уровней квантования в битовый поток IVAS.
2. Способ по п. 1, в котором входной аудиосигнал представляет собой четырехканальный аудиосигнал амбиофонии первого порядка (FoA), трехканальный плоский сигнал FoA или двухканальный стереоаудиосигнал.
3. Способ по п. 1 или 2, в котором одна или более скоростей передачи битов представляют собой скорости передачи битов одного или более экземпляров моноаудиокодера/декодера (кодека).
4. Способ по п. 1 или 2, в котором моноаудиокодек представляет собой кодек с поддержкой улучшенных голосовых служб (EVS), и битовый поток понижающего микширования представляет собой битовый поток EVS.
5. Способ по п. 1 или 2, в котором получение, с использованием одного или более процессоров, одной или более скоростей передачи битов для каналов понижающего микширования и пространственных метаданных с использованием таблицы управления распределением скоростей передачи битов дополнительно содержит этапы, на которых:
- идентифицируют строку в таблице управления распределением скоростей передачи битов с использованием табличного индекса, который включает в себя одно или более из формата входного аудиосигнала, полосы пропускания входного аудиосигнала, разрешенного инструментального средства пространственного кодирования, переходного режима и обратно совместимого режима для понижающего мономикширования; и
- извлекают из идентифицированной строки таблицы управления распределением скоростей передачи битов одно или более из целевой скорости передачи битов, отношения скоростей передачи битов, минимальной скорости передачи битов и шагов отклонения скорости передачи битов, при этом отношение скоростей передачи битов указывает отношение, с которым полная скорость передачи битов должна распределяться между каналами передачи аудиосигналов понижающего микширования, минимальная скорость передачи битов представляет собой значение, ниже которого не разрешается снижение полной скорости передачи битов, и шаги отклонения скорости передачи битов представляют собой шаги уменьшения целевой скорости передачи битов, когда первый приоритет для сигналов понижающего микширования выше или равен либо ниже второго приоритета пространственных метаданных; и
- причём определение сочетания одной или более скоростей передачи битов для каналов понижающего микширования и пространственных метаданных основано на одном или более из целевой скорости передачи битов, отношения скоростей передачи битов, минимальной скорости передачи битов и шагов отклонения скорости передачи битов.
6. Способ по п. 1 или 2, в котором квантование и кодирование пространственных метаданных для одного или более каналов входного аудиосигнала с использованием набора уровней квантования метаданных выполняется в контуре квантования, который применяет стратегии все более приблизительного квантования на основе разности между целевой скоростью передачи в битах метаданных и фактической скоростью передачи в битах метаданных.
7. Способ по п. 1 или 2, в котором квантование определяется в соответствии с приоритетом монокодека и приоритетом пространственных метаданных на основе свойств, извлеченных из входного аудиосигнала, и ковариационных значений в полосе частот канала.
8. Способ по п. 1 или 2, в котором входной аудиосигнал представляет собой стереосигнал, и сигналы понижающего микширования включают в себя представление среднего сигнала, остатки из стереосигнала и пространственные метаданные.
9. Способ по п. 1 или 2, в котором пространственные метаданные включают в себя коэффициенты прогнозирования (PR), коэффициенты (C) кросс-прогнозирования и коэффициенты (P) декорреляции для формата для модуля пространственного восстановления (SPAR) и коэффициенты (P) прогнозирования и коэффициенты (PR) декорреляции для формата улучшенной сложной связи (CACPL).
10. Способ по п. 1 или 2, дополнительно содержащий этап, на котором сохраняют, передают в потоковом режиме или выводят битовый поток IVAS.
11. Система для кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS), содержащая:
- один или более процессоров; и
- постоянный машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством одного или более процессоров, предписывают одному или более процессорам выполнять операции по любому из пп. 1-10 на способ.
12. Постоянный машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством одного или более процессоров, предписывают одному или более процессорам выполнять операции по любому из пп. 1-10 на способ.
Станок для придания концам круглых радиаторных трубок шестигранного сечения | 1924 |
|
SU2019A1 |
Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами | 1924 |
|
SU2017A1 |
Станок для придания концам круглых радиаторных трубок шестигранного сечения | 1924 |
|
SU2019A1 |
Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса | 1924 |
|
SU2015A1 |
АУДИОДЕКОДЕР ДЛЯ ДЕКОДИРОВАНИЯ БИТОВОГО АУДИОПОТОКА, АУДИОКОДЕР ДЛЯ КОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА И СПОСОБ ДЕКОДИРОВАНИЯ КАДРА КОДИРОВАННОГО ЗВУКОВОГО СИГНАЛА | 2016 |
|
RU2616774C1 |
Авторы
Даты
2024-06-19—Публикация
2020-10-28—Подача