Варианты осуществления относятся к системе многосигнального кодирования и декодирования на основе MDCT с сигнально-адаптивной объединенной обработкой каналов, при этом сигнал может представлять собой канал, и множественный сигнал представляет собой многоканальный сигнал либо, в качестве альтернативы, аудиосигнал, представляющий собой компонент описания звукового поля, такого как амбиофонический компонент, т.е. W, X, Y, Z в амбиофонии первого порядка или любой другой компонент в описании на основе амбиофонии высшего порядка. Сигнал также может представлять собой сигнал формата A или формата B либо любого другого описания формата звукового поля.
- В MPEG USAC [1], объединенное стереокодирование двух каналов выполняется с использованием комплексного прогнозирования, MPS 2-1-2 или стандартизированного стерео с остаточными сигналами с ограниченной полосой частот или полнополосными остаточными сигналами.
- Стандарт объемного звучания MPEG [2] иерархически комбинирует OTT- и TTT-блоки для объединенного кодирования многоканального аудио с/без передачи остаточных сигналов.
- Четырехканальные MPEG-H-элементы [3] иерархически применяют MPS2-1-2-стереоблоки с последующими стереоблоками комплексного прогнозирования/MS, образующими «фиксированное» дерево повторного сведения 4×4.
- AC4 [4] вводит новые 3-, 4- и 5-канальные элементы, которые обеспечивают возможность повторного сведения передаваемых каналов через передаваемую матрицу сведения и последующую информацию объединенного стереокодирования.
- Предшествующие публикации предлагают использовать ортогональные преобразования, такие как преобразование Карунена-Лоэва (KLT), для усовершенствованного многоканального кодирования аудио [5].
- Инструментальное средство многоканального кодирования (MCT) [6], которое поддерживает объединенное кодирование более двух каналов, обеспечивает гибкое и сигнально-адаптивное объединенное канальное кодирование в области MDCT. Это достигается посредством итеративного комбинирования и конкатенации технологий стереокодирования, таких как действительнозначное комплексное стереопрогнозирование, а также стереокодирование с вращением (KLT) двух указанных каналов.
В контексте трехмерного аудио, каналы громкоговорителей распределяются в нескольких высотных слоях, приводя к горизонтальным и вертикальным канальным парам. Объединенное кодирование только двух каналов, как задано в USAC, не является достаточным для учёта пространственных и перцепционных взаимосвязей между каналами. Стандарт объемного звучания MPEG применяется на дополнительном этапе предварительной обработки/постобработки, остаточные сигналы передаются по отдельности без возможности объединенного стереокодирования, например, для использования зависимостей между левым и правым вертикальными остаточными сигналами. В AC-4, вводятся выделенные N-канальные элементы, которые позволяют эффективно кодировать параметры объединенного кодирования, но не подходят для общих компоновок динамиков с большим числом каналов, предлагаемых для новых сценариев иммерсивного воспроизведения (7.1+4, 22.2). Четырехканальный MPEG-H-элемент также ограничивается только 4 каналами и не может динамически применяться к произвольным каналам, а только к предварительно сконфигурированному и фиксированному числу каналов. MCT вводит гибкость сигнально-адаптивного объединенного канального кодирования произвольных каналов, но стереообработка осуществляется для прошедших оконное преобразование и преобразованных ненормализованных (неотбеленных) сигналов. Кроме того, кодирование коэффициентов прогнозирования или углов в каждой полосе частот для каждого стереоблока требует значительного числа битов.
Задача настоящего изобретения состоит в создании усовершенствованной и более гибкой концепции для многосигнального кодирования или декодирования.
Данная задача решается посредством многосигнального кодера по пункту 1 формулы, многосигнального декодера по пункту 32 формулы, способа выполнения многосигнального кодирования по пункту 44 формулы, способа выполнения многосигнального декодирования по пункту 45 формулы, компьютерной программы по пункту 46 формулы или кодированного сигнала по пункту 47 формулы.
Настоящее изобретение основано на заключении о том, что эффективность многосигнального кодирования существенно повышается посредством выполнения адаптивной объединенной обработки сигналов не для исходных сигналов, а для предварительно обработанных аудиосигналов, причем эта предварительная обработка выполняется таким образом, что предварительно обработанный аудиосигнал отбеливается относительно сигнала перед предварительной обработкой. Относительно стороны декодера, это означает то, что постобработка выполняется после объединенной обработки сигналов для получения по меньшей мере трёх обработанных декодированных сигналов. По меньшей мере три обработанных декодированных сигнала проходят постобработку в соответствии со вспомогательной информацией, включенной в кодированный сигнал, при этом постобработка выполняется таким образом, что прошедшие постобработку сигналы являются менее белыми, чем сигналы перед постобработкой. Прошедшие постобработку сигналы в итоге представляют, непосредственно или после дополнительных операций обработки сигналов, декодированный аудиосигнал, т.е. декодированный множественный сигнал.
В частности, для иммерсивных форматов трехмерного аудио, эффективное многоканальное кодирование с использованием свойств множества сигналов получается для уменьшения объема передаваемых данных при сохранении общего перцепционного качества звучания. В предпочтительной реализации, сигнально-адаптивное объединенное кодирование в многоканальной системе выполняется с использованием перцепционно отбеленных и, кроме того, компенсированных по межканальной разности уровней (ILD) спектров. Объединенное кодирование выполняется предпочтительно с использованием простого решения по преобразованию M/S в расчете на полосу частот, которое обусловлено оцененным числом битов для энтропийного кодера.
Многосигнальный кодер для кодирования по меньшей мере трех аудиосигналов содержит препроцессор сигналов для предварительной обработки каждого аудиосигнала по отдельности для получения по меньшей мере трёх предварительно обработанных аудиосигналов, причем предварительная обработка выполняется таким образом, что предварительно обработанный аудиосигнал отбеливается относительно сигнала перед предварительной обработкой. Адаптивная объединенная обработка сигналов по меньшей мере для трех предварительно обработанных аудиосигналов выполняется для получения по меньшей мере трёх объединенно обработанных сигналов. Эта обработка работает для отбеленных сигналов. Предварительная обработка приводит к извлечению определенных характеристик сигналов, таких как спектральная огибающая, либо, в случае если не извлекаются, так что она уменьшает эффективность объединенной обработки сигналов, такой как объединенная стерео- или объединенная многоканальная обработка. Кроме того, для повышения эффективности объединенной обработки сигналов нормализация широкополосной энергии по меньшей мере трех предварительно обработанных аудиосигналов выполняется таким образом, что каждый предварительно обработанный аудиосигнал имеет нормализованную энергию. Эта нормализация широкополосной энергии передается в служебных сигналах в кодированный аудиосигнал в качестве вспомогательной информации таким образом, что эта нормализация широкополосной энергии может быть изменена на противоположное на стороне декодера после обратной объединенной стерео- или объединенной многоканальной обработки сигналов. Посредством этой предпочтительной дополнительной процедуры нормализации широкополосной энергии, эффективность адаптивной объединенной обработки сигналов повышается таким образом, что число полос частот или даже число полных кадров, которые могут подвергаться средней/боковой обработке, в отличие от левой/правой обработки (сдвоенной монообработки), значительно возрастает. Эффективность всего процесса стереокодирования повышается тем в большей степени, чем больше становится число полос частот или даже полных кадров, которые подвергаются общей стерео- или многоканальной обработке, такой как средняя/боковая обработка.
Наименьшая эффективность получается, с точки зрения стереообработки, когда адаптивный объединенный процессор сигналов должен адаптивно определять для полосы частот или для кадра то, что эта полоса частот или кадр должен обрабатываться посредством «сдвоенной моно-» или левой/правой обработки. Здесь, левый канал и правый канал обрабатываются как есть, но естественно в отбеленной и нормализованной по энергии области. Тем не менее, когда адаптивный объединенный процессор сигналов адаптивно определяет, для определенной полосы частот или кадра, то, что средняя/боковая обработка выполняется, средний сигнал вычисляется посредством суммирования первого и второго канала, и боковой сигнал вычисляется посредством вычисления разности из первого и второго канала канальной пары. Как правило, средний сигнал, относительно своего диапазона значений, является сравнимым с одним из первого и второго каналов, но боковой сигнал типично должен представлять собой сигнал с небольшой энергией, который может кодироваться с высокой эффективностью, либо даже в наиболее предпочтительной ситуации, боковой сигнал является нулевым или близким к нулевому, так что спектральные области бокового сигнала могут квантоваться даже до нуля и за счет этого энтропийно кодироваться высокоэффективным способом. Это энтропийное кодирование выполняется посредством кодера сигналов для кодирования каждого сигнала для получения одного или более кодированных сигналов, и выходной интерфейс многосигнального кодера передает или сохраняет кодированный многосигнальный аудиосигнал, содержащий один или более кодированных сигналов, вспомогательную информацию, относящуюся к предварительной обработке, и вспомогательную информацию, относящуюся к адаптивной объединенной обработке сигналов.
На стороне декодера, декодер сигналов, который типично содержит энтропийный декодер, декодирует по меньшей мере три кодированных сигнала, типично на базе предпочтительной включенной информации битового распределения. Эта информация битового распределения включается в качестве вспомогательной информации в кодированном многосигнальном аудиосигнале и, например, может извлекаться на стороне кодера посредством рассмотрения энергии сигналов при вводе в (энтропийный) кодер сигналов. Вывод декодера сигналов в многосигнальном декодере вводится в объединенный процессор сигналов для выполнения объединенной обработки сигналов в соответствии со вспомогательной информацией, включенной в кодированный сигнал для получения по меньшей мере трёх обработанных декодированных сигнала. Этот объединенный процессор сигналов предпочтительно отменяет объединенную обработку сигналов, выполняемую на стороне кодера, и, как правило, выполняет обратную стерео- или обратную многоканальную обработку. В предпочтительной реализации, объединенный процессор сигналов применяет операцию обработки для вычисления левых/правых сигналов из средних/боковых сигналов. Тем не менее, когда объединенный процессор сигналов определяет из вспомогательной информации то, что для определенной канальной пары сдвоенная монообработка уже выполняется, эта ситуация отмечается и используется в декодере для последующей обработки.
Объединенный процессор сигналов на стороне декодера, аналогично адаптивному объединенному процессору сигналов на стороне кодера, может представлять собой процессор, работающий в режиме каскадного дерева канальных пар или упрощенного дерева. Упрощенное дерево также представляет некоторую каскадную обработку, но упрощенное дерево отличается от каскадного дерева канальных пар тем, что вывод обработанной пары не может представлять собой ввод в другую обрабатываемую пару.
Может иметь место то, что, относительно первой канальной пары, которая используется посредством объединенного процессора сигналов на стороне многосигнального декодера для начала объединенной обработки сигналов, эта первая канальная пара, которая представляет собой последнюю канальную пару, обработанную на стороне кодера, имеет, для определенной полосы частот, вспомогательную информацию, указывающую сдвоенный монорежим, но эти сдвоенные моносигналы могут использоваться позднее в обработке канальных пар в качестве среднего сигнала или бокового сигнала. Это передается в служебных сигналах посредством соответствующей вспомогательной информации, относящейся к попарной обработке, выполняемой для получения по меньшей мере трех кодированных по отдельности каналов, которые должны декодироваться на стороне декодера.
Варианты осуществления относятся к системе многосигнального кодирования и декодирования на основе MDCT с сигнально-адаптивной объединенной обработкой каналов, при этом сигнал может представлять собой канал, и множественный сигнал представляет собой многоканальный сигнал либо, в качестве альтернативы, аудиосигнал, представляющий собой компонент описания звукового поля, такого как амбиофонический компонент, т.е. W, X, Y, Z в амбиофонии первого порядка или любой другой компонент в описании на основе амбиофонии высшего порядка. Сигнал также может представлять собой сигнал формата A или формата B либо любого другого описания формата звукового поля.
Далее указываются дополнительные преимущества предпочтительных вариантов осуществления. Кодек использует новые концепции для консолидации гибкости сигнально-адаптивного объединенного кодирования произвольных каналов, как описано в [6], посредством введения концепций, описанных в [7], для объединенного стереокодирования. Они представляют собой:
a) Использование перцепционно отбеленных сигналов для дополнительного кодирования (аналогично способу, которым они используются в речевом кодере). Это имеет несколько преимуществ:
- Упрощение архитектуры кодека
- Компактное представление характеристик формирования шума/порогового значения маскирования (например, в качестве коэффициентов LPC)
- Унификация архитектуры преобразования и речевого кодека и в силу этого обеспечение комбинированного кодирования аудио/речи
b) Использование параметров ILD произвольных каналов для эффективного кодирования панорамированных источников
c) Гибкое битовое распределение между обработанными каналами на основе энергии.
Кроме того, кодек использует формирование шума в частотной области (FDNS) для перцепционного отбеливания сигнала с контуром скорости передачи, как описано в [8] в комбинации с искривлением спектральной огибающей, как описано в [9]. Кодек дополнительно нормализует отбеленный спектр FDNS к среднему энергетическому уровню с использованием параметров ILD. Канальные пары для объединенного кодирования выбираются адаптивным способом, как описано в [6], причем стереокодирование состоит из решения по выбору M/S или L/R для каждой полосы частот. Решение M/S для каждой полосы частот основано на оцененной скорости передачи битов в каждой полосе частот при кодировании в режиме L/R и M/S, как описано в [7]. Распределение скоростей передачи битов между прошедшими обработку M/S каналами для каждой полосы частот основано на энергии.
Далее поясняются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:
Фиг. 1 иллюстрирует блок-схему одноканальной предварительной обработки в предпочтительной реализации;
Фиг. 2 иллюстрирует предпочтительную реализацию блок-схемы многосигнального кодера;
Фиг. 3 иллюстрирует предпочтительную реализацию вектора взаимной корреляции и процедуры выбора канальных пар по фиг. 2;
Фиг. 4 иллюстрирует схему индексации канальных пар в предпочтительной реализации;
Фиг. 5a иллюстрирует предпочтительную реализацию многосигнального кодера в соответствии с настоящим изобретением;
Фиг. 5b иллюстрирует схематичное представление кадра кодированного многоканального аудиосигнала;
Фиг. 6 иллюстрирует процедуру, выполняемую посредством адаптивного объединенного процессора сигналов по фиг. 5a;
Фиг. 7 иллюстрирует предпочтительную реализацию, выполняемую посредством адаптивного объединенного процессора сигналов по фиг. 8;
Фиг. 8 иллюстрирует другую предпочтительную реализацию, выполняемую посредством адаптивного объединенного процессора сигналов по фиг. 5;
Фиг. 9 иллюстрирует другую процедуру для целей выполнения выделения битов, которое должно использоваться посредством процессора кодирования с квантованием по фиг. 5;
Фиг. 10 иллюстрирует блок-схему предпочтительной реализации многосигнального декодера;
Фиг. 11 иллюстрирует предпочтительную реализацию, выполняемую посредством объединенного процессора сигналов по фиг. 10;
Фиг. 12 иллюстрирует предпочтительную реализацию декодера сигналов по фиг. 10;
Фиг. 13 иллюстрирует другую предпочтительную реализацию объединенного процессора сигналов в контексте расширения полосы пропускания или интеллектуального заполнения интервалов отсутствия сигнала (IGF);
Фиг. 14 иллюстрирует дополнительную предпочтительную реализацию объединенного процессора сигналов по фиг. 10;
Фиг. 15a иллюстрирует предпочтительные блоки обработки, выполняемые посредством декодера сигналов и объединенного процессора сигналов по фиг. 10; и
Фиг. 15b иллюстрирует реализацию постпроцессора для выполнения операции снятия отбеливания и при необходимости других процедур.
Фиг. 5 иллюстрирует предпочтительную реализацию многосигнального кодера для кодирования по меньшей мере трех аудиосигналов. По меньшей мере три аудиосигнала вводятся в процессор 100 сигналов для предварительной обработки каждого аудиосигнала по отдельности для получения по меньшей мере трёх предварительно обработанных аудиосигналов 180, при этом предварительная обработка выполняется таким образом, что предварительно обработанные аудиосигналы отбеливаются относительно соответствующих сигналов перед предварительной обработкой. По меньшей мере три предварительно обработанных аудиосигнала 180 вводятся в адаптивный объединенный процессор 200 сигналов, который выполнен с возможностью выполнения обработки по меньшей мере трех предварительно обработанных аудиосигналов для получения по меньшей мере трёх объединенно обработанных сигналов или, в варианте осуществления по меньшей мере двух объединенно обработанных сигналов и необработанного сигнала, как поясняется ниже. Многосигнальный кодер содержит кодер 300 сигналов, который соединён с выводом адаптивного объединенного процессора 200 сигналов, и который выполнен с возможностью кодирования каждого сигнала, выводимого посредством адаптивного объединенного процессора 200 сигналов для получения одного или более кодированных сигналов. Эти кодированные сигналы в выводе кодера 300 сигналов перенаправляются в выходной интерфейс 400. Выходной интерфейс 400 выполнен с возможностью передачи или сохранения кодированного многосигнального аудиосигнала 500, причем кодированный многосигнальный аудиосигнал 500 в выводе выходного интерфейса 400 содержит один или более кодированных сигналов, сформированных посредством кодера 300 сигналов, вспомогательную информацию 520, относящуюся к предварительной обработке, выполняемой посредством препроцессора сигналов 200, т.е. информацию отбеливания, и кроме того кодированный многосигнальный аудиосигнал дополнительно содержит вспомогательную информацию 530, относящуюся к обработке, выполняемой посредством адаптивного объединенного процессора 200 сигналов, т.е. вспомогательную информацию, относящуюся к адаптивной объединенной обработке сигналов.
В предпочтительной реализации, кодер 300 сигналов содержит процессор контуров скорости передачи, который управляется посредством информации 536 битового распределения, которая формируется посредством адаптивного объединенного процессора 200 сигналов, и которая перенаправляется не только из блока 200 в блок 300, но которая также перенаправляется, во вспомогательной информации 530, в выходной интерфейс 400 и за счет этого в кодированный многосигнальный аудиосигнал. Кодированный многосигнальный аудиосигнал 500 типично формируется покадрово, при этом кадрирование и, как правило, соответствующее оконное преобразование и частотно-временное преобразование выполняется в препроцессоре 100 сигналов.
Примерная иллюстрация кадра кодированного многосигнального аудиосигнала 500 показана на фиг. 5b. Фиг. 5b иллюстрирует часть 510 потока битов для кодированных по отдельности сигналов, сформированных посредством блока 300. Блок 520 служит для вспомогательной информации предварительной обработки, сформированной посредством блока 100 и перенаправляемой в выходной интерфейс 400. Кроме того, вспомогательная информация 530 объединенной обработки формируется посредством адаптивного объединенного процессора 200 сигналов по фиг. 5a и вводится в кадр кодированного многосигнального аудиосигнала, проиллюстрированный на фиг. 5b. В правой части иллюстрации на фиг. 5b, следующий кадр кодированного многосигнального аудиосигнала должен записываться в последовательный поток битов, тогда как в левой части иллюстрации на фиг. 5b, более ранний кадр кодированного многосигнального аудиосигнала должен записываться.
Как проиллюстрировано ниже, предварительная обработка содержит операции обработки временного формирования шума и/или обработки формирования шума в частотной области, или обработки LTP (долговременного прогнозирования), или обработки оконного преобразования. Соответствующая вспомогательная информация 550 предварительной обработки может содержать по меньшей мере одну из информации временного формирования шума (TNS), информации формирования шума в частотной области (FDNS), информации долговременного прогнозирования (LTP) или информации оконного преобразования либо функции оконного преобразования.
Временное формирование шума содержит прогнозирование спектрального кадра по частоте. Спектральное значение с верхней частотой прогнозируется с использованием комбинирования со взвешиванием спектральных значений, имеющих нижние частоты. Вспомогательная информация TNS содержит весовые коэффициенты комбинирования со взвешиванием, которые также известны как коэффициенты LPC, извлекаемые посредством прогнозирования по частоте. Отбеленные спектральные значения представляют собой остаточные значения прогнозирования, т.е. разности, в расчете на спектральное значение, между исходным спектральным значением и прогнозированным спектральным значением. На стороне декодера, обратное прогнозирование синтезирующей фильтрации LPC выполняется для отмены обработки TNS на стороне кодера.
Обработка FDNS содержит взвешивание спектральных значений кадра с использованием весовых коэффициентов для соответствующих спектральных значений, при этом весовые значения извлекаются из коэффициентов LPC, вычисленных из блока/кадра прошедшего оконное преобразование сигнала временной области. Вспомогательная информация FDNS содержит представление коэффициентов LPC, извлекаемых из сигнала временной области.
Другая процедура отбеливания, также полезная для настоящего изобретения, представляет собой спектральную частотную коррекцию с использованием коэффициентов масштабирования таким образом, что частотно скорректированный спектр представляет версию, более белую, чем версия без частотной коррекции. Вспомогательная информация должна представлять собой коэффициенты масштабирования, используемые для взвешивания, и обратная процедура содержит отмену частотной коррекции на стороне декодера с использованием передаваемых коэффициентов масштабирования.
Другая процедура отбеливания содержит выполнение обратной фильтрации спектра с использованием обратного фильтра, управляемого посредством коэффициентов LPC, извлекаемых из кадра временной области, как известно в области техники кодирования речи. Вспомогательная информация представляет собой информацию обратного фильтра, и эта обратная фильтрация отменяется в декодере с использованием передаваемой вспомогательной информации.
Другая процедура отбеливания содержит выполнение анализа LPC во временной области и вычисление остаточных значений во временной области, которые затем преобразуются в спектральный диапазон. Как правило, такие полученные спектральные значения являются аналогичными спектральным значениям, полученным посредством FDNS. На стороне декодера, постобработка содержит выполнение синтеза LPC с использованием передаваемого представления коэффициентами LPC.
Вспомогательная информация 530 объединенной обработки содержит, в предпочтительной реализации, вспомогательную информацию 532 попарной обработки, информацию 534 масштабирования энергии и информацию 536 битового распределения. Вспомогательная информация попарной обработки может содержать по меньшей мере одно из вспомогательных информационных битов канальных пар, информации полного среднего/бокового режима или сдвоенного монорежима, или среднего/бокового режима для каждой полосы частот и, в случае индикатора среднего/бокового режима для каждой полосы частот, средней/боковой маски, указывающей, для каждой полосы пропускания в кадре, то обрабатывается полоса частот посредством средней/боковой обработки или обработки L/R. Вспомогательная информация попарной обработки дополнительно может содержать интеллектуальное заполнение интервалов отсутствия сигнала (IGF) или другую информацию расширения полосы пропускания, такую как информация SBR (репликации полос спектра) и т.п.
Информация 534 масштабирования энергии может содержать, для каждого отбеленного, т.е. предварительно обработанного сигнала 180, значение масштабирования энергии и флаг, указывающий то, представляет масштабирование энергии собой повышающее масштабирование или понижающее масштабирование. В случае восьми каналов, например, блок 534 должен содержать восемь значений масштабирования, к примеру, восемь квантованных значений ILD и восемь флагов, указывающих для каждого из восьми каналов то, выполнено ли повышающее масштабирование или понижающее масштабирование в кодере либо должно ли оно быть выполнено в декодере. Повышающее масштабирование в кодере необходимо, когда фактическая энергия определенного предварительно обработанного канала в кадре ниже средней энергии для кадра для всех каналов, и понижающее масштабирование необходимо, когда фактическая энергия определенного канала в кадре выше средней энергии по всем каналам в кадре. Вспомогательная информация объединенной обработки может содержать информацию битового распределения для каждого из объединенно обработанных сигналов либо для каждого из объединенно обработанных сигналов и, при наличии, необработанного сигнала, и эта информация битового распределения используется посредством кодера 300 сигналов, как проиллюстрировано на фиг. 5a, и, соответственно, используется посредством используемого декодера сигналов, проиллюстрированного на фиг. 10, который принимает эту информацию потока битов через входной интерфейс из кодированного сигнала.
Фиг. 6 иллюстрирует предпочтительную реализацию адаптивного объединенного процессора сигналов. Адаптивный объединенный процессор 200 сигналов выполнен с возможностью выполнять нормализацию широкополосной энергии по меньшей мере трех предварительно обработанных аудиосигналов таким образом, что каждый предварительно обработанный аудиосигнал имеет нормализованную энергию. Выходной интерфейс 400 выполнен с возможностью включать в себя, в качестве дополнительной вспомогательной информации, значение нормализации широкополосной энергии для каждого предварительно обработанного аудиосигнала, причем это значение соответствует информации 534 масштабирования энергии по фиг. 5b. Фиг. 6 иллюстрирует предпочтительную реализацию нормализации широкополосной энергии. На этапе 211, вычисляется широкополосная энергия для каждого канала. Ввод в блок 211 состоит из предварительно обработанных (отбеленных) каналов. Результат представляет собой значение широкополосной энергии для каждого канала из Ctotal каналов. В блоке 212, средняя широкополосная энергия типично вычисляется посредством суммирования отдельных значений и посредством деления отдельных значений на число каналов. Тем не менее, могут выполняться другие процедуры вычисления среднего значения, такие как среднее геометрическое и т.п.
На этапе 213, каждый канал нормализуется. С этой целью, определяются коэффициент или значение масштабирования и информация повышающего или понижающего масштабирования. Блок 213 в силу этого выполнен с возможностью выводить флаг масштабирования для каждого канала, указываемого в 534a. В блоке 214, выполняется фактическое квантование коэффициента масштабирования, определенного в блоке 212, и этот квантованный коэффициент масштабирования выводится в 534b для каждого канала. Этот квантованный коэффициент масштабирования также указывается в качестве межканальной разности уровней, т.е. для определенного канала k относительно опорного канала, имеющего среднюю энергию. В блоке 215, спектр каждого канала масштабируется с использованием квантованного коэффициента масштабирования. Операция масштабирования в блоке 215 управляется посредством вывода блока 213, т.е. посредством информации в отношении того, должно выполняться повышающее масштабирование или понижающее масштабирование. Вывод блока 215 представляет масштабированный спектр для каждого канала.
Фиг. 7 иллюстрирует предпочтительную реализацию адаптивного объединенного процессора 200 сигналов относительно каскадной обработки пар. Адаптивный объединенный процессор 200 сигналов выполнен с возможностью вычислять значения взаимной корреляции для каждой возможной канальной пары, как указано в блоке 221. Блок 229 иллюстрирует выбор пары с наибольшим значением взаимной корреляции, и в блоке 232a, режим объединенной стереообработки определяется для этой пары. Режим объединенной стереообработки может состоять из среднего/бокового кодирования для полнокадрового среднего/бокового кодирования для каждой полосы частот, т.е. при котором для каждой полосы частот из множества полос частот определяется, должна ли эта полоса частот обрабатываться в среднем/боковом режиме или режиме L/R, либо должна ли для этой конкретной рассматриваемой пары выполняться полнополосная сдвоенная монообработка для фактического кадра. В блоке 232b, объединенная стереообработка для выбранной пары фактически выполняется с использованием режима, определенного в блоке 232a.
В блоке 235, 238, каскадная обработка с полным деревом или обработка с упрощенным деревом, или некаскадная обработка продолжается до определенного критерия завершения. При определенном критерии завершения, индикатор пары, выводимый, например, посредством блока 229, и информация обработки в стереорежиме, выводимая посредством блока 232a, формируются и вводятся в поток битов во вспомогательной информации 532 попарной обработки, поясненной относительно фиг. 5b.
Фиг. 8 иллюстрирует предпочтительную реализацию адаптивного объединенного процессора сигналов для целей подготовки к кодированию сигналов, выполняемому посредством кодера 300 сигналов по фиг. 5a. С этой целью, адаптивный объединенный процессор 200 сигналов вычисляет энергию сигналов для каждого стереообработанного сигнала в блоке 282. Блок 282 принимает, в качестве ввода, объединенно стереообработанные сигналы, и в случае канала, который не подвергнут стереообработке, поскольку не обнаружено, что этот канал имеет достаточную взаимную корреляцию с любым другим каналом для формирования полезной канальной пары, этот канал вводится в блок 282 с обратной или модифицированной, или ненормализованной энергией. Он в общем называется «сигналом после обращения назад энергии», но нормализация энергии, выполняемая на фиг. 6, блок 215, не должна обязательно полностью обращаться назад. Предусмотрены определенные альтернативы для решения проблем, связанных с канальным сигналом, который не определен как полезный вместе с другим каналом для обработки канальных пар. Одна процедура заключается в изменении на противоположное масштабирования, первоначально выполняемого в блоке 215 по фиг. 6. Другая процедура заключается лишь в частичном изменении масштабирование на противоположное, или другая процедура заключается во взвешивании масштабированного канала определенным другим способом в зависимости от обстоятельств.
В блоке 284 вычисляется полная энергия для всех сигналов, выводимых посредством адаптивного объединенного процессора 200 сигналов. Информация битового распределения вычисляется в блоке 286 для каждого сигнала на основе энергии сигналов для каждого стереообработанного сигнала либо, при наличии, для сигнала после обращения назад энергии или после взвешивания энергии и на основе полной энергии, выводимой посредством блока 284. Эта вспомогательная информация 536, сформированная посредством блока 286, с одной стороны, перенаправляется в кодер 300 сигналов по фиг. 5a и дополнительно перенаправляется в выходной интерфейс 400 через логическое соединение 530 таким образом, что эта информация битового распределения включается в кодированный многосигнальный аудиосигнал 500 по фиг. 5a или фиг. 5b.
Фактическое выделение битов выполняется в предпочтительном варианте осуществления на основе процедур, проиллюстрированных на фиг. 9. В первой процедуре, назначается минимальное число битов для каналов без LFE (улучшения низких частот) и, при наличии, канальных битов улучшения низких частот. Эти минимальные числа битов требуются посредством кодера 300 сигналов независимо от определенного контента сигнала. Оставшиеся биты назначаются в соответствии с информацией 536 битового распределения, сформированной посредством блока 286 по фиг. 8, и вводятся в блок 291. Назначение осуществляется на основе квантованного отношения энергий, и предпочтительно использовать квантованное отношение энергий, а не неквантованную энергию.
На этапе 292, выполняется детализация. Когда квантование является таким, что оставшиеся биты назначаются, и результат выше доступного числа битов, должно выполняться вычитание битов, назначаемых в блоке 291. Тем не менее, когда квантование отношения энергий является таким, что процедура назначения в блоке 291 является такой, что по-прежнему имеются биты, которые должны дополнительно назначаться, эти биты могут дополнительно обеспечиваться или распределяться на этапе 292 детализации. Если, после этапа детализации, по-прежнему имеются биты, которые следует использовать посредством кодера сигналов, выполняется этап 293 конечного вклада, и конечный вклад выполняется для канала с максимальной энергией. В выводе этапа 293 доступен назначенный битовый бюджет для каждого сигнала.
На этапе 300, выполняется квантование и энтропийное кодирование каждого сигнала с использованием назначенного битового бюджета, сформированного посредством процесса этапов 290, 291, 292, 293. По существу, выделение битов выполняется таким образом, что канал/сигнал с более высокой энергией квантуется точнее канала/сигнала с более низкой энергией. Важно то, что выделение битов выполняется не с использованием исходных сигналов или отбеленных сигналов, а выполняется с использованием сигналов в выводе адаптивного объединенного процессора 200 сигналов, которые имеют отличающиеся энергии от сигналов, вводимых в адаптивную объединенную обработку сигналов вследствие объединенной обработки каналов. В этом контексте, также следует отметить, что, хотя обработка канальных пар представляет собой предпочтительную реализацию, другие группы каналов могут выбираться и обрабатываться посредством взаимной корреляции. Например, группы из трех или даже четырех каналов могут формироваться посредством адаптивного объединенного процессора сигналов и, соответственно, обрабатываться в каскадной полной процедуре или каскадной процедуре с упрощенным деревом или в некаскадной процедуре.
Выделение битов, проиллюстрированное в блоках 290, 291, 292, 293, выполняется аналогичным образом на стороне декодера посредством декодера 700 сигналов по фиг. 10 с использованием информации 536 распределения, извлеченной из кодированного многосигнального аудиосигнала 500.
Предпочтительные варианты осуществления
В этой реализации, кодек использует новые концепции для консолидации гибкости сигнально-адаптивного объединенного кодирования произвольных каналов, как описано в [6], посредством введения концепций, описанных в [7], для объединенного стереокодирования. Они представляют собой:
a) Использование перцепционно отбеленных сигналов для дополнительного кодирования (аналогично способу, которым они используются в речевом кодере). Это имеет несколько преимуществ:
- Упрощение архитектуры кодека
- Компактное представление характеристик формирования шума/порогового значения маскирования (например, в качестве коэффициентов LPC)
- Унификация архитектуры преобразования и речевого кодека и в силу этого обеспечение комбинированного кодирования аудио/речи
b) Использование параметров ILD произвольных каналов для того эффективного кодирования панорамированных источников
c) Гибкое битовое распределение между обработанными каналами на основании энергии.
Кодек использует формирование шума в частотной области (FDNS) для перцепционного отбеливания сигнала с контуром скорости передачи, как описано в [8] в комбинации с искривлением спектральной огибающей, как описано в [9]. Кодек дополнительно нормализует отбеленный спектр FDNS к среднему энергетическому уровню с использованием параметров ILD. Канальные пары для объединенного кодирования выбираются адаптивным способом, как описано в [6], причем стереокодирование состоит из решения по выбору M/S или L/R для каждой полосы частот. Решение M/S для каждой полосы частот основано на оцененной скорости передачи битов в каждой полосе частот при кодировании в режиме L/R и M/S-, как описано в [7]. Распределение скоростей передачи битов между прошедшими обработку M/S каналами для каждой полосы частот основано на энергии.
Варианты осуществления относятся к системе многосигнального кодирования и декодирования на основе MDCT с сигнально-адаптивной объединенной обработкой каналов, при этом сигнал может представлять собой канал, и множественный сигнал представляет собой многоканальный сигнал либо, в качестве альтернативы, аудиосигнал, представляющий собой компонент описания звукового поля, такого как амбиофонический компонент, т.е. W, X, Y, Z в амбиофонии первого порядка или любой другой компонент в описании на основе амбиофонии высшего порядка. Сигнал также может представлять собой сигнал формата A или формата B либо любого другого описания формата звукового поля. Следовательно, такое же описание, как то, что приведено для «каналов», также является применимым к «компонентам» или другим «сигналам» многосигнального аудиосигнала.
Одноканальная обработка в кодере вплоть до отбеленного спектра
Каждый один канал k анализируется и преобразуется в отбеленный спектр области MDCT после этапов обработки, как показано на блок-схеме по фиг. 1.
Блоки обработки детектора переходных частей во временной области, оконного преобразования, MDCT, MDST и OLA описаны в [8]. MDCT и MDST формируют модулированное комплексное перекрывающееся преобразование (MCLT); выполнение MDCT и MDST по отдельности является эквивалентным выполнению MCLT; «MCLT в MDCT» представляет использование только части MDCT в MCLT и отбрасывание MDST.
Временное формирование шума (TNS) выполняется аналогично тому, как описано в [8], в дополнение к чему порядок TNS и формирование шума в частотной области (FDNS) является адаптивным. Наличие 2 блоков TNS на чертежах должно пониматься как возможность изменять порядок FDNS и TNS. Решение в отношении порядка TNS и FDNS, например, может представлять собой решение, описанное в [9].
Формирование шума в частотной области (FDNS) и вычисление параметров FDNS являются аналогичными процедуре, описанной в [9]. Одно отличие заключается в том, что параметры FDNS для кадров, в которых TNS является неактивным, вычисляются из спектра MCLT. В кадрах, в которых TNS является активным, спектр MDST оценивается из спектра MDCT.
Фиг. 1 иллюстрирует предпочтительную реализацию процессора 100 сигналов, который выполняет отбеливание по меньшей мере трех аудиосигналов для получения предварительно обработанных по отдельности отбеленных сигналов 180. Препроцессор 100 сигналов содержит ввод для входного сигнала временной области канала k. Этот сигнал вводится в блок 102 оконного преобразования, детектор 104 переходных частей и блок 106 вычисления параметров LTP. Детектор 104 переходных частей обнаруживает, является ли текущая часть входного сигнала переходной, и в случае, если это подтверждено, детектор 104 переходных частей управляет блоком 102 оконного преобразования таким образом, чтобы задавать меньшую длину окна. Индикатор окна преобразования, т.е. то, какая длина окна преобразования выбрана, также включается во вспомогательную информацию и, в частности, во вспомогательную информацию 520 предварительной обработки по фиг. 5b. Кроме того, параметры LTP, вычисленные посредством блока 106, также вводятся в блок вспомогательной информации, и эти параметры LTP, например, могут использоваться для выполнения некоторой постобработки декодированных сигналов или другие процедуры, известные в данной области техники. Блок 140 оконного преобразования формирует прошедшие оконное преобразование кадры временной области, которые вводятся во время-спектральный преобразователь 108. Время-спектральный преобразователь 108 предпочтительно выполняет комплексное перекрывающееся преобразование. Из этого комплексного перекрывающегося преобразования, действительная часть может извлекаться для получения результата преобразования MDCT, как указано в блоке 112. Результат блока 112, т.е. спектр MDCT вводится в блок 114a TNS и последующий соединенный блок 116 FDNS. В качестве альтернативы, только FDNS выполняется без блока 114a TNS или наоборот, либо обработка TNS выполняется после обработки FDNS, как указано посредством этапа 114b. Обычно присутствует блок 114a или блок 114b. В выводе блока 114b, когда блок 114a не присутствует, либо в выводе блока 116, когда блок 114b не присутствует, отбеленные обработанные по отдельности сигналы, т.е. предварительно обработанные сигналы получаются для каждого канала k. Блок 114a или 114b TNS и блок 116 FDNS формируют и перенаправляют информацию предварительной обработки во вспомогательную информацию 520.
В любом случае, не обязательно иметь комплексное преобразование в блоке 108. Кроме того, время-спектральный преобразователь, выполняющий только MDCT, также является достаточным для определенных вариантов применения, и если мнимая часть преобразования требуется, эта мнимая часть также может оцениваться из действительной части в зависимости от обстоятельств. Признак обработки TNS/FDNS заключается в том, что в случае, если TNS является неактивным, параметры FDNS вычисляются из комплексного спектра, т.е. из спектра MCLT, в то время как в кадрах, в которых TNS является активным, спектр MDST оценивается из спектра MDCT таким образом, что всегда имеется, для операции формирования шума в частотной области, полный доступный комплексный спектр.
Описание системы объединенного канального кодирования
В описанной системе, после того, как каждый канал преобразуется в отбеленную область MDCT, сигнально-адаптивное применение варьирующихся подобий между произвольными каналами для объединенного кодирования применяется, на основе алгоритма, описанного в [6]. Из этой процедуры, соответствующие канальные пары обнаруживаются и выбираются с возможностью объединенно кодироваться с использованием преобразования M/S для каждой полосы частот.
Общее представление системы кодирования приводится на фиг. 2. Для простоты, блочные стрелки представляют одноканальную обработку (т.е. блок обработки применяется к каждому каналу), и блок «анализ в области MDCT» представлен подробно на фиг. 1.
В следующих абзацах подробно описаны отдельные этапы алгоритма, применяемого в расчете на кадр. Блок-схема потоков данных описанного алгоритма приведена на фиг. 3.
Следует отметить, что в начальной конфигурации системы предусмотрена канальная маска, указывающая то, для каких каналов является активным многоканальное инструментальное средство объединенного кодирования. Следовательно, для ввода, в котором присутствуют каналы LFE (эффектов/улучшения низких частот), они не учитываются на этапах обработки инструментального средства.
Нормализация энергии всех каналов к средней энергии
Преобразование M/S не является эффективным, если ILD существует, т.е. если каналы панорамируются. Эта проблема исключается посредством нормализации амплитуды перцепционно отбеленных спектров всех каналов до среднего энергетического уровня .
○ Вычисление энергии для каждого канала :
,
где N является общим числом спектральных коэффициентов.
○ Вычисление средней энергии:
○ Нормализация спектра каждого канала к средней энергии:
если (понижающее масштабирование)
где a является коэффициентом масштабирования. Коэффициент масштабирования равномерно квантуется и отправляется в декодер в качестве вспомогательных информационных битов.
,
где
Затем квантованный коэффициент масштабирования, с которым в итоге масштабируется спектр, задается следующим образом:
если (повышающее масштабирование)
и:
,
где вычисляется аналогично предыдущему случаю.
Чтобы отличать то, выполняется понижающее масштабирование/повышающее масштабирование в декодере, и чтобы обращать назад нормализацию, помимо -значений для каждого канала, отправляется однобитовый флаг (0=понижающее масштабирование/1=повышающее масштабирование). указывает число битов, используемых для передаваемого квантованного значения масштабирования, и это значение известно для кодера и декодера и не должно передаваться в кодированном аудиосигнале.
Вычисление нормализованных значений межканальной взаимной корреляции для всех возможных канальных пар
На этом этапе для определения и выбора того, какая канальная пара имеет наибольшую степень подобий и в силу этого является подходящей для выбора в качестве пары для объединенного стереокодирования, вычисляется нормализованное значение межканальной взаимной корреляции для каждой возможной канальной пары. Нормализованное значение взаимной корреляции для каждой канальной пары задается посредством взаимного спектра следующим образом:
где:
N является общим числом спектральных коэффициентов в расчете на кадр и , представляющих собой соответствующие спектры рассматриваемой канальной пары.
Нормализованные значения взаимной корреляции для каждого спаренного канала сохраняются в векторе взаимной корреляции:
,
где является максимальным числом возможных пар.
Как видно на фиг. 1, в зависимости от детектора переходных частей, могут быть предусмотрены различные размеры блоков (например, размеры в 10 или 20 блоков MS функции оконного преобразования). Следовательно, межканальная взаимная корреляция вычисляется при условии, что спектральное разрешение для обоих каналов является одинаковым. В противном случае, значение задается равным 0, за счет этого обеспечивая то, что такие канальные пары не выбираются для объединенного кодирования.
Используется схема индексации для уникального представления каждой канальной пары. Пример такой схемы для индексации шести входных каналов показан на фиг 4.
Такая же схема индексации поддерживается для всего алгоритма и также используется для передачи канальных пар в служебных сигналах в декодер. Число битов, требуемых для передачи в служебных сигналах одной канальной пары, составляет:
Выбор канальных пар и объединенно кодированная стереообработка
После вычисления вектора взаимной корреляции первая канальная пара, которая должна рассматриваться для объединенного кодирования, является надлежащей с наибольшим значением взаимной корреляции, превышающим минимальное пороговое значение, предпочтительно в 0,3.
Выбранная пара каналов служит в качестве ввода в процедуру стереокодирования, а именно в преобразование M/S для каждой полосы частот. Для каждой полосы спектра, решение в отношении того, кодируются каналы с использованием кодирования M/S или дискретного кодирования L/R, зависит от оцененной скорости передачи битов для каждого случая. Выбирается способ кодирования, который является менее затратным с точки зрения битов. Эта процедура подробно описана в [7].
Вывод этого процесса приводит в результате к обновленному спектру для каждого из каналов выбранной канальной пары. Кроме того, информация, которая должна совместно использоваться с декодером (вспомогательная информация) относительно этой канальной пары, создается, т.е. то, какой стереорежим выбирается (полный M/S, сдвоенный монорежим или M/S для каждой полосы частот), и, если M/S для каждой полосы частот представляет собой выбранный режим, соответствующую маску для указания того, выбирается кодирование M/S (1) или L/R (0).
Для следующих этапов, предусмотрено два варьирования алгоритма:
○ Каскадное дерево канальных пар
Для этого варьирования вектор взаимной корреляции обновляется для канальных пар, которые затрагиваются из измененного спектра (если предусмотрено преобразование M/S) выбранной канальной пары. Например, в случае с 6 каналами, если выбранная и обработанная канальная пара представляет собой канальную пару с индексом 0 по фиг. 4, что означает кодирование канала 0 с каналом 1, то после стереообработки, необходимо повторно вычислять взаимную корреляцию для затрагиваемых канальных пар, т.е. с индексом 0, 1, 2, 3, 4, 5, 6, 7, 8.
Затем процедура продолжается так, как описано выше: выбор канальной пары с максимальной взаимной корреляцией, подтверждение того, что она выше минимального порогового значения, и применение стереорежима работы. Это означает то, что каналы, которые представляют собой часть предыдущей канальной пары, могут повторно выбираться с возможностью служить в качестве ввода в новую канальную пару, термин "каскадный". Это может происходить, поскольку оставшаяся корреляция по-прежнему может присутствовать между выводом канальной пары и другим произвольным каналом, представляющим другое направление в пространственной области. Конечно, одни и те же канальные пары не должны выбираться два раза.
Процедура продолжается, когда максимальное разрешенное число итераций (абсолютный максимум составляет P) достигается, или после обновления вектора взаимной корреляции ни одно значение для канальной пары не превышает пороговое значение 0,3 (отсутствует корреляция между произвольными каналами).
○ Упрощенное дерево
Процесс с каскадным деревом канальных пар является теоретически оптимальным, поскольку он пытается удалять корреляцию всех произвольных каналов и обеспечивать максимальное энергетическое уплотнение. С другой стороны, он является довольно сложным, поскольку число выбранных канальных пар может превышать , что приводит к дополнительной вычислительной сложности (обусловленной процессом принятия решений M/S для стереорежима работы), а также к дополнительным метаданным, которые должны передаваться в декодер для каждой канальной пары.
Для варьирования с упрощенным деревом, «каскадирование» не разрешается. Это обеспечивается, когда из процесса, описанного выше, при обновлении вектора взаимной корреляции, значения затрагиваемых канальных пар стереорежима работы предыдущей канальной пары не вычисляются повторно, а задаются равными 0. Следовательно, невозможно выбирать канальную пару, для которой один из каналов уже представляет собой часть существующей канальной пары.
Это вариант, описывающий блок «адаптивной объединенной обработки каналов» на фиг. 2.
Этот случай приводит к аналогичной сложности с системой с заданными канальными парами (например, L и R, задний L- и задний R-), поскольку максимальное число канальных пар, которые могут выбираться, составляет .
Следует отметить, что могут возникать случаи, в которых стереорежим работы выбранной канальной пары не изменяет спектры каналов. Это происходит, когда алгоритм принятия решений M/S определяет, что режим кодирования должен представлять собой «сдвоенный монорежим». В этом случае, предусмотренные произвольные каналы более не считаются канальной парой, поскольку они кодируются по отдельности. Кроме того, обновление вектора взаимной корреляции не должно иметь эффекта. Чтобы продолжать процесс, рассматривается канальная пара со следующим наибольшим значением. Этапы в этом случае продолжаются так, как описано выше.
Сохранение выбора канальных пар (стереодерева) предыдущего кадра
Во многих случаях, нормализованные значения взаимной корреляции произвольных канальных пар между кадрами могут быть близкими, и в силу этого, выбор зачастую может переключаться между этими близкими значениями. Это может вызывать частое переключение деревьев канальных пар, что может приводить к слышимым нестабильностям в устройстве вывода. Следовательно, выбирается вариант использовать механизм стабилизации, в котором новый набор канальных пар выбирается только тогда, когда возникает существенное изменение в сигнале, и подобия между произвольными каналами изменяются. Для обнаружения этого вектор взаимной корреляции текущего кадра сравнивается с вектором предыдущего кадра, и когда разность превышает определенное пороговое значение, в таком случае выбор новых канальных пар разрешается.
Варьирование во времени вектора взаимной корреляции вычисляется следующим образом:
Если , то выбор новых канальных пар, которые должны объединенно кодироваться, как описано на предыдущем этапе, разрешается. Выбранное пороговое значение задается следующим образом:
С другой стороны, если разности являются небольшими, то используется такое же дерево канальных пар, что и дерево канальных пар в предыдущем кадре. Для каждой данной канальной пары, работа в режиме M/S для каждой полосы частот применяется, как описано выше. Тем не менее, если нормализованное значение взаимной корреляции для данной канальной пары не превышает пороговое значение 0,3, то инициируется выбор новых канальных пар, создающих новое дерево.
Обращение назад энергии одиночных каналов
После окончания итеративного процесса для выбора канальных пар, могут быть предусмотрены каналы, которые не составляют часть ни одной канальной пары и в силу этого кодируются по отдельности. Для этих каналов, начальная нормализация энергетического уровня к среднему энергетическому уровню обращается назад к своему исходному энергетическому уровню. В зависимости от флага, передающего в служебных сигналах повышающее масштабирование или понижающее масштабирование, энергия этих каналов обращается назад с использованием инверсии квантованного коэффициента масштабирования.
IGF для многоканальной обработки
Относительно анализа IGF в случае пар стереоканалов, дополнительная объединенная стереообработка применяется, как подробно описано в [10]. Это необходимо, поскольку для определенного целевого диапазона в спектре IGF сигнал может представлять собой высококоррелированный панорамированный источник звука. В случае если исходные области, выбранные для этой конкретной области, не имеют хорошей корреляции, хотя энергии совпадают для целевых областей, пространственное изображение может ухудшаться вследствие некоррелированных исходных областей.
Следовательно, для каждой канальной пары, стерео-IGF применяется, если стереорежим базовой области отличается от стереорежима области IGF, либо если стереорежим ядра помечается флагом в качестве M/S для каждой полосы частот. Если эти условия не применяются, то выполняется одноканальный анализ IGF. Если предусмотрены одиночные каналы, не кодированные объединенно в канальной паре, то они также подвергаются одноканальному анализу IGF.
Распределение доступных битов для кодирования спектра каждого канала
После процесса объединенной стереообработки канальных пар, каждый канал квантуется и кодируется по отдельности посредством энтропийного кодера. Следовательно, для каждого канала должно быть предусмотрено доступное число битов. На этом этапе, общее число доступных битов распределяется в каждый канал с использованием энергий обработанных каналов.
Энергия каждого канала, вычисление которой описано выше на этапе нормализации, повторно вычисляется, поскольку спектр для каждого канала, возможно, изменен вследствие объединенной обработки. Новые энергии обозначаются как . В качестве первого этапа, вычисляется отношение на основе энергии, с которым должны распределяться биты:
Здесь следует отметить, что в случае, если ввод состоит также из канала LFE, он не учитывается для вычислений отношения. Для канала LFE минимальное число битов назначается только в том случае, если канал имеет ненулевой контент. Отношение равномерно квантуется:
Квантованные отношения сохраняются в потоке битов, который должен использоваться из декодера для назначения одинакового числа битов каждому каналу для считывания передаваемых спектральных коэффициентов каналов.
Ниже описана схема битового распределения:
○ Для каждого канала, назначение минимального числа битов, требуемого посредством энтропийного кодера
○ Оставшиеся биты, т.е. , делятся с использованием квантованного отношения :
○ Вследствие квантованного отношения, биты приблизительно распределяются, и в силу этого оно может составлять . Таким образом, на втором этапе детализации, разность пропорционально вычитается из канальных битов :
○ После этапа детализации, если по-прежнему имеется расхождение по сравнению с , разность (обычно очень небольшое число битов) жертвуется каналу с максимальной энергией.
Такая же процедура выполняется в декодере для определения числа битов, которые должны считываться для декодирования спектральных коэффициентов каждого канала; rtRANGE указывает число bitsk битов, используемых для информации битового распределения, и это значение известно для кодера и декодера и не должно передаваться в кодированном аудиосигнале.
Квантование и кодирование каждого канала
Квантование, заполнение шумом и энтропийное кодирование, включающее в себя контур скорости передачи, являются такими, как описано в [8]. Контур скорости передачи может оптимизироваться с использованием оцененного Gest. Спектр P мощности (абсолютная величина MCLT) используется для показателей тональности/шума в квантовании и интеллектуальном заполнении интервалов отсутствия сигнала (IGF), как описано в [8]. Поскольку отбеленный и прошедший обработку M/S спектр MDCT для каждой полосы частот используется для спектра мощности, такая же и обработка FDNS и M/S должна осуществляться для спектра MDST. Такое же масштабирование с нормализацией на основе ILD должно осуществляться для спектра MDST, аналогично тому, как оно осуществляется для MDCT. Для кадров, в которых TNS является активным, спектр MDST, используемый для вычисления спектра мощности, оценивается из отбеленного и прошедшего обработку M/S спектра MDCT.
Фиг. 2 иллюстрирует блок-схему предпочтительной реализации кодера и, в частности, адаптивного объединенного процессора 200 сигналов по фиг. 2. Все по меньшей мере три предварительно обработанных аудиосигнала 180 вводятся в блок 210 нормализации энергии, который формирует, на выходе, вспомогательные биты 534 отношения канальных энергий, состоящие, с одной стороны, из квантованных отношений, а с другой стороны, из флагов для каждого канала, указывающих повышающее масштабирование или вниз масштабирование. Тем не менее, также могут выполняться другие процедуры без явных флагов для повышающего масштабирования или понижающего масштабирования.
Нормализованные каналы вводятся в блок 220 для выполнения вычисления вектора взаимной корреляции и выбора канальных пар. На основе процедуры в блоке 220, которая предпочтительно представляет собой итеративную процедуру с использованием каскадного полного дерева или каскадную обработку с упрощенным деревом либо которая, в качестве альтернативы, представляет собой неитеративную некаскадную обработку, соответствующие стереооперации выполняются в блоке 240, который может выполнять полнополосную среднюю/боковую обработку или среднюю/боковую обработку для каждой полосы частот либо любую другую соответствующую операцию стереообработки, такую как вращения, масштабирования, любые взвешенные или невзвешенные линейные или нелинейные комбинирования и т.д.
В выводе блоков 240, может выполняться стереообработка интеллектуального заполнения интервалов отсутствия сигнала (IGF) либо любая другая обработка расширения полосы пропускания, такая как обработка репликации полос спектра или обработка гармонической полосы пропускания. Обработка отдельных канальных пар передается в служебных сигналах через вспомогательные информационные биты канальных пар, и хотя не проиллюстрировано на фиг. 2, IGF или общие параметры расширения полосы пропускания, сформированные посредством блоков 260, также записываются в поток битов для вспомогательной информации 530 объединенной обработки и, в частности, для вспомогательной информации 532 попарной обработки по фиг. 5b.
Конечный каскад по фиг. 2 представляет собой процессор 280 канального битового распределения, который вычисляет коэффициент выделения битов, например, как поясняется относительно фиг. 9. Фиг. 2 иллюстрирует схематичное представление кодера 300 сигналов в качестве квантователя и кодера, управляемого посредством вспомогательной информации 530 скорости передачи битов канала, и кроме того, выходного интерфейса 400 или блока 400 записи потоков битов, который комбинирует результат кодера 300 сигналов и все требуемые вспомогательные информационные биты 520, 530 по фиг. 5b.
Фиг. 3 иллюстрирует предпочтительную реализацию существенных процедур, выполняемых посредством блоков 210, 220, 240. После начала процедуры, нормализация ILD выполняется, как указано в 210 на фиг. 2 или фиг. 3. На этапе 221, вычисляется вектор взаимной корреляции. Вектор взаимной корреляции состоит из нормализованных значений взаимной корреляции для каждой возможной канальной пары каналов от 0 до N, выводимых посредством блока 210. Для примера на фиг. 4, в котором имеются шесть каналов, могут анализироваться 15 различных возможностей, которые составляют от 0 до 14. Первый элемент вектора взаимной корреляции имеет значение взаимной корреляции между каналом 0 и каналом 1, и, например, элемент вектора взаимной корреляции с индексом 11 имеет взаимную корреляцию между каналом 2 и каналом 5.
На этапе 222 выполняется вычисление для определения, должно ли поддерживаться дерево, определенное для предшествующего кадра. С этой целью вычисляется варьирование во время вектора взаимной корреляции, и предпочтительно, вычисляются сумма отдельных разностей векторов взаимной корреляции и, в частности, абсолютные величины разностей. На этапе 223 определяется, превышает ли сумма разностей пороговое значение. Если это имеет место, то на этапе 224, флаг keepTree задается равным 0, что означает то, что дерево не сохраняется, а вычисляется новое дерево. Тем не менее, когда определяется то, что сумма меньше порогового значения, блок 225 задает флаг keepTree=1 таким образом, что дерево, которое определяется из предыдущего кадра, также применяется для текущего кадра.
На этапе 226, итеративный критерий завершения проверяется. В случае если определяется то, что максимальное число канальных пар (CP) не достигается, что, конечно, имеет место, когда к блоку 226 осуществляется доступ в первый раз, и когда флаг keepTree задается равным 0, как определено посредством блока 228, процедура продолжается в блоке 229 для выбора канальной пары с максимальной взаимной корреляцией из вектора взаимной корреляции. Тем не менее, когда дерево более раннего кадра поддерживается, т.е. когда keepTree равен 1, как проверено в блоке 225, блок 230 определяет, превышает ли взаимная корреляция «принудительной» канальной пары пороговое значение. В ином случае, процедура продолжается на этап 227, что, тем не менее, означает то, что новое дерево должно определяться, хотя процедура в блоке 223 определяет противоположное. Оценка в блоке 230 и соответствующее последствие в блоке 227 могут отвергать определение в блоке 223 и 225.
В блоке 231 определяется, составляет ли канальная пара с максимальной взаимной корреляцией выше 0,3. Если это имеет место, стереорежим работы в блоке 232 выполняется, который также указывается в качестве 240 на фиг. 2. Когда в блоке 233, определяется то, что стереорежим работы представляет собой сдвоенный монорежим, значение keepTree, равное 0, задается в блоке 234. Тем не менее, когда определяется то, что стереорежим отличается от сдвоенного монорежима, вектор взаимной корреляции 235 должен повторно вычисляться, поскольку средняя/боковая операция выполнена, и вывод блока 240 (или 232) стереорежима работы отличается вследствие обработки. Обновление CC-вектора 235 требуется только тогда, когда фактически предусмотрен средний/боковой стереорежим работы или, в общем, стереорежим работы, отличный от сдвоенного монорежима.
Тем не менее, когда проверка в блоке 226 или проверка в блоке 231 приводит к ответу «Нет», управление переходит к блоку 236 для проверки, предусмотрен ли одиночный канал. Если это имеет место, т.е. если обнаружен одиночный канал, который не обработан вместе с другим каналом в обработке канальных пар, нормализация ILD изменяется на противоположное в блоке 237. В качестве альтернативы, изменение на противоположное в блоке 237 может представлять собой только частичное изменение на противоположное либо может представлять собой некоторое взвешивание.
В случае если итерация завершается, и в случае если блоки 236 и 237 также завершаются, процедура завершается, и все канальные пары обработаны, и в выводе адаптивного объединенного процессора сигналов имеются по меньшей мере три объединенно обработанных сигнала в случае блока 236, приводящего к ответу "Нет", либо имеются по меньшей мере два объединенно обработанных сигнала и необработанный сигнал, соответствующий «одиночному каналу», когда блок 236 приводит к ответу «Да».
Описание системы декодирования
Процесс декодирования начинается с декодирования и обратного квантования спектра объединенно кодированных каналов, после которого выполняется заполнение шумом, как описано в 6.2.2 «TCX на основе MDCT» по [11] или [12]. Число битов, выделяемых каждому каналу, определяется на основе длины окна преобразования, стереорежима и отношения скоростей передачи битов, которые кодируются в потоке битов. Число битов, выделяемых каждому каналу, должно быть известным до полного декодирования потока битов.
В блоке интеллектуального заполнения интервалов отсутствия сигнала (IGF), линии, квантованные до нуля в определенном диапазоне спектра, называемом «целевой плиткой», заполнены обработанным контентом из другого диапазона спектра, называемого «исходной плиткой». Вследствие стереообработки для каждой полосы частот, стереопредставление (т.е. или L/R или M/S) может отличаться для исходной и целевой плитки. Чтобы обеспечивать хорошее качество, если представление исходной плитки отличается от представления целевой плитки, исходная плитка обрабатывается для ее преобразования в представление целевого файла до заполнения интервалов отсутствия сигнала в декодере. Эта процедура уже описана в [10]. Непосредственно IGF, в отличие от раскрытого в [11] и [12], применяется в отбеленной спектральной области вместо исходной спектральной области. В отличие от известных стереокодеков (например, [10]), IGF применяется в отбеленной спектральной области с компенсацией ILD.
Из передачи в служебных сигналах потоков битов также известно, имеются ли канальные пары, которые объединенно кодированы. Обратная обработка должна начинаться с последней канальной пары, сформированной в кодере, в частности, для каскадного дерева канальных пар для преобразования обратно в исходные отбеленные спектры каждого канала. Для каждой канальной пары, обратная стереообработка применяется на основе стереорежима и решения M/S для каждой полосы частот.
Для всех каналов, которые предусмотрены в канальных парах и объединенно кодированы, спектр денормализуется в исходный энергетический уровень на основе -значений, которые отправлены из кодера.
Фиг. 10 иллюстрирует предпочтительную реализацию многосигнального декодера для декодирования кодированного сигнала 500. Многосигнальный декодер содержит входной интерфейс 600, декодер 700 сигналов для декодирования по меньшей мере трех выводов кодированных сигналов посредством входного интерфейса 600. Многосигнальный декодер содержит объединенный процессор 800 сигналов для выполнения объединенной обработки сигналов в соответствии со вспомогательной информацией, включенной в кодированный сигнал для получения по меньшей мере трёх обработанных декодированных сигналов. Многосигнальный декодер содержит постпроцессор 900 для постобработки по меньшей мере трех обработанных декодированных сигналов в соответствии со вспомогательной информацией, включенной в кодированный сигнал. В частности, постобработка выполняется таким образом, что прошедшие постобработку сигналы являются менее белыми, чем сигналы перед постобработкой. Прошедшие постобработку сигналы представляют, прямо или косвенно, декодированный аудиосигнал 1000.
Вспомогательная информация, извлеченная посредством входного интерфейса 600 и перенаправленная в объединенный процессор 800 сигналов, представляет собой вспомогательную информацию 530, проиллюстрированную на фиг. 5b, и вспомогательная информация, извлеченная посредством входного интерфейса 600 из кодированного многосигнального аудиосигнала, которая перенаправляется в постпроцессор 900 для выполнения операции снятия отбеливания, представляет собой вспомогательную информацию 520, проиллюстрированную и поясненную относительно фиг. 5b.
Объединенный процессор 800 сигналов выполнен с возможностью извлекать или принимать из входного интерфейса 600 значение нормализации энергии для каждого прошедшего объединенное стереодекодирование сигнала. Это значение нормализации энергии для каждого прошедшего объединенное стереодекодирование сигнала соответствует информации 530 масштабирования энергии по фиг. 5b. Адаптивный объединенный процессор 200 сигналов выполнен с возможностью попарно обрабатывать 820 декодированные сигналы с использованием объединенной вспомогательной стереоинформации или объединенного стереорежима, как указано посредством объединенной вспомогательной стереоинформации 532, включенной в кодированный аудиосигнал 500 для получения прошедших объединенное стереодекодирование сигналов в выводе блока 820. В блоке 830, операция повторного масштабирования и, в частности, повторное масштабирование энергии прошедших объединенное стереодекодирование сигналов выполняется с использованием значений нормализации энергии для получения обработанных декодированных сигналов в выводе блока 800 по фиг. 10.
Чтобы удостовериться в том, что канал, который принимает обратную нормализацию ILD, как пояснено относительно фиг. 3 в блоке 237, объединенный процессор 800 сигналов выполнен с возможностью проверки, имеет ли значение нормализации энергии, извлеченное из кодированного сигнала для конкретного сигнала, заданное значение. Если это имеет место, повторное масштабирование энергии не выполняется, либо выполняется только уменьшенное повторное масштабирование энергии для конкретного сигнала, либо выполняется любая другая операция взвешивания для этого отдельного канала, когда значение нормализации энергии имеет это заданное значение.
В варианте осуществления, декодер 700 сигналов выполнен с возможностью принимать, из входного интерфейса 600, значение битового распределения для каждого кодированного сигнала, как указано в блоке 620. Это значение битового распределения, проиллюстрированное в 536 на фиг. 12, перенаправляется в блок 720 таким образом, что декодер 700 сигналов определяет используемое битовое распределение. Предпочтительно, такие же этапы, что и этапы, поясненные относительно стороны кодера на фиг. 6 и фиг. 9, т.е. этапы 290, 291, 292, 293 выполняются посредством декодера 700 сигналов для определения используемого битового распределения в блоке 720 по фиг. 12. В блоке 710/730 выполняется декодирование по отдельности для получения ввода в объединенный процессор 800 сигналов по фиг. 10.
Объединенный процессор 800 сигналов имеет функциональность обработки репликации полос частот, расширения полосы пропускания или интеллектуального заполнения интервалов отсутствия сигнала с использованием определенной вспомогательной информации, включенной в блок 532 вспомогательной информации. Эта вспомогательная информация перенаправляется в блок 810, и блок 820 выполняет объединенную стереообработку (в декодере) с использованием результата процедуры расширения полосы пропускания, применяемой посредством блока 810. В блоке 810, процедура интеллектуального заполнения интервалов отсутствия сигнала выполнена с возможностью преобразовывать исходный диапазон из одного стереопредставления в другое стереопредставление, когда целевой диапазон расширения полосы пропускания или обработки IGF указывается как имеющий другое стереопредставление. Когда целевой диапазон указывается как имеющий средний/боковой стереорежим, и когда исходный диапазон указан как имеющий стереорежим L/R, стереорежим L/R для исходного диапазона преобразуется в средний/боковой стереорежим для исходного диапазона, и после этого обработка IGF выполняется с представлением среднего/бокового стереорежима исходного диапазона.
Фиг. 14 иллюстрирует предпочтительную реализацию объединенного процессора 800 сигналов. Объединенный процессор сигналов выполнен с возможностью извлекать упорядоченную информацию сигнальных пар, как проиллюстрировано на этапе 630. Это извлечение может выполняться посредством входного интерфейса 600, или объединенный процессор сигналов может извлекать эту информацию из вывода входного интерфейса либо может непосредственно извлекать информацию без конкретного входного интерфейса, что также имеет место для других процедур извлечения, описанных относительно объединенного процессора сигналов или декодера сигналов.
В блоке 820, объединенный процессор сигналов выполняет предпочтительно каскадную обратную обработку, начиная с последней сигнальной пары, при этом термин «последний» означает порядок обработки, определенный и выполняемый посредством кодера. В декодере, «последняя» сигнальная пара представляет собой сигнальную пару, которая обрабатывается первой. Блок 820 принимает вспомогательную информацию 532, которая указывает, для каждой сигнальной пары, указываемой посредством информации сигнальных пар, проиллюстрированной в блоке 630, и, например, реализованной способом, поясненным относительно фиг. 4, представляет ли конкретная пара собой пару в сдвоенном монорежиме, полную процедуру MS или процедуру MS для каждой полосы частот с ассоциированной маской MS.
После обратной обработки в блоке 820, денормализация сигналов, предусмотренных в канальных парах, выполняется в блоке 830 еще раз с базированием на вспомогательной информации 534, указывающей информацию нормализации в расчете на один канал. Денормализация, проиллюстрированная относительно блока 830 на фиг. 14, предпочтительно представляет собой повторное масштабирование с использованием значения нормализации энергии в качестве понижающего масштабирования, когда флаг 534a имеет первое значение, и выполнение повторного масштабирования в качестве повышающего масштабирования, когда флаг 534a имеет второе значение, которое отличается от первого значения.
Фиг. 15a иллюстрирует предпочтительную реализацию в качестве блок-схемы декодера сигналов и объединенного процессора сигналов по фиг. 10, и фиг. 15b иллюстрирует представление в форме блок-схемы предпочтительной реализации постпроцессора 900 по фиг. 10.
Декодер 700 сигналов содержит каскад 710 декодера и деквантователя для спектров, включенных в кодированный сигнал 500. Декодер 700 сигналов содержит блок 720 выделения битов, который принимает, в качестве вспомогательной информации, предпочтительно длину окна преобразования, определенный стереорежим и информацию выделения битов в расчете на кодированный сигнал. Блок 720 выделения битов выполняет выделение битов, в частности, с использованием, в предпочтительной реализации, этапов 290, 291, 292, 293, при этом информация выделения битов в расчете на кодированный сигнал используется на этапе 291, и при этом информация относительно длины окна преобразования и стереорежима используется в блоке 290 или 291.
В блоке 730, заполнение шумом, также предпочтительно с использованием вспомогательной информации заполнения шумом, выполняется для диапазонов в спектре, которые квантуются до нуля и которые не находятся в диапазоне IGF. Заполнение шумом предпочтительно ограничивается частью полосы низких частот сигнала, выводимого посредством блока 710. В блоке 810 и с использованием определенной вспомогательной информации, выполняется обработка интеллектуального заполнения интервалов отсутствия сигнала или в общем расширения полосы пропускания, которая, что важно, работает для отбеленных спектров.
В блоке 820 и с использованием вспомогательной информации, обратный стереопроцессор выполняет процедуры для отмены обработки, выполняемой на фиг. 2, элементы 240. Конечное обратное масштабирование выполняется с использованием передаваемого квантованного параметра ILD в расчете на один канал, который включается во вспомогательную информацию. Вывод блока 830 вводится в блок 910 постпроцессора, который выполняет обратную обработку TNS и/или обратную обработку формирования шума в частотной области либо любую другую операцию снятия отбеливания. Вывод блока 910 представляет собой простой спектр, который преобразуется во временную область посредством частотно-временного преобразователя 920. Выводы блока 920 для смежных кадров суммируются с перекрытием в процессоре 930 суммирования с перекрытием в соответствии с определенным правилом кодирования или декодирования для получения в итоге из операции перекрытия множества декодированных аудиосигналов, или в общем декодированного аудиосигнала 1000. Этот сигнал 1000 может состоять из отдельных каналов либо может состоять из компонентов описания звукового поля, таких как амбиофонические компоненты, либо может состоять из любых других компонентов в описании на основе амбиофонии высшего порядка. Сигнал также может представлять собой сигнал формата A или формата B либо любого другого описания формата звукового поля. Все эти альтернативы вместе указаны как декодированный аудиосигнал 1000 на фиг. 15b.
Ниже приведены дополнительные преимущества и характерные признаки предпочтительных вариантов осуществления.
Объем данного изобретения состоит в создании решения для принципов из [6] от момента при обработке перцепционно отбеленных и сигналов с компенсацией ILD.
○ FDNS с контуром скорости передачи, как описано в [8] , в комбинации с искривлением спектральной огибающей, как описано в [9], обеспечивает простой, но при этом очень эффективный способ разделения перцепционного формирования шума квантования и контура скорости передачи.
○ Использование среднего энергетического уровня для всех каналов отбеленного спектра FDNS обеспечивает простой и эффективной способ определения того, имеется ли преимущество обработки M/S, как описано в [7], для каждой канальной пары, которая выбирается для объединенного кодирования.
○ Кодирование одной широкополосной ILD для каждого канала для описанной системы является достаточным, и в силу этого сокращение числа битов достигается в отличие от известных подходов.
○ Выбор канальных пар для объединенного кодирования с высоко взаимно коррелированными сигналами обычно приводит к полноспектральному преобразованию M/S , в силу чего возникает дополнительное среднее сокращение числа битов, поскольку передача в служебных сигналах M/S или L/R для каждой полосы частот главным образом заменяется одним битом передачи в служебных сигналах полного преобразования M/S.
○ Гибкое и простое битовое распределение на основе энергий обработанных каналов.
Признаки предпочтительных вариантов осуществления
Как описано в предыдущих абзацах, в этой реализации, кодек использует новое средство для консолидации гибкости сигнально-адаптивного объединенного кодирования произвольных каналов, как описано в [6], посредством введения концепций, описанных в [7], для объединенного стереокодирования. Новизна предложенного изобретения обобщается в следующих отличиях:
○ Объединенная обработка для каждой канальной пары отличается от многоканальной обработки, описанной в [6], относительно глобальной компенсации ILD. Глобальная ILD частотно корректирует уровень каналов перед выбором канальных пар и принятием решения M/S и обработкой и в силу этого обеспечивает более эффективное стереокодирование, в частности, панорамированных источников.
○ Объединенная обработка для каждой канальной пары отличается от стереообработки, описанной в [7], относительно глобальной компенсации ILD. В предложенной системе отсутствует глобальная компенсация ILD для каждой канальной пары. Чтобы иметь возможность использовать механизм принятия решений M/S, как описано в [7], для произвольных каналов, предусмотрена нормализация всех каналов в один энергетический уровень, т.е. средний энергетический уровень. Эта нормализация осуществляется перед выбором канальных пар для объединенной обработки.
○ После адаптивного процесса выбора канальных пар, если имеются каналы, которые не составляют часть канальной пары для объединенной обработки, их энергетический уровень инвертируется в начальный энергетический уровень.
○ Битовое распределение для энтропийного кодирования не реализуется для каждой канальной пары, как описано в [7]. Вместо этого, учитываются все канальные энергии, и биты распределяются так, как описано в соответствующем абзаце в данном документе.
○ Предусмотрен явный режим «с низкой сложностью» для адаптивного выбора канальных пар, описанного в [6], в котором одиночному каналу, который представляет собой часть канальной пары во время итеративного процесса выбора канальных пар, не разрешается представлять собой часть другой канальной пары во время следующей итерации процесса выбора канальных пар.
○ Преимущество использования простого M/S для каждой полосы частот для каждой канальной пары и за счет этого снижения объема информации, который должен передаваться в потоке битов, повышается в силу того факта, что используется сигнально-адаптивный выбор канальных пар по [6]. Посредством выбора высококоррелированного канала, который следует объединенно кодировать, широкополосное преобразование M/S является оптимальным для большинства случаев, т.е. кодирование M/S используется для всех полос частот. Это может передаваться в служебных сигналах с одним битом и в силу этого требует значительно меньшего объема служебной информации по сравнению с решением M/S для каждой полосы частот. Это значительно снижает общее число информационных битов, которые должны передаваться для всех канальных пар.
Варианты осуществления изобретения относятся к сигнально-адаптивному объединенному кодированию многоканальной системы с перцепционно отбеленными спектрами с компенсацией ILD, при этом объединенное кодирование состоит из простого решения по преобразованию M/S в расчете на полосу частот на основе оцененного числа битов для энтропийного кодера.
Хотя некоторые аспекты описаны в контексте оборудования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего оборудования. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного оборудования, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.
Изобретаемый кодированный аудиосигнал может сохраняться на цифровом носителе хранения данных либо может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут реализовываться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.
Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Дополнительный вариант осуществления согласно изобретению содержит оборудование или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Оборудование или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения части или всех из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного оборудования.
Оборудование, описанное в данном документе, может реализовываться с использованием аппаратного оборудования либо с использованием компьютера, либо с использованием комбинации аппаратного оборудования и компьютера.
Способы, описанные в данном документе, могут осуществляться с использованием аппаратного оборудования либо с использованием компьютера, либо с использованием комбинации аппаратного оборудования и компьютера.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.
Список источников (все в полном объёме включены в данный документ путём ссылки)
[1] "Information technology - MPEG audio technologies Part 3: Unified speech and audio coding", ISO/IEC 23003-3, 2012 год.
[2] "Information technology - MPEG audio technologies Part 1: MPEG Surround", ISO/IEC 23003-1, 2007 год.
[3] J. Herre, J. Hilpert, K. Achim и J. Plogsties, "MPEG-H 3D Audio - The New Standard for Coding of Immersive Spatial Audio", Journal of Selected Topics in Signal Processing, том 5, номер 9, стр. 770-779, август 2015 года.
[4] "Digital Audio Compression (AC-4) Standard", ETSI TS 103 190 V1.1.1, 2014-04.
[5] D. Yang, H. Ai, C. Kyriakakis и C. Kuo, "High-fidelity multichannel audio coding with Karhunen-Loeve transform", Transactions on Speech and Audio Processing, том 11, номер 4, стр. 365-380, 2003 год.
[6] F. Schuh, S. Dick, R. Füg, C. R. Helmrich, N. Rettelbach и T. Schwegler, "Efficient Multichannel Audio Transform Coding with Low Delay and Complexity", in AES Convention, Los Angeles, 20 сентября 2016 года.
[7] G. Markovic, E. Fotopoulou, M. Multrus, S. Bayer, G. Fuchs, J. Herre, E. Ravelli, M. Schnell, S. Doehla, W. Jaegers, M. Dietz и C. Helmrich, "Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision", Международный патент WO2017125544A1, 27 июля 2017 года.
[8] 3GPP TS 26.445, Codec for Enhanced Voice Services (EVS); Detailed algorithmic description.
[9] G. Markovic, F. Guillaume, N. Rettelbach, C. Helmrich и B. Schubert, "Linear prediction based coding scheme using spectral domain noise shaping", Патент ЕС 2676266 B1, 14 февраля 2011 года.
[10] S. Disch, F. Nagel, R. Geiger, B. N. Thoshkahna, K. Schmidt, S. Bayer, C. Neukam, B. Edler и C. Helmrich, "Audio Encoder, Audio Decoder and Related Methods Using Two-Channel Processing Within the Intelligent Gap Filling Framework". Международный патент PCT/EP2014/065106, 15.07.2014.
[11] "Codec for Encanced Voice Services (EVS); Detailed algorithmic description", 3GPP TS 26.445 V 12.5.0, декабрь 2015 года.
[12] "Codec for Encanced Voice Services (EVS); Detailed algorithmic description", 3GPP TS 26.445 V 13.3.0, сентябрь 2016 года.
[13] Sascha Dick, F. Schuh, N. Rettelbach, T. Schwegler, R. Fueg, J. Hilpert and M. Neusinger, "APPARATUS AND METHOD FOR ENCODING OR DECODING A MULTI-CHANNEL SIGNAL", Международный патент PCT/EP2016/054900, 08 марта 2016 года.
название | год | авторы | номер документа |
---|---|---|---|
УСТРОЙСТВО И СПОСОБ ДЛЯ ДЕКОДИРОВАНИЯ И КОДИРОВАНИЯ АУДИОСИГНАЛА С ИСПОЛЬЗОВАНИЕМ АДАПТИВНОГО ВЫБОРА СПЕКТРАЛЬНЫХ ФРАГМЕНТОВ | 2014 |
|
RU2643641C2 |
АУДИОДЕКОДЕР, АУДИОКОДЕР И СВЯЗАННЫЕ СПОСОБЫ С ИСПОЛЬЗОВАНИЕМ ОБЪЕДИНЕННОГО КОДИРОВАНИЯ ПАРАМЕТРОВ МАСШТАБИРОВАНИЯ ДЛЯ КАНАЛОВ МНОГОКАНАЛЬНОГО АУДИОСИГНАЛА | 2021 |
|
RU2809981C1 |
УСТРОЙСТВО И СПОСОБ ДЛЯ КОДИРОВАНИЯ ИЛИ ДЕКОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА С ИНТЕЛЛЕКТУАЛЬНЫМ ЗАПОЛНЕНИЕМ ИНТЕРВАЛОВ В СПЕКТРАЛЬНОЙ ОБЛАСТИ | 2014 |
|
RU2635890C2 |
АУДИОКОДЕР, АУДИОДЕКОДЕР И СВЯЗАННЫЕ СПОСОБЫ С ИСПОЛЬЗОВАНИЕМ ДВУХКАНАЛЬНОЙ ОБРАБОТКИ В ИНФРАСТРУКТУРЕ ИНТЕЛЛЕКТУАЛЬНОГО ЗАПОЛНЕНИЯ ИНТЕРВАЛОВ ОТСУТСТВИЯ СИГНАЛА | 2014 |
|
RU2646316C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА С ИСПОЛЬЗОВАНИЕМ ВРЕМЕННОГО ФОРМИРОВАНИЯ ШУМА/НАЛОЖЕНИЙ | 2014 |
|
RU2607263C2 |
УСТРОЙСТВО КВАНТОВАНИЯ АУДИОДАННЫХ, УСТРОЙСТВО ДЕКВАНТОВАНИЯ АУДИОДАННЫХ И СООТВЕТСТВУЮЩИЕ СПОСОБЫ | 2021 |
|
RU2807462C1 |
УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА | 2014 |
|
RU2651229C2 |
АУДИОКОДЕР ДЛЯ КОДИРОВАНИЯ МНОГОКАНАЛЬНОГО СИГНАЛА И АУДИОДЕКОДЕР ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА | 2016 |
|
RU2679571C1 |
УСТРОЙСТВО И СПОСОБ ДЛЯ ДЕКОДИРОВАНИЯ ИЛИ КОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ЗНАЧЕНИЙ ИНФОРМАЦИИ ЭНЕРГИИ ДЛЯ ПОЛОСЫ ЧАСТОТ ВОССТАНОВЛЕНИЯ | 2014 |
|
RU2649940C2 |
ФОРМИРОВАНИЕ РАССЕЯННОГО ЗВУКА ДЛЯ СХЕМ БИНАУРАЛЬНОГО КОДИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ КЛЮЧЕВОЙ ИНФОРМАЦИИ (ВСС) | 2005 |
|
RU2384014C2 |
Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности многосигнального кодирования или декодирования. Технический результат достигается за счет вычисления информации о средней энергии предварительно обработанных аудиосигналов; вычисления информации об энергии каждого предварительно обработанного аудиосигнала, вычисления значения нормализации широкополосной энергии для конкретного предварительно обработанного аудиосигнала на основании информации о средней энергии и информации об энергии упомянутого конкретного предварительно обработанного аудиосигнала; и выполнения нормализации широкополосной энергии по меньшей мере трех предварительно обработанных аудиосигналов с использованием значений нормализации широкополосной энергии для конкретных предварительно обработанных аудиосигналов, причем каждый предварительно обработанный аудиосигнал имеет нормализованную энергию. 6 н. и 38 з.п. ф-лы, 17 ил.
1. Многосигнальный кодер для кодирования по меньшей мере трех аудиосигналов, содержащий:
- препроцессор (100) сигналов для предварительной обработки по отдельности каждого аудиосигнала для получения по меньшей мере трех предварительно обработанных аудиосигналов, при этом предварительная обработка выполняется таким образом, что предварительно обработанный аудиосигнал отбеливается относительно сигнала перед предварительной обработкой;
- адаптивный объединенный процессор (200) сигналов для выполнения обработки по меньшей мере трех предварительно обработанных аудиосигналов после нормализации энергетического уровня для получения по меньшей мере трех объединенно обработанных сигналов или по меньшей мере двух объединенно обработанных сигналов и необработанного сигнала, причем для выполнения нормализации энергетического уровня адаптивный объединенный процессор (200) выполнен с возможностью:
вычисления (212) информации о средней энергии предварительно обработанных аудиосигналов;
вычисления (211) информации об энергии каждого предварительно обработанного аудиосигнала, и
вычисления значения (534) нормализации широкополосной энергии для конкретного предварительно обработанного аудиосигнала на основании информации о средней энергии и информации об энергии упомянутого конкретного предварительно обработанного аудиосигнала; и
выполнения нормализации широкополосной энергии (210) по меньшей мере трех предварительно обработанных аудиосигналов с использованием значений (534) нормализации широкополосной энергии для конкретных предварительно обработанных аудиосигналов, причем каждый предварительно обработанный аудиосигнал имеет нормализованную энергию;
- кодер (300) сигналов для кодирования каждого сигнала для получения одного или более кодированных сигналов; и
- выходной интерфейс (400) для передачи или сохранения кодированного многосигнального аудиосигнала, содержащего один или более кодированных сигналов (510), вспомогательную информацию, относящуюся к предварительной обработке (520), и вспомогательную информацию, относящуюся к обработке (530), содержащую упомянутые значения (534) нормализации широкополосной энергии для упомянутых предварительно обработанных аудиосигналов.
2. Многосигнальный кодер по п. 1,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью вычисления (213, 214) коэффициента (534b) масштабирования в качестве значения (534) нормализации широкополосной энергии для упомянутого конкретного предварительно обработанного аудиосигнала из упомянутой средней энергии и упомянутой энергии конкретного предварительно обработанного аудиосигнала, и
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью определения флага (534a), указывающего, предназначен ли коэффициент (534b) масштабирования для повышающего масштабирования или для понижающего масштабирования, и при этом флаг (534a) для каждого предварительно обработанного аудиосигнала включен во вспомогательную информацию, относящуюся к обработке (530).
3. Многосигнальный кодер по п. 2,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью квантования (214) коэффициента (534b) масштабирования в один и тот же диапазон квантования независимо от того, является ли масштабирование повышающим масштабированием или понижающим масштабированием.
4. Многосигнальный кодер по п. 1, в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью:
- вычисления (220) значений взаимной корреляции для каждой возможной сигнальной пары из предварительно обработанных сигналов, имеющих нормализованные энергии, для по меньшей мере трех предварительно обработанных сигналов;
- выбора (229) сигнальной пары, имеющей наибольшее значение взаимной корреляции;
- определения (232a) режима объединенной стереообработки для выбранной сигнальной пары; и
- объединенной стереообработки (232b) выбранной сигнальной пары в соответствии с определенным режимом объединенной стереообработки для получения обработанной сигнальной пары.
5. Многосигнальный кодер по п. 4, в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью применения каскадной предварительной обработки сигнальных пар, или в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью применения некаскадной обработки сигнальных пар,
- при этом при каскадной предварительной обработке сигнальных пар сигналы обработанной сигнальной пары могут выбираться на дополнительном итеративном этапе, состоящем из вычисления обновленных значений взаимной корреляции, выбора сигнальной пары, имеющей наибольшее значение взаимной корреляции, определения режима объединенной стереообработки для выбранной сигнальной пары и объединенной стереообработки выбранной сигнальной пары в соответствии с определенным режимом объединенной стереообработки, или
- при этом при некаскадной обработке сигнальных пар сигналы обработанной сигнальной пары не могут выбираться при дополнительном выборе сигнальной пары, имеющей наибольшее значение взаимной корреляции, определении режима объединенной стереообработки для выбранной сигнальной пары и объединенной стереообработке выбранной сигнальной пары в соответствии с определенным режимом объединенной стереообработки.
6. Многосигнальный кодер по п. 1,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью определения сигнала, который должен кодироваться отдельно, в качестве сигнала, остающегося после процедуры попарной обработки, и
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью модификации нормализации энергии, применяемой к сигналу перед выполнением процедуры попарной обработки, такой как обращение назад (237) или по меньшей мере частичное обращение назад упомянутой нормализации (210) энергии, применяемой к сигналу, перед выполнением процедуры попарной обработки.
7. Многосигнальный кодер по п. 1,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью определения для каждого сигнала, который должен обрабатываться посредством кодера (300) сигналов, информации (536) битового распределения, при этом выходной интерфейс (400) выполнен с возможностью введения информации (536) битового распределения для каждого сигнала во вспомогательную информацию, относящуюся к обработке (530).
8. Многосигнальный кодер по п. 1,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью вычисления (282) информации энергии сигналов для каждого сигнала, который должен обрабатываться посредством кодера (300) сигналов,
- вычисления (284) полной энергии множества сигналов, которые должны кодироваться посредством кодера (300) сигналов;
- вычисления (286) информации (536) битового распределения для каждого сигнала на основании информации энергии сигналов и информации полной энергии, и
- при этом выходной интерфейс (400) выполнен с возможностью введения информации (536) битового распределения для каждого сигнала во вспомогательную информацию, относящуюся к обработке (530).
9. Многосигнальный кодер по п. 8,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью назначения (290) начального числа битов каждому сигналу, назначения (291) числа битов на основании информации (536) битового распределения, выполнения (292) дополнительного этапа детализации или выполнения (292) этапа конечного вклада, и
- при этом кодер (300) сигналов выполнен с возможностью выполнения кодирования каждого сигнала с использованием назначенных битов в расчете на каждый сигнал.
10. Многосигнальный кодер по п. 1, в котором препроцессор (100) сигналов выполнен с возможностью выполнения для каждого аудиосигнала:
- операции (108, 110, 112) время-спектрального преобразования для получения спектра сигнала для каждого аудиосигнала;
- операции (114a, 114b) формирования шума во временной области и/или операции (116) формирования шума в частотной области для каждого спектра сигнала, и
- при этом препроцессор (100) сигналов выполнен с возможностью подачи спектров сигнала в адаптивный объединенный процессор (200) сигналов после операции формирования шума во временной области и/или операции формирования шума в частотной области, и
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью выполнения объединенной обработки сигналов для спектров принимаемого сигнала.
11. Многосигнальный кодер по п. 1, в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью:
- определения для каждого сигнала выбранной сигнальной пары необходимой скорости передачи битов для режима полнополосного раздельного кодирования, такого как L/R, или необходимой скорости передачи битов для режима полнополосного объединенного кодирования, такого как M/S, или скорости передачи битов для режима объединенного кодирования для каждой полосы частот, такого как M/S плюс необходимых битов для передачи в служебных сигналах для каждой полосы частот, такой как маска M/S,
- определения режима раздельного кодирования или режима объединенного кодирования в качестве конкретного режима для всех полос частот сигнальной пары, когда большинство полос частот определены для конкретного режима, и меньшинство полос частот, составляющее меньше 10% от всех полос частот, определены в другом режиме кодирования, и
- при этом выходной интерфейс (400) выполнен с возможностью включения индикатора (532) во вспомогательную информацию, относящуюся к обработке (530), причем индикатор (532) указывает конкретный режим для всех полос частот кадра вместо маски режима кодирования для кадра.
12. Многосигнальный кодер по п. 1, в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью:
- определения для каждого сигнала выбранной сигнальной пары необходимой скорости передачи битов для режима полнополосного раздельного кодирования, такого как L/R, или необходимой скорости передачи битов для режима полнополосного объединенного кодирования, такого как M/S, или скорости передачи битов для режима объединенного кодирования для каждой полосы частот, такого как M/S плюс необходимых битов для передачи в служебных сигналах для каждой полосы частот, такой как маска M/S,
- определения режима кодирования из режима раздельного кодирования и режима объединенного кодирования в качестве конкретного режима для всех полос частот сигнальной пары, причем упомянутый режим кодирования требует наименьшего числа битов для кодирования каждого сигнала из выбранной сигнальной пары, и
- при этом выходной интерфейс (400) выполнен с возможностью включения индикатора (532) во вспомогательную информацию, относящуюся к обработке (530) кодированный сигнал, причем индикатор (532) указывает конкретный режим для кадра.
13. Многосигнальный кодер по п. 1,
- в котором кодер (300) сигналов содержит процессор контуров скорости передачи для каждого сигнала по отдельности либо для двух или более сигналов, причем процессор контуров скорости передачи выполнен с возможностью приема и использования информации (536) битового распределения для конкретного сигнала либо для двух или более сигналов.
14. Многосигнальный кодер по п. 1,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью адаптивного выбора сигнальных пар для объединенного кодирования либо в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью определения для выбранной сигнальной пары режима среднего/бокового кодирования для каждой полосы частот, режима полнополосного среднего/бокового кодирования или режима полнополосного левого/правого кодирования, и при этом выходной интерфейс (400) выполнен с возможностью включения во вспомогательную информацию, относящуюся к обработке (530), информации (532), указывающей выбранный режим кодирования в кодированном многосигнальном аудиосигнале.
15. Многосигнальный кодер по п. 1,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью формирования выбора среднего/бокового решения или левого/правого решения для каждой полосы частот на основании оцененной скорости передачи битов в каждой полосе частот при кодировании в среднем/боковом режиме или в левом/правом режиме, и при этом конечный режим объединенного кодирования определяется на основании результатов выбора среднего/бокового или левого/правого решения для каждой полосы частот.
16. Многосигнальный кодер по п. 1, в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью выполнения (260) обработки репликации полос спектра или обработки интеллектуального заполнения интервалов отсутствия сигнала для определения параметрической вспомогательной информации для обработки репликации полос спектра или обработки интеллектуального заполнения интервалов отсутствия сигнала, и при этом выходной интерфейс (400) выполнен с возможностью включения вспомогательной информации (532) репликации полос спектра или интеллектуального заполнения интервалов отсутствия сигнала в качестве дополнительной вспомогательной информации во вспомогательную информацию, относящуюся к обработке (530).
17. Многосигнальный кодер по п. 16,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью выполнения стереообработки интеллектуального заполнения интервалов отсутствия сигнала для кодированной сигнальной пары и, в качестве дополнения, выполнения односигнальной обработки интеллектуального заполнения интервалов отсутствия сигнала по меньшей мере для одного сигнала, который должен кодироваться отдельно.
18. Многосигнальный кодер по п. 1,
- в котором по меньшей мере три аудиосигнала включают в себя сигнал улучшения низких частот, и при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью применения сигнальной маски, причем сигнальная маска указывает, для каких сигналов должен быть активным адаптивный объединенный процессор (200) сигналов, и при этом сигнальная маска указывает, что сигнал улучшения низких частот не должен использоваться в попарной обработке по меньшей мере трех предварительно обработанных аудиосигналов.
19. Многосигнальный кодер по п. 1, в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью вычисления в качестве информации об энергии каждого предварительно обработанного сигнала, энергии спектра MDCT каждого предварительно обработанного сигнала, или
- вычисления в качестве информации о средней энергии по меньшей мере трех предварительно обработанных аудиосигналов средней энергии спектров MDCT по меньшей мере трех предварительно обработанных аудиосигналов.
20. Многосигнальный кодер по п. 1,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью вычисления (213) коэффициента масштабирования для каждого сигнала на основании информации об энергии для конкретного сигнала и информации о средней энергии по меньшей мере трех предварительно обработанных аудиосигналов,
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью квантования (214) коэффициента масштабирования для получения значения квантованного коэффициента масштабирования, причем значение квантованного коэффициента масштабирования используется для извлечения вспомогательной информации для коэффициента масштабирования для каждого сигнала, включенного в кодированный многосигнальный аудиосигнал, и
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью извлечения квантованного коэффициента масштабирования из значения квантованного коэффициента масштабирования, при этом предварительно обработанный аудиосигнал масштабируется с использованием квантованного коэффициента масштабирования до использования для попарной обработки масштабированного сигнала с другим соответственно масштабированным сигналом.
21. Многосигнальный кодер по п. 1,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью вычисления (221) нормализованных межсигнальных значений взаимной корреляции для возможных сигнальных пар для определения и выбора того, какая сигнальная пара имеет наибольшую степень подобий и за счет этого является подходящей для выбора в качестве пары для попарной обработки по меньшей мере трех предварительно обработанных аудиосигналов,
- при этом нормализованные значения взаимной корреляции для каждой сигнальной пары сохраняются в векторе взаимной корреляции, и
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью определения, должен ли сохраняться выбор сигнальной пары одного или более предыдущих кадров, посредством сравнения (222, 223) вектора взаимной корреляции предыдущего кадра с вектором взаимной корреляции текущего кадра, и при этом выбор сигнальной пары предыдущего кадра сохраняется (225), когда разность между вектором взаимной корреляции текущего кадра и вектором взаимной корреляции предыдущего кадра ниже заданного порогового значения.
22. Многосигнальный кодер по п. 1,
- в котором препроцессор (100) сигналов выполнен с возможностью выполнения частотно-временного преобразования с использованием определенной длины окна преобразования, выбранной из множества различных длин окна преобразования,
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью определения, при сравнении предварительно обработанных аудиосигналов для определения пары сигналов, которые должны попарно обрабатываться, имеет ли пара сигналов одинаковую ассоциированную длину окна преобразования, и
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью обеспечивать возможность попарной обработки двух сигналов только в том случае, когда два сигнала имеют ассоциированную одинаковую длину окна преобразования, применяемую посредством препроцессора (100) сигналов.
23. Многосигнальный кодер по п. 1,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью применения некаскадной обработки сигнальных пар, при которой сигналы обработанной сигнальной пары не могут выбираться при дополнительной обработке сигнальных пар, при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью выбора сигнальных пар на основании взаимной корреляции между сигнальными парами для попарной обработки, и при этом попарная обработка нескольких выбранных сигнальных пар выполняется параллельно.
24. Многосигнальный кодер по п. 23,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью определения режима стереокодирования для выбранной сигнальной пары, и при этом, когда режим стереокодирования определяется в качестве сдвоенного монорежима, сигналы, предусмотренные в этой сигнальной паре по меньшей мере частично повторно масштабируются и указываются в качестве сигналов, которые должны кодироваться по отдельности.
25. Многосигнальный кодер по п. 16,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью выполнения для попарно обработанной сигнальной пары операции интеллектуального заполнения интервалов отсутствия сигнала (IGF) в стереорежиме, если стереорежим базовой области отличается от стереорежима области IGF либо если стереорежим ядра помечен флагом в качестве среднего/бокового кодирования для каждой полосы частот, или
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью применения односигнального анализа IGF для сигналов попарно обработанной сигнальной пары, если стереорежим базовой области не отличается от стереорежима области IGF либо если стереорежим ядра не помечается флагом в качестве режима среднего/бокового кодирования для каждой полосы частот.
26. Многосигнальный кодер по п. 1,
- в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью выполнения операции интеллектуального заполнения интервалов отсутствия сигнала до того, как результат операции IGF отдельно кодируется посредством кодера (300) сигналов,
- при этом спектр мощности используется для определения тональности/шума в квантовании и интеллектуальном заполнении интервалов отсутствия сигнала (IGF), и при этом препроцессор (100) сигналов выполнен с возможностью выполнения формирования шума в частотной области для спектра MDST такого же, как формирование шума в частотной области, применяемое к спектру MDCT, и
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью выполнения одинаковой средней/боковой обработки для предварительно обработанного спектра MDST таким образом, что результат обработанного спектра MDST используется в рамках квантования, выполняемого посредством кодера (300) сигналов, либо в рамках обработки интеллектуального заполнения интервалов отсутствия сигнала, выполняемой посредством адаптивного объединенного процессора (200) сигналов, или
- при этом адаптивный объединенный процессор (200) сигналов выполнен с возможностью применения такого же масштабирования с нормализацией на основе полнополосного масштабирующего вектора для спектра MDST, что и масштабирование с нормализацией, осуществляемое для спектра MDCT, с использованием идентичных квантованных масштабирующих векторов.
27. Многосигнальный кодер по п. 1, в котором адаптивный объединенный процессор (200) сигналов выполнен с возможностью выполнения попарной обработки по меньшей мере трех предварительно обработанных аудиосигналов для получения по меньшей мере трех объединенно обработанных сигналов или по меньшей мере двух объединенно обработанных сигналов и сигнала, который должен кодироваться отдельно.
28. Многосигнальный кодер по п. 1, в котором аудиосигналы по меньшей мере из трех аудиосигналов представляют собой аудиоканалы, или
- при этом аудиосигналы из по меньшей мере трех аудиосигналов представляют собой компонентные аудиосигналы описания звукового поля, такого как описание амбиофонического звукового поля, описание в формате B, описание в формате A или любое другое описание звукового поля, такое как описание звукового поля, описывающее звуковое поле относительно опорного местоположения.
29. Многосигнальный кодер по п. 1,
- в котором кодер (300) сигналов выполнен с возможностью кодирования каждого сигнала по отдельности для получения по меньшей мере трех кодированных по отдельности сигналов либо выполнения (энтропийного) кодирования более чем с одним сигналом.
30. Многосигнальный декодер для декодирования кодированного сигнала, содержащий:
- декодер (700) сигналов для декодирования по меньшей мере трех кодированных сигналов;
- объединенный процессор (800) сигналов, выполненный с возможностью
извлечения (610) из кодированного сигнала значений (534, 534a, 534b) нормализации энергии для прошедших объединенное стереодекодирование сигналов,
выполнения объединенной обработки сигналов, содержащей попарную обработку (820) декодированных сигналов с использованием объединенного стереорежима, как указано посредством вспомогательной информации (530), включенной в кодированный сигнал, и
выполнения повторного масштабирования (830) энергии прошедших объединенное стереодекодирование сигналов с использованием значений (534, 534a, 534b) нормализации энергии для получения по меньшей мере трех обработанных декодированных сигналов; и
- постпроцессор (900) для постобработки по меньшей мере трех обработанных декодированных сигналов в соответствии со вспомогательной информацией (530), включенной в кодированный сигнал, при этом постобработка выполняется таким образом, что прошедшие постобработку сигналы являются менее белыми, чем сигналы до постобработки, и при этом прошедшие постобработку сигналы представляют декодированный аудиосигнал.
31. Многосигнальный декодер по п. 30,
- в котором объединенный процессор (800) сигналов выполнен с возможностью проверки, имеет ли значение (534, 534a, 534b) нормализации энергии, извлеченное из кодированного сигнала для конкретного сигнала, заданное значение, и
- при этом объединенный процессор (800) сигналов выполнен с возможностью невыполнения повторного масштабирования энергии или выполнения только уменьшенного повторного масштабирования энергии для конкретного сигнала, когда значение (534, 534a, 534b) нормализации энергии имеет заданное значение.
32. Многосигнальный декодер по п. 30, в котором декодер (700) сигналов выполнен с возможностью:
- извлечения (620) из кодированного сигнала значения битового распределения для каждого кодированного сигнала,
- определения (720) используемого битового распределения для сигнала с использованием значения битового распределения для сигнала, числа оставшихся битов для всех сигналов и дополнительного этапа детализации или этапа конечного вклада; и
- выполнения (710, 730) декодирования по отдельности на основании используемого битового распределения для каждого сигнала.
33. Многосигнальный декодер по п. 30, в котором объединенный процессор (800) сигналов выполнен с возможностью:
- выполнения (820) обработки репликации полос частот или интеллектуального заполнения интервалов отсутствия сигнала для декодированных по отдельности сигналов с использованием вспомогательной информации в кодированном сигнале для получения спектрально улучшенных отдельных сигналов, и
- выполнения объединенной обработки (820) в соответствии с режимом объединенной обработки с использованием спектрально улучшенных отдельных сигналов.
34. Многосигнальный декодер по п. 33,
- в котором объединенный процессор (800) сигналов выполнен с возможностью преобразования исходного диапазона из одного стереопредставления в другое стереопредставление, когда целевой диапазон указан как имеющий другое стереопредставление.
35. Многосигнальный декодер по п. 30, в котором объединенный процессор (800) сигналов выполнен с возможностью:
- извлечения из кодированного сигнала флага (534, 534a), указывающего, является ли значение (534, 534b) нормализации энергии значением повышающего масштабирования или значением понижающего масштабирования, и
- выполнения (830) повторного масштабирования энергии с использованием значения (534, 534b) нормализации энергии в качестве понижающего масштабирования, когда флаг (534, 534b) имеет первое значение, и в качестве повышающего масштабирования, когда флаг (534, 534b) имеет второе значение, отличное от первого значения.
36. Многосигнальный декодер по п. 30, в котором объединенный процессор (800) сигналов выполнен с возможностью:
- извлечения (630) из кодированного сигнала вспомогательной информации (532), указывающей сигнальные пары, которые получаются в результате операции объединенного кодирования,
- выполнения (820) обратной стерео- или многоканальной обработки, начиная с последней сигнальной пары, для получения кодированного сигнала, который должен быть преобразован обратно в исходные предварительно обработанные спектры каждого сигнала, и выполнения обратной стереообработки на основании стереорежима и/или среднего/бокового решения для каждой полосы частот, как указано во вспомогательной информации (532) для кодированного сигнала.
37. Многосигнальный декодер по п. 30,
- в котором объединенный процессор (800) сигналов выполнен с возможностью повторного масштабирования (830) энергии всех прошедших объединенное стереодекодирование сигналов, предусмотренных в сигнальных парах, до соответствующего исходного энергетического уровня на основании квантованных значений (534, 534a, 534b) нормализации энергии для каждого прошедшего объединенное стереодекодирование сигнала, и при этом другие сигналы, которые не предусмотрены в обработке сигнальных пар, не подвергаются повторному масштабированию энергии в качестве сигналов, предусмотренных в обработке сигнальных пар.
38. Многосигнальный декодер по п. 30,
- в котором постпроцессор (900) выполнен с возможностью выполнения для каждого обработанного по отдельности декодированного сигнала операции (910) формирования шума во временной области или операции (910) формирования шума в частотной области и преобразования (920) из спектральной области во временную область и последующей операции (930) суммирования с перекрытием между последующими временными кадрами прошедшего постобработку сигнала.
39. Многосигнальный декодер по п. 30,
- в котором объединенный процессор (800) сигналов выполнен с возможностью извлечения из кодированного сигнала флага, указывающего, подлежат ли несколько полос частот для временного кадра сигнальной пары обратной обработке с использованием среднего/бокового или левого/правого кодирования, и при этом объединенный процессор (800) сигналов выполнен с возможностью использования этого флага для совместной средней/боковой обработки или левой/правой обработки соответствующих полос частот сигнальной пары в зависимости от значения флага, и
- при этом для другого временного кадра для той же сигнальной пары или для другой сигнальной пары в том же временном кадре маска режима кодирования, указывающая для каждой отдельной полосы частот отдельный режим кодирования, извлекается из вспомогательной информации кодированного сигнала, и при этом объединенный процессор (800) сигналов выполнен с возможностью применения обратной средней/боковой обработки или левой/правой обработки для соответствующей полосы частот, как указано для бита, ассоциированного с этой полосой частот.
40. Многосигнальный декодер по п. 30, в котором кодированный сигнал представляет собой кодированный многоканальный сигнал, при этом многосигнальный декодер представляет собой многоканальный декодер, при этом кодированный сигнал представляет собой кодированный многоканальный сигнал, при этом декодер (700) сигналов представляет собой канальный декодер, при этом кодированные сигналы представляют собой кодированные каналы, при этом объединенная обработка сигналов представляет собой объединенную обработку каналов, при этом по меньшей мере три обработанных декодированных сигнала представляют собой по меньшей мере три обработанных декодированных сигнала, при этом прошедшие постобработку сигналы представляют собой каналы, или
- при этом кодированный сигнал представляет собой кодированный многокомпонентный сигнал, представляющий компонентные аудиосигналы описания звукового поля, такого как описание амбиофонического звукового поля, описание в формате B, описание в формате A или любое другое описание звукового поля, такое как описание звукового поля, описывающее звуковое поле относительно опорного местоположения, при этом многосигнальный декодер представляет собой многокомпонентный декодер, при этом кодированный сигнал представляет собой кодированный многокомпонентный сигнал, при этом декодер (700) сигналов представляет собой декодер компонентов, при этом кодированные сигналы представляют собой кодированные компоненты, при этом объединенная обработка сигналов представляет собой объединенную компонентную обработку, при этом по меньшей мере три обработанных декодированных сигнала представляют собой по меньшей мере три обработанных декодированных компонента, и при этом прошедшие постобработку сигналы представляют собой компонентные аудиосигналы.
41. Способ выполнения многосигнального кодирования по меньшей мере трех аудиосигналов, содержащий этапы, на которых:
- предварительно обрабатывают по отдельности каждый аудиосигнал для получения по меньшей мере трех предварительно обработанных аудиосигналов, при этом предварительная обработка выполняется таким образом, что предварительно обработанный аудиосигнал отбеливается относительно сигнала перед предварительной обработкой;
- выполняют обработку по меньшей мере трех предварительно обработанных аудиосигналов после нормализации энергетического уровня для получения по меньшей мере трех объединенно обработанных сигналов или по меньшей мере двух объединенно обработанных сигналов и необработанного сигнала, причем нормализация энергетического уровня содержит этапы, на которых:
вычисляют (212) информацию о средней энергии предварительно обработанных аудиосигналов;
вычисляют (211) информацию об энергии каждого предварительно обработанного аудиосигнала, и
вычисляют значение (534) нормализации широкополосной энергии для конкретного предварительно обработанного аудиосигнала на основании информации о средней энергии и информации об энергии упомянутого конкретного предварительно обработанного аудиосигнала; и
выполняют нормализацию (210) широкополосной энергии по меньшей мере трех предварительно обработанных аудиосигналов с использованием значений (534) нормализации широкополосной энергии для конкретных предварительно обработанных аудиосигналов, причем каждый предварительно обработанный аудиосигнал имеет нормализованную энергию;
- кодируют каждый сигнал для получения одного или более кодированных сигналов; и
- передают или сохраняют кодированный многосигнальный аудиосигнал, содержащий один или более кодированных сигналов (510), вспомогательную информацию, относящуюся к предварительной обработке (520), и вспомогательную информацию, относящуюся к обработке (530), содержащую значения (534) нормализации широкополосной энергии для предварительно обработанных аудиосигналов.
42. Способ многосигнального декодирования кодированного сигнала, содержащий этапы, на которых:
- декодируют по отдельности по меньшей мере три кодированных сигнала;
- выполняют объединенную обработку сигналов, содержащую этапы, на которых:
извлекают (610) из кодированного сигнала значения (534, 534a, 534b) нормализации энергии для прошедших объединенное стереодекодирование сигналов,
выполняют объединенную обработку сигналов, содержащую попарную обработку (820) декодированных сигналов с использованием объединенного стереорежима, как указано посредством вспомогательной информации (530), включенной в кодированный сигнал, и
выполняют повторное масштабирование (830) энергии прошедших объединенное стереодекодирование сигналов с использованием значений (534, 534a, 534b) нормализации энергии для получения по меньшей мере трех обработанных декодированных сигналов; и
- выполняют постобработку по меньшей мере трех обработанных декодированных сигналов в соответствии со вспомогательной информацией (530), включенной в кодированный сигнал, при этом постобработка выполняется таким образом, что прошедшие постобработку сигналы являются менее белыми, чем сигналы до постобработки, и при этом прошедшие постобработку сигналы представляют декодированный аудиосигнал.
43. Носитель данных, на котором сохранена компьютерная программа для осуществления способа по п. 41 при выполнении на компьютере или в процессоре.
44. Носитель данных, на котором сохранена компьютерная программа для осуществления способа по п. 42 при выполнении на компьютере или в процессоре.
EP 2830054 A1, 28.01.2015 | |||
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз | 1924 |
|
SU2014A1 |
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек | 1923 |
|
SU2007A1 |
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА | 2014 |
|
RU2651229C2 |
Авторы
Даты
2022-04-06—Публикация
2019-06-27—Подача