Показать метаданные Скрыть метаданные

(19)

(11)

2 550 525

(13)

(51)

МПК

G10L19/00(2013-01-01)

(21) (22)

Заявка

2011123124/08, 2010-04-01

(24)

Дата начала отсчета патента

2010-04-01

(22)

дата подачи заявки

2010-04-01

(45)

опубликовано

2015-05-10

(72)

авторы

Неусингер МаттиасРобиллиард ЖульенХилперт Йоханес

(73)

патентообладатели

Фраунхофер-Гезелльшафт Цур Фёрдерунг Дер Ангевандтен Форшунг Е.Ф.

(56)

Документы, цитированные в отчете о поиске

RU 2008106225, 21.06.2006

АППАРАТНЫЙ БЛОК, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ ПРЕОБРАЗОВАНИЯ РАСШИРЕНИЯ СЖАТОГО АУДИО СИГНАЛА С ПОМОЩЬЮ СГЛАЖЕННОГО ЗНАЧЕНИЯ ФАЗЫ Российский патент 2015 года по МПК G10L19/00

Описание патента на изобретение RU2550525C2

Техническое описание

Воплощения в соответствии с изобретением связаны с аппаратным блоком, способом и компьютерной программой для преобразования расширения сжатого звукового сигнала. Некоторые воплощения изобретения связаны с параметром сглаживания адаптивной фазы для параметрического многоканального аудио кодирования.

Предпосылки создания изобретения

Далее в тексте будет описана суть изобретения. Последние разработки в области параметрического кодирования звука создают методы для совместного преобразования многоканального аудио сигнала (например, 5.1 [или 6 каналов]) в один (или более) сжатых каналов и дополнительную информацию потока битов. Эти методы известны как Binaural Cue Coding (Бинауральное Трековое Кодирование), Parametric Stereo (Параметрическое Стерео Кодирование), MPEG Surround и т.д. Ряд публикаций описывают так называемое "Бинауральное Трековое Кодирование", использующее подход параметрического многоканального кодирования, см., например, ссылки [1], [2], [3], [4], [5].

"Parametric Stereo" относится к методике параметрического кодирования двухканального стерео сигнала, основанной на передаваемом моно сигнале плюс параметр дополнительной информации, см., например, ссылки [6], [7].

"MPEG Surround" является стандартом ISO для параметрического многоканального кодирования, см., например, [8].

Вышеупомянутые методы основаны на передаче в компактной форме соответствующих сигналов в приемник звука с использованием соответствующего сжатого моно или стерео сигнала для восприятия пространственным слухом человека. Типичные сигналы могут быть разностными сигналами уровня между каналами (ILD), сигналами корреляции или когерентности между каналами (ICC), а также разностными сигналами во времени между каналами (ITD), сигналами разности фаз между каналами (IPD) и общей разностью фаз (OPD).

Эти параметры в ряде случаев передаются с частотным и временным разрешением, адаптированным к восприятию слухом человека.

Для передачи параметры, как правило, дискретизируются (или, в некоторых случаях, они обязательно должны быть дискретизированы), причем часто (особенно при использовании низкой скорости передачи битов) используется довольно грубая дискретизация.

Интервал обновления во времени определяется кодировщиком, в зависимости от характеристик сигнала. Это означает, что параметры передаются не для каждой выборки сжатого сигнала. Другими словами, в некоторых случаях скорость передачи (или частота передачи, или частота обновления) параметров, описывающих вышеупомянутые сигналы, может быть меньше, чем скорость передачи данных (или частота передачи, или частота обновления) аудио выборок (или группы выборок).

Вместо передачи и разности фаз между каналами (IPDs) и общих разностей фаз (OPDs), можно также передавать в декодировщик только разности фаз между каналами (IPDs) и оценку общей разности фаз (OPDs).

Так как в некоторых случаях декодировщик может использовать параметры без пропусков, непрерывно в течение долгого времени, например, для каждой выборки (или аудио выборки), то могут потребоваться промежуточные параметры, которые будут получены в декодировщике, обычно путем интерполяции между предыдущим и текущим наборами параметров.

Некоторые традиционные подходы интерполяции, однако, приводят к ухудшению качества звука.

Далее будет описана общая схема кодирования бинаурального сигнала со ссылкой на фиг.7. На фиг.7 показана блок-схема передающей схемы кодирования бинаурального сигнала 800, которая включает кодировщик бинаурального сигнала 810 и декодировщик бинаурального сигнала 820. Кодировщик бинаурального сигнала 810 может, например, получать множество звуковых сигналов 812а, 812b, и 812c. Кроме того, кодировщик бинаурального сигнала 810 настроен на сжатие входных аудио сигналов 812а-812c с использованием блока сжатия 814 для получения сжатого сигнала 816, который может, например, быть суммарным сигналом и который может быть обозначен "AS" или "X". Кроме того, кодировщик бинаурального сигнала 810 сконфигурирован для анализа входных аудио сигналов 812а-812c с использованием анализатора 818 для получения сигнала дополнительной информации 819 ("SI"). Суммарный сигнал 816 и сигнал дополнительной информации 819 передаются от кодировщика бинаурального сигнала 810 на декодировщик бинаурального сигнала 820. Декодировщик бинаурального сигнала 820 может быть сконфигурирован для синтеза многоканального аудио сигнала, включающего, например, аудио каналы у1, у2, …, yN на основе суммарного сигнала 816 и разностных сигналов между каналами 824. Для этой цели декодировщик бинаурального сигнала 820 может включать в себя синтезатор кодирования бинаурального сигнала 822, который получает суммарный сигнал 816 и разностные сигналы между каналами 824 и обеспечивает аудио сигналы y1, y2, …, yN.

Декодировщик бинаурального сигнала 820 дополнительно включает процессор дополнительной информации 826, который настроен на получение сигнала дополнительной информации 819 и, кроме того, вход пользователя 827. Процессор дополнительной информации 826 настроен на получение разностных сигналов между каналами 824 на основе сигнала дополнительной информации 819 и информации, вводимой пользователем 827.

В результате, входные аудио сигналы анализируются и сжимаются. Суммарный сигнал вместе с дополнительной информацией передаются на декодировщик. Разностные сигналы между каналами генерируются на основе дополнительной информации и информации с входа локального пользователя. С помощью синтеза кодированного бинаурального сигнала генерируется многоканальный аудио сигнал на выходе.

Для получения дополнительной информации приведем ссылку на статью "Binaural Cue Coding Part II: Schemes and applications," by C.Faller and F.Baumgarte (published in: IEEE Transactions on Speech and Audio Processing, vol.11, no. 6, Nov. 2003).

Тем не менее, было установлено, что многие обычные декодировщики бинауральных сигналов формируют многоканальные аудио сигналы на выходе с ухудшением качества, если дополнительная информация дискретизируется с грубым или недостаточным разрешением.

В связи с этой проблемой, есть необходимость совершенствования концепции расширения сжатых аудио сигналов в расширенный звуковой сигнал, который уменьшает впечатление деградации при прослушивании, в случае, если дополнительная информация, описывающая фазовые соотношения между различными каналами расширенного сигнала, является дискретной и имеет сравнительно низкое разрешение.

Краткое описание изобретения

Воплощение в соответствии с изобретением создает аппаратный блок для расширения сжатого аудио сигнала, описываемого одним или более сжатыми аудио каналами в расширенный звуковой сигнал, представляющий множество расширенных аудио каналов. Аппаратная часть содержит блок расширения, настроенный на применение текущих переменных параметров расширения для расширения сжатого сигнала, чтобы получить расширенный звуковой сигнал. Текущие переменные параметры расширения представляют собой текущие переменные сглаженные значения фазы. Устройство дополнительно включает определитель параметров, настроенный на получение одного или нескольких текущих сглаженных параметров расширения, которые будут использоваться для расширения на основе входной информации дискретных параметров расширения. Определитель параметров настроен на объединение масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией входной фазовой информации, с использованием алгоритма ограничения изменения фазы, чтобы определить текущее сглаженное значение фазы на основе предыдущего сглаженного значения фазы и входной фазовой информации.

Это воплощение изобретения основано на открытии того, что звуковые искажения в расширенных сигналах можно уменьшить или даже исключить их путем объединения масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией входной фазовой информации, с использованием алгоритма ограничения изменения фазы, поэтому рассмотрение предыдущего сглаженного значения фазы в сочетании с алгоритмом ограничения изменения фазы позволяет получить достаточно малые разрывы в сглаженных значениях фазы. Уменьшение разрыва между последовательными сглаженными значениями фазы (например, предыдущее сглаженное значение фазы и текущее сглаженное значение фазы), в свою очередь, помогает избежать (или сохраняет достаточно малыми) изменения звуковой частоты при переходе между частями звукового сигнала, для которых используются последовательные значения фазы (например, предыдущее сглаженное значение фазы и текущее сглаженное значение фазы).

Подводя итог вышесказанному, изобретение создает общую концепцию адаптивной фазовой обработки при параметрическом многоканальном аудио кодировании. Воплощения в соответствии с изобретением позволяют заменить другие методы за счет уменьшения искажений в выходном сигнале, вызванных грубой дискретизацией или быстрыми изменениями фазовых параметров.

В предпочтительном варианте определитель параметров настроен на объединение масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией входной фазовой информации, так что текущее сглаженное значение фазы находится в меньшем диапазоне углов из первого и второго диапазона углов, причем первый диапазон углов располагается в математически положительном направлении от первого начального направления, определяемого предыдущим сглаженным значением фазы, до первого конечного направления, определяемого входной фазовой информацией, причем второй диапазон углов располагается в математически положительном направлении от второго начального направления, определяемого входной фазовой информацией, до второго конечного направления, определяемого предыдущим сглаженным значением фазы. Соответственно, в некоторых вариантах осуществления изобретения, изменение фазы, которое вводится с помощью рекурсивных (типа бесконечного импульсного отклика) сглаженных значений фазы, сохраняется как можно меньшим. Соответственно, звуковые искажения имеют минимальную длительность. Например, аппаратный блок может быть настроен на обеспечение текущего сглаженного значения фазы, находящегося в пределах меньшего диапазона углов из двух диапазонов углов, из которых первый диапазон охватывает более 180°, а второй диапазон перекрывает менее 180°, и вместе два диапазона углов составляют 360°. Соответственно, алгоритмом ограничения изменения фазы обеспечивается разность фаз между предыдущим сглаженным значением фазы и мгновенным сглаженным значением фазы меньше 180°, и, желательно, даже меньше 90°. Это помогает сохранять звуковые искажения как можно меньшими.

В предпочтительном варианте определитель параметров настроен на выбор способа объединения из множества различных способов объединения в зависимости от разности между информацией фазы входного и предыдущего сглаженных значений фазы, а также для определения текущего сглаженного значения фазы, используя выбранную комбинацию способов. Соответственно может быть выбрана соответствующая комбинация способов, которая гарантирует, что фазовый переход между предыдущим сглаженным значением фазы и мгновенным сглаженным значением фазы ниже заданного порога или, в более общем случае, достаточно мал или мал насколько возможно. Соответственно, аппаратный блок изобретения превосходит аналогичные аппаратные решения, которые имеют фиксированные способы объединения.

В предпочтительном варианте определитель параметров настроен на выбор основного способа объединения, если разность между входной фазовой информацией и предыдущим сглаженным значением фазы находится в диапазоне от -π до +π, в противном случае [определитель параметров настроен на выбор] одного или нескольких способов объединения адаптированных фазовых различий. Основной способ объединения определяет линейную комбинацию, без постоянного слагаемого, масштабированной версии входной фазовой информации и масштабированной версии предыдущего сглаженного значения фазы. Один или несколько способов объединения адаптированных фаз определяют линейную комбинацию, учитывающую постоянное слагаемое адаптированных фаз, масштабированную версию входной фазовой информации и масштабированную версию предыдущего сглаженного значения фазы. Соответственно, может быть выполнена выгодная и простая в реализации линейная комбинация предыдущего сглаженного значения фазы и входной фазовой информации, в которой можно выборочно использовать дополнительное слагаемое, если разность между предыдущим сглаженным значением фазы и входной фазовой информацией принимает сравнительно большое значение (больше, чем π или меньше -π). Соответственно, в проблемных случаях, в которых имеется большая разность между предыдущим сглаженным значением фазы и входной фазовой информацией, могут использоваться специальные способы объединения адаптированных фаз, которые позволяет сохранить достаточно малыми фазовые изменения между последовательными сглаженными значениями фазы.

В предпочтительном варианте определитель параметров включает контроллер сглаживания, настроенный на выборочное отключение значений фазы при выполнении сглаживания, если разность между величиной сглаженной фазы и соответствующей величиной входной фазы больше заданного порогового значения. Соответственно, выполнение сглаживания значений фазы может быть отключено, если есть большое изменение входной фазовой информации. Как правило, очень большие изменения входной фазовой информации указывают на то, что на практике желательно не выполнять сглаживание изменений фазы, так как сравнительно большие изменения во входной фазовой информации (значительно большие, чем шаг дискретизации) часто связаны с конкретными особенностями звукового сигнала. Таким образом, сглаживание значений фазы в большинстве случаев улучшает впечатление при прослушивании и не наносит ущерба в данном конкретном случае. Соответственно, впечатления при прослушивании могут быть даже улучшены путем выборочного отключения сглаживания значений фазы.

В предпочтительном варианте контроллер сглаживания настроен для оценки, по известной величине сглаженной фазы, разности между двумя значениями сглаженной фазы и оценки, по известной величине соответствующей входной фазы, разности между двумя значениями входной фазы, соответствующими двум сглаженным значениям фазы. Было установлено, что в некоторых случаях разность между значениями фазы, которые связаны с различными (расширенными) каналами многоканального аудио сигнала, [разность] является особенно значимой величиной для принятия решения, будет ли включено или отключено сглаживание значения фазы.

В предпочтительном варианте блок расширения настроен на применение, в течение заданного промежутка времени, различных мгновенных сглаженных изменений фазы, которые определяются различными сглаживающими значениями фазы для получения расширенных сигналов аудио каналов, имеющих разность фаз между каналами, если сглаживающая функция (или полученное сглаженное значение фазы) включена и применяется к мгновенным не сглаженным изменениям фазы, которые определяются различными не сглаженными значениями фазы, для получения сигналов о различных расширенных аудио каналах, имеющих разность фаз между каналами, если сглаживающая функция (или полученное сглаженное значение фазы) отключено. В этом случае определитель параметров включает контроллер сглаживания, который настроен на выборочное включение или отключение сглаженного значения фазы, если разность между сглаженными значениями фазы, использованная для получения сигналов о различных расширенных аудио каналах, отличается от не сглаженного значения межканальной разности фаз, которое получает блок расширения, или от значения, полученного на основе информации блока расширения, на величину, большую заданного порогового значения. Было установлено, что избирательное отключение процедуры сглаживания значения фазы особенно полезно в плане улучшения впечатления при прослушивании, если величина разности фаз между каналами выбирается в качестве критерия для активации и деактивации процедуры сглаживания значения фазы.

В предпочтительном варианте определитель параметров настроен на регулирование постоянной времени фильтра для определения последовательности сглаженных значений фазы в зависимости от разности между мгновенным сглаженным значением фазы и соответствующим значением входной фазы. Регулируя постоянную времени фильтра, можно добиться того, что будет установлено достаточно малое время для очень больших изменений значений входной фазы, что позволяет сохранять сглаженные характеристики достаточно хорошими для малых и средних изменений значений входной фазы. Эта процедура имеет определенные преимущества, так как сравнительно небольшая величина (или, по крайнем мере, средняя величина) изменения входной фазы часто является фактором, определяющим шаг (зернистость) дискретизации. Другими словами, ступенчатое изменение входного значения фазы, обусловленное зернистостью дискретизации, может привести к эффективной работе сглаживания. В таком случае, процедура сглаживания может быть особенно выгодна и приносит хорошие результаты, если используется сравнительно большая постоянная времени фильтра. С другой стороны, очень большие изменения входного значения фазы, которые значительно больше шага дискретизации, обычно соответствует желаемому большому изменению значения фазы. В этом случае сравнительно малая постоянная времени фильтра приводит к хорошим результатам. Следовательно, с помощью подстройки постоянной времени фильтра в зависимости от разности между мгновенным сглаженным значением фазы и соответствующим значением входной фазы, можно достичь того, что заведомо большие изменения значения входной фазы приводят к быстрым изменениям сглаженного значения фазы, в то время как сравнительно небольшие изменения значения входной фазы, которые имеют величину шага дискретизации, приводят к сравнительно медленному и сглаженному переходу в сглаженном значении фазы. Соответственно, хорошее впечатление при прослушивании достигается как при заведомо больших изменениях соответствующих значений входной фазы, так и для небольших изменений соответствующих значений фазы (которые, тем не менее, могут привести к изменению значения входной фазы за один шаг дискретизации).

В предпочтительном варианте определитель параметров настроен на регулирование постоянной времени фильтра для определения последовательности сглаженных значений фазы в зависимости от разности между сглаженными межканальными разностями фаз, величина которой определяется разностью между двумя сглаженными значениями фазы, относящимися к различным каналам расширенного звукового сигнала, и не сглаженной межканальной разностью фаз, которая определяется информацией о не сглаженной разности фаз между каналами. Было установлено, что концепция выборочной настройки постоянной времени фильтра может быть успешно использована в сочетании с обработкой межканальных разностей фаз.

В предпочтительном варианте аппаратный блок для расширения сигнала настроен на выборочное включение или отключение процедуры сглаживания значений фазы в зависимости от сведений, извлеченных из битов аудио потока. Было установлено, что улучшение впечатления при прослушивании можно получить, создавая возможность выборочного включения и отключения, контролируемую аудио кодировщиком, при проведении процедуры сглаживания значений фазы в аудио декодировщике.

Воплощение изобретения создает метод реализации рассмотренных выше аппаратных средств для процедуры расширения сжатого аудио сигнала в расширенный звуковой сигнал. Указанный способ основан на тех же идеях, что и рассмотренные выше аппаратные средства.

Кроме того, варианты в соответствии с изобретением позволяют создать компьютерную программу для осуществления указанного способа.

Краткое описание чертежей.

Воплощения в соответствии с изобретением будут далее описаны со ссылками на прилагаемые фигуры, на которых:

на фиг.1 показана блок-схема аппаратного блока для расширения сжатого аудио сигнала, в соответствии с вариантом осуществления изобретения;

на фиг.2а и 2б показана блок-схема аппаратного блока для расширения сжатого аудио сигнала, согласно другому варианту осуществления изобретения;

на фиг.3 показано схематическое представление общей разности фаз OPD1, OPD2 и разности фаз IPD между каналами;

на фиг.4а и 4б показано графическое представление фазовых соотношений для первого варианта алгоритма ограничения изменения фазы;

на фиг.5а и 5б показано графическое представление фазовых соотношений для второго варианта алгоритма ограничения изменения фазы;

на фиг.6 показана блок-схема метода расширения сжатого аудио сигнала в расширенный звуковой сигнал, в соответствии с вариантом осуществления изобретения, а также

на фиг.7 показана блок-схема, представляющая общую схему кодирования бинаурального сигнала.

Подробное описание воплощений изобретения

1. Воплощение в соответствии с фиг.1

На фиг.1 показана блок-схема схема аппаратного блока 100 для расширения сжатого аудио сигнала согласно одному из вариантов изобретения. Аппаратный блок 100 настроен на прием сжатого аудио сигнала 110, представляющего собой один или более сжатых аудио каналов, и формирование расширенного аудио сигнала 120, представляющего множество расширенных аудио каналов. Аппаратный блок 100 включает в себя блок расширения 130, настроенный на применение мгновенных переменных параметров расширения для расширения сжатого аудио сигнала 110 и получения расширенного аудио сигнала 120. Аппаратный блок 100 также включает в себя определитель параметров 140, настроенный на получение входной информации о дискретизированных параметрах расширения 142. Определитель параметров 140 настроен на получение одного или нескольких текущих значений сглаженных параметров расширения 144 для использования в блоке расширения 130 на основе входной информации о дискретизированных параметрах расширения 142.

Определитель параметров 140 настроен на объединение масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией входной фазовой информации 142а, которая входит во входную информацию о дискретизированных параметрах расширения 142, и [определитель параметров] использует алгоритм ограничения изменения фазы 146 для определения текущего значения сглаженной фазы 144а на основе предыдущего значения сглаженной фазы и входной фазовой информации. Текущее значение сглаженной фазы 144а включается в текущие значения сглаженных параметров расширения 144.

Далее будут описаны некоторые подробности, касающиеся принципа действия аппаратного блока 100. Сжатый аудио сигнал 110 вводится в блок расширения 130, например, в виде последовательности множеств комплексных значений, представляющих сжатый аудио сигнал в частотно-временной области (здесь не показано описание перекрывающихся или неперекрывающихся диапазонов частот или частотных поддиапазонов со скоростью обновления, определяемой кодировщиком). Блок расширения 130 настроен на формирование линейной комбинации нескольких каналов на основе сжатого аудио сигнала 110 в зависимости от текущих значений переменных для сглаженных параметров расширения и/или линейной комбинации канала сжатого аудио сигнала 110 с вспомогательным сигналом (например, декоррелированных сигналов) (где вспомогательный сигнал может быть получен из того же аудио канала сжатого аудио сигнала 110, из одного или нескольких других аудио каналов сжатого аудио сигнала 110, или из комбинации звуковых каналов сжатого аудио сигнала 110). Таким образом, текущие значения сглаженных параметров расширения 144 могут быть использованы в блоке расширения 130 для определения амплитуды масштабирования и/или изменения фазы (или задержки по времени), используемых для формирования расширенного аудио сигнала 120 (или расширенного канала) на основе сжатого аудио сигнала 110.

Определитель параметров 140, как правило, настроен на предоставление текущих значений переменных для сглаженных параметров расширения 144 со скоростью обновления, которая равна (или, в некоторых случаях выше, чем) скорости обновления дополнительной информации, которая описывается входной информацией о дискретизированных параметрах расширения 142. Определитель параметров 140 может быть настроен на исключение (или, по крайней мере, уменьшение) искажений, связанных с грубым (с сохранением скорости передачи битов) квантованием входной информации о дискретизированных параметрах расширения 142. Для этого определитель параметров 140 может применять сглаживание фазовой информации, описывающей, например, разность фаз между каналами. Сглаживание входной фазовой информации 142а, которая входит в квантованную входную информацию о дискретизированных параметрах расширения 142, осуществляется с помощью алгоритма ограничения изменения фазы 143 так, что большие и резкие изменения фазы, которые приводят к звуковым искажениям, могут быть исключены (или, по крайней мере, ограничены в допустимых пределах).

Сглаживание лучше проводить, комбинируя предыдущее сглаженное значение фазы со значением входной фазовой информации 142а такой, что текущее сглаженное значение фазы зависит как от предыдущего сглаженного значения фазы, так и от текущего значения входной фазовой информации 142а. Таким образом, достаточно плавный переход можно получить с использованием простой структуры алгоритма сглаживания. Другими словами, недостатки сглаживания импульсов конечной длительности можно устранить при использовании способа сглаживания импульсов с бесконечной длительностью, в котором применяется предыдущее сглаженное значение фазы.

Кроме того, определитель параметров 140 может включать в себя дополнительные функциональные возможности интерполяции, что является преимуществом, если входная информация о дискретизированных параметрах расширения 142 передается в течение сравнительно больших временных интервалов (например, меньше чем один раз для набора спектральных значений сжатого аудио сигнала 110).

Подводя итог, аппаратный блок 100 позволяет предоставить текущее сглаженное значение фазы 144а на основе входной информации о дискретизированных параметрах расширения 142 так, что текущее сглаженное значение фазы 144а хорошо подходит для формирования расширенного звукового сигнала 120 из сжатого звукового сигнала 110 с использованием блока расширения 130.

Звуковые искажения уменьшаются (или даже устраняются) путем предоставления сглаженного значения фазы 144а с использованием рассмотренной выше концепции, причем предыдущее сглаженное значение фазы используется в сочетании с ограничением изменения фазы. Соответственно, достигается хорошее впечатление при прослушивании расширенного аудио сигнала 120.

2. Воплощение в соответствии с фиг.2

2.1. Обзор по фиг.2

Более подробная информация о структуре и функционировании аппаратного блока для расширения звукового сигнала будет описана со ссылкой на фиг.2а и 2б. На фиг.2а и 2б показана подробная схема блока аппаратного блока 200, соответствующая другому варианту осуществления изобретения, для расширения сжатого аудио сигнала.

Аппаратный блок 200 можно рассматривать как декодировщик для создания многоканальных (например, 5.1) аудио сигналов на основе сжатого звукового сигнала 210 и дополнительной информации SI. Аппаратный блок 200 реализует функциональные возможности, которые были описаны в отношении аппаратного блока 100.

Аппаратный блок 200 может, например, использоваться для декодирования многоканального звукового сигнала, закодированного в соответствии с так называемыми "Binawal Cue Coding", "Parametric Stereo" или "MPEG Surround". Естественно, аппаратный блок 200 может также быть использован для расширения многоканальных аудио сигналов, закодированных в соответствии с другими системами с помощью пространственных сигналов.

Для простоты изложения описывается аппаратный блок 200, который выполняет расширение одного канала сжатого аудио сигнала в двухканальный сигнал. Тем не менее, концепция, описанная здесь, может быть легко распространена на случаи, когда сжатый звуковой сигнал включает в себя более одного канала, а также на случаи, когда расширенный звуковой сигнал состоит более чем из двух каналов.

2.2. Входные сигналы и временные интервалы для воплощения на фиг.2

Аппаратный блок 200 настроен на прием сжатого звукового сигнала 210 и дополнительной информации 212. Кроме того, аппаратный блок 200 настроен на формирование расширенного звукового сигнала 214, включающего, например, несколько каналов.

Сжатый аудио сигнал 210 может, например, быть выходным сигналом, сгенерированным кодировщиком (например, ВСС кодировщик 810, показанный на фиг.7). Сжатый аудио сигнал 210 может, например, быть представлен в частотно-временной области, например, в виде разложения по комплексным частотам. Например, аудио контенты [содержание] множества частотных поддиапазонов (которые могут быть перекрывающимися или неперекрывающимися) звукового сигнала могут быть представлены в виде соответствующих комплексных значений. Для заданного диапазона частот сжатый звуковой сигнал может быть представлен последовательностью комплексных значений, описывающих аудио контент в частотных поддиапазонах, рассматриваемых для последовательности промежутков времени (перекрывающихся или не перекрывающихся). Последовательность комплексных значений для последовательности промежутков времени может быть получена, например, с помощью набора фильтров (например, QMF набор фильтров), быстрого преобразования Фурье и т.п., в аппаратном блоке 100 (который может быть частью многоканального декодировщика звукового сигнала), или в дополнительном устройстве, соединенном с аппаратным блоком 100. Тем не менее, представление сжатого аудио сигнала 210, описанное здесь, как правило, не совпадает с представлением сжатого сигнала, используемого для передачи сжатого аудио сигнала из многоканального кодировщика аудио сигнала на многоканальный декодировщик аудио сигнала или аппаратный блок 100. Соответственно, сжатый аудио сигнал 210 может быть представлен потоком последовательностей или векторов комплексных значений.

Далее будем предполагать, что последующие временные интервалы сжатого аудио сигнала 210 обозначаются целочисленными индексами k. Также предположим, что аппаратный блок 200 получает один набор или вектор комплексных значений в интервале k канала сжатого аудио сигнала 210. Таким образом, одна выборка (набор или вектор комплексных значений) будет получена для каждой аудио выборки обновляемого интервала, описываемого индексом времени k.

Иными словами, аудио выборки ("AS") сжатого аудио сигнала 210 передаются в аппаратный блок 210 так, что одна аудио выборка AS связана с каждой аудио выборкой обновляемого интервала k.

Затем аппаратный блок 200 получает дополнительную информацию 212, описывающую параметры расширения. Например, дополнительная информация 212 может быть описана одним или несколькими из следующих параметров расширения:

разностными сигналами уровня между каналами (ILD), сигналами корреляции или когерентности между каналами (ICC), разностными сигналами во времени между каналами (ITD), сигналами разности фаз между каналами (IPD) и общей разностью фаз (OPD). Как правило, дополнительная информация 212 включает в себя ILD параметры и хотя бы один из параметров ICC, ITD, IPD, OPD. Однако для того чтобы сохранить диапазон частот, дополнительная информация 212, в некоторых вариантах, передается или получается аппаратным блоком 200 один раз за несколько интервалов обновления аудио выборок k сжатого аудио сигнала 210 (или передача единого набора дополнительной информации может временно распространяться на множество интервалов обновления k аудио выборок). Таким образом, в некоторых случаях, есть только один набор параметров дополнительной информации для множества интервалов обновления аудио выборок k. Тем не менее, в других случаях, может быть один набор параметров дополнительной информации для каждого интервала обновления аудио-выборок k.

Интервалы, на которых дополнительная информация обновляется, обозначены индексом n, причем исключительно для простоты мы будем считать в дальнейшем, что последовательность временных интервалов сжатого аудио сигнала 210, которая обозначена целочисленными значениями индекса k, совпадает с временными интервалами, на которых дополнительная информация SI 212 обновляется, так, что выполняется равенство k=n. Однако, если обновление дополнительной информации SI 212 производится только один раз для множества последовательных промежутков времени k сжатого аудио сигнала 210, может быть выполнена интерполяция, например, между последовательностью значений входной фазовой информации α_n или последовательностью значений сглаженной фазы .

Например, дополнительная информация может быть передана (или получена) аппаратным блоком 200 в интервалах обновления аудио выборок k=4, k=8 и k=16. С другой стороны, дополнительная информация 212 не может быть передана (или получена) аппаратным блоком между указанными интервалами обновления аудио выборок. Таким образом, интервалы обновления дополнительной информации 212 могут изменяться с течением времени, так как кодировщик может, например, принять решение о проведении обновления дополнительной информации только при необходимости (например, когда декодировщик отмечает, что дополнительная информация изменилась больше предварительно определенного значения). Например, дополнительная информация, полученная аппаратным блоком 200 для интервала обновления аудио выборки k=4, может быть связана с аудио интервалами обновления выборок k=3, 4, 5. Кроме того, дополнительная информация, полученная аппаратным блоком 200 для интервала обновления аудио выборки k=8, может быть связана с интервалами обновления аудио выборок k=6, 7, 8, 9, 10, и так далее. Тем не менее, естественно, возможны различные ассоциации, и интервалы обновления для дополнительной информации могут быть больше или меньше, чем обсуждалось.

2.3. Выходные сигналы и временные интервалы для воплощения по фиг.2

Отметим, что аппаратный блок 200 служит для формирования расширенных аудио сигналов в комплексных частотах. Например, аппаратный блок 200 может быть настроен для предоставления расширенных звуковых сигналов 214, так что расширенные звуковые сигналы включают один интервал обновления аудио выборки, или скорость обновления звукового сигнала такая же, как и у сжатого аудио сигнала 210. Другими словами, для каждой выборки (или интервала обновления аудио выборки k) сжатого аудио сигнала 210 выборка расширенного аудио сигнала 214 создается в нескольких вариантах.

2.4. Расширение

Далее будет подробно описано, как обновляются параметры расширения, которые используются для расширения сжатого аудио сигнала 210 и получения для каждого интервала обновления k аудио выборки, хотя, в некоторых вариантах, входная дополнительная информация 212 декодировщика может обновляться только на больших интервалах обновления. В дальнейшем, будет описана обработка одного поддиапазона частот, но концепция, естественно, может распространяться на несколько поддиапазонов частот.

Аппаратный блок 200 включает в себя, в качестве ключевого компонента, блок расширения 230, который настроен на работу в качестве комплексного линейного сумматора. Блок расширения 230 настраивается для получения выборок x(t) или x(k) сжатого аудио сигнала 210 (например, представляющих определенные диапазоны частот), связанные с интервалом обновления k аудио выборки. Сигнал x(t) или x(k), иногда называется «сухой сигнал». Кроме того, блок расширения 230 настроен на прием выборок q(t) или q(k), представляющих декоррелированную версию сжатого звукового сигнала.

Кроме того, аппаратный блок 200 включает в себя декоррелятор (например, устройство задержки или ревербератор) 240, который настроен на получение выборок x(k) сжатого аудио сигнала и на формирование на этой основе выборки q(k) декоррелированной версии сжатого звукового сигнала (представленного выборкой x(k)). Декоррелированную версию (выборка q(k)) сжатого аудио сигнала (выборка x(k)) будем называть «мокрым сигналом».

Блок расширения 230 включает в себя, например, умножитель 232 матрицы на вектор, который настроен на выполнение вещественной (или, в некоторых случаях, комплекснозначной) линейной комбинации «сухой сигнал» (представленного x(k)) и «мокрый сигнал» (представленного q(k)) для получения первого расширенного канала сигнала (представленного выборкой y₁(k)) и второго расширенного канала сигнала (представленного выборкой y₂(k)). Умножитель 232 матрицы на вектор может, например, быть настроен на выполнение последующего умножения матрицы на вектор для получения выборок y₁(k) и y₂(k) расширенного канала сигнала:

Умножитель 232 матрицы на вектор или комплекснозначный линейный сумматор 230 может дополнительно содержать регулятор фазы 233, который настроен на регулировку фаз выборок y₁(k) и y₂(k), представляющих расширенный канал сигнала. Например, регулятор фазы 233 может быть настроен на получение отрегулированного значения фазы первого расширенного канала сигнала, который представлен выборкой в соответствии с

и для получения отрегулированного значения фазы второго расширенного канала сигнала, который представлен выборкой , в соответствии с

Соответственно, расширенный аудио сигнал 214, выборки которого обозначаются и , получается на основе сухого и мокрого сигналов, в комплекснозначном линейном сумматоре 230 с использованием мгновенных значений переменных параметров расширения. Мгновенные значения переменных сглаженной фазы Sn используются для определения фаз (или разности фаз между каналами) расширенных аудио сигналов и . Например, регулятор фазы 232 может быть настроен использование мгновенных значений переменных сглаженной фазы. Тем не менее, как один из вариантов, мгновенные значения переменных сглаженной фазы могут также использоваться умножителем 232 матрицы на вектор (или даже при формировании элементов матрицы Н). В этом случае, регулятор фазы 233 может быть полностью исключен.

2.5 Обновление параметров расширения

Как видно из приведенных выше уравнений, желательно обновлять матрицу параметров расширения Н(k) и расширенного канала значения фазы α₁(k), α_z(k) для каждой аудио выборки интервала обновления k. Обновление матрицы параметров расширения для каждой аудио выборки интервала обновления k имеет преимущество в том, что матрица параметров расширения всегда хорошо приспособлена к реальному акустическому оборудованию. Обновление матрицы параметров расширения для каждой аудио выборки интервала обновления k также позволяет сохранить небольшие поэтапные изменения матрицы параметров расширения Н (или их записи) между последовательными интервалами аудио выборок k, так как изменения матрицы параметров расширения распределены по нескольким интервалам обновления аудио выборок, даже если дополнительная информация 212 обновляется только один раз за несколько интервалов обновления аудио выборок k. Кроме того, желательно сгладить любые изменения матрицы параметров расширения Н, которые могут возникнуть при дискретизации дополнительной информации SI, 212. Кроме того, желательно достаточно часто обновлять значения фазы расширенного канала α₁(k), α₂(k), чтобы избежать, по крайней мере, во время непрерывного звукового сигнала, поэтапного изменения указанных значений фазы расширенного канала. Кроме того, желательно сгладить мгновенные значения фазы расширенного канала, чтобы уменьшить или избежать искажений, которые могут быть вызваны дискретизацией дополнительной информации SI, 212.

Аппаратный блок 200 включает блок обработки дополнительной информации 250, который настроен на предоставление текущих значений переменных параметров расширения 262, например, записей Н_ij (k) матрицы H(k) и расширенных значений фазы расширенного канала α₁(k), α₂(k), на основе дополнительной информации 212. Обработка в блоке обработки дополнительной информации 250 используется для предоставления обновленного набора параметров для каждого расширенного интервала обновления k аудио выборки, даже если дополнительная информация 212 обновляется только один раз за несколько интервалов обновления k аудио выборок. Тем не менее, в некоторых вариантах блок обработки дополнительной информации 250 может быть настроен для более редкого предоставления обновленного набора текущих значений переменных параметров расширения, например, только один раз за обновление дополнительной информации SI, 212.

Обработка дополнительной информации в блоке 250 включает в себя определитель входной информации параметров расширения 252, который настроен на получение дополнительной информации 212 и передачу на ее основе, одного или нескольких параметров расширения (например, в виде последовательности 254 значений магнитуды параметров расширения и последовательности 256 значений фазы параметров расширения), которые могут рассматриваться в качестве входных параметров информации расширения (включая, например, информацию входной магнитуды 254 и информацию входной фазы 256). Например, определитель входной информации параметров расширения 252 может объединять множество сигналов (например, ILD, ICC, ITD, IPD, OPD) для получения входной информации параметров расширения 254, 256 или может индивидуально оценивать один или несколько сигналов (треков). Определитель входной информации параметров расширения 252 настроен на предоставление параметров расширения в виде последовательности 254 значений входной магнитуды (называемой также входной информацией магнитуды) и отдельной последовательности 256 значений входной фазы (называемой также входной информацией фазы). Элементы последовательности 256 входных значений фазы можно рассматривать как информацию входной фазы α_n. Например, последовательность 254 значений входной магнитуды может быть представлена абсолютными значениями комплексных чисел, а последовательность 256 значений входной фазы может быть представлена значениями углов (или значениями фазы) комплексных чисел (измеренными, например, относительно действительной оси в ортогональной системе координат с действительной и мнимой осями).

Таким образом, определитель входной информации параметров расширения 252 может обеспечить получение последовательности 254 значений входной магнитуды параметров расширения и последовательности 256 значений входной фазы параметров расширения. Определитель входной информации параметров расширения 252 может быть сконфигурирован для получения из одного набора дополнительной информации полный набор параметров расширения (например, полный набор элементов матрицы Н и полный набор значений фазы α1, α2). Таким образом, устанавливается связь между набором дополнительной информации 212 и набором входных параметров расширения 254. Соответственно, определитель входной информации параметров расширения 252 может быть настроен на обновление входных параметров расширения для последовательностей 254, 256 один раз за интервал обновления параметров расширения, то есть один раз за обновление набора дополнительной информации.

Блок обработки дополнительной информации дополнительно включает сглаживатель параметров (иногда также для краткости называемый как «определитель параметров») 260, который далее будет подробно описан. Сглаживатель параметров 260 настроен на прием последовательности 254 из величин (вещественных) входных магнитуд параметров расширения (или элементов матрицы) и последовательности 256 значений (вещественных) входной фазы параметров расширения (или элементов матрицы), которые можно рассматривать как информацию входной фазы α_n. Кроме того, сглаживатель параметров настроен на получение последовательности текущих сглаженных значений переменных параметров расширения 262 на основе сглаженной последовательностей 254 и 256.

Сглаживатель параметров 260 включает в себя сглаживатель значения магнитуды 270 и сглаживатель значения фазы 272.

Сглаживатель значения магнитуды настроен на прием последовательности 254 и получения на ее основе последовательности 274 из параметров расширения значений сглаженных магнитуд (или элементов матрицы ). Сглаживатель значения магнитуды 270 может, например, быть настроен для выполнения сглаживания величины магнитуды, которое далее будет обсуждаться более подробно.

Кроме того, сглаживатель значения фазы 272 может быть настроен на получение последовательности 256 и представления на его основе последовательности 276 параметров расширения текущих значений переменных сглаженных фаз (или элементов матрицы). Сглаживатель значения фазы 272, например, может быть настроен на выполнение алгоритма сглаживания, который далее будет подробно описан.

В некоторых вариантах сглаживатель значения магнитуды 270 и сглаживатель значения фазы настроены на выполнение отдельного и независимого друг от друга сглаживания величины магнитуды и сглаживания величины фазы. Таким образом, значения магнитуды в последовательности 254 не влияют на сглаживание значений фазы, а значения фазы в последовательности 256 не влияют на сглаживание величины магнитуды. Тем не менее, предполагается, что величина магнитуды в сглаживателе 270 и сглаживатель значения фазы 272 синхронизированы во времени таким образом, чтобы последовательности 274, 276 составляли соответствующие пары сглаженных величин магнитуд и сглаженных значений фазы параметров расширения.

Как правило, сглаживатель параметров 260 работает отдельно с различными параметрами расширения или матричными элементами. Таким образом, сглаживатель параметров 260 может получать одну последовательность 254 значений магнитуды для каждого параметра расширения (из множества параметров расширения) или элемента матрицы Н. Кроме того, сглаживатель параметров 260 может получать одну последовательность 256 входных значений фазы α_nдля подстройки фазы каждого расширенного звукового канала.

2.6 подробности, касающиеся параметров сглаживания

Далее представлены подробности, касающиеся вариантов осуществления настоящего изобретения, которые уменьшает этап обработки искажений, вызванных дискретизацией IPDs/OPDs и/или оценкой OPDs в декодировщике. Для простоты дальнейшее описание ограничивает расширение только от одного до двух каналов без ограничения для общего случая расширения от m до n каналов, для которого могут быть применены такие же методы.

Например, процедура расширения в декодировщике от одного до двух каналов осуществляется путем матричного умножения вектора, содержащего сжатый сигнал х (также обозначаемый x(k)), называемого сухим сигналом, и декоррелированной версией сжатого сигнала q (также обозначаемой q(k)), называемой мокрым сигналом, с матрицей расширения Н. Мокрый сигнал q сформирован путем подачи сжатого сигнала x через декорреляционный фильтр 240. Расширенный сигнал у является вектором, содержащим первый и второй каналы (например, y₁(k) и y₂(k)) на выходе. Все сигналы x, q, у могут быть доступны в разложении по комплексным частотам (например, в представлении в частотно-временной области).

Эта матричная операция выполняется (например, отдельно) для всех поддиапазонов выборок каждого диапазона частот (или, по крайней мере, для некоторых поддиапазонов выборок некоторых диапазонов частот). Например, матричная операция может быть выполнена в соответствии со следующим уравнением:

Коэффициенты матрицы расширения Н получаются из пространственных сигналов (треков), как правило, ILDs и ICCs, в результате чего вещественные элементы матрицы, которые в основном и выполняют расширение сухих и мокрых сигналов для каждого канала, основаны на ICCs, а согласование уровней обоих выходных каналов определяется ILDs.

Для передачи пространственных сигналов (например, ILD, ICC, ITD, IPD и/или OPD) желательно (или даже необходимо) дискретизировать некоторые или все типы параметров в кодировщике. Специально для сценариев с низким битрейтом [скоростью передачи битов] часто бывает желательно (или даже необходимо) использовать довольно грубую дискретизацию для уменьшения объема передаваемых данных. Тем не менее, для некоторых типов сигналов, грубая дискретизация может привести к искажениям звука. Чтобы уменьшить эти искажения, операции сглаживания могут быть применены к элементам матрицы расширения Н для того, чтобы сгладить переход между соседними шагами дискретизации, который и является причиной искажений.

Сглаживание выполняется, например, путем простой низкочастотной фильтрации матричных элементов:

Это сглаживание может, например, проводится сглаживателем значений магнитуды 270, в котором текущая информация входной магнитуды Н_n (например, предоставляемые определителем входной информации параметров расширения 252 и обозначены 254) может объединяться с предыдущей сглаженной величиной магнитуды (или матрицы магнитуд) ${\tilde{H}}_{n - 1}$ , чтобы получить текущую сглаженную величину магнитуды (или матрицы магнитуд) .

Так как сглаживание может оказать негативное влияние на участках сигнала, в которых пространственные параметры быстро меняются, сглаживание может управляться с помощью добавочной дополнительной информации, переданной кодировщиком.

В дальнейшем, применение и определение значений фазы будут описаны более подробно. Если используются IPDs и/или OPDs, для выходных сигналов может быть может быть применен дополнительный сдвиг фазы (например, для сигналов, определенных выборками y₁(k) и у₂(k)). IPD описывает разность фаз между двумя каналами (например, подстроенной фазы первого расширенного сигнала канала, определяемой выборками и подстроенной фазы второго расширенного сигнала канала, определяемой выборками ), в то время как OPD описывает разность фаз между одним каналом и сжатым сигналом.

В дальнейшем, определения IPDs и OPDs будут кратко объяснены со ссылкой на фиг.3, которая показывает схематическое представление фазовых соотношений между сжатым сигналом и множеством сигналов канала. Теперь, принимая во внимание ссылку на фиг.3, фаза сжатого сигнала (или его спектральный коэффициент x(k)) представляет первый указатель 310. Фаза подстроенной фазы первого расширенного сигнала канала (или его спектральный коэффициент ) представляет второй указатель 320. Разность фаз между сжатым сигналом (или его спектральным значением или коэффициентом) и подстроенной фазой первого расширенного сигнала канала (или его спектральным коэффициентом) обозначается OPD1. Подстроенная фаза второго расширенного сигнала канала (или его спектральный коэффициент ) представляет третий указатель 330. Разность фаз между сжатым сигналом (или его спектральным коэффициентом) и подстроенной фазой второго расширенного сигнала канала (или его спектральным коэффициентом) обозначается OPD2. Разность фаз между подстроенной фазой первого расширенного сигнала канала (или его спектральным коэффициентом) и подстроенной фазой второго расширенного сигнала канала (или его спектральным коэффициентом) обозначается IPD.

Для восстановления фазовых свойств исходного сигнала (например, для получения подстроенной фазы первого расширенного сигнала канала и подстроенной фазы второго расширенного сигнала канала с соответствующими значениями фазы на основе сухого сигнала) OPDs для обоих каналов должно быть известно. Часто IPD передается вместе с одним OPD (второй OPD можно рассчитать из них). Чтобы уменьшить объем передаваемых данных, также можно передавать только IPDs и провести оценку OPDs в декодировщике с использованием фазовой информации, содержащейся в сжатом сигнале вместе с переданными ILDs и IPDS. Например, эту обработку может выполнять определитель входной информации параметров расширения 252.

Восстановление фазы в декодировщике (например, в аппаратном блоке 200) осуществляется комплексным вращением [т.е. изменением фазы] выходных сигналов поддиапазонов (например, сигналов, описываемых спектральными коэффициентами y₁(k), у₂(k)) в соответствии со следующими уравнениями:

В приведенных выше уравнениях, углы α₁ и α₂ равны ОPDs для двух каналов (или, например, сглаженным OPDs).

Как описано выше, грубая дискретизация параметров (например, ILD параметров и/или ICC параметров) может привести к звуковым искажениям, которые также возникают при дискретизации IPDs и OPDs. Как описано выше, операция сглаживания применяется к элементам матрицы расширения Н_n и позволяет только уменьшить искажения, вызванные дискретизацией ILDs и ICCs, а искажения, вызванные дискретизацией параметров фазы, не изменяются.

Кроме того, дополнительные искажения могут быть введены с использованием описанных выше изменяющихся во времени вращений [изменений] фазы, которые применяются к каждому выходному каналу. Было установлено, что, если сдвиг фаз углов α₁ и α₂ быстро изменяется с течением времени, применяемое изменение угла может привести к короткому выпадению или изменению мгновенной частоты сигнала.

Обе эти проблемы могут быть значительно снижены за счет применения модифицированной версии описанного выше подхода к сглаживанию углов α₁ и α₂. Как и в данном случае, сглаживающий фильтр применяется для углов, которые повторяются через каждые 2π, желательно изменить сглаживающий фильтр с помощью так называемой развертки. Таким образом, значения сглаженной фазы вычисляются по следующему алгоритму, который обычно предусматривает ограничение изменения фазы:

В дальнейшем функциональность описанного выше алгоритма будет кратко обсуждена со ссылкой на фиг.4а, 4б, 5а и 5б. Используя ссылку на приведенное выше, уравнение или алгоритм для расчета значения текущей сглаженной фазы , можно заметить, что текущее сглаженное значение фазы получается при помощи взвешенной линейной комбинации, без дополнительного слагаемого, текущей информации входной фазы и предыдущего значения сглаженной фазы , если разность между значениями α_n и меньше или равна π (случай «else» в вышеуказанном уравнении). Предполагая, что значения параметра δ находятся между нулем и единицей (за исключением нуля и единицы), который определяет (или представляет) постоянную времени процесса сглаживания, значения текущей сглаженной фазы будут лежать между значениями и . Например, если δ=0,5, значение среднее (среднее арифметическое) между и .

Однако, если разность между и больше чем π, выполняется первый случай (первая строка) этого уравнения. В этом случае значения текущей сглаженной фазы получается путем линейной комбинации и , с учетом постоянного смещения фазы на величину -2πδ. Соответственно, необходимо добиться того, чтобы разность между и сохранялась достаточно малой. Пример такой ситуации показан на фиг.4а, в котором фаза иллюстрируется первым указателем 410, фаза α_n иллюстрируется вторым указателем 412 и фаза представляется третьим указателем 414.

На фиг.4б показана такая же ситуация для различных значений и . Снова значения фаз , α_n и показаны указателями 450, 452, 454.

Снова необходимо добиться того, чтобы угол разности между и оставался достаточно малым. В обоих случаях направление, определяемое значением фазы , задается меньшим из двух диапазонов углов, причем первый из двух диапазонов углов будет перекрыт вращением указателей 410, 450 в направлении указателей 412, 452 в математически положительном (против часовой стрелки) направлении, а второй диапазон углов будет перекрыт вращением указателей 412 ,452 в направлении указателей 410, 450 в математически положительном (против часовой стрелки) направлении.

Однако, если будет установлено, что разность между значениями фазы и меньше чем -π, значение будет получено с использованием второго случая (второй строки) этого уравнения. Значение фазы получается путем линейной комбинации значений фазы и , с постоянной поправкой к фазе на величину 2πδ. Примеры такого случая, в котором - меньше чем -π, показаны на фиг.5а и 5б.

Подводя итоги, сглаживатель значения фазы 272 может быть сконфигурирован для выбора различных способов расчета значения фазы (которые могут быть линейной комбинацией способов) в зависимости от разности между значениями и .

2.7 Дополнительные возможности концепции сглаживания

Далее будут обсуждаться некоторые дополнительные возможности рассмотренной выше концепции сглаживания значений фазы. Что касается других параметров (например, ILD, ICC, ITD) могут быть сигналы, где необходимо быстрое изменение углов, например, если IPD исходного сигнала (например, сигнала, обрабатываемого кодировщиком) изменяется очень быстро. Для таких сигналов сглаживание, которое выполняется сглаживателем значения фазы 272, будет (в некоторых случаях) иметь негативное влияние на качество выходного сигнала и не должно применяться в этих случаях. Чтобы избежать возможных накладок на скорость передачи данных, необходимо для контроля сглаживания кодировщиком для каждого диапазона обрабатываемых сигналов в декодировщике (например, в аппаратном блоке 200) использовать адаптивное управление сглаживанием (например, реализованное с использованием контроллера сглаживания): результирующий IPD (то есть, разность между двумя сглаживаемыми углами, например, между углами α₁(k) и α₂(k)) вычисляется и сравнивается с переданным IPD (например, разностью фаз между каналами, представленной информацией входной фазы α_n). Если разность превышает определенное пороговое значение, сглаживание может быть отключено и углы без проведения обработки (например, углы α_n, описываемые информацией входной фазы и предоставлямые определителем входной информации параметров расширения) могут быть использованы (например, фазовый корректором 233), а в противном случае углы после низкочастотной фильтрации (например, сглаженные значения фазы , предоставляемые сглаживателем значения фазы 272) могут быть использованы в выходном сигнале (например, регулятором фазы 233).

В улучшенной (дополнительной) версии, алгоритм, который применяется сглаживателем значения фазы 272, может быть расширен с использованием постоянной времени фильтра, изменяющейся в зависимости от текущей разности между обработанной и необработанной IPDs. Например, значение параметра δ (который определяет постоянную времени фильтра) может быть скорректировано в зависимости от разности между текущим сглаженным значением фазы и текущим значением входной фазы α_n, или в зависимости от разности между предыдущим сглаженным значением фазы и текущим значением входной фазы α_n.

В некоторых вариантах, для расширения возможностей метода, один бит может (дополнительно) передаваться с потоком битов (который представляет сжатый аудио сигнал 210 и дополнительную информацию 212), чтобы включить или полностью отключить сглаживание в кодировщике для всех диапазонов, в случае некоторых сигналов с критическими характеристиками, для которых адаптивное управление сглаживанием не дает оптимальные результаты.

3. Заключение

Подводя итог вышесказанному, была представлена общая концепция адаптивной обработки фазы при параметрическом многоканальном кодировании звука. Воплощения в соответствии с настоящим изобретением способны заменить другие методы за счет уменьшения искажений в выходном сигнале, вызванных грубой дискретизацией или быстрым изменением параметров фазы.

4. Способ

Воплощение изобретения включает в себя способ расширения сжатого аудио сигнала, представленного одним или более сжатыми аудио каналами, в расширенный звуковой сигнал, состоящий из множества расширенных аудио каналов. На фиг.6 показана схема такого метода, который обозначен в полном объеме номером 700. Метод 700 включает в себя этап 710 объединения масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией входной информации текущей фазы с использованием алгоритма ограничения изменения фазы, чтобы определить текущее сглаженное значение фазы на основе предыдущего сглаженного значения фазы и входной фазовой информации.

Способ 700 также включает в себя 720 этап применения текущих переменных параметров расширения для расширения сжатого аудио сигнала с целью получения расширенного звукового сигнала, в котором текущие переменные параметры расширения включает текущие сглаженные значения фазы.

Естественно, способ 700 может быть дополнен любой характеристикой и функцией, которые описаны здесь по отношению к изобретенному аппаратному блоку.

5. Альтернативные воплощения

Хотя некоторые аспекты были описаны в контексте аппаратного блока, ясно, что эти аспекты являются также описанием соответствующего метода, при этом блок или устройство соответствует этапу метода или отличительной особенности этапа метода. Аналогично, аспекты, изложенные в контексте этапа метода, также представляют собой описание соответствующего блока или элемента или функцию, соответствующую аппаратному блоку. Некоторые или все этапы метода могут быть выполнены (или использованы) аппаратными средствами, такими как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах, один или несколько из самых важных этапов метода могут быть выполнены таким аппаратным блоком.

В зависимости от определенных требований реализации, воплощения изобретения могут быть реализованы в оборудовании или в программном обеспечении. Реализация может быть выполнена с помощью цифрового носителя, например дискеты, DVD, Blue-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, с читаемыми электронным способом управляющими сигналами, хранящимися на этом носителе, которые взаимодействуют (или способны работать совместно) с программной системой компьютера, так, чтобы выполнялся соответствующий метод. Таким образом, цифровой носитель может быть машиночитаемым.

Некоторые воплощения в соответствии с изобретением содержат носитель с читаемыми электронным способом управляющими сигналами, которые способны взаимодействовать с программной системой компьютера, таким образом, что выполняется один из методов, описанных здесь.

Как правило, варианты настоящего изобретения могут быть реализованы в виде программного продукта на компьютере, с программным кодом, способным выполнять один из методов, когда компьютерный программный продукт запускается на компьютере. Программный код, например, может быть сохранен на машиночитаемых носителях.

Другие варианты включают компьютерную программу для выполнения одного из методов, описанных здесь, и хранящуюся на машиночитаемых носителях.

Иными словами, воплощением предлагаемого метода является, таким образом, компьютерная программа, имеющая программный код для выполнения одного из методов, описанных здесь, когда компьютерная программа запускается на компьютере.

Еще один вариант метода изобретения, таким образом, носителем информации (или цифровым носителем, или машиночитаемым носителем), включающим записанную на нем компьютерную программу для выполнения одного из методов, описанных в тексте изобретения.

Еще один вариант осуществления предлагаемого способа является, таким образом, потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из методов, описанных в тексте изобретения. Поток данных или последовательность сигналов, например, могут быть предназначены для передачи через линии передачи данных, например, через Интернет.

Еще один вариант включает в себя средства обработки, например, компьютер или программируемое логическое устройство, настроенное или приспособленное для выполнения одного из методов, описанных в тексте изобретения.

Еще один вариант использует компьютер с установленной на нем компьютерной программой для выполнения одного из методов, описанных в тексте изобретения.

В некоторых вариантах программируемое логическое устройство (например, программируемая логическая матрица) может быть использовано для выполнения некоторых или всех функциональных методов, описанных в тексте изобретения. В некоторых вариантах программируемая логическая матрица может взаимодействовать с микропроцессором для выполнения одного из методов, описанных в тексте изобретения. Как правило, методы предпочтительно осуществлять с помощью любого аппаратного блока.

Описанные выше варианты осуществления изобретения только иллюстрируют принципы данного изобретения. Понятно, что изменения и изменения механизмов и деталей, описанных здесь, будут очевидны для других специалистов в данной области. Здесь представлена только идея, поэтому ограничения могут быть связаны только с положениями формулы изобретения, а не конкретными деталями, представленными в виде описаний и объяснений воплощения в тексте изобретения.

Использованная литература

[1] С.Faller and F.Baumgarte, "Efficient representation of spatial audio using perceptual parameterization", IEEE WASPAA, Mohonk, NY, October 2001

[2] F.Baumgarte and C.Faller, "Estimation of auditory spatial cues for binaural cue coding", ICASSP, Orlando, FL, May 2002

[3] С.Faller and F.Baumgarte, "Binaural cue coding: a novel and efficient representation of spatial audio," ICASSP, Orlando, FL, May 2002

[4] С.Faller and F.Baumgarte, "Binaural cue coding applied to audio compression with flexible rendering", AES 113th Convention, Los Angeles, Preprint 5686, October 2002

[5] С.Faller and F.Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans, on Speech and Audio Proc., vol.11, no. 6, Nov. 2003

[6] J.Breebaart, S. van de Par, A.Kohlrausch, E.Schuijers, "High-Quality Parametric Spatial Audio Coding at Low Bitrates", AES 116th Convention, Berlin, Preprint 6072, May 2004

[7] E.Schuijers, J.Breebaart, H.Pumhagen, J.Engdegard, "Low Complexity Parametric Stereo Coding", AES 116th Convention, Berlin, Preprint 6073, May 2004

[8] ISO/IEC JTC 1/SC 29/WG 11,23003-1, MPEG Surround

[9] J.Blauert, Spatial Hearing: The Psychophysics of Human Sound Localization, The MIT Press, Cambridge, MA, revised edition 1997.

Иллюстрации к изобретению RU 2 550 525 C2

Реферат патента 2015 года АППАРАТНЫЙ БЛОК, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ ПРЕОБРАЗОВАНИЯ РАСШИРЕНИЯ СЖАТОГО АУДИО СИГНАЛА С ПОМОЩЬЮ СГЛАЖЕННОГО ЗНАЧЕНИЯ ФАЗЫ

Группа изобретений относится к расширению сжатого аудио сигнала, состоящего из одного или нескольких сжатого аудио каналов, в расширенный звуковой сигнал. Технический результат заключается в повышении качества расширенного звукового сигнала. Блок расширения настроен на использование текущих переменных параметров расширения для расширения сжатого аудио сигнала с целью получения расширенного звукового сигнала, в котором текущие переменные параметры расширения содержат текущие переменные сглаженных значений фазы. Определитель параметров настроен на получение одного или нескольких текущих сглаженных параметров расширения для использования в блоке расширения на основе входной информации о дискретизированных параметрах расширения. Определитель параметров настроен на объединение масштабированной версии предыдущего сглаженного значения фазы и масштабированной версии информации входной фазы, с использованием алгоритма ограничения изменения фазы для определения текущего сглаженного значения фазы на основе предыдущего сглаженного значения и информации входной фазы. 3 н. и 10 з.п. ф-лы, 7 ил.

Формула изобретения RU 2 550 525 C2

1. Аппаратный блок (100, 200) для расширения сжатого аудио сигнала (110, 210), состоящего из одного или более сжатого аудио каналов, в расширенный звуковой сигнал (120, 214), состоящий из множества расширенных аудио каналов, аппаратный блок, включающий:
блок расширения (130; 230), настроенный на использование текущих значений переменных параметров расширения (144, 262) для расширения сжатого аудио сигнала и получения расширенного звукового сигнала, в котором текущие значения переменных параметров расширения включают в себя текущие значения сглаженной фазы (144а, 270);
определитель параметров (140, 250), причем определитель параметров настроен на получение одного или более текущих сглаженных параметров расширения (α_n) для использования в блоке расширения (130, 230) на основе входной информации о дискретизированных параметрах расширения (142; 212), причем определитель параметров (140, 250) настроен на объединение масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией информации входной фазы (α_n) с использованием алгоритма ограничения изменения фазы и определение текущего сглаженного значения фазы на основе предыдущего сглаженного значения фазы и информации входной фазы.

2. Аппаратный блок (100, 200) по п.1, в котором определитель параметров (140, 250) настроен на объединение масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией (δα_n) информации входной фазы (α_n) так, что текущее сглаженное значение фазы находится в меньшем диапазоне углов из первого и второго диапазонов углов, причем первый диапазон углов располагается в математически положительном направлении от первого начального направления, определяемого предыдущим сглаженным значением фазы , до первого конечного направления, определяемого информацией входной фазы (α_n), причем второй диапазон углов располагается в математически положительном направлении от второго начального направления, определяемого информацией входной фазы (α_n), до второго конечного направления, определяемого предыдущим сглаженным значением фазы .

3. Аппаратный блок (100, 200) по п.1, где определитель параметров (140, 250) настроен на выбор комбинации способов адаптации фаз из множества различных комбинаций способов в зависимости от разности между информацией входной фазы (α_n) и предыдущим сглаженным значением фазы , а также на определение текущего сглаженного значения фазы с помощью выбранной комбинации способов.

4. Аппаратный блок (100, 200) по п.3, где определитель параметров (140, 250) настроен на выбор основного способа комбинации фазы, если разность между информацией входной фазы (α_n) и предыдущим сглаженным значением фазы находится в диапазоне от -π до +π, а также, в противном случае, на выбор одной или нескольких различных комбинаций способов адаптации фазы;
причем основной способ комбинации фазы определяется линейной комбинацией, без постоянного слагаемого, масштабированной версии информации входной фазы (δα_n) и масштабированной версии предыдущего сглаженного значения фазы ; и
причем одна или несколько комбинаций способов адаптации фаз определяется линейной комбинацией, с учетом постоянного слагаемого адаптации фазы (+π, -π), масштабированной версии информации входной фазы и масштабированной версии предыдущего сглаженного значения фазы.

5. Аппаратный блок (100, 200) по п.1, где определитель параметров настроен на получение текущего значения сглаженной фазы по следующей формуле:

где
обозначает предыдущее значение сглаженной фазы;
α_n обозначает информацию входной фазы;
′′mod′′ обозначает оператор MODULO; и
δ обозначает параметр сглаживания, значение которого находится в интервале от 0 до 1, исключая границы интервала.

6. Аппаратный блок (100, 200) по п.1, где определитель параметров (140, 250) включает в себя контроллер сглаживания, настроенный на выборочное отключение процедуры сглаживания значения фазы, если разность между сглаженным значением фазы и соответствующим значением входной фазы (α_n) больше заданного порогового значения.

7. Аппаратный блок (100, 200) по п.6, причем контроллер сглаживания настроен на оценку не только сглаженного значения фазы, разности между двумя сглаженными значениями фазы (α₁, α₂), но также на оценку соответствующей величины входной фазы, разности между двумя входными значениями фазы (256), соответствующей двум сглаженным значениям фазы (α₁, α₂).

8. Аппаратный блок (100, 200) по п.1, причем блок расширения (130, 230) настроен на использование, в течение заданного промежутка времени, различных текущих сглаженных изменений фазы (α₁, α₂), которые определяются различными сглаженными значениями фазы (α₁, α₂), для получения сигналов различных расширенных аудио каналов, имеющих межканальную разность фаз, если функция сглаживания включена, и [блок расширения (130, 230) настроен на использование] текущих не сглаженных изменений фазы (256), которые определяются различными не сглаженными значениями фазы, для получения сигналов о различных расширенных аудио каналах, имеющих межканальную разность фаз, если функция сглаживания отключена;
причем определитель параметров (140, 250) содержит контроллер сглаживания;
причем контроллер сглаживания настроен на избирательное отключение функции сглаживания значений фазы, если разность между сглаженными значениями фазы (α₁, α₂), используемыми для получения сигналов различных расширенных аудио каналов, отличается от не сглаженных значений межканальной разности фаз (212), которые получает аппаратный блок (100, 200), или блок (252) получает информацию, сформированную аппаратным блоком (212), если информация превышает заданное пороговое значение.

9. Аппаратный блок (100, 200) по п.1, в котором определитель параметров (140, 250) настроен на регулировку постоянной времени фильтра (δ) для определения последовательности (262) из сглаженного значения фазы в зависимости от разности между текущим значением сглаженной фазы и соответствующим значением входной фазы (α_n).

10. Аппаратный блок (100, 200) по п.1, в котором определитель параметров (140, 250) настроен на регулировку постоянной времени фильтра (δ) для определения последовательности (262) из сглаженного значения фазы в зависимости от разности между сглаженной межканальной разностью фаз, которая определяется разностью между двумя сглаженными значениями фазы (α₁, α₂), связанными с различными каналами расширенного звукового сигнала, и не сглаженной межканальной разностью фаз, которая определяется информацией о не сглаженной межканальной разности фаз (212).

11. Аппаратный блок (100, 200) по п.1, в котором аппаратный блок настроен на выборочное включение и отключение функции сглаживания значения фазы в зависимости от информации, извлеченной из аудио потока битов.

12. Способ (700) для расширения сжатого аудио сигнала для преобразования одного или более сжатых аудио каналов в расширенный звуковой сигнал, содержащий множество расширенных аудиоканалов и включающий:
этап 710 объединения масштабированной версии предыдущего сглаженного значения фазы с масштабированной версией входной информации текущей фазы с использованием алгоритма ограничения изменения фазы для того, чтобы определить текущее сглаженное значение фазы на основе предыдущего сглаженного значения фазы и входной фазовой информации, а также
этап 720 применения текущих переменных параметров расширения для расширения сжатого аудио сигнала с целью получения расширенного звукового сигнала, в котором текущие переменные параметры расширения включает текущие сглаженные значения фазы.

13. Машиночитаемый носитель информации с записанной на него компьютерной программой для осуществления способа по п.12, когда компьютерная программа выполняется на компьютере.

Документы, цитированные в отчете о поиске Патент 2015 года RU2550525C2

RU 2008106225, 21.06.2006

RU 2 550 525 C2

Авторы

Неусингер Маттиас

Робиллиард Жульен

Хилперт Йоханес

Даты

2015-05-10—Публикация

2010-04-01—Подача

название	год	авторы	номер документа
АППАРАТНЫЙ БЛОК, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ РАСШИРЕНИЯ СЖАТОГО АУДИО СИГНАЛА	2010	Неузингер Маттиас Робиллиард Жульен Хилперт Йоханес	RU2518696C2
АППАРАТНЫЙ БЛОК, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ РАСШИРЕНИЯ СЖАТОГО АУДИО СИГНАЛА	2010	Неузингер Маттиас Робиллиард Жульен Хилперт Йоханнес	RU2547221C2
МНОГОРЕЖИМНЫЙ АУДИО КОДИРОВЩИК И CELP КОДИРОВАНИЕ, АДАПТИРОВАННОЕ К НЕМУ	2010	Гайгер Ральф Фуш Гильом Мултрус Маркус Грилл Бернхард	RU2586841C2
МНОГОРЕЖИМНЫЙ ДЕКОДИРОВЩИК АУДИО СИГНАЛА, МНОГОРЕЖИМНЫЙ КОДИРОВЩИК АУДИО СИГНАЛОВ, СПОСОБЫ И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ С ИСПОЛЬЗОВАНИЕМ КОДИРОВАНИЯ С ЛИНЕЙНЫМ ПРЕДСКАЗАНИЕМ НА ОСНОВЕ ОГРАНИЧЕНИЯ ШУМА	2010	Нуендорф Макс Фуш Гильом Реттелбах Николаус Баекстроем Том Лекомте Джереми Херре Юрген	RU2591661C2
УСТРОЙСТВО АУДИО КОДИРОВАНИЯ, УСТРОЙСТВО АУДИО ДЕКОДИРОВАНИЯ, МЕТОДЫ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ АУДИО-СИГНАЛА, АУДИО ПОТОК И КОМПЬЮТЕРНАЯ ПРОГРАММА	2009	Мультрус Маркус Реттельбах Николаус Грилл Бернхард Фухс Гильом Гейрсбергер Стефан Попп Харальд Херре Юрген Вабник Стефан Шуллер Геральд Хиршфелд Йенс	RU2519069C2
СИСТЕМЫ, СПОСОБЫ И УСТРОЙСТВА ДЛЯ ОБНАРУЖЕНИЯ ИЗМЕНЕНИЯ СИГНАЛОВ	2007	Раджендран Вивек Кандхадай Анантхападманабхан А.	RU2417456C2
УСТРОЙСТВО АУДИО КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ ДЛЯ КОДИРОВАНИЯ ФРЕЙМОВ, ПРЕДСТАВЛЕННЫХ В ВИДЕ ВЫБОРОК ЗВУКОВЫХ СИГНАЛОВ	2009	Лекомте Джереми Гурней Филипп Баер Стефан Мультрус Маркус Реттельбах Николаус	RU2498419C2
ТРАНСКОДИРОВЩИК АУДИО ФОРМАТА	2010	Тиергарт Оливер Фалх Корнелиа Кюх Фабиан Дел Галдо Джиованни Херре Юрген Каллингер Маркус	RU2519295C2
УСТРОЙСТВО И СПОСОБ ОПРЕДЕЛЕНИЯ МНОЖЕСТВА ЛОКАЛЬНЫХ ЧАСТОТНЫХ ЦЕНТРОВ ТЯЖЕСТИ В СПЕКТРЕ АУДИОСИГНАЛА	2010	Диш Саша Попп Харальд	RU2490729C2
УСТРОЙСТВО, СПОСОБ ИЛИ КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ ОБРАБОТКИ КОДИРОВАННОЙ АУДИОСЦЕНЫ С ИСПОЛЬЗОВАНИЕМ СГЛАЖИВАНИЯ ПАРАМЕТРОВ	2021	Ройтельхубер, Франц Фукс, Гийом Мультрус, Маркус Фотопоулоу, Элени Байер, Штефан Бюте, Ян Дёла, Штефан	RU2818033C1