Показать метаданные Скрыть метаданные

(19)

(11)

2 512 124

(13)

(51)

МПК

H04S3/00(2006-01-01)

H04S7/00(2006-01-01)

G10K15/12(2006-01-01)

(21) (22)

Заявка

2011117698/08, 2009-09-25

(24)

Дата начала отсчета патента

2009-09-25

(22)

дата подачи заявки

2009-09-25

(45)

опубликовано

2014-04-10

(72)

авторы

Коппенс ЖероенМундт ХаралдТерентьев ЛеонидФалх КорнелияХилперт ЙоханнесХеллмут ОливерВиллемоес ЛарсПлогштиес ЯнБреебаарт ДжероенЭнгдегард Йонас

(73)

патентообладатели

Фраунхофер-Гезелльшафт Цур Фёрдерунг Дер Ангевандтен Форшунг Е.Ф.,Конинкляйке Филипс Электроникс Н.В.,Долби Свиден Аб

(56)

Документы, цитированные в отчете о поиске

БИНАУРАЛЬНАЯ ВИЗУАЛИЗАЦИЯ МУЛЬТИКАНАЛЬНОГО ЗВУКОВОГО СИГНАЛА Российский патент 2014 года по МПК H04S3/00 H04S7/00 G10K15/12

Описание патента на изобретение RU2512124C2

Данное изобретение имеет отношение к бинауральной визуализации многоканального звукового сигнала.

Были предложены многие алгоритмы кодирования звукового сигнала для эффективного кодирования или сжатия звуковых данных одного канала, то есть монозвуковых сигналов. Используя психоакустику, звуковые образцы соответствующим образом масштабируются, квантуются или даже устанавливаются на ноль, чтобы устранить относительную энтропию (несоответствие), например, из РСМ (импульсно-кодовая модуляция) кодированного звукового сигнала. Также выполняется удаление избыточности.

В качестве следующего шага использовалось подобие левого и правого каналов звуковых стереосигналов для эффективного кодирования/сжатия звуковых стереосигналов.

Однако предстоящие применения формулируют дальнейшие требования к алгоритмам звукового кодирования. Например, при организации телеконференций, в компьютерных играх, при исполнении музыки и т.п. несколько звуковых сигналов, которые являются частично или даже полностью некоррелированными, должны передаваться параллельно. Чтобы поддерживать необходимую для кодирования скорость передачи битов, эти звуковые сигналы являются достаточно низкими, чтобы быть совместимыми с применениями с низкой скоростью передачи битов; в последнее время были предложены звуковые кодер-декодеры, которые микшируют с понижением множественные входные звуковые сигналы в сигнал понижающего микширования, такой как стерео- или даже моносигнал понижающего микширования. Например, стандарт MPEG Окружающий звук микширует с понижением входные каналы в сигнал понижающего микширования способом, предписанным стандартом. Понижающее микширование выполняется при помощи так называемых ОТТ¹ и ТТТ^-1 блоков для понижающего микширования двух сигналов в один и трех сигналов в два соответственно. Чтобы микшировать с понижением больше чем три сигнала, используется иерархическая структура этих блоков. Каждый ОТТ^-1 блок производит помимо моносигнала понижающего микширования разности уровней каналов между двумя входными каналами, а также параметры межканальной когерентности/взаимной корреляции, представляющие когерентность или взаимную корреляцию между двумя входными каналами. Параметры производятся наряду с сигналом понижающего микширования кодирующего устройства MPEG Окружающий звук в потоке данных MPEG Окружающий звук. Точно так же каждый ТТТ^-1 блок передает коэффициенты прогнозирования, дающие возможность восстановить три входных канала из результирующего стереосигнала понижающего микширования. Коэффициенты прогнозирования канала также передаются как дополнительная информация в потоке данных MPEG Окружающий звук. Декодер MPEG Окружающий звук микширует с повышением сигнал понижающего микширования при помощи переданной дополнительной информации и восстанавливает оригинальные каналы, входящие в кодирующее устройство MPEG Окружающий звук.

Однако MPEG Окружающий звук, к сожалению, не удовлетворяет всем требованиям, которые предъявляются во многих применениях. Например, декодер MPEG Окружающий звук предназначен для повышающего микширования сигнала понижающего микширования кодирующего устройства MPEG Окружающий звук так, что входные каналы кодирующего устройства MPEG Окружающий звук восстанавливаются такими, как они есть. Другими словами, поток данных MPEG Окружающий звук предназначен для воспроизведения при помощи конфигурации громкоговорителя, использовавшегося для кодирования, или при помощи типичных конфигураций, таких как стерео.

Однако согласно некоторым применениям было бы удобно, если бы конфигурация громкоговорителя могла свободно изменяться на стороне декодера.

Чтобы соответствовать самым последним требованиям, в настоящее время разрабатывается стандарт кодирования пространственного звукового объекта (SAOC). Каждый канал рассматривают как индивидуальный объект, и все объекты микшируются с понижением в сигнал понижающего микширования. Таким образом, объекты обрабатываются как звуковые сигналы, являющиеся независимыми друг от друга, не придерживаясь никакой определенной конфигурации громкоговорителя, но при наличии возможности произвольно размещать (виртуальные) громкоговорители на стороне декодера. Индивидуальные объекты могут включать индивидуальные источники звука, например инструменты или речевые каналы. В отличие от декодера MPEG Окружающий звук декодер SAOC может свободно индивидуально микшировать с повышением сигнал понижающего микширования для воспроизведения индивидуальных объектов на любой конфигурации громкоговорителя. Чтобы обеспечить декодеру SAOC возможность восстановить индивидуальные объекты, закодированные в потоке данных SAOC, разность уровней объекта и для объектов, формирующих вместе стерео (или многоканальный) сигнал, параметры межобъектной взаимной корреляции передаются как дополнительная информация в битовом потоке SAOC. Помимо этого SAOC декодер/транскодер обеспечивается информацией, показывающей, как индивидуальные объекты были микшированы с понижением в сигнал понижающего микширования. Таким образом, на стороне декодера можно восстановить индивидуальные каналы SAOC и визуализировать эти сигналы на любой конфигурации громкоговорителя, используя контролируемую пользователем информацию о визуализации.

Однако, хотя вышеупомянутые кодер-декодеры, то есть MPEG Окружающий звук и SAOC, могут передавать и визуализировать многоканальный звуковой контент на конфигурации громкоговорителя, имеющие более двух громкоговорителей, возрастающий интерес к наушникам как звуковой системе воспроизведения требует, чтобы эти кодер-декодеры также могли визуализировать звуковой контент на наушники. В отличие от воспроизведения громкоговорителем стереозвуковой контент, воспроизведенный через наушники, воспринимается в голове. Отсутствие эффекта акустической магистрали (дорожки) от источников в определенных физических положениях к барабанным перепонкам вызывает неестественное звучание пространственного образа, поскольку реплики, которые определяют воспринятый азимут, повышение и расстояние до источника звука, главным образом пропущены или являются очень неточными. Таким образом, чтобы разрешить проблему неестественного звучания, вызванную неточными или отсутствующими репликами локализации источников звука на наушниках, были предложены различные методы моделирования виртуальной установки громкоговорителя. Идея состоит в том, чтобы наложить реплики локализации источников звука на каждый сигнал громкоговорителя. Это достигается фильтрацией звуковых сигналов посредством так называемых функций моделирования восприятия звука (HRTFs) или бинауральных импульсных характеристик помещения (BRIRs), если акустические свойства помещения включены в эти данные измерения. Однако фильтрация каждого сигнала громкоговорителя посредством упомянутых функций потребовала бы значительно большей вычислительной мощности на стороне декодера/воспроизведения. В частности, визуализация многоканального звукового сигнала на местоположениях «виртуальных» громкоговорителей должно было бы быть выполнено сначала, где в таком случае каждый сигнал громкоговорителя, полученный таким образом, фильтруется посредством соответствующей передаточной функции или импульсной характеристики, чтобы получить левый и правый канал бинаурального выходного сигнала. Еще хуже то, что полученный таким образом бинауральный выходной сигнал имел бы плохое качество звука вследствие того, что для получения сигналов виртуального громкоговорителя относительно большое количество синтетических сигналов декорреляции должно быть микшировано в сигналах повышающего микширования, чтобы компенсировать корреляцию между первоначально некоррелироваными входными звуковыми сигналами;

корреляция является результатом понижающего микширования множества входных звуковых сигналов в сигнал понижающего микширования.

В текущей версии кодер-декодера SAOC параметры SAOC в дополнительной информации обеспечивают пользовательскую интерактивную пространственную визуализацию звуковых объектов посредством использования любой установки воспроизведения, включающей наушники. Бинауральная визуализация на наушниках обеспечивает пространственный контроль положений виртуального объекта в трехмерном пространстве посредством использования параметров функции моделирования восприятия звука (HRTF). Например, бинауральная визуализация в SAOC может быть реализована посредством ограничения этого случая случаем моно понижающего микширования SAOC, где входные сигналы в равной степени микшируются в моноканал. К сожалению, моно понижающее микширование требует, чтобы все звуковые сигналы микшировались в один общий моносигнал понижающего микширования так, чтобы оригинальные свойства корреляции между оригинальными звуковыми сигналами максимально терялись, и поэтому качество визуализации бинаурального выходного сигнала неоптимально.

Таким образом, целью данного изобретения является обеспечение схемы бинауральной визуализации многоканального звукового сигнала таким образом, что результат бинауральной визуализации улучшается, при этом одновременно уничтожаются ограничения в отношении свободы создания сигнала понижающего микширования из оригинальных звуковых сигналов.

Эта цель достигается посредством использования устройства по п.1 и способа по п.10.

Одной из основных идей, лежащих в основе данного изобретения, является то, что запуск бинауральной визуализации многоканального звукового сигнала из стереосигнала понижающего микширования более предпочтителен, чем запуск бинауральной визуализации многоканального звукового сигнала из моносигнала понижающего микширования, вследствие того, что немного объектов присутствует в индивидуальных каналах стереосигнала понижающего микширования; величина декорреляции между индивидуальными звуковыми сигналами лучше сохраняется; и возможность выбора между двумя каналами стереосигнала понижающего микширования на стороне кодирующего устройства обеспечивает то, что свойства корреляции между звуковыми сигналами в различных каналах понижающего микширования частично сохраняются. Другими словами, вследствие понижающего микширования кодирующего устройства межобъектные когерентности ухудшаются, что должно приниматься во внимание на стороне декодирования, где межканальная когерентность бинаурального выходного сигнала - важная мера восприятия ширины виртуального источника звука, но использование стерео понижающего микширования вместо моно понижающего микширования уменьшает величину деградации так, чтобы восстановление/генерирование подходящей величины межканальной когерентности посредством бинауральной визуализации стереосигнала понижающего микширования обеспечивало лучшее качество.

Следующая главная идея данного применения состоит в том, что вышеупомянутый контроль ICC (ICC=межканальная когерентность) может достигаться посредством декоррелированного сигнала, формирующего перцепционный эквивалент моно понижающего микширования каналов понижающего микширования стереосигнала понижающего микширования, однако с декоррелированием до моно понижающего микширования. Таким образом, в то время как использование стереосигнала понижающего микширования вместо моносигнала понижающего микширования сохраняет некоторые свойства корреляции множества звуковых сигналов, которые были бы потеряны при использовании моносигнала понижающего микширования, бинауральная визуализация может основываться на декоррелированном сигнале, являющемся репрезентативным для первого и второго канала понижающего микширования, таким образом сокращая число декорреляции или обработок синтетического сигнала по сравнению с декорреляцией отдельно каждого стереоканала понижающего микширования.

Со ссылкой на рисунки предпочтительные осуществления данного применения описываются более подробно, где:

Фиг.1 показывает блок-схему расположения кодирующего устройства/декодера SAOC, в которой могут быть реализованы осуществления данного изобретения;

Фиг.2 показывает схематическое и иллюстративное изображение спектрального представления монозвукового сигнала;

Фиг.3 показывает блок-схему звукового декодера, способного выполнять бинауральную визуализацию согласно осуществлению данного изобретения;

Фиг.4 показывает блок-схему блока предварительной обработки понижающего микширования фиг.3 согласно осуществлению данного изобретения;

Фиг.5 показывает блок-схему стадий, выполняемых блоком, обрабатывающим параметры SAOC 42 фиг.3, согласно первой альтернативе; и

Фиг.6 показывает граф, иллюстрирующий результаты теста прослушивания.

Прежде чем далее более подробно будут описаны осуществления данного изобретения, предоставляется кодер-декодер SAOC и параметры SAOC, переданные в битовом потоке SAOC, чтобы облегчить понимание конкретных осуществлений, ниже обрисованных более подробно.

Фиг.1 показывает общую схему кодирующего устройства SAOC 10 и декодера SAOC 12. Кодирующее устройство SAOC 10 получает в качестве входа N объекты, то есть звуковые сигналы 14₁-14_N. В частности, кодирующее устройство 10 включает устройство понижающего микширования 16, которое получает звуковые сигналы 14₁-14_N и микширует их до сигнала понижающего микширования 18. На фиг.1 сигнал понижающего микширования примерно показан как сигнал стерео понижающего микширования. Однако кодирующее устройство 10 и декодер 12 может также работать в монорежиме, в этом случае сигнал понижающего микширования был бы сигналом моно понижающего микширования. Следующее описание, однако, концентрируется на случае стерео понижающего микширования. Каналы сигнала стерео понижающего микширования 18 обозначены LO и RO.

Чтобы дать возможность декодеру SAOC 12 восстановить индивидуальные объекты 14₁-14_N, устройство понижающего микширования 16 предоставляет декодеру SAOC 12 дополнительную информацию, включающую SAOC-параметры, включая разности уровней объекта (OLD), параметры межобъектной взаимной корреляции (IOC), значения коэффициентов усиления понижающего микширования (DMG) и разности уровней канала понижающего микширования (DCLD). Дополнительная информация 20, включающая SAOC-параметры, наряду с сигналом понижающего микширования 18, формирует выходной поток данных SAOC 21, полученный декодером SAOC 12.

Декодер SAOC 12, включающий повышающее микширование 22, получает сигнал понижающего микширования 18, а также дополнительную информацию 20, чтобы восстанавливать и визуализировать звуковые сигналы 14₁ и 14_N на любом отобранном пользователем наборе каналов 24₁-24_М; при этом визуализация, предписываемая информацией о визуализации 26, входит в декодер SAOC 12, как и параметры HRTF 27, значение которых более подробно описывается ниже. Следующее описание концентрируется на бинауральной визуализации, где М'=2 и выходной сигнал специально предназначен для воспроизведения через наушники, хотя декодирование 12 может выполнять визуализацию также на другой (небинауральной) конфигурации громкоговорителя в зависимости от команд в пользовательском входе 26.

Звуковые сигналы 14₁-14_N могут вводиться в устройство понижающего микширования 16 в любую область кодирования, например, во временную или спектральную область. В случае если звуковые сигналы 14₁-14_N подаются в устройство понижающего микширования 16 во временную область, такую как закодированная РСМ (импульсно-кодовая модуляция), устройство понижающего микширования 16 использует гребенку фильтров, такую как гребенка гибридного QMF (квадратурный зеркальный фильтр), например гребенка комплексных экспоненциально модулированных фильтров с расширением фильтра по Найквисту для самых низких частотных диапазонов, чтобы увеличить там частотное разрешение для передачи сигналов в спектральную область, в которой звуковые сигналы предоставляются в несколько поддиапазонов, связанных с различными спектральными частями, при конкретном разрешении гребенки фильтров. Если звуковые сигналы 14₁-14_N уже находятся в представлении, ожидаемом устройством понижающего микширования 16, то оно не должно выполнять спектральное разложение.

Фиг.2 показывает звуковой сигнал в только что упомянутой спектральной области. Как можно видеть, звуковой сигнал представлен как множество сигналов поддиапазонов. Каждый сигнал поддиапазона 30₁-30_Р состоит из последовательности величин поддиапазонов, обозначенных маленькими прямоугольниками 32. Как можно видеть, величины поддиапазонов 32 сигналов поддиапазонов 30₁-30_Р синхронизируются друг с другом во времени так, чтобы для каждого последующего временного интервала гребенки фильтров 34 каждый поддиапазон 30₁-30_Р включал одну точную величину поддиапазона 32. Как проиллюстрировано осью частоты 35, сигналы поддипазонов 30₁-30_Р связаны с различными частотными областями, и, как проиллюстрировано осью времени 37, временные диапазоны гребенки фильтров 34 последовательно организованы во времени.

Как в общих чертах обрисовано выше, устройство понижающего микширования 16 вычисляет SAOC-параметры из входных звуковых сигналов 14₁-14_N. Устройство понижающего микширования 16 выполняет это вычисление во временном/частотном разрешении, которое может быть уменьшено относительно оригинального временного/частотного разрешения, как определено временными интервалами гребенки фильтров 34 и разложением поддиапазона, до некоторой величины, где эта определенная величина может быть передана на сторону декодера в пределах дополнительной информации 20 соответствующими синтаксическими элементами bsFrameLength и bsFreqRes. Например, группы последовательных временных интервалов гребенки фильтров 34 могут, соответственно, сформировать фрейм 36. Другими словами, звуковой сигнал может быть разделен на фреймы, перекрывающиеся во времени или, например, являющиеся непосредственно смежными во времени. В этом случае bsFrameLength может определять число параметрических временных интервалов 38 на фрейм, то есть единицу времени, в которую параметры SAOC, такие как OLD и IOC, вычисляются в SAOC фрейме 36, и bsFreqRes может определять число обрабатывающих частотных диапазонов, для которых вычисляются параметры SAOC, то есть число диапазонов, на которые подразделяется частотная область и для которых параметры SAOC определяются и передаются. Посредством этой меры каждый фрейм разделяется на временные/частотные элементы, проиллюстрированные на фиг.2 пунктирными линиями 39.

Устройство понижающего микширования 16 вычисляет параметры SAOC согласно следующим формулам. В частности, устройство понижающего микширования 16 вычисляет разность уровней объекта для каждого объекта i как

$O L D_{i} = \frac{\sum_{n} \sum_{k \in m} x_{i}^{n, k} x_{i}^{n, k^{*}}}{\max_{j} (\sum_{n} \sum_{k \in m} x_{j}^{n, k} x_{j}^{n, k^{*}})}$

где суммы и индексы n и k, соответственно, проходят через все временные интервалы гребенки фильтров 34 и все поддиапазоны гребенки фильтров 30, которые принадлежат определенному временному/частотному элементу 39. Таким образом, энергии всех величин поддиапазонов х_i звукового сигнала, или объекта i, суммируются и нормализуются до самой большой величины энергии этого элемента среди всех объектов или звуковых сигналов.

Далее, SAOC устройство понижающего микширования 16 может вычислять меру подобия соответствующих временных/частотных элементов пар различных входных объектов 14₁-14_N. Хотя SAOC устройство понижающего микширования 16 может вычислять меру подобия между всеми парами входных объектов 14₁-14_N, устройство понижающего микширования 16 может также подавлять передачу сигналов мер подобия или ограничивать вычисление мер подобия для звуковых объектов 14₁-14_N, которые формируют левый или правый каналы общего стереоканала. В любом случае мера подобия называется межобъектным параметром взаимной корреляции IOC_i,j. Вычисляется следующим образом

$I O C_{i, j} = I O C_{j, i} = Re {\frac{\sum_{n} \sum_{k \in m} x_{i}^{n, k} x_{j}^{n, k^{*}}}{\sqrt{\sum_{n} \sum_{k \in m} x_{i}^{n, k} x_{i}^{n, k^{*}} \sum_{n} \sum_{k \in m} x_{j}^{n, k} x_{j}^{n, k^{*}}}}}$

где опять индексы n и k проходят через все величины поддиапазонов, принадлежащих определенному временному/частотному элементу 39, а i и j обозначают определенные пары звуковых объектов 14₁-14_N.

Устройство понижающего микширования 16 микширует с понижением объекты 14₁-14_N при помощи коэффициентов усиления, применяемых к каждому объекту 14₁-14_N.

В случае сигнала стерео понижающего микширования, как показано на фиг.1, коэффициент усиления D_1,i применяется к объекту i, и затем все такие усиленные объекты суммируются для получения левого канала понижающего микширования L0, и коэффициенты усиления D_2,i применяются к объекту i, и затем таким образом усиленные объекты суммируются для получения правого канала понижающего микширования R0. Таким образом, коэффициенты D_1,i и D_2,i формируют матрицу понижающего микширования D размера 2×N при

$D = (\begin{array}{l} \begin{matrix} D_{1,1} & \dots & D_{1 N} \end{matrix} \\ \begin{matrix} D_{2,1} & \dots & D_{N} \end{matrix} \end{array}) и (\begin{matrix} LO \\ RO \end{matrix}) = D \cdot (\begin{matrix} O b j_{i} \\ ⋮ \\ O b j_{N} \end{matrix})$ .

Это предписание понижающего микширования передается на сторону декодера посредством коэффициентов усиления понижающего микширования DMG_i, а в случае сигнала стерео понижающего микширования посредством разностей уровней канала понижающего микширования DCLD_i.

Коэффициенты усиления понижающего микширования вычисляются согласно:

$D M G_{i} = 10 \log_{10} (D_{1, i}^{2} + D_{2, i}^{2} + ε)$ ,

где ε - маленькое число, такое как 10^-9 или на 96 децибелов ниже максимального входа сигнала.

Для DCLD_s применяется следующая формула:

$D C L D_{1} = 10 \log_{10} (\frac{D_{1, i}^{2}}{D_{2, i}^{2}})$ .

Устройство понижающего микширования 16 генерирует сигнал стерео понижающего микширования согласно:

$(\begin{matrix} L 0 \\ R 0 \end{matrix}) = (\frac{D_{1}}{D_{2}}) \cdot (\begin{matrix} O b j_{1} \\ ⋮ \\ O b j_{N} \end{matrix})$

Таким образом, в вышеупомянутых формулах параметры OLD и IOC являются функцией звуковых сигналов, а параметры DMG и DCLD - функцией D. Между прочим, замечено, что D может изменяться во времени.

В случае бинауральной визуализации описанного здесь режима работы декодера выходной сигнал естественно включает два канала, то есть М'=2. Однако вышеупомянутая информация о визуализации 26 показывает, как входные сигналы 14₁-14_N должны распределяться на положения 1-М виртуального громкоговорителя, где М может быть больше 2. Информация о визуализации, таким образом, может включать матрицу визуализации М, показывающую, как входные объекты obj_i должны распределяться на положения виртуального громкоговорителя j для получения сигналов виртуального громкоговорителя vs_j, где j находится между 1 и М включительно, a i находится между 1 и N включительно, при

$(\begin{matrix} ν S_{1} \\ ⋮ \\ ν S_{М} \end{matrix}) = М \cdot (\begin{matrix} O b j_{1} \\ ⋮ \\ O b j_{N} \end{matrix})$

Информация о визуализации может так или иначе предоставляться или вводиться пользователем. Возможно даже, что информация о визуализации 26 содержится в дополнительной информации самого потока SAOC 21. Конечно, можно допустить, чтобы информации о визуализации изменялась во времени. Например, временное разрешение может равняться разрешению фрейма, то есть М может определяться для фрейма 36. Возможны даже изменения М по частоте. Например, М может определяться для каждого элемента 39. Далее, например, $М_{r e n}^{l, m}$ будет использоваться для обозначения М при m, обозначающем частотный диапазон, и l, обозначающем параметр временного интервала 38.

Наконец, в дальнейшем будут упомянуты HRTFs (функции моделирования восприятия звука) 27. Эти HRTFs описывают, как сигнал виртуального громкоговорителя j должен визуализироваться на левое и правое ухо соответственно так, чтобы сохранялись бинауральные реплики. Другими словами, для каждого положения виртуального громкоговорителя j существуют две HRTFs, а именно: одна для левого уха и другая для правого уха. Как будет более подробно описано ниже, возможно, что декодер предоставляется с параметрами HRTF 27, которые включают, для каждого положения виртуального громкоговорителя j компенсацию сдвига фазы Ф_j, описывающую компенсацию сдвига фазы между сигналами, полученными обоими ушами и происходящими из того же самого источника j, и два коэффициента увеличения/ослабления амплитуды Р_i,R и Р_i,L для правого и левого уха соответственно, описывающие ослабление обоих сигналов, обусловленное головой слушателя. Параметр HRTF 27 может быть постоянным на протяжении времени, но определяется при некотором частотном разрешении, которое может быть равным параметру разрешения SAOC, то есть на частотный диапазон. В дальнейшем параметры HRTF даны как $Ф_{j}^{m}$ , $Р_{j, R}^{m}$ и $Р_{j, L}^{m}$ при m, обозначающем частотный диапазон.

Фиг.3 показывает декодер SAOC 12 фиг.1 более подробно. Как там показано, декодер 12 включает блок предварительной обработки понижающего микширования 40 и параметр SAOC блока обработки 42. Блок предварительной обработки понижающего микширования 40 формируется, чтобы получить сигнал стерео понижающего микширования 18 и преобразовать его в бинауральный выходной сигнал 24. Блок предварительной обработки понижающего микширования 40 выполняет это преобразование способом, который управляется блоком обработки параметра SAOC 42. В частности, блок обработки параметра SAOC 42 обеспечивает блок предварительной обработки понижающего микширования 40 информацией о предписании визуализации 44, которую блок обработки параметра SAOC 42 получает из дополнительной информации SAOC 20 и информации о визуализации 26.

Фиг.4 показывает блок предварительной обработки понижающего микширования 40 в соответствии с осуществлением данного изобретения более подробно. В частности, в соответствии с фиг.4 блок предварительной обработки понижающего микширования 40 включает два тракта, соединенные параллельно между входом, на который принимается сигнал стерео понижающего микширования 18, то есть X^n,k, и выходом блока 40, в котором производится бинауральный выходной сигнал Х^n,k, а именно тракт, называемый сухим трактом 46, к которому последовательно присоединен блок сухой визуализации; и влажный тракт 48, к которому последовательно присоединен генератор сигнала декорреляции 50 и блок влажной визуализации 52, где стадия микширования 53 микширует выходы обоих трактов 46 и 48, чтобы получить окончательный результат, а именно бинауральный выходной сигнал 24.

Как будет более подробно описано ниже, блок сухой визуализации 47 формируется, чтобы вычислять предварительный бинауральный выходной сигнал 54 из сигнала стерео понижающего микширования 18, где предварительный бинауральный выходной сигнал 54 представляет выход тракта сухой визуализации 46. Блок сухой визуализации 47 выполняет свое вычисление, основанное на предписании сухой визуализации, представленном блоком обработки параметра SAOC 42. В конкретном осуществлении, описанном ниже, предписание визуализации определяется матрицей сухой визуализации G^n,k. Только что упомянутое положение проиллюстрировано на фиг.4 пунктирной стрелкой.

Генератор декоррелированного сигнала 50 формируется, чтобы генерировать декоррелированный сигнал $X_{d}^{n, k}$ из сигнала стерео понижающего микширования 18 посредством осуществления понижающего микширования таким образом, чтобы он был перцепционным эквивалентом моно понижающего микширования правого и левого канала сигнала стерео понижающего микширования 18, однако будучи декоррелированным до моно понижающего микширования. Как показано на фиг.4, генератор декоррелированного сигнала 50 может включать сумматор 56 для суммирования левого и правого канала сигнала стерео понижающего микширования 18, например, в отношении 1:1 или, например, в некотором другом фиксированном отношении, чтобы получить соответствующее моно понижающее микширование 58, за которым следует декоррелятор 60 для генерирования вышеупомянутого декоррелированного сигнала $X_{d}^{n, k}$ . Декоррелятор 60 может, например, включать одну или несколько стадий задержки, чтобы сформировать декоррелированный сигнал $X_{d}^{n, k}$ из задержанной версии или взвешенной суммы задержанных версий моно понижающего микширования 58 или даже взвешенной суммы на моно понижающем микшировании 58 и задержанной версии(й) моно понижающего микширования. Конечно, существует много альтернатив для декоррелятора 60. Фактически декорреляция, выполненная декоррелятором 60 и генератором декоррелированного сигнала 50, соответственно, имеет тенденцию понижать межканальную когерентность между декоррелированным сигналом 62 и моно понижающим микшированием 58, будучи измеренной вышеупомянутой формулой, соответствующей межобъектной взаимной корреляции, при существенном сохранении их разностей уровней объекта, когда измеряется вышеупомянутой формулой для разностей уровней объекта.

Блок влажной визуализации 52 формируется для вычисления корректирующего бинауральный выходного сигнала 64 из декоррелированного сигнала 62; таким образом полученный корректирующий бинауральный выходной сигнал 64 представляет собой выход тракта влажной визуализации 48. Блок влажной визуализации 52 основывает свое вычисление на предписании влажной визуализации, которое, в свою очередь, зависит от предписания сухой визуализации, используемого блоком сухой визуализации 47, как описывается ниже. Соответственно, предписание влажной визуализации, которое обозначено как Р₂ ^n,k на фиг.4, получается из блока обработки параметра SAOC 42, как обозначено пунктирной стрелкой на фиг.4.

Стадия микширования 53 микширует бинауральные выходные сигналы 54 и 64 трактов сухой и влажной визуализации 46 и 48 для получения окончательного бинаурального выходного сигнала 24. Как показано на фиг.4, стадия микширования 53 формируется, чтобы микшировать левый и правый каналы бинауральных выходных сигналов 54 и 64 индивидуально и может, соответственно, включать сумматор 66 для суммирования их левых каналов и сумматор 68 для суммирования их правых каналов соответственно.

Описав структуру декодера SAOC 12 и внутреннюю структуру блока предварительной обработки понижающего микширования 40, в дальнейшем описываются их функциональные возможности. В частности, детали осуществления, описанные ниже, представляют различные альтернативы для блока обработки параметра SAOC 42 для получения информации о предписании визуализации 44, таким образом контролируя межканальную когерентность сигнала бинаурального объекта 24. Другими словами, блок обработки параметра SAOC 42 не только вычисляет информацию о предписании визуализации 44, но и одновременно контролирует отношение смеси, посредством которого предварительные и корректирующие бинауральные сигналы 55 и 64 микшируются в окончательный бинауральный выходной сигнал 24.

В соответствии с первой альтернативой блок обработки параметра SAOC 42 формируется, чтобы контролировать только что упомянутое отношение смеси, как показано на фиг.5. В частности, на стадии 80 определяется фактическая величина бинауральной межканальной когерентности предварительного бинаурального выходного сигнала 54 или оценивается блоком 42. На стадии 82 блок обработки параметра SAOC 42 определяет заданную (целевую) величину бинауральной межканальной когерентности. Основанный на этих, таким образом определенных величинах межканальной когерентности, блок обработки параметра SAOC 42 устанавливает вышеупомянутое отношение смеси на стадии 84. В частности, стадия 84 может включать блок обработки параметра SAOC 42, соответствующим образом вычисляющий предписание сухой визуализации, используемое блоком сухой визуализации 42, и предписание влажной визуализации, используемое блоком влажной визуализации 52 соответственно, основанные на величинах межканальной когерентности, определенных на стадиях 80 и 82 соответственно.

В дальнейшем вышеупомянутые альтернативы будут описаны на математической основе. Альтернативы отличаются друг от друга способом, которым блок обработки параметра SAOC 42 определяет информацию о предписании визуализации 44, включая предписание сухой визуализации и предписание влажной визуализации, по существу контролирующие отношение смеси между трактами сухой и влажной визуализации 46 и 48. В соответствии с первой альтернативой, изображенной на фиг.5, блок обработки параметра SAOC 42 определяет заданную (целевую) величину бинауральной межканальной когерентности. Как будет более подробно описано ниже, блок 42 может выполнять это определение, основанное на компонентах матрицы заданной (целевой) когерентности F=А·Е·А^∗, где «^∗» обозначает сопряженную транспозицию матрицы, А - заданная (целевая) матрица бинауральной визуализации, связывающая объекты/звуковые сигналы 1…N с правым и левым каналом бинаурального выходного сигнала 24 и предварительного бинаурального выходного сигнала 54 соответственно и получаемая из информации о визуализации 26 и параметров HRTF 27, и Е - матрица, коэффициенты которой получаются из IOС_ij ^1,m и разностей уровней объекта $O L D_{i}^{l, m}$ . Вычисление может выполняться в пространственном/временном разрешении параметров SAOC, то есть для каждого (l, m). Однако далее можно выполнить вычисление в более низком разрешении с интерполяцией между соответствующими результатами. Последнее утверждение также верно для последующих вычислений, представленных ниже.

Так как заданная (целевая) матрица бинауральной визуализации А связывает входые объекты 1…N с левым и правым каналами бинаурального выходного сигнала 24 и предварительного бинаурального выходного сигнала 54 соответственно того же самого размера 2×N, то есть

$A = (\begin{array}{l} \begin{matrix} a_{11} & \dots & a_{1 N} \end{matrix} \\ \begin{matrix} a_{21} & \dots & a_{2 N} \end{matrix} \end{array})$

Вышеупомянутая матрица Е имеет размер N×N с коэффициентами, определяемыми как

$e_{i j} = \sqrt{O L D_{i} \cdot O L D_{j}} \cdot \max (I O C_{i j},0)$

Таким образом, матрица Е с

$E = (\begin{matrix} e_{11} & \dots & e_{1 N} \\ ⋮ & ⋱ & ⋮ \\ e_{N 1} & \dots & e_{N N} \end{matrix})$

имеет вдоль диагонали разности уровней объекта, то есть

е_ii=OLD_i

так как IOC_ij=1 for i=j, тогда как матрица Е вне ее диагонали имеет матричные коэффициенты, представляющие среднее геометрическое разностей уровней объекта объектов i и j соответственно, взвешенное посредством межобъектной меры взаимной корреляции IOС_ij (если она больше 0 с коэффициентами, устанавливаемыми на 0 в противном случае).

Сравненные для этой цели вторая и третья альтернативы, описанные ниже, стремятся получить матрицы визуализации посредством нахождения лучшего соответствия в смысле наименьших квадратов уравнения, которое отображает сигнал стерео понижающего микширования 18 на предварительном бинауральном выходном сигнале 54 посредством матрицы сухой визуализации G для уравнения заданной (целевой) визуализации, отображающей входные объекты через матрицу на «заданный» (целевой) бинауральный выходной сигнал 24 со второй и третьей альтернативами, отличающимися друг от друга способом, которым формируется лучшее соответствие, и способом, которым выбирается матрица влажной визуализации.

Чтобы облегчить понимание следующих альтернатив, вышеупомянутое описание фиг.3 и 4 повторно описывается математически. Как описано выше, сигнал стерео понижающего микширования 18 X^n,k достигает декодера SAOC 12 наряду с параметрами SAOC 20 и определенной пользователем информацией о визуализации 26. Далее, декодер SAOC 12 и блок обработки параметра SAOC 42, соответственно, имеют доступ к базе данных HRTF, как обозначено стрелкой 27. Переданные параметры SAOC включают разности уровней объекта $O L D_{i}^{l, m}$ , величины межобъектной взаимной корреляции $I O C_{i j}^{l, m}$ , коэффициенты усиления понижающего микширования $D M G_{i}^{l, m}$ и разности уровней канала понижающего микширования $D C L D_{i}^{l, m}$ для всех N объектов i, j при «l, m», обозначающих соответствующий временной/спектральный элемент 39, при l, определяющем время, и m, определяющем частоту. Например, предполагается, что параметры HRTF 27 представлены как $Р_{q, L}^{m}$ , $Р_{q, R}^{m}$ и $Ф_{q}^{m}$ для всех положений виртуального громкоговорителя или положения виртуального пространственного источника звука q, для левого (L) и правого (R) бинаурального канала и для всех частотных диапазонов m.

Блок предварительной обработки понижающего микширования 40 формируется, чтобы вычислять бинауральный выход ${\hat{X}}^{n, k}$ как вычисленный из стерео понижающего микширования X^n,k и декоррелированного моносигнала понижающего микширования $X_{d}^{n, k}$ как

${\hat{X}}^{n, k} = G^{n, k} X^{n, k} + P_{2}^{n, k} X_{d}^{n, k}$

Декоррелированный сигнал $X_{d}^{n, k}$ перцепционно эквивалентен сумме 58 левого и правого каналов понижающего микширования сигнала стерео понижающего микширования 18, но максимально декоррелирован к ней согласно

$X_{d}^{n, k} = d e c o r r F u n c t i o n ((11) X^{n, k})$

Со ссылкой на фиг.4, генератор декоррелированного сигнала 50 выполняет функцию decorrFunction вышеупомянутой формулы.

Далее, как было описано выше, блок предварительной обработки понижающего микширования 40 включает два параллельных тракта 46 и 48. Соответственно, вышеупомянутое уравнение основывается на двух зависящих от времени/частоты матрицах, а именно G^l,m для сухого и $P_{2}^{l, m}$ для влажного тракта.

Как показано на фиг.4, декорреляция на влажном тракте может быть осуществлена посредством суммы левого и правого канала понижающего микширования, подаваемого в декоррелятор 60, генерирующий сигнал 62, который перцепционно эквивалентен, но максимально декоррелирован к его входу 58.

Элементы только что упомянутых матриц вычисляются блоком предварительной обработки SAOC 42. Как также обозначено выше, элементы только что упомянутых матриц могут быть вычислены во временном/частотном разрешении параметров SAOC, то есть для каждого временного интервала l и каждого диапазона обработки m. Элементы матрицы, полученные таким образом, могут быть растянуты по частоте и интерполированы во времени, что дает в результате матрицы Е^n,k и $P_{2}^{l, m}$ , определенные для всех временных интервалов гребенки фильтров n и частотных поддиапазонов k. Однако, как уже было сказано выше, существуют также альтернативы. Например, интерполяция может не приниматься во внимание, чтобы в вышеупомянутом уравнении индексы n, k могли быть эффективно заменены на «l, m». Кроме того, вычисление элементов только что упомянутых матриц может даже выполняться в уменьшенном временном/частотном разрешении с интерполяцией на разрешение l, m или n, k. Таким образом, снова, хотя в дальнейшем индексы l, m показывают, что вычисления матрицы выполняются для каждого элемента 39, вычисление может выполняться при некотором более низком разрешении, где при применении соответствующих матриц блоком предварительной обработки понижающего микширования 40 матрицы визуализации могут интерполироваться до окончательного разрешения, такого как временное/частотное разрешение QMF величин индивидуальных поддиапазонов 32.

Согласно вышеупомянутой первой альтернативе матрица сухой визуализации G^l,m вычисляется для левого и правого канала понижающего микширования отдельно, так чтобы

$G^{l, m} = (\begin{matrix} P_{L}^{l, m,1} \cos (β^{l, m} + α^{l, m}) \exp (j \frac{φ^{l, m,1}}{2}) & P_{L}^{l, m,2} \cos (β^{l, m} + α^{l, m}) \exp (j \frac{φ^{l, m,2}}{2}) \\ P_{R}^{l, m,1} \cos (β^{l, m} - α^{l, m}) \exp (- j \frac{φ^{l, m,1}}{2}) & P_{R}^{l, m,2} \cos (β^{l, m} - α^{l, m}) \exp (- j \frac{φ^{l, m,2}}{2}) \end{matrix})$

Соответствующие коэффициенты усиления $P_{L}^{l, m, x}$ , $P_{R}^{l, m, x}$ и разности фазы ϕ^l,m,x определяются как

$P_{L}^{l, m, x} = \sqrt{\frac{f_{11}^{l, m, x}}{V^{l, m, x}}}$ , $P_{R}^{l, m, x} = \sqrt{\frac{f_{22}^{l, m, x}}{V^{l, m, x}}}$ ,

$φ^{l, m, x} = {\begin{matrix} \arg (f_{}^{l, m, x}) \\ 0 \end{matrix} \begin{matrix} if0 \leq m \leq {const}_{1} \land \frac{| f_{12}^{l, m, x} |}{\sqrt{f_{11}^{l, m, x} f_{22}^{l, m, x}}} \geq c o n s t_{2} \\ e l s e \end{matrix}$

где const₁ может быть, например, 11, и const₂ может быть 0.6. Индекс х обозначает левый или правый канал понижающего микширования и, соответственно, полагается равным 1 или 2.

В сущности, вышеупомянутое положение делает различие между более высоким спектральным диапазоном и более низким спектральным диапазоном и, главным образом, (потенциально) выполняется только для более низкого спектрального диапазона. Дополнительно или альтернативно, положение зависит от того, имеет ли одна действительная величина бинауральной межканальной когерентности и заданная (целевая) величина бинауральной межканальной когерентности предварительно определенное отношение к величине пороговой когерентности или нет, притом что положение (потенциально) выполнимо, только если когерентность превышает пороговую величину. Только что упомянутые индивидуальные подположения, как обозначено выше, могут объединяться посредством процесса.

Скаляр V^l,m,x вычисляется как

$V^{l, m, x} = D^{l, m, x} E^{l, m} (D^{l, m, x}) + ε$ .

Замечено, что ε может быть таким же или отличаться от ε, упомянутого выше относительно определения коэффициентов усиления понижающего микширования. Выше матрица Е уже была введена. Индекс (l, m) просто обозначает временную/частотную зависимость вычисления матрицы, как уже было упомянуто выше. Далее, матрицы D^l,m,x уже упоминались выше относительно определения коэффициентов усиления понижающего микширования и разностей уровней канала понижающего микширования так, чтобы D^l,m,1 соответствовал вышеупомянутому D₁, а D^l,m,2 соответствовал вышеупомянутому D₂.

Однако, чтобы облегчить понимание того, как блок обработки параметра SAOC 42 производит сухую генерирующую матрицу С^l,m из полученных параметров SAOC; соответствие между матрицей канала понижающего микширования D^l,m,x и предписанием понижающего микширования, включающем коэффициенты усиления понижающего микширования $D M G_{i}^{l, m}$ и $D C L D_{i}^{l, m}$ , снова представляется в обратном направлении. В частности, элементы $d_{i}^{l, m, x}$ матрицы канала понижающего микширования D^l,m,x размера 1×N, то есть $D^{l, m, x} = (d_{1}^{l, m, x}, \dots d_{N}^{l, m, x})$ даны как

$d_{i}^{l, m,1} = 10 \frac{D M G_{i}^{l, m}}{20} \sqrt{\frac{{\tilde{d}}_{i}^{l, m}}{1 + {\tilde{d}}_{i}^{l, m}}}$ , $d_{i}^{l, m,2} = 10 \frac{D M G_{i}^{l, m}}{20} \sqrt{\frac{1}{1 + {\tilde{d}}_{i}^{l, m}}}$

с элементом ${\tilde{d}}_{i}^{l, m}$ , определяемым как

${\tilde{d}}_{i}^{l, m} = 10^{\frac{D C L D_{i}^{l, m}}{10}}$ .

В вышеупомянутом уравнении G^l,m коэффициенты усиления $P_{L}^{l, m, x}$ и $P_{R}^{l, m, x}$ и разности фаз ϕ^l,m,x зависят от коэффициентов f_uν канала-x матрицы индивидуальной заданной (целевой) ковариантности F^l,m,x, которая, в свою очередь, как будет изложено ниже более подробно, зависит от матрицы Е^l,m,x размера N×N, элементы $e_{i j}^{l, m, x}$ которой вычисляются как

$e_{i j}^{l, m, x} = e_{i j}^{l, m} (\frac{d_{i}^{l, m, x}}{d_{i}^{l, m,1} + d_{i}^{l, m,2}}) (\frac{d_{j}^{l, m, x}}{d_{j}^{l, m,1} + d_{j}^{l, m,2}})$ .

Элементы $e_{i j}^{l, m}$ матрицы Е^l,m размера N×N, как указано выше, даны как $e_{i j}^{l, m} = \sqrt{O L D_{i}^{l, m} \cdot O L D_{j}^{l, m}} \cdot \max (I O C_{i j}^{l, m},0)$ .

Только что упомянутая матрица заданной (целевой) ковариантности F^l,m,x размера 2×2 с элементами $f_{u ν}^{l, m, x}$ подобна матрице ковариантности F, обозначенной выше, дана как

$F^{l, m, x} = A^{l, m} E^{l, m, x} {(A^{l, m})}^{*}$ ,

где «^∗» соответствует сопряженной транспозиции.

Заданная (целевая) бинауральная матрица визуализации А^l,m получается из параметров HRTF $Ф_{q}^{m}$ , $Р_{q, R}^{m}$ и $Р_{q, L}^{m}$ для всех N_HRTE положений виртуального громкоговорителя q и матрицы визуализации $M_{r e n}^{l, m}$ и имеет размер 2×N. Ее элементы $a_{u i}^{l, m}$ определяют желательное отношение между всеми объектами i и бинауральным звуковым сигналом как

$a_{1, i}^{l, m} = \sum_{q = 0}^{N_{H R T E} - 1} m_{q, i}^{l, m} P_{q, L}^{m} \exp (j \frac{φ_{q}^{m}}{2})$ , $a_{2, i}^{l, m} = \sum_{q = 0}^{N_{H R T E} - 1} m_{q, i}^{l, m} P_{q, R}^{m} \exp (- j \frac{φ_{q}^{m}}{2})$ .

Матрица визуализации $M_{r e n}^{l, m}$ с элементами $m_{q i}^{l, m}$ устанавливает связь каждого звукового объекта i с виртуальным громкоговорителем q, представленным HRTF.

Матрица влажного повышающего микширования $P_{2}^{l, m}$ вычисляется, основываясь на матрице G^l,m, как

$P_{2}^{l, m} = (\begin{array}{l} P_{L}^{l, m} \sin (β^{l, m} + α^{l, m}) \exp (j \frac{\arg (c_{12}^{l, m})}{2}) \\ P_{R}^{l, m} \sin (β^{l, m} - α^{l, m}) \exp (- j \frac{\arg (c_{12}^{l, m})}{2}) \end{array})$

Коэффициенты усиления $P_{L}^{l, m}$ и $P_{R}^{l, m}$ определяются как

$P_{L}^{l, m} = \sqrt{\frac{c_{11}^{l, m}}{V^{l, m}}}$ , $P_{R}^{l, m} = \sqrt{\frac{c_{22}^{l, m}}{V^{l, m}}}$ .

Матрица ковариантности С^l,m размера 2×2 с элементами $c_{u, ν}^{l, m}$ сухого бинаурального сигнала 54 оценивается как

$C^{l, m} = {\tilde{G}}^{l, m} D^{l, m} E^{l, m} {(D^{l, m})}^{*} {({\tilde{G}}^{l, m})}^{*}$

где

${\tilde{G}}^{l, m} = (\begin{matrix} P_{L}^{l, m,1} \exp (j \frac{φ^{l, m,1}}{2}) & P_{L}^{l, m,2} \exp (j \frac{φ^{l, m,2}}{2}) \\ P_{R}^{l, m,1} \exp (- j \frac{φ^{l, m,1}}{2}) & P_{R}^{l, m,2} \exp (- j \frac{φ^{l, m,2}}{2}) \end{matrix})$

Скаляр V^l,m вычисляется как

$V^{l, m} = W^{l, m} E^{l, m} {(W^{l, m})}^{*} + ε$ .

Элементы $w_{i}^{l, m}$ матрицы влажного моно понижающего микширования W^l,m размера 1×N даны как

$w_{i}^{l, m} = d_{i}^{l, m,1} + d_{i}^{l, m,2}$ .

Элементы $d_{x, j}^{l, m}$ матрицы стерео понижающего микширования D^l,m размера 2×N даны как

$d_{x, i}^{l, m} = d_{i}^{l, m, x}$ .

В вышеупомянутом уравнении G^l,m, α^l,m и β^l,m представляют углы ротатора, предназначенные для контроля ICC (межканальная когерентность). В частности, угол ротатора α^l,m контролирует микширование сухого и влажного бинаурального сигнала, чтобы приспособить ICC бинаурального выходного сигнала 24 к ICC бинаурального заданного (целевого) сигнала. При установке углов ротатора должна приниматься во внимание ICC сухого бинаурального сигнала 54, которая является, в зависимости от звукового содержания и матрицы стерео понижающего микширования D, обычно меньше 1.0 и больше заданной (целевой) ICC. Это - в отличие от моно понижающего микширования, основанного на бинауральной визуализации, где ICC сухого бинаурального сигнала всегда будет равна 1.0.

Углы ротатора α^l,m и β^l,m контролируют микширование сухого и влажного бинаурального сигнала. ICC $ρ_{C}^{l, m}$ сухого бинаурального визуализированного стерео понижающего микширования 54 на стадии 80 оценивается как

$ρ_{C}^{l, m} = \min (\frac{| c_{12}^{l, m} |}{\sqrt{c_{11}^{l, m} c_{22}^{l, m}}},1)$ .

Полная бинауральная заданная (целевая) ICC $ρ_{C}^{l, m}$ на стадии 82 оценивается как или определяется как

$ρ_{T}^{l, m} = \min (\frac{| f_{12}^{l, m} |}{\sqrt{f_{11}^{l, m} f_{22}^{l, m}}},1)$

Углы ротатора α^l,m и β^l,m для минимизации энергии влажного сигнала тогда на стадии 84 устанавливаются как

$α^{l, m} = \frac{1}{2} (\arccos (ρ_{T}^{l, m}) - \arccos (ρ_{C}^{l, m}))$ ,

$β^{l, m} = \arctan (\tan (α^{l, m}) \frac{P_{R}^{l, m} - P_{L}^{l, m}}{P_{L}^{l, m} + P_{R}^{l, m}})$ .

Таким образом, согласно только что представленному математическому описанию функциональных возможностей декодера SAOC 12 для генерирования бинаурального выходного сигнала 24 блок обработки параметра SAOC 42 вычисляет, при определении действительной бинауральной ICC, $ρ_{C}^{l, m}$ при помощи вышепредставленных уравнений для $ρ_{C}^{l, m}$ и вспомогательных уравнений, также представленных выше. Точно так же блок обработки параметра SAOC 42 вычисляет, при определении заданной (целевой) бинауральной ICC на стадии 82, параметр $ρ_{C}^{l, m}$ при помощи вышеприведенного уравнения и вспомогательных уравнений. На основе этого блок обработки параметра SAOC 42 определяет на стадии 84 углы ротатора, таким образом устанавливая отношение смеси между сухим и влажным трактом визуализации. С этими углами ротатора блок обработки параметра SAOC 42 строит сухую и влажную матрицы визуализация или параметры повышающего микширования G^l,m и $P_{2}^{l, m}$ , которые, в свою очередь, используются блоком предварительной обработки повышающего микширования 40 - при разрешении n, k - чтобы получить бинауральный выходной сигнал 24 из стерео повышающего микширования 18.

Следует отметить, что вышеупомянутая первая альтернатива может изменяться некоторым образом. Например, вышепредставленное уравнение для межканальной разности фазы $Ф_{C}^{l, m}$ может быть изменено до той степени, чтобы второе подположение могло сравнить действительную ICC сухого бинаурального визуализированного стерео понижающего микширования с const₂, а не ICC, определенной из матрицы F^l,m,x индивидуальной ковариантности канала так, чтобы в том уравнении часть $\frac{| f_{12}^{l, m, x} |}{\sqrt{f_{11}^{l, m, x} f_{22}^{l, m, x}}}$ была заменена термом $\frac{| c_{12}^{l, m} |}{\sqrt{c_{11}^{l, m} c_{22}^{l, m}}}$ .

Далее, следует отметить, что в соответствии с выбранной системой обозначений в некоторых из вышеприведенных уравнений матрица всех не принимается во внимание, когда скалярная константа, такая как ε, была добавлена к матрице так, чтобы эта константа добавлялась к каждому коэффициенту соответствующей матрицы.

Альтернативное генерирование сухой матрицы визуализации с более высоким потенциалом извлечения объекта основывается на совместной обработке левого и правого каналов понижающего микширования. Опуская индексную пару поддиапазона для ясности, принцип направлен на достижение лучшего соответствия в смысле наименьших квадратов уравнения

$\hat{X} = G X$

заданной (целевой) визуализации

Y=AS.

Это дает в результате матрицу заданной (целевой) ковариантности:

YY^∗=ASS^∗A^∗,

где комплекснозначная заданная (целевая) бинауральная матрица визуализации А дана в предыдущей формуле, а матрица S содержит оригинальные объекты сигналов поддиапазонов в виде рядов.

Соответствие наименьших квадратов вычисляется из информации второго порядка, полученной из перемещенного объекта и данных понижающего микширования. Таким образом, выполняются следующие замены

XX^∗↔DED^∗,

YX^∗↔AED^∗,

YY^∗↔АЕА^∗.

Чтобы мотивировать замены, вспомните, что параметры объекта SAOC обычно несут информацию об энергии объекта (OLD) и (выбранной) межобъектной взаимной корреляции (IOC). От этих параметров получается матрица ковариантности объекта Е размера N×N, которая представляет аппроксимацию к SS^∗, то есть E≈SS^∗, что дает в результате YY^∗=АЕА^∗.

Далее, X=DS и матрица ковариантности понижающего микширования становится:

XX^∗=DSS^∗D^∗,

которая снова может быть получена из Е посредством XX^∗=DED^∗.

Матрица сухой визуализации G получается посредством решения проблемы наименьших квадратов

min{norm {Y-X}}.

$G = G_{0} = Y X^{*} {(X X^{*})}^{- 1}$

где YX^∗ вычисляется как YX^∗=AED^∗.

Таким образом, блок сухой визуализации 42 определяет бинауральный выходной сигнал $\hat{X}$ из сигнала понижающего микширования Х при помощи 2×2 матрицы повышающего микширования G посредством $\hat{X} = G X$ , и блок обработки параметра SAOC определяет G при помощи вышеупомянутых формул, чтобы быть

G=AED^∗(DED^∗)^-1

Эта установленная комплекснозначная матрица сухой визуализации, комплекснозначная матрица влажной визуализации Р - ранее обозначенная Р₂ - вычисляется в блоке обработки параметра SAOC 42, принимая во внимание недостающую матрицу ошибок ковариантности

ΔR=YY^∗-G₀XX^∗G₀ ^∗.

Можно показать, что эта матрица положительна, и предпочтительный выбор Р осуществляется посредством выбора собственного вектора единичной нормы u, соответствующего наибольшему собственному значению λ ΔR, и ее масштабирования согласно

$P = \sqrt{\frac{λ}{V}} u$ ,

где скаляр V вычисляется, как отмечено выше, то есть V=WE(W)^∗+ε.

Другими словами, так как влажный тракт устанавливается, чтобы корректировать корреляцию полученного сухого решения, ΔR=AEA^∗-G₀DED^∗G₀ ^∗ представляет недостающую матрицу ошибки ковариантности, то есть $Y Y * = \hat{X} \hat{X} * + Δ R$ или, соответственно, , и поэтому блок обработки параметра SAOC 42 отменяет правку Р так, что РР^∗=ΔR, для которого дается одно решение посредством выбора вышеупомянутого собственного вектора единичной нормы u.

Третий способ генерирования матриц сухой и влажной визуализации представляет оценку параметров визуализации, основанных на комплексном предсказании реплики с ограничением, и объединяет преимущество восстановления исправленной комплексной ковариационной структуры с преимуществами совместной обработки каналов понижающего микширования для улучшенного извлечения объекта. Дополнительная возможность, предоставляемая этим способом, состоит в том, что он позволяет полностью опустить влажное повышающее микширование во многих случаях, таким образом подготавливая почву для версии бинауральной визуализации с более низкой сложностью вычисления. Как и в случае со второй альтернативой, третья альтернатива, представленная ниже, основывается на совместной обработке левого и правого каналов понижающего микширования.

Принцип направлен на наилучшее соответствие в смысле наименьших квадратов

$\hat{X} = G X$

для заданной (целевой) визуализации Y=AS под давлением исправленной комплексной ковариантности

$G X X^{*} G^{*} + V P P^{*} = \hat{Y} {\hat{Y}}^{*}$ .

Таким образом, цель - найти решение для G и Р, так чтобы

1) $\hat{Y} {\hat{Y}}^{*} = Y Y^{*}$ (являющееся ограничением формулировки в 2); и

2) $\min {n o r m {Y - \hat{Y}}}$ , как требовалось во второй альтернативе.

Из теории множителей Лагранжа следует, что существует самосопряженная матрица М=М^∗, так что

МР=0 и

MGXX*=ТХ^∗.

В общем случае, где и YX^∗ и XX^∗ невырожденные (несингулярные), из второго уравнения следует, что М является невырожденной (несингулярной), и поэтому Р=0 является единственным решением первого уравнения. Это - решение без влажной визуализации. Устанавливая К=М^-1, можно заметить, что соответствующее сухое повышающее микширование предоставляется посредством

G=KG₀,

где G₀ - прогнозирующее решение, полученное выше относительно второй альтернативы, и самосопряженная матрица К решает

KG₀XX^*G₀ ^*K^*=YY^*.

Если однозначно положительный и, следовательно, самосопряженный матричный квадратный корень матрицы G₀XX^*G₀ ^* обозначен Q, то решение может быть записано как

K=Q^-1(QYY^*Q)^1/2Q^-1.

Таким образом, блок обработки параметра SAOC 42 определяет G как KG₀=Q^-1(QYY^*Q)^1/2Q^-1G₀=(G₀DED^*G₀ ^*)^-1(G₀ DED^*G₀ ^*AEA^*G₀DED^*G₀ ^*)^1/2(G₀DED^*G₀ ^*)^-1G₀ при G₀=AED^*(DED^*)^-1.

Для внутреннего квадратного корня обычно существует четыре самосопряженных решения и выбирается решение, приводящее к наилучшему соответствию $\hat{X}$ и Y.

На практике нужно ограничивать матрицу сухой визуализации G=KG₀ до максимального размера, например, посредством ограничивающего условия на сумму абсолютных величин квадратов всех матричных коэффициентов сухой визуализации, которые могут быть выражены как

trace(GG^*)≤g_max.

Если решение нарушает это ограничивающее условие, вместо него находится решение, которое находится на границе. Это достигается посредством добавления ограничения

trace(GG^∗)=g_max

к предыдущим ограничениям и повторного выведения уравнений Лагранжа. Оказывается, что предыдущее уравнение

MGXX^*=YX^*

должно быть заменено

MGXX^*+µI=YX^*,

где µ - дополнительный промежуточный комплексный параметр и I - 2×2 единичная матрица. В результате получится решение с отличной от нуля влажной визуализацией Р. В частности, решение для матрицы влажного повышающего микширования может быть найдено посредством РР^*=(YY^*-GXX^*G^*)/V=(АЕА^*-GDED^*G^*)/V, где выбор Р предпочтительно основывается на вышеизложенном рассуждении о собственном значении относительно второй альтернативы, и V является WEW^*+□. Последнее определение Р также выполняется блоком обработки параметра SAOC 42.

Таким образом, определенные матрицы G и Р затем используются блоками влажной и сухой визуализации, как описано ранее.

Если требуется версия низкой сложности, следующий шаг должен заменить даже это решение решением без влажной визуализации. Предпочтительный способ достижения этого должен уменьшить требования к комплексной ковариантности, чтобы соответствовать только на диагонали, так чтобы правильные мощности сигнала все же достигались в правом и левом каналах, но взаимная ковариантность оставалась открытой.

Относительно первой альтернативы тесты субъективного прослушивания проводились в акустически изолированной комнате для прослушивания, которая разработана для обеспечения высококачественного прослушивания. Результат в общих чертах обрисован ниже.

Воспроизведение выполнялось с использованием наушников (STAX SR Lambda Pro с Lake-People D/A преобразователем и STAX SRM-монитором). Метод испытаний следовал стандартным процедурам, используемым в пространственных звуковых проверочных тестах, основанных на «Множественном стимуле со скрытой ссылкой и якорями» (MUSHRA), методе для субъективной оценки звука промежуточного качества.

В общей сложности 5 слушателей участвовали в каждом из выполненных тестов. Все субъекты могут рассматриваться как опытные слушатели. В соответствии с методологией MUSHRA слушатели были обучены сравнивать все проверяемые условия со стандартными. Проверочные условия были рандомизированы автоматически для каждого пункта проверки и для каждого слушателя. Субъективные ответы были записаны компьютерной программой MUSHRA по шкале от 0 до 100. Было допустимо мгновенное переключение между проверочными пунктами. Тесты MUSHRA были проведены, чтобы оценить перцепционную работу описанной обработки от стерео-к-бинауральному системы MPEG SAOC.

Чтобы оценить улучшение перцепционного качества описанной системы по сравнению с обработкой от моно-к-бинауральной, пункты, обработанные системой от моно-к-бинауральной, также были включены в тест. Соответствующие сигналы моно и стерео понижающего микширования были ААС-закодированы при 80 килобитах в секунду на канал.

В качестве базы данных HRTF использовался «KEMAR_MIT_COMPACT». Исходное условие было генерировано бинауральным фильтрованием объектов с соответствующим образом взвешенной HRTF импульсной характеристикой, принимающей во внимание желательную визуализацию. Якорное условие - низкочастотное фильтрованное исходное условие (при 3.5 кГц). Таблица 1 содержит список проверенных звуковых пунктов.

Таблица 1 Звуковые пункты тестов прослушивания Пункты прослушивания Число моно/стерео-объектов Углы объекта
Коэффициенты усиления объекта (дБ) disco1 disco2 10/0 [-30, 0, -20, 40, 5,-5, 120, 0, -20, -40] [-3, -3, -3, -3, -3, -3, -3, -3, -3,-3] [-30, 0, -20, 40, 5, -5, 120, 0, -20, -40] [-12, -12, 3, 3, -12, -12, 3, -12, 3, -12] coffeel coffee2 6/0 [10, -20, 25, -35, 0, 120 [0, -3, 0, 0, 0, 0] [10,-20, 25,-35,0, 120] [3, -20, -15, -15, 3, 3] pop2 1/5 [0, 30, -30, -90, 90, 0, 0, -120, 120, -45, 45] [4, -6, -6, 4, 4, -6, -6, -6, -6, -16, -16]

Были испытаны пять различных эпизодов, которые являются результатом визуализации (моно или стерео) объектов из 3 различных пулов исходного объекта. Три различные матрицы понижающего микширования применялись в кодирующем устройстве SAOC, см. Таблицу 2.

Таблица 2 Типы понижающего микширования Тип понижающего микширования Моно Стерео Двойной Мoнo Matlab
система обозначения dmx1=onеs(1,N); dmx2=zeros(2,N);
dmx2(1,1:2:N)=1;
smx2(2,2:2:N)=1; dmx3=ones(2,N):

Демонстрационные тесты оценки качества повышающего микширования были определены, как перечислено в Таблице 3.

Таблица 3 Проверяемые условия прослушивания Проверяемое условие Тип понижающего микширования Основное кодирующее устройство x-1-b Моно ААС@80 кбит/с x-2-b Стерео ААС@160 кбит/с х-2-b_Двойной/Моно Двойной Моно ААС@160 кбит/с 5222 Стерео ААС@160 кбит/с 5222_Двойной Моно Двойной Моно ААС@160 кбит/с

Система «5222» использует препроцессор стерео понижающего микширования, как описано в ISO/IEC JTC 1/SC 29/WG 11 (MPEG), Документ №10045, «ISO/IEC CD 23003-2:200х Кодирование Пространственного Звукового Объекта (SAOC)», 85 Заседание MPEG, июль 2008 г., Ганновер, Германия, с комплекснозначной бинауральной заданной (целевой) матрицей визуализации А^l,m в качестве входа. Таким образом, контроль ICC не выполняется. Неофициальный тест прослушивания показал, что использование величины А^l,m для верхних диапазонов вместо сохранения ее комплекснозначной для всех диапазонов улучшает работу. В тесте использовалась улучшенная система «5222».

Краткий обзор на основе диаграмм, демонстрирующих полученные результаты тестов прослушивания, можно найти на фиг.6. Эти графики показывают обычную MUSHRA сортировку в расчете на пункт по всем слушателям и статистическую среднюю величину по всем оцененным пунктам вместе со связанными 95%-ными доверительными интервалами. Следует отметить, что данные для скрытой ссылки опущены в графиках MUSHRA, потому что все субъекты идентифицировали их правильно.

Следующие наблюдения могут быть сделаны, основываясь на результатах тестов прослушивания:

- “x-2-b_DualMono” работает сопоставимо с “5222”;

- “x-2-b_DualMono” работает очевидно лучше, чем “5222_DualMono”;

- “x-2-b_DualMono” работает сопоставимо с “х-1-b”;

- “x-2-b” выполнено согласно вышеупомянутой первой альтернативе, работает немного лучше, чем все другие условия;

- пункт “discol” не показывает значительного варьирования результатов и, возможно, является непригодным.

Таким образом, концепция бинауральной визуализации сигналов стерео понижающего микширования в SAOC, описанная выше, удовлетворяет требованиям для различных матриц понижающего микширования. В частности, качество двойного моноподобного понижающего микширования является тем же самым, что и качество истинного моно понижающего микширования, которое проверялось в тесте прослушивания. Повышение качества, которое может быть получено при стерео понижающем микшировании по сравнению с моно понижающим микшированием, можно также видеть по результатам теста прослушивания. Основные блоки обработки вышеупомянутых осуществлений были сухой бинауральной визуализацией стерео понижающего микширования и микшированием с декоррелированным влажным бинауральным сигналом с надлежащей комбинацией обоих блоков.

- В частности, влажный бинауральный сигнал вычислялся посредством использования одного декоррелятора с входом моно понижающего микширования так, чтобы левая и правая мощность и IPD были теми же самыми, что и в сухом бинауральном сигнале.

- Микширование влажного и сухого бинауральных сигналов контролируется заданной (целевой) ICC (межканальной когерентностью) и ICC сухого бинаурального сигнала так, что обычно требуется меньшая декорреляция, чем для моно понижающего микширования, основанного на бинауральной визуализации, что дает в результате высокое общее качество звука.

- Далее, вышеупомянутые осуществления могут быть легко изменены для любой комбинации входа моно/стерео понижающего микширования и моно/стерео/бинаурального выхода в постоянной манере.

Другими словами, осуществления, обеспечивающие структуру, обрабатывающую сигнал, и способ декодирования и бинауральной визуализации стерео понижающего микширования, основывающиеся на SAOC битовых потоках с контролем межканальной когерентности, были описаны выше. Все комбинации входа моно или стерео понижающего микширования и моно, стерео или бинаурального выхода могут обрабатываться как особые случаи описанной концепции, основанной на стерео понижающем микшировании. Качество концепции, основанной на стерео понижающем микшировании, оказалось типично лучше, чем концепции, основанной на моно понижающем микшировании, которое было проверено в вышеописанном MUSHRA тесте прослушивания.

В Кодировании Пространственного Звукового Объекта (SAOC) ISO/IEC JTC 1/SC 29/WG 11 (MPEG), Документ №10045, «ISO/IEC CD 23003-2:200x Кодирование Пространственного Звукового Объекта (SAOC)», 85 Заседание MPEG, июль 2008 г., Ганновер, Германия, множественные звуковые объекты микшируются с понижением до моно- или стереосигнала. Этот сигнал кодируется и передается вместе с дополнительной информацией (параметры SAOC) декодеру SAOC. Вышеупомянутые осуществления обеспечивают межканальную когерентность (ICC) бинаурального выходного сигнала, являющегося важной мерой восприятия ширины виртуального источника звука, и, будучи вследствие понижающего микширования кодирующего устройства ухудшенным или даже разрушенным, может быть (почти) полностью исправленным.

Входами в систему являются стерео понижающее микширование, параметры SAOC, информация о пространственной визуализации и база данных HRTF. Выходом является бинауральный сигнал. И вход и выход даются в преобразованной области декодера обычно посредством супердискретизированной комплексной модулированной анализирующей гребенки фильтров, такой как MPEG Окружающий звук гибридная QMF гребенка фильтров, 23003-1:2007 ISO/IEC, Информационная технология - аудиотехнологии MPEG - Часть 1: MPEG Окружающий звук с достаточно низким совмещением имен внутри диапазона. Бинауральный выходной сигнал преобразуется назад к РСМ временной области посредством синтезирующей гребенки фильтров. Другими словами, система, таким образом, является расширением потенциального моно понижающего микширования, основанного на бинауральной визуализации, направленной на сигналы стерео понижающего микширования. Для двойных моносигналов понижающего микширования выход системы - такой же, как и выход системы, основанной на моно понижающем микшировании. Поэтому система может надлежащим образом обрабатывать любую комбинацию входа моно/стерео понижающего микширования и моно/стерео/бинаурального выхода посредством установки параметров визуализации стабильным способом.

Другими словами вышеупомянутые осуществления выполняют бинауральную визуализацию, и декодирование SAOC битовых потоков, основанных на стерео понижающем микшировании с контролем ICC. По сравнению с бинауральной визуализацией, основанной на моно понижающем микшировании, осуществления могут использовать преимущество стерео понижающего микширования двумя способами:

- Свойства корреляции между объектами в различных каналах понижающего микширования частично сохраняются.

- Извлечение объекта улучшается, так как немного объектов присутствует в одном канале понижающего микширования.

Таким образом, концепция бинауральной визуализации стереосигналов понижающего микширования в SAOC, описанная выше, удовлетворяет требованиям для различных матриц понижающего микширования. В частности, качество двойного моноподобного понижающего микширования является таким же, как и качество истинного моно понижающего микширования, которое проверялось в тесте прослушивания. Повышение качества, которое достигается при стерео понижающем микшировании по сравнению с моно понижающим микшировании, также можно отметить в тесте прослушивания. Основные блоки обработки вышеупомянутых осуществлений были блоками сухой бинауральной визуализации стерео понижающего микширования и микширующими с декоррелированным влажным бинауральным сигналом при подходящей комбинации обоих блоков. В частности, влажный бинауральный сигнал вычислялся посредством использования одного декоррелятора с входом моно понижающего микширования так, чтобы левая и правая мощности и IPD были теми же самыми, что и в сухом бинауральном сигнале. Микширование влажного и сухого бинауральных сигналов контролируется заданной (целевой) ICC, а бинауральная визуализация, основывающаяся на моно понижающем микшировании, приводит к более высокому качеству общего звука. Далее, вышеупомянутые осуществления легко могут быть изменены для любой комбинации входа моно/стерео понижающего микширования и моно/стерео/бинаурального выхода постоянным способом. В соответствии с осуществлениями сигнал стерео понижающего микширования X^n,k берется вместе с параметрами SAOC; пользователь определяет информацию о визуализации и базу данных HRTF в качестве входов. Переданные параметры SAOC-OLD_i ^l,m (разности уровней объекта), IOC_ij ^l,m (межобъектная взаимная корреляция), DMG_i ^l,m (коэффициенты усиления понижающего микширования) и DCLD_i ^l,m (разности уровней канала понижающего микширования) для всех N объектов i,j. Параметры HRTF были даны как $P_{q, L}^{m}$ , $P_{q, R}^{m}$ и $φ_{q}^{m}$ для индекса q всей базы данных HRTF, который связан с определенным пространственным положением источника звука.

Наконец, замечено, что, хотя в вышеупомянутом описании термы «межканальная когерентность» и «межобъектная взаимная корреляция» были построены по-разному, при этом «когерентность» используется в одном терме, а «взаимная корреляция» используется в другом; последние термы могут использоваться попеременно как мера подобия между каналами и объектами соответственно.

В зависимости от фактического выполнения, изобретательная концепция бинауральной визуализации может быть осуществлена в аппаратных средствах или в программном обеспечении. Поэтому данное изобретение также имеет отношение к компьютерной программе, которая может сохраняться на носителе, читаемом компьютером, таком как компакт-диск, DVD, флеш-диск, карта памяти или микросхема памяти. Данное изобретение поэтому является также компьютерной программой, имеющей управляющую программу, которая при реализации на компьютере выполняет изобретательный способ кодирования, преобразования или декодирования, описанные в связи с вышеупомянутыми рисунками.

В то время как это изобретение описывалось на основе нескольких предпочтительных осуществлений, имеют место изменения, перестановки и эквиваленты, которые находятся в области этого изобретения. Следует также отметить, что существует много альтернативных способов реализации методов и композиций данного изобретения. Поэтому предполагается, что нижеприлагаемая формула изобретения должна интерпретироваться как включающая все такие изменения, перестановки и эквиваленты, которые находятся в пределах истинного духа и области данного изобретения.

Кроме того, замечено, что все стадии, указанные в блок-схемах, выполняются соответствующими средствами в декодере соответственно и что выполнение может включать подпрограммы, запущенные на центральном процессоре, частях схемы ASIC или подобных. Аналогичное утверждение верно для функций блоков в блок-схемах

Другими словами, согласно осуществлению предоставляется устройство для бинауральной визуализации многоканального звукового сигнала (21) в бинауральный выходной сигнал (24); многоканальный звуковой сигнал (21) включает сигнал стерео понижающего микширования (18), в который микшируется с понижением множество звуковых сигналов (14₁-14_N), и дополнительная информация (20) включает информацию о понижающем микшировании (DMG, DCLD), показывающую для каждого звукового сигнала, до какой степени соответствующий звуковой сигнал был микширован в первый канал (L0) и второй канал (R0) сигнала стерео понижающего микширования (18) соответственно, а также информация об уровне объекта (OLD) множества звуковых сигналов и информация о межобъектной взаимной корреляции (IOC), описывающая подобие между парами звуковых сигналов множества звуковых сигналов; устройство включает средство (47) для вычисления, основанное на первом предписании визуализации (G^l,m), зависящей от информации о межобъектной взаимной корреляции, информации об уровне объекта, информации о понижающем микшировании, информации о визуализации, связывающей каждый звуковой сигнал с положением виртуального громкоговорителя и параметрами HRTF, предварительным бинауральным сигналом (54) из первого и второго каналов сигнала стерео понижающего микширования (18); средство (50) для генерирования декоррелированного сигнала $(X_{d}^{n, k})$ в качестве перцепционного эквивалента моно понижающего микширования (58) первого и второго каналов сигнала стерео понижающего микширования (18) является, однако, декоррелированным до моно понижающего микширования (58); средство (52) для вычисления, зависящее от второго предписания визуализации $(P_{2}^{l, m})$ , зависящего от информации о межобъектной взаимной корреляции, информации об уровне объекта, информации о понижающем микшировании, информации о визуализации и параметров HRTF, корректирующего бинаурального сигнала (64) из декоррелированного сигналаа (62); и средство (53) для микширования предварительного бинаурального сигнала (54) с корректирующим бинауральным сигналом (64) для получения бинаурального выходного сигнала(24).

Источники информации

1. ISO/IEC JTC 1/SC 29/WG 11 (MPEG), Документ №10045, «ISO/IEC CD 23003-2:200x Кодирование Пространственного Звукового Объекта (SAOC)», 85 Заседание MPEG, июль 2008 г., Ганновер, Германия.

2. EBU Техническая рекомендация: «Способ MUSHRA-EBU для тестов субъективного прослушания звука промежуточного качества», Документ. B/AIM022, октябрь 1999 г.

3. ISO/IEC 23003-1:2007, Информационная технология - технологии MPEG аудио - Часть 1: MPEG Окружающий звук.

4. ISO/IEC JTC1/SC29/WG11 (MPEG), Документ №9099: «Процедуры оценки и критерий кодирования окончательного пространственного звукового объекта», апрель 2007 г., Сан-Хосе, США.

5. Джероен Бреебаарт, Кристоф Фоллер: Звуковая пространственная обработка. MPEG Окружающий звук и другие применения. Уайли & сыновья, 2007 г.

6. Джероен Бреебаарт и др.: Многоканальный становится мобильным: MPEG бинауральная визуализация окружающего звука. AES 29-я Международная Конференция, Сеул, Корея, 2006 г.

Иллюстрации к изобретению RU 2 512 124 C2

Реферат патента 2014 года БИНАУРАЛЬНАЯ ВИЗУАЛИЗАЦИЯ МУЛЬТИКАНАЛЬНОГО ЗВУКОВОГО СИГНАЛА

Описывается бинауральная визуализация многоканального звукового сигнала в бинауральный выходной сигнал (24). Многоканальный звуковой сигнал включает сигнал стерео понижающего микширования (18), в который множество звуковых сигналов микшируется с понижением; и дополнительная информация включает информацию о понижающем микшировании (DMG, DCLD), показывающую для каждого звукового сигнала, до какой степени соответствующий звуковой сигнал был микширован в первый канал и второй канал сигнала стерео понижающего микширования (18) соответственно, а также информацию об уровне объекта множества звуковых сигналов и информацию о межобъектной взаимной корреляции, описывающую сходство между парами звуковых сигналов множества звуковых сигналов. Основанный на первом предписании визуализации, предварительный бинауральный сигнал (54) вычисляется из первого и второго каналов сигнала стерео понижающего микширования (18). Декоррелированный сигнал генерируется как перцепционный эквивалент моно понижающего микширования (58) из первого и второго каналов сигнала стерео понижающего микширования (18), являющийся, однако, декодированным до моно понижающего микширования (58). Технический результат - улучшение бинауральной визуализации при уничтожении ограничения в отношении свободы создания сигнала понижающего микширования из оригинальных звуковых сигналов. 3 н. и 8 з.п. ф-лы, 6 ил., 3 табл.

Формула изобретения RU 2 512 124 C2

1. Устройство для бинауральной визуализации многоканального звукового сигнала (21) в бинауральный выходной сигнал (24); многоканальный звуковой сигнал (21) включает сигнал стерео понижающего микширования (18), в который микшируется с понижением множество звуковых сигналов (14₁-14_N), и дополнительная информация (20) включает информацию о понижающем микшировании (DMG, DCLD), показывающую для каждого звукового сигнала, до какой степени соответствующий звуковой сигнал был микширован в первый канал (L0) и второй канал (R0) сигнала стерео понижающего микширования (18) соответственно, а также информацию об уровне объекта (OLD) множества звуковых сигналов и информацию о межобъектной взаимной корреляции (IOC), описывающую сходство между парами звуковых сигналов множества звуковых сигналов; устройство предназначено для:
вычисления (47), основанного на первом предписании визуализации (G^l,m), зависящем от информации о межобъектной взаимной корреляции, информации об уровне объекта, информации о понижающем микшировании, информации о визуализации, связывающей каждый звуковой сигнал с положением виртуального громкоговорителя и параметрами HRTF, предварительным бинауральным сигналом (54) из первого и второго каналов сигнала стерео понижающего микширования (18);
генерирования (50) декоррелированного сигнала в качестве перцепционного эквивалента моно понижающего микширования (58) первого и второго каналов сигнала стерео понижающего микширования (18), являющегося, однако, декоррелированным до моно понижающего микширования (58);
вычисления (52), зависящего от второго предписания визуализации , зависящего от информации о межобъектной взаимной корреляции, информации об уровне объекта, информации о понижающем микшировании, информации о визуализации и параметров HRTF, корректирующего бинаурального сигнала (64) из декоррелированного сигнала (62); и
микширования (53) предварительного бинаурального сигнала (54) с корректирующим бинауральным сигналом (64) для получения бинаурального выходного сигнала (24).

2. Устройство по п.1, где устройство далее предназначается, при генерировании декоррелированного сигнала , для суммирования первого и второго канала сигнала стерео понижающего микширования (18) и для декоррелирования суммы для получения декоррелированного сигнал (62).

3. Устройство по п.1, далее предназначено для:
оценки (80) действительной величины бинауральной межканальной когерентности предварительного бинаурального сигнала (54);
определения (82) заданной (целевой) величины бинауральной межканальной когерентности; и
установки (84) отношения смеси, определяющего, до какой степени бинауральный входной сигнал (24) подвергается воздействию первого и второго каналов сигнала стерео понижающего микширования (18) в качестве обработанного посредством вычисления (47) предварительного бинаурального сигнала (54), и первого и второго каналов сигнала стерео понижающего микширования (18) в качестве обработанного посредством генерирования (50) декоррелированного сигнала и вычисления (52) корректирующего бинаурального сигнала (64) соответственно, основанного на действительной величине бинауральной межканальной когерентности и величины заданной (целевой) бинауральной межканальной когерентности.

4. Устройство по п.3, где устройство далее предназначается, при установке отношения смеси, для установки отношения смеси; установка отношения смеси посредством установки первого предписания визуализации (G^l,m) и второго предписания визуализации , основанного на действительной величине бинауральной межканальной когерентности и величине заданной (целевой) бинауральной межканальной когерентности.

5. Устройство по п.3, где устройство далее предназначается, при определении величины заданной (целевой) бинауральной межканальной когерентности, для выполнения определения, основанного на компонентах заданной (целевой) матрицы ковариантности F=А Е А^∗, при «^∗», обозначающем сопряженную транспозицию, А - обозначающем заданную (целевую) бинауральную матрицу визуализации, связывающую звуковые сигналы с первым и вторым каналами бинаурального выходного сигнала соответственно и являющуюся однозначно определенной при помощи информации о визуализации и параметров HRTF, и E - обозначающем матрицу, однозначно определенную при помощи информации о межобъектной взаимной корреляции и информации об уровне объекта.

6. Устройство по п.5, где устройство далее предназначается, при вычислении предварительного бинаурального сигнала (54), для выполнения вычисления так, чтобы

где X - 2×1 вектор, компоненты которого соответствуют первому и второму каналам сигнала стерео понижающего микширования (18), вектор, компоненты которого соответствуют первому и второму каналам предварительного бинаурального сигнала (54), G - первая матрица визуализации, представляющая первое предписание визуализации и имеющая размер 2×2 при

где, при х∈{1,2},
,,
(если первое условие применяется иначе)
где , и - коэффициенты матриц подцелевой ковариантности F^x размера 2×2 при F^x=A E^x A^∗,
где - коэффициенты N×N матрицы E^x, N - число звуковых сигналов, е_ij - коэффициенты матрицы Е, имеющей размер N×N, и d^x, однозначно определяются при помощи информации о понижающем микшировании, где показывают степень, до которой звуковой сигнал i был микширован в первый канал сигнала стереопонижающего микширования (18), и определяет, до какой степени звуковой сигнал i был микширован во второй канал выходного стерео сигнала (18),
где V^х - скаляр при и D^x - 1×N матрица, коэффициентами которой являются ,
где устройство далее предназначается, при вычислении корректирующего бинаурального выходного сигнала (64), для выполнения вычисления так, чтобы

где X_d - декодированный сигнал, вектор, компоненты которого соответствуют первому и второму каналам корректирующего бинаурального сигнала (64), и Р₂ - вторая матрица визуализации, представляющая второе предписание визуализации и имеющая размер 2×2 при

где коэффициенты усиления P_L и P_R определяются как
,
где с₁₁ и c₂₂ - коэффициенты 2×2 матрицы ковариантности С предварительного бинаурального сигнала (54) при

где V - скаляр при V=W E W^∗+ε, W - матрица моно понижающего микширования размера 1×N, коэффициенты которой однозначно определены посредством , , и -
,
где устройство далее предназначается, при оценке величины действительной бинауральной межканальной когерентности, для определения величины действительной бинауральной межканальной когерентности как

где устройство далее предназначается, при определении величины заданной (целевой) бинауральной межканальной когерентности, для определения величины заданной (целевой) бинауральной межканальной когерентности как
и
где устройство далее предназначается, при установке отношения смеси, для определения углов ротатора α и β согласно
,
,
при ε, обозначающем маленькую константу для того, чтобы избежать деления на ноль, соответственно.

7. Устройство по п.1, где устройство далее предназначается, при вычислении предварительного бинаурального сигнала (54), для выполнения вычисления так, чтобы

где Х - 2×1 вектор, компоненты которого соответствуют первому и второму каналам сигнала стерео понижающего микширования (18), вектор, компоненты которого соответствуют первому и второму каналам предварительного бинаурального сигнала (54), G - первая матрица визуализации, представляющая первое предписание визуализации и имеющая размер 2×2 при
G=AED^∗(DED^∗)^-1,
где Е - матрица, однозначно определяемая при помощи информации о межобъектной взаимной корреляции и информации об уровне объекта;
D - 2×N матрица, коэффициенты d_ij однозначно определяются при помощи информации о понижающем микшировании, где d_1j показывает степень, до которой звуковой сигнал j был микширован в первый канал сигнала стерео понижающего микширования (18), и d_2j определяет, до какой степени звуковой сигнал j был микширован во второй канал выходного стереосигнала (18);
А - заданная (целевая) бинауральная матрица визуализации, связывающая звуковые сигналы с первым и вторым каналами бинаурального выходного сигнала соответственно и однозначно определяемая при помощи информации о визуализации и параметров HRTF,
где устройство далее предназначается, при вычислении корректирующего бинаурального выходного сигнала (64), для выполнения вычисления так, чтобы

где X_d - декоррелированный сигнал, вектор, компоненты которого соответствуют первому и второму каналам корректирующего бинаурального сигнала (64), и Р - вторая матрица визуализации, представляющая второе предписание визуализации и имеющая размер 2×2, и определяется так, что РР^∗=ΔR при ΔR=АЕА^∗-G₀DED^∗G₀ ^∗ при G₀=G.

8. Устройство по п.1, где устройство далее предназначается, при вычислении предварительного бинаурального сигнала (54), для выполнения вычисления так, чтобы

где Х - 2×1 вектор, компоненты которого соответствуют первому и второму каналам сигнала стерео понижающего микширования (18), вектор, компоненты которого соответствуют первому и второму каналам предварительного бинаурального сигнала (54), G - первая матрица визуализации, представляющая первое предписание визуализации и имеющая размер 2×2 при
G=(G₀DED^*G₀ ^*)^-1(G₀DED^*G₀ ^*AEA^*G₀DED^*G₀ ^*)^1/2(G₀DED^*G₀ ^*)^-1G₀
при G₀=AED^*(DED^*)^-1,
где E - матрица, однозначно определяемая при помощи информации о межобъектной взаимной корреляции и информации об уровне объекта;
D - 2×N матрица, коэффициенты d_ij, однозначно определяемые при помощи информации о понижающем микшировании, где d_1j показывает степень, до которой звуковой сигнали j был микширован в первый канал сигнала стерео понижающего микширования (18), и d_2j, определяет, до какой степени звуковой сигнал j был микширован во второй канал выходного стереосигнала (18);
А - заданная (целевая) бинауральная матрица визуализации, связывающая звуковые сигналы с первым и вторым каналами бинаурального выходного сигнала соответственно и однозначно определяемая при помощи информации о визуализации и параметров HRTF, где устройство далее предназначается, при вычислении корректирующего бинаурального выходного сигнала (64), для выполнения вычисления так, чтобы

где X_d - декоррелированный сигнал, вектор, компоненты которого соответствуют первому и второму каналам корректирующего бинаурального сигнала (64), и Р - вторая матрица визуализации, представляющая второе предписание визуализации и имеющая размер 2×2, и определяемая так, что РР^*=(АЕА^*-GDED^*G^*)/V при V, являющейся скаляром.

9. Устройство по п.1, где информация о понижающем микшировании (DMG, DCLD) является зависящей от времени и информация об уровне объекта (OLD) и информация о межобъектной взаимной корреляции (IOC) являются зависящими от частоты и времени.

10. Способ бинауральной визуализации многоканального звукового сигнала (21) в бинауральный выходной сигнал (24); многоканальный звуковой сигнал (21) включает сигнал стерео понижающего микширования (18), в который микшируется с понижением множество звуковых сигналов (14₁-14_N); и дополнительная информация (20) включает информацию о понижающем микшировании (DMG, DCLD), показывающую для каждого звукового сигнала, до какой степени соответствующий звуковой сигнал был микширован в первый канал (L0) и второй канал (R0) сигнала стерео понижающего микширования (18) соответственно, а также информацию об уровне объекта (OLD) множества звуковых сигналов и информацию о межобъектной взаимной корреляции (IOC), описывающую сходство между парами звуковых сигналов множества звуковых сигналов; способ включает:
вычисление, основанное на первом предписании визуализации (G^l,m), зависящем от информации о межобъектной взаимной корреляции, информации об уровне объекта, информации о понижающем микшировании, информации о визуализации, связывающей каждый звуковой сигнал с положением виртуального громкоговорителя и параметрами HRTF, предварительным бинауральным сигналом (54) из первого и второго каналов сигнала стерео понижающего микширования (18);
генерирование декоррелированного сигнала в качестве перцепционного эквивалента моно понижающего микширования (58) первого и второго каналов сигнала стерео понижающего микширования (18), являющегося, однако, декоррелированным до моно понижающего микширования (58);
вычисление, зависящее от второго предписания визуализации , зависящего от информации о межобъектной взаимной корреляции, информации об уровне объекта, информации о понижающем микшировании, информации о визуализации и параметров HRTF, корректирующего бинаурального сигнала (64) из декоррелированного сигнала (62); и
микширование предварительного бинаурального сигнала (54) с корректирующим бинауральным сигналом (64) для получения бинаурального выходного сигнала (24).

11. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу с программным кодом, способным выполнять осуществления способа по п.10, когда компьютерная программа выполняется компьютером или процессором.

Документы, цитированные в отчете о поиске Патент 2014 года RU2512124C2

Прибор, замыкающий сигнальную цепь при повышении температуры	1918	Давыдов Р.И.	SU99A1
УСТРОЙСТВО И СПОСОБ СОЗДАНИЯ МНОГОКАНАЛЬНОГО ВЫХОДНОГО СИГНАЛА ИЛИ ФОРМИРОВАНИЯ НИЗВЕДЕННОГО СИГНАЛА	2005	Херре Юрген Фаллер Кристоф	RU2329548C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ВОСПРОИЗВЕДЕНИЯ ОБШИРНОГО МОНОФОНИЧЕСКОГО ЗВУКА	2006	Ким Сун-Мин	RU2330390C2
ЧАСТОТНО-ОРИЕНТИРОВАННОЕ КОДИРОВАНИЕ КАНАЛОВ В ПАРАМЕТРИЧЕСКИХ СИСТЕМАХ МНОГОКАНАЛЬНОГО КОДИРОВАНИЯ	2005	Фаллер Кристоф Херре Юрген	RU2323551C1

RU 2 512 124 C2

Авторы

Коппенс Жероен

Мундт Харалд

Терентьев Леонид

Фалх Корнелия

Хилперт Йоханнес

Хеллмут Оливер

Виллемоес Ларс

Плогштиес Ян

Бреебаарт Джероен

Энгдегард Йонас

Даты

2014-04-10—Публикация

2009-09-25—Подача

название	год	авторы	номер документа
ДЕКОДЕР АУДИОСИГНАЛА, СПОСОБ ДЕКОДИРОВАНИЯ АУДИОСИГНАЛА И КОМПЬЮТЕРНАЯ ПРОГРАММА С ИСПОЛЬЗОВАНИЕМ СТУПЕНЕЙ КАСКАДНОЙ ОБРАБОТКИ АУДИООБЪЕКТОВ	2010	Хеллмут Оливер Фалк Корнелиа Херре Юрген Хилперт Йоханнес Терентьев Леонид Риддербуш Фалко	RU2558612C2
УСТРОЙСТВО И СПОСОБ ИЗВЛЕЧЕНИЯ ПРЯМОГО СИГНАЛА/СИГНАЛА ОКРУЖЕНИЯ ИЗ СИГНАЛА ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ И ПРОСТРАНСТВЕННОЙ ПАРАМЕТРИЧЕСКОЙ ИНФОРМАЦИИ	2011	Вилкамо Йуха Плогштиес Ян Неугебауер Бернхард Херре Юрген	RU2568926C2
АУДИОКОДИРОВАНИЕ С ИСПОЛЬЗОВАНИЕМ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ	2008	Хелльмут Оливер Херре Юрген Терентьев Леонид Хёльцер Андреас Фалч Корнелия Хилперт Йоханнес	RU2452043C2
УСТРОЙСТВО ДЛЯ ОБЕСПЕЧЕНИЯ ПРЕДСТАВЛЕНИЯ СИГНАЛА ПОВЫШАЮЩЕГО МИКШИРОВАНИЯ НА ОСНОВЕ ПРЕДСТАВЛЕНИЯ СИГНАЛА ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ, УСТРОЙСТВО ДЛЯ ОБЕСПЕЧЕНИЯ БИТОВОГО ПОТОКА, ПРЕДСТАВЛЯЮЩЕГО МНОГОКАНАЛЬНЫЙ ЗВУКОВОЙ СИГНАЛ, СПОСОБЫ, КОМПЬЮТЕРНЫЕ ПРОГРАММЫ И БИТОВЫЙ ПОТОК, ПРЕДСТАВЛЯЮЩИЙ МНОГОКАНАЛЬНЫЙ ЗВУКОВОЙ СИГНАЛ ПОСРЕДСТВОМ ИСПОЛЬЗОВАНИЯ ПАРАМЕТРА ЛИНЕЙНОЙ КОМБИНАЦИИ	2010	Энгдегард Йонас Пурнхаген Хеико Херре Юрген Фалх Корелиа Хельмут Оливер Терентьев Леонид	RU2607267C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ГЕНЕРАЦИИ БИНАУРАЛЬНОГО АУДИОСИГНАЛА	2008	Виллемоес Ларс Фалк Бриибаарт Дирк Джероен	RU2443075C2
АУДИОКОДИРОВАНИЕ С ИСПОЛЬЗОВАНИЕМ ПОВЫШАЮЩЕГО МИКШИРОВАНИЯ	2008	Хелльмут Оливер Херре Юрген Терентьев Леонид Хёльцер Андреас Фалч Корнелия Хилперт Йоханнес	RU2474887C2
УПРАВЛЯЕМОЕ МОДУЛЕМ РЕНДЕРИНГА ПРОСТРАНСТВЕННОЕ ПОВЫШАЮЩЕЕ МИКШИРОВАНИЕ	2014	Эртель Кристиан Хильперт Йоханнес Хельцер Андреас Кунтц Ахим Плогстис Ян Крачмер Михаэль	RU2659497C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ПРИМЕНЕНИЯ РЕВЕРБЕРАЦИИ К МНОГОКАНАЛЬНОМУ ЗВУКОВОМУ СИГНАЛУ С ИСПОЛЬЗОВАНИЕМ ПАРАМЕТРОВ ПРОСТРАНСТВЕННЫХ МЕТОК	2009	Энгдегорд Йонас	RU2509442C2
МНОГОКАНАЛЬНЫЙ АУДИОДЕКОДЕР, МНОГОКАНАЛЬНЫЙ АУДИОКОДЕР, СПОСОБЫ, КОМПЬЮТЕРНАЯ ПРОГРАММА И КОДИРОВАННОЕ АУДИОПРЕДСТАВЛЕНИЕ С ИСПОЛЬЗОВАНИЕМ ДЕКОРРЕЛЯЦИИ ПРЕДСТАВЛЕННЫХ ПОСРЕДСТВОМ РЕНДЕРИНГА АУДИОСИГНАЛОВ	2014	Диш Саша Фукс Харальд Хелльмут Оливер Херре Юрген Муртаза Адриан Паулус Йоуни Риддербуш Фалько Терентив Леон	RU2665917C2
МНОГОКАНАЛЬНЫЙ ДЕКОРРЕЛЯТОР, МНОГОКАНАЛЬНЫЙ АУДИОДЕКОДЕР, МНОГОКАНАЛЬНЫЙ АУДИОКОДЕР, СПОСОБЫ И КОМПЬЮТЕРНАЯ ПРОГРАММА С ИСПОЛЬЗОВАНИЕМ ПРЕДВАРИТЕЛЬНОГО МИКШИРОВАНИЯ ВХОДНЫХ СИГНАЛОВ ДЕКОРРЕЛЯТОРА	2014	Диш Саша Фукс Харальд Хелльмут Оливер Херре Юрген Муртаза Адриан Паулус Йоуни Риддербуш Фалько Терентив Леон	RU2666640C2