АППАРАТУРА И МЕТОД МНОГОКАНАЛЬНОГО ПАРАМЕТРИЧЕСКОГО ПРЕОБРАЗОВАНИЯ Российский патент 2011 года по МПК H04S3/00 G10L19/14 

Описание патента на изобретение RU2431940C2

Область изобретения.

Данное изобретение относится к многоканальному преобразованию параметров, в частности к генерированию параметров когерентности и параметров выходного уровня, которые указывают на пространственные свойства между двумя звуковыми сигналами, основанными на объектно-параметровом базовом представлении звукового воспроизведения в пространстве.

Предпосылки создания изобретения и предшествующий уровень

Существует несколько подходов для параметрического кодирования многоканальных звуковых сигналов, типа «Параметрический Стерео», «Бинауральное (стереофонический) кодирование ВВС начального сигнала для Естественного Звучания и MPEG объемный звук, которые стремятся воссоздать многоканальный звуковой сигнал посредством понижающего смешанного сигнала (который может быть либо монофоническим, либо может состоять из нескольких каналов) и параметрическую дополнительную информацию (пространственный сигнал); все эти виды звучания характерны своим ощутимым объемным звуком.

Такие методы можно назвать - канал ориентируемыми (основанные на канале - звуковом тракте), то есть такие методы пробуют передать многоканальный сигнал, уже существующий или сгенерированный в битрейт параметре. Таким образом, пространственное звуковое поле смешивается с определенным количеством каналов перед трансляцией сигнала, это происходит для того, чтобы соответствовать определенной настройке акустической системы; эти методы направлены на сжатие звуковых каналов, подсоединенных к индивидуальным акустическим системам.

Техника параметрического кодирования основывается на устройстве уменьшения числа каналов (принудительное сокращение числа аудио каналов до обычного стерео для совместимости с немногоканальными аудиоустройствами), которое воспроизводит звуковое содержание вместе с параметрами, которые описывают пространственные свойства оригинального пространственного звукового поля и которые используются на приемной стороне, чтобы восстановить многоканальный сигнал или пространственное звуковое поле.

Близко связанная группа методов, например «ВВС для Естественного Звучания», разработана для эффективного кодирования индивидуальных звуковых объектов в большей степени, чем для каналов того же самого многоканального сигнала; это сделано для их интерактивного воспроизведения в произвольным пространственном положении, при этом независимо усиливая или подавляя отдельные объекты без аналого-цифрового преобразователя. В отличие от общих параметрических многоканальных аудио кодирующих методов, которые передают определенный набор индивидуальных сигналов от кодирующего устройства (аналого-цифрового преобразователя) к декодеру, техника по кодировке объекта позволяет воспроизводить декодированные объекты с любой установки, то есть пользователь на декодирующей стороне может свободно выбирать установку (настройку) для воспроизведения (например, стерео, 5.1 - объемный) согласно своему предпочтению.

По концепции кодирования объекта параметры могут быть заданы заранее, могут идентифицировать положение звукового объекта в пространстве и создавать гибкое звучание на стороне получения звука. Воспроизведение на стороне получения имеет свое преимущество в том, что даже неидеальные акустические системы или произвольные акустические системы могут использоваться для того, чтобы создать пространственное звуковое поле высокого качества. Кроме того, звуковой сигнал типа, например, из устройства уменьшения числа каналов (при понижающем микшировании), связанных с индивидуальными объектами, должен беспрепятственно транслироваться; это является основанием для воспроизведения звука на приемной стороне для слушателя.

Оба описанных выше подхода основываются на многоканальной акустической системе, которая обеспечивает впечатление высококачественного воспроизведения пространственного звучания оригинального пространственного звукового поля на приемной стороне.

Как уже было отмечено, есть несколько современных методов для параметрического кодирования многоканальных звуковых сигналов, которые могут воспроизводить пространственный звуковой образ (аудиограмму), это зависит от скорости передачи данных - более или менее сходных с оригинальным многоканальным звуковым содержанием.

Однако, учитывая некоторый предварительно закодированный звуковой материал (то есть объемное звучание, которое характеризуется определенным количеством индивидуальных сигналов), такой кодер-декодер не предлагает никаких средств и приспособлений для апостериорного (последовательного) и интерактивного воспроизведения единственных звуковых объектов в соответствии с предпочтениями слушателя. С другой стороны, существует еще и метод кодирования пространственного звукового объекта, который был разработан для последней описанной цели; но так как параметрическое воспроизведение, используемое в таких системах, отличается от воспроизведения для многоканальных звуковых сигналов, то потребуются отдельные декодеры, если возникнет необходимость использовать оба метода параллельно. Недостаток, который следует из всей этой ситуации, состоит в том, что, хотя обе системы выполняют одну и ту же задачу, которая заключается в воспроизведении пространственного звукового поля из акустической системы, они (системы) должны работать дублировано, то есть нужно два отдельных декодера, чтобы обеспечить обе функции.

Другое ограничение объекта прототипа кодирующей технологии выражается в нехватке средства для хранения и/или передачи пространственных звуковых объектных полей назад совместимым способом. Особенность возможности интерактивного расположения единичных звуковых объектов обеспечивается с помощью кодирующей парадигмы пространственного звукового объекта; это является скорее недостатком, когда эта особенность приводит к идентичному воспроизводству легко воспроизводимого звукового отрезка.

Подведя итоги, можно отметить неудачную ситуацию: хотя многоканальная среда воспроизведения (многоканальное воспроизведение записей) может присутствовать, что описывается в одном из вышеупомянутых подходов, дальнейшая среда воспроизведения может потребоваться, чтобы осуществить второй подход. Кроме того, можно отметить, что согласно более длинному описанию кодирующие схемы на основе канала намного более типичны и обычны для применения, например, известные 5.1 или 7.1/7.2 многоканальные сигналы, сохраненные на DVD или подобном устройстве. Таким образом, даже если многоканальный звуковой декодер и связанное с ним оборудование для воспроизведения (усилительный каскад и акустические системы) используются, пользователь нуждается в дополнительной полной установке (наборе), то есть, по крайней мере, в звуковом декодере, когда он хочет воспроизвести закодированные звуковые данные на основе объекта. Обычно, многоканальные звуковые декодеры непосредственно связаны с каскадами усиления, и пользователь не имеет прямого доступа к каскадам усиления, которые используются, чтобы запустить акустическую систему. Это, например, случай в большинстве обычно доступных многоканальных звуковых или мультимедийных приемниках. Пользователь, который желает послушать звук на имеющемся бытовом оборудовании, закодированный с помощью обоих подходов, должен был бы использовать второй набор усилителей и это, конечно, неудовлетворительная ситуация.

Краткое изложение сущности изобретения

Желательно применять один метод, чтобы уменьшить сложность применения различных систем, которые могут и расшифровывать параметрические многоканальные звуковые потоки, и параметрические закодированные пространственные звуковые потоки объекта.

Один из способов использования изобретения - это использование его в качестве многоканального параметрического преобразователя для генерирования параметра выходного уровня, который указывает на энергетическое соотношение между первым звуковым сигналом и вторым звуковым сигналом при воспроизведении многоканального пространственного звукового сигнала; преобразователь параметра содержит: провайдер объектного параметра для того, чтобы обеспечивать объектные параметры множеством звуковых объектов, связанных с устройством уменьшения числа каналов в зависимости от объекта звуковых сигналов, связанных со звуковыми объектами; параметры объекта содержат энергетический параметр для каждого звукового объекта, это определяет энергетическую информацию сигнала аудиообъекта; и генератор параметра для получения параметра выходного уровня с помощью комбинирования энергических параметров и параметров воспроизведения объекта, которые связаны с конфигурацией воспроизведения.

Согласно дальнейшему осуществлению данного изобретения преобразователь генерирует параметр когерентности (параметр последовательности) и параметр выходного уровня, определяя взаимосвязь или когерентность (последовательность) и энергетическое соотношение между первым и вторым звуковым сигналом многоканального звукового сигнала, связанного с многоканальным устройством воспроизводства звука. Корреляция - и параметры выходного уровня генерируются на основе провайдера (формирователь объектных параметров) объектных параметров, по крайней мере, для одного звукового объекта, связанного с понижающим микшированием канала (устройством уменьшения числа каналов), которое генерируется самостоятельно, используя сигнал звукового объекта, связанный со звуковым объектом, где параметры объекта содержат энергетический параметр, который определяет энергию сигнала звукового объекта. Чтобы получить когерентность и параметр выходного уровня, используется генератор параметра, который соединяет энергетический параметр и параметр воспроизведения дополнительных объектов, на которые, в свою очередь, влияет конфигурация воспроизведения. Согласно осуществлению изобретения параметры воспроизведения объектов заключают в себе характеристики громкоговорителя (акустической системы), которые определяют местоположение студийного громкоговорителя относительно слушателя. Согласно некоторым предназначениям (изобретения) параметры воспроизведения объекта указывают на местоположение объекта относительно положения, в котором находится слушатель. С этой целью генератор параметра использует сочетание эффектов из обеих пространственных звуковых кодирующих парадигм.

Согласно дальнейшей сути данного изобретения многоканальный преобразователь параметра работает для того, чтобы получить MPEG Окружающую когерентность и параметры выходного уровня (ICC и CLD форматы), которые могут использоваться, чтобы управлять декодером многоканальной стереофонии MPEG формата. Отмечено, что внутри - канальная когерентность / взаимная корреляция (ICC) - представляет когерентность (связь) или поперечную корреляцию между двумя входными каналами. Когда разница во времени (разновременность срабатывания) не учитывается, когерентность (связь) и корреляция это - то же самое. Названные по-разному, оба термина указывают на одну и ту же особенность, которая означает, что разновременность срабатывания соединительного канала или разность фаз соединительного канала не используется.

Таким образом, многоканальный преобразователь параметра вместе со стандартным преобразователем MPEG формата объемного звука может использоваться, чтобы воспроизвести закодированный звуковой сигнал на основе объекта. Изобретение имеет преимущество в том, что требуется только один дополнительный преобразователь параметра, который принимает закодированный звуковой сигнал пространственного звукового объекта (SAOC) и который преобразовывает параметры объекта таким образом, что они могут использоваться стандартным декодером формата объемного звука MPEG, чтобы воспроизвести многоканальный звуковой сигнал с помощью имеющегося воспроизводящего оборудования. Поэтому обычное воспроизводящее оборудование может использоваться без существенных изменений, чтобы также воспроизвести закодированное содержание пространственного звукового объекта.

Согласно дальнейшему применению данного изобретения выработанная когерентность (связь) и параметры выходного уровня объединяются из каналов в MPEG совместимый битовый поток (двоичный поток). Такой битовый поток (двоичный поток) может присоединяться к стандартному ДЕКОДЕРУ объемного звучания MPEG, не требуя дальнейших модификаций в имеющемся оборудовании воспроизведения.

Согласно дальнейшему применению данного изобретения выработанная когерентность (связь) и параметры выходного уровня передаются непосредственно к немного измененному ДЕКОДЕРУ объемного звучания MPEG, таким образом, что сложность вычисления многоканального преобразователя параметра может оставаться низкой.

Согласно дальнейшему применению данного изобретения выработанные многоканальные параметры (параметр когерентности и параметр выходного уровня) сохраняются после генерирования (выработки), таким образом, что многоканальный преобразователь параметра может также использоваться как средство для сохранения пространственной информации, полученной в ходе выступления (концерта). Такое выступление может, например, проходить в музыкальной студии, сигналы могут вырабатываться так, что многоканальный совместимый сигнал может быть произведен без любого дополнительного усилия, используя многоканальный трансформатор параметра, как описано более подробно в следующих параграфах. Таким образом, перечисленные случаи позволяют воспроизводить звук на легальном оборудовании.

Краткое описание чертежей

Прежде чем давать более детальное описание нескольких осуществлений данного изобретения, нужно привести короткий обзор многоканального звукового кодирования, техники кодирования аудиообъектов и техники кодирования пространственных аудиообъектов. В этом случае ссылка будет относиться к приложенным иллюстрациям.

Фиг.1а показывает прототип многоканальной аудиокодирующей схемы;

фиг.1b прототип объектной кодирующей схемы;

фиг.2 показывает кодирующую схему пространственного звукового объекта;

фиг.3 показывает воплощение многоканального трансформатора параметра;

фиг.4 показывает пример многоканальной конфигурации акустической системы для воспроизведения пространственного звукового содержания;

фиг.5 показывает пример возможного многоканального представления параметра пространственного звукового содержания;

фиг.6а и 6b показывают прикладные планы (сценарии) для закодированного содержания пространственного звукового объекта;

фиг.7 показывает воплощение многоканального параметрического преобразователя;

фиг.8 показывает пример метода для генерирования параметра когерентности и параметра корреляции.

Детальное описание предпочтительного варианта реализации изобретения

Фиг.1а схематически показывает многоканальную схему, кодирующую и расшифровывающую звук, тогда как фиг.1b схематически показывает схему обычного кодирования звукового объекта. Многоканальная кодирующая схема использует множество имеющихся звуковых каналов, то есть звуковые каналы уже смешаны, чтобы соответствовать заранее определенному количеству громкоговорителей (акустических систем). Многоканальное кодирующее устройство 4 (кодирование пространственного звука) производит низведение сигнала 6, который производится с помощью каналов 2а и 2b. Этот низведенный сигнал 6 может, например, быть монофоническим звуковым каналом или двумя звуковыми каналами, то есть сигналом стерео. Чтобы частично компенсировать потерю информации в течение низведения (операция понижающего микширования), используется многоканальное кодирующее устройство 4, которое выделяет многоканальные параметры, которые описывают пространственную взаимосвязь сигналов звуковых каналов 2а и 2b. Эта информация передается вместе с низведенным сигналом 6, потому так называемая информация о состоянии канала 8 связана с многоканальным декодером 10. Многоканальный декодер 10 использует многоканальные параметры информации о состоянии канала 8, чтобы создать каналы 12а и 12b с целью восстановления каналов 2а и 2b настолько точно, насколько это возможно. Это может, например, быть достигнуто при помощи передачи параметров выходного уровня и параметров корреляции, которые описывают отношение энергии между индивидуальными парами канала оригинальных звуковых каналов 2а и 2b и которые обеспечивают меру корреляции (связи) между парами звуковых каналов 2а и 2b.

Во время расшифровки эта информация может использоваться, чтобы перераспределить звуковые каналы, которые содержатся в низведенном сигнале на восстановленные звуковые каналы 12а и 12b. Можно отметить, что стандартная многоканальная звуковая схема воспроизводит то же самое число восстановленных каналов 12а и 12b, как число оригинальных звуковых каналов 2а и 2b, которые входят в многоканальное звуковое кодирующее устройство 4. Однако другие схемы расшифровки также могут осуществляться, воспроизводя больше или меньше обычных каналов, чем оригинальных звуковых каналов 2а и 2b.

В некотором смысле многоканальные звуковые методы схематично отображены на фиг.1а (например, недавно стандартизированная MPEG пространственная звуковая кодирующая схема, то есть MPEG Объемный звук), может рассматриваться как битрейт-эффективное и совместимое расширение имеющейся звуковой инфраструктуры, имеющей отношение к многоканальному звуковому/объемному звуку. Фиг.1b изображает уже существующий подход к звуковому кодированию на основе объекта. Как пример, кодирование звуковых объектов и способности "интерактивности, основанной на содержании", является частью понятия MPEG-4. Обычная техника кодирования звукового объекта, схематично показанная на фиг.1b, пользуется различными подходами, поскольку эта техника не передает множество уже существующих звуковых каналов, а передает полное звуковое поле, распределяя в пространстве многократные звуковые объекты 22а и 22d. С этой целью используется кодировщик обычных звуковых объектов 20, чтобы закодировать многократные звуковые объекты 22а и 22d в элементарные потоки 24а и 24d; каждый звуковой объект имеет связанный элементарный поток. Звуковые объекты 22а и 22d (звуковые источники) могут, например, быть представлены монофоническим звуковым каналом и связанными параметрами энергии, указывая относительный уровень звукового объекта относительно остающихся в пространстве звуковых объектов.

Конечно, в более сложном исполнении звуковые объекты не ограничены для воспроизведения монофоническими звуковыми каналами. Вместо этого, например, звуковые объекты стерео или многоканальные звуковые объекты могут быть закодированы. Обычный звуковой декодер 28 стремится воспроизводить звуковые объекты 22а и 22b, чтобы получать преобразованные звуковые объекты 28а и 28d. Компоновщик (редактор) звукового содержания (Scene composer) 30 в пределах обычного декодера звукового объекта позволяет разрозненное размещение преобразованных звуковых объектов 28а и 28d (источники) и адаптацию к различным установкам акустической системы (громкоговорителей). Пространство воспроизведения полностью определяется в соответствии с описанием 34 и связано со звуковыми объектами. Некоторые обычные компоновщики звукового содержания 30 предполагают описание музыкального эпизода на стандартизированном языке, например BIFS (двоичный формат для описания музыкального эпизода). На стороне декодера могут использоваться произвольные установки акустической системы (громкоговорителей); декодер обеспечивает звуковые каналы 32а и 32е для индивидуальных акустических систем, которые оптимально настроены для преобразования звукового поля, поскольку полная информация звукового поля доступна на стороне декодера. Например, бинауральное (стереофоническое) воспроизведение/предоставление выполнимо, и оно приводит к двум звуковым каналам, сгенерированным для предоставления впечатления пространственного звука при прослушивании через наушники.

Дополнительное использование компоновщика звукового содержания 30 (редактора музыкальных эпизодов) позволяет переустановку/панорамирование индивидуальных звуковых объектов на стороне воспроизводства. Кроме того, положения или уровни специально отобранных звуковых объектов могут быть изменены, например, можно увеличить ясность говорящего, когда окружающие шумовые объекты или другие звуковые объекты, связанные другими людьми, которые тоже разговаривают (все вместе) подавляются, то есть они уменьшены в своем уровне.

Другими словами, обычные звуковые шифровальщики объекта кодируют множество звуковых объектов в элементарные потоки; каждый поток связан с одним единственным звуковым объектом. Обычный декодер расшифровывает эти потоки и формирует звуковое поле под контролем описания поля (двоичного формата для описания музыкального эпизода), произвольно основываясь на взаимодействии пользователя с системой. В рамках практического применения этот подход страдает из-за определенных недостатков. Из-за отдельного кодирования каждого индивидуального звука (звукового объекта) необходимый битрейт для передачи целостного эпизода, который значительно выше, чем нормы, используемые для монофонической/стереофонической передачи сжатого аудио (звука). Очевидно необходимый битрейт растет приблизительно пропорционально с количеством переданных звуковых объектов, то есть со сложностью звукового эпизода.

Следовательно, из-за отдельной расшифровки каждого звукового объекта вычислительная сложность для процесса расшифровки значительно превышает ту сложность обычного моно/стерео звукового декодера. Необходимая вычислительная сложность для расшифровки растет приблизительно пропорционально с числом переданных объектов (принимая во внимание невысокую сложность процедуры составления структуры). Используя усовершенствованные возможности структуры и состава, то есть используя различные вычислительные узлы, эти недостатки в дальнейшем отягощаются сложностью, связанной с синхронизацией соответствующих звуковых узлов и со сложностью в управлении структурированным звуковым двигателем. Кроме того, так как полная система вовлекает несколько звуковых компонентов декодера и единицу двоичного формата для описания музыкального эпизода, сложность необходимой структуры это - препятствие к применению в реальности. Усовершенствованные возможности структуры и состава, кроме того, требуют применение структурированного звукового двигателя с вышеупомянутым препятствием.

Фиг.2 показывает осуществление изобретенной концепции кодирования пространственного звукового объекта, позволяющей эффективное звуковое кодирование объекта, обходя предварительно упомянутые неудобства. Из фиг.3 становится ясно, что концепция может применяться с помощью изменения существующего MPEG объемного звука. Однако использование объемного звука MPEG не принудительно, так как могут использоваться и другие общие многоканальные структуры зашифровывания/расшифровки, чтобы осуществить данное изобретение. При использовании имеющейся кодирующей структуры для многоканального аудио (звука), например MPEG объемный звук, концепция изобретения вовлекает битрейт-эффективное и совместимое расширение имеющейся звуковой инфраструктуры для воспроизведения звука на основе объекта. Чтобы отличаться от предшествующих подходов (изобретений), касающихся кодировки звукового объекта (КЗО) и пространственной кодировки звука (многоканальное кодирование аудио); данное изобретение будет в последующем именоваться понятием - пространственное звуковое кодирование объекта или сокращенно (ПЗКО).

Кодирующая схема для пространственных звуковых объектов, показанная на фиг.2, использует индивидуальные объекты аудиовхода от 50а до 50d. Кодирующее устройство для пространственного звукового объекта 52 вырабатывает один или больше низведенных сигналов 54 (например, моно или стерео сигналы) вместе с информацией о состоянии канала 55, при этом имея в наличии информацию о характеристиках оригинальной звуковой среды.

ПЗКО - декодер 56 получает низведенный сигнал 54 с информацией о состоянии канала 55. Основанный на низведенном сигнале (уменьшении числа каналов) 54 соединения и информации о состоянии канала 55; декодер пространственного звукового объекта 56 восстанавливает (перестраивает) ряд звуковых объектов от 58а до 58d. Восстановленные (перестроенные) звуковые объекты от 58а до 58d смешиваются для воспроизведения 60, на этапе воспроизведения - звуковое содержание представляет собой смешанные индивидуальные звуковые объекты от 58а до 58d, чтобы впоследствии сгенерировать необходимое число каналов вывода 62а и 62b, которые обычно соответствуют многоканальной установке акустической системы, предназначенной, чтобы использоваться для воспроизведения. Параметры устройства смешивания/воспроизводства звука 60 управляются непосредственно пользователем или с панели управления 64, чтобы получить интерактивное воспроизведение звука и таким образом обеспечить высокое гибкое кодирование звукового объекта. Концепция пространственного кодирования звукового объекта, показанного на фиг.2, имеет несколько значительных преимуществ по сравнению с другими вариантами многоканального преобразования. Передача (трансмиссия) достаточно битрейт-эффективна из-за использования низведенных (уменьшенных) сигналов и сопровождающих параметров объекта. Таким образом, информация о состоянии канала, базирующаяся на объекте, передается вместе с низведенным сигналом, который составлен из звуковых сигналов, связанных с индивидуальными звуковыми объектами. Поэтому требования к скорости передачи битов значительно уменьшается по сравнению с теми подходами, где сигнал каждого индивидуального звукового объекта отдельно закодирован и передан. Кроме того, концепция сравнима с уже существующими структурами передачи (звука). Легальные устройства воспроизводят (составляют) низведенный сигнал. Восстановленные звуковые объекты от 58а до 58d могут быть непосредственно переданы устройству смешивания/воспроизводства звука 60 (компоновщику эпизода). Вообще, восстановленные звуковые объекты от 58а до 58d могут быть связаны с любым внешним устройством смешивания (смешивания / воспроизводства 60), таким образом, что идея изобретения может быть легко осуществлена в уже существующей среде воспроизведения (звука). Индивидуальные звуковые объекты 58а…d могут использоваться как соло воспроизведение, то есть они воспроизводятся как единый звуковой поток, хотя они (эти звуковые объекты) не предназначены для создания высококачественного соло.

Чтобы отделить SAOC декодирование (ПЗКО - пространственное звуковое кодирование объекта) и последующее смешивание, объединенный ПЗКО - декодер и устройство для смешивания/воспроизводства чрезвычайно удобно, потому что с ним не возникает сложности при использовании. По сравнению с прямым подходом, полной расшифровки/реконструкции объектов от 58а до 58d в качестве промежуточного воспроизведения этого можно избежать. Необходимое вычисление главным образом связано с намеченным числом выходных каналов 62а и 62b. Из фиг.2 видно, что устройство смешивания/воспроизведения 60, связанное с ПЗКО - декодером, может в принципе быть любым алгоритмом, подходящим для объединения единичных звуковых объектов в одно звуковое поле, то есть подходящим для производства выходных звуковых каналов 62а и 6b, которые подключены к разным громкоговорителям или акустическим системам многоканальной установки. Таким устройством, это может быть, например, смеситель для амплитудного панорамирования (или амплитудного и отсроченного панорамирования), амплитудное панорамирование базируется на векторе (схемы VBAP) и бинауральном воспроизведении, то есть воспроизведении, которое направлено на пространственное устойчивое восприятие при использовании только двух акустических систем или наушников. Например, MPEG объемный звук формат использует для воспроизведения такие бинауральные методы. В общем, передача низведенных сигналов 54 связана с соответствующей информацией о звуковом объекте 55; сигналы могут быть объединены с техникой кодирования произвольного многоканального звука, такого как, например, параметрический стерео звук, бинауральный (стереофонический) код начального сигнала или MPEG.

Фиг.3 показывает осуществление данного изобретения, в котором параметры объекта передаются вместе с низведенным сигналом. В структуре ПЗКО декодера 120 MPEG декодер объемного звука может использоваться вместе с многоканальным преобразователем параметра, который производит параметры MPEG, используя полученные (приобретенные) параметры объекта. Эта комбинация создает пространственный звуковой декодер объекта 120 с чрезвычайно низкой сложностью (самого устройства). Другими словами, этот специфический пример предлагает метод для преобразования (пространственного звука) параметров объекта и панорамирования информации, связанной с каждым звуковым объектом в стандартном MPEG потоке битов (потоке двоичных сигналов); таким образом, расширяя применение обычных MPEG декодеров объемного звука: от воспроизведения многоканального звукового содержания до интерактивного воспроизведения закодированных эпизодов пространственных звуковых объектов. Эта система работает без применения модификации к MPEG декодеру объемного звука. Осуществление изобретения, показанное на фиг.3, не имеет те недостатки, которые есть у обычной технологии использования многоканального преобразователя параметра вместе с MPEG декодером объемного звука. В то время как MPEG декодер объемного (окружающего звука) - обычно доступная технология; многоканальный преобразователь параметра обеспечивает транскодирование (преобразование одного кода в другой) из пространственного звукового кодированного объекта в MPEG формат объемного звука. Это будет детально рассмотрено в следующих параграфах, которые дополнительно ссылаются на фиг.4 и 5, иллюстрируя определенные аспекты объединенных технологий. На фиг.3 декодер 120 содержит MPEG декодер объемного звука 100, который получает низведенный сигнал 102, имеющий некое звуковое содержание. Низведенный сигнал может быть произведен кодирующим устройством со стороны низведения (понижения количества) каналов с помощью объединения (или добавления) сигналов звукового объекта каждого звукового сигнала в импульсе по типовой манере. Альтернативно, процесс объединения может также иметь место в спектральной области или в области фильтр-банка (банк цифровых фильтров предназначен для разбиения входного сигнала на несколько подканалов). Низведенный канал может быть отделен от параметрического потока битов 122 или может быть в том же самом потоке битов как параметр потока битов.

MPEG декодер объемного звука 100 дополнительно получает пространственные сигналы 104 из MPEG объемного звука потока битов, как когерентность параметров внутриканальной когерентности (ICC) и параметры выходного уровня CLD, оба понятия означают характеристики сигналов между двумя звуковыми сигналами в рамках схемы зашифровывания/расшифровки объемного звука MPEG, которая показана на фиг.5 и которая будет объясняться более подробно ниже.

Многоканальный преобразователь параметра 106 получает параметры ПЗКО (параметры объекта) 122, связанные со звуковыми объектами, которые указывают свойства дополнительной цели звуковых объектов, содержавшихся в пределах низведенного (редуцированного) сигнала 102. Кроме того, преобразователь 106 получает параметры воспроизведения объекта через ввод параметров воспроизведения объекта. Эти параметры могут быть параметрами воспроизводящей матрицы или параметрами, которые могут использоваться для картографии звуковых объектов в сценарии воспроизведения. В зависимости от положений объекта, которые настроены пользователем и введены в блок 12, воспроизводящая матрица вычисляется (подготавливается) блоком 112. Вывод блока 112 вводится в блок 106 и в генератор параметра 108 для того, чтобы вычислить пространственные звуковые параметры. Когда конфигурация акустической системы (громкоговорителя) изменяется, воспроизводящая матрица или, по крайней мере, некоторые параметры воспроизведения объекта тоже изменяются. Таким образом, параметры воспроизведения зависят от конфигурации воспроизведения, которая включает конфигурацию громкоговорителя/конфигурацию воспроизведения или переданных, или выбранных пользователем положений объектов, оба положения могут быть подсоединены к блоку 112.

Генератор параметра 108 производит пространственные сигналы MPEG объемного звука 104, основанные на параметрах объекта, которые обеспечиваются с помощью провайдера параметров объекта (анализатор ПЗКО) 110. Генератор параметра 108 дополнительно использует параметры воспроизведения, которые вырабатываются генератором весового множителя 112. Некоторые или все параметры воспроизведения являются весовыми параметрами, описывающими разбивку звуковых объектов, содержавшихся в низведенном сигнале 102 на каналы, созданные декодером пространственного звукового объекта 120. Весовые параметры могут, например, быть организованы в матрице, так как они служат для того, чтобы картографировать определенное количество звуковых объектов N по определенному количеству звуковых каналов М, которые связаны с индивидуальными громкоговорителями многоканальной установки акустической системы, используемой для воспроизведения. Есть два типа входных данных на многоканальный преобразователь параметра (ПЗКО 2 MPS транскодер). Первый вход - поток битов пространственного звукового кодирования объекта 122; этот выход подсоединяет параметры объекта к индивидуальным звуковым объектам, которые указывают на пространственные свойства (например, энергетическая информация) звуковых объектов, связанных с переданной многообъектной звуковой сценой. Второй вход - параметры воспроизведения (весовые параметры (весовые коэффициенты)) 124, используемые для составления схемы объектов N к звуковым каналам М..

Как предварительно было указано, поток битов ПЗКО 122 содержит параметрическую информацию о звуковых объектах, которые были смешаны вместе, чтобы впоследствии создать вход низведенного сигнала 102 в MPEG декодер объемного звука 100. Параметры объектов потока битов ПЗКО 122 вырабатываются, по крайней мере, для одного звукового объекта, связанного с низведенным каналом 102, который был, в свою очередь, произведен, используя, по крайней мере, один сигнал звукового объекта, связанный со звуковым объектом. Подходящий параметр, например параметр энергии, указывает на энергию сигнала звукового объекта, то есть на силу вклада сигнала звукового объекта в низведенный канал 102. В случае, если используется низведенное стерео, может вырабатываться параметр направления для определения местоположения звукового объекта в пределах низведенного стерео. Однако другие параметры объекта, очевидно, также подходят и могут использоваться для осуществления этого.

Переданный низведенный звук не обязательно должен быть монофоническим сигналом. Это может быть также, например, сигнал стерео. В таком случае 2 параметра энергии могут передаваться как параметры объекта; каждый параметр указывает вклад каждого объекта в один из двух каналов сигнала стерео. Таким образом, например, если бы 20 звуковых объектов использовались для выработки низведенного стереосигнала, 40 энергетических параметров были бы переданы как параметры объекта.

ПЗКО потока двоичных сигналов 122 вводится в ПЗКО аналитический блок, то есть в провайдер параметра объекта 110, который восстанавливает параметрическую информацию, а последняя помимо фактического числа звуковых объектов имеет дело главным образом с возвратным уровнем огибающей параметров объекта (OLE), который описывает переменные во времени огибающие спектра каждого звукового существующего объекта.

Параметры ПЗКО типично зависят от времени, поскольку они передают информацию относительно того, как изменяется со временем многоканальное звуковое поле, например, когда выделяются определенные объекты, или другие объекты подавляются. Весовому коэффициенту воспроизводящей матрицы 124 часто не хватает достаточно времени или частотной зависимости. Конечно, если объекты входят или уходят, количество необходимых параметров резко изменяется, чтобы соответствовать количеству звуковых объектов поля. Кроме того, в приложениях под интерактивным управлением пользователя матричные элементы могут быть переменными во времени, поскольку они тогда зависят от фактического ввода пользователя. В дальнейшем осуществлении данного изобретения параметры, регулирующие изменение весового коэффициента, или параметры воспроизведения объекта, или изменяющееся во времени параметры воспроизведения объекта (весовые коэффициенты) непосредственно могут быть переданы в ПЗКО потоке битов, чтобы повлиять на изменение воспроизводящей матрицы 124. Весовой коэффициент или элементы воспроизводящей матрицы могут быть частотно зависимы, если нужна частотная зависимость воспроизводящих свойств (для примера, когда нужен частотно-избирательный усилитель определенного объекта).

На фиг.3 изображена матрица воспроизводства, которая генерируется генератором весового коэффициента 112 (генерирующий блок воспроизводящей матрицы), основанным на информации о конфигурации воспроизведения (которая является описанием поля). Это может быть, с одной стороны, информацией конфигурации воспроизведения, как, например, параметры акустических систем (громкоговорителя), указывающих местоположение или расположение в пространстве на отдельные громкоговорители и определенное количество акустических систем с многоканальной конфигурацией громкоговорителя, используемой для воспроизведения. Матрица воспроизведения, кроме того, вычисляется и основывается на параметрах воспроизведения объекта, например на информации, указывающей местоположение звуковых объектов и указывающей на увеличение или ослабление сигнала звукового объекта. Параметры воспроизведения объекта можно, с одной стороны, сопровождать потоком битов SAOC, если необходимо реалистическое воспроизведение многоканального звукового поля. Параметры воспроизведения объекта (например, параметры местоположения и параметры увеличения (параметры панорамирования)), могут альтернативно обеспечиваться в интерактивном режиме через пользовательский интерфейс. Естественно, желательная матрица воспроизведения, то есть желательные параметры весового коэффициента могут передаваться вместе с объектами, чтобы начать с естественно звучания воспроизводства звукового поля в качестве отправной точки для интерактивного воспроизводства на стороне декодера.

Генератор параметра (устройство воспроизведения сцены) 108 принимает и весовые коэффициенты, и параметры объекта (например, параметр энергии OLE), чтобы определить отображение отношения звуковых объектов N к выводному каналу М; причем М может быть больше, меньше, чем N или равным N и, кроме того, может даже изменяться во времени. При использовании стандартного MPEG декодера объемного звука 100 получаются пространственные сигналы (например, параметры когерентности и параметры выходного уровня), они могут быть переданы MPEG-декодеру 100 посредством стандартного окружающего потока битов, который соответствует низведенному сигналу, передающемуся вместе с SAOC потоком битов. Использование многоканального преобразователя параметра 106, как описано выше, позволяет использовать стандартный MPEG декодер объемного звука, чтобы обработать низведенный сигнал и преобразованные параметры, которые вырабатываются преобразователем 106, чтобы воспроизвести реконструкцию звукового поля через данные акустические системы. Это достигается с высокой гибкостью звукового подхода кодирования объекта, то есть позволяя серьезное взаимодействие пользователя на стороне воспроизведения. Как альтернатива воспроизведению многоканальной установки акустическая система может использоваться для бинаурального способа расшифровки MPEG декодера объемного звука, чтобы воспроизвести сигнал через наушники. Однако если производятся незначительные модификации MPEG декодера объемного звука 100, например, в пределах программной реализации (внедрение программного обеспечения), передача пространственных сигналов MPEG декодеру объемного звука может происходить непосредственно в области значения параметра. То есть вычислительные затраты многоканальной передачи в MPEG объемного звучания совместимого потока битов могут не совершаться. Помимо уменьшения вычислительной сложности, еще одно преимущество состоит в том, что снижение качества MPEG- квантования (дискретизации) соответствовавшего параметра не допускается, так как такое квантование (дискретизация) произведенных пространственных сигналов в этом случае больше не является необходимой. Как уже упоминалось, эти преимущества приводят к более гибкой работе MPEG декодера объемного звука, предлагая возможность прямой подачи параметра, а не чистой подачи потока битов. В другом осуществлении данного изобретения MPEG объемного звука совместимый битовый поток создается посредством произведенной многоканальной передачи (уплотнения каналов связи), которая генерирует пространственные сигналы низведенного соединения, таким образом, предлагая возможность воспроизводить звук через легальное оборудование. Многоканальный преобразователь параметра 106 может, таким образом, преобразовать закодированные данные звукового объекта в многоканальные закодированные данные на стороне кодирующего устройства. Дальнейшее осуществление данного изобретения, основанного на многоканальном преобразователе параметра, будет рассмотрено на фиг.3 в целях применения с определенным звуковым объектом и многоканального использования. Важные аспекты этого использования представлены на фиг.4 и 5.

Фиг.4 иллюстрирует подход в использовании амплитудного панорамирования, основанного на одном специфическом применении, используя параметры расположения как параметры воспроизведения объекта и энергетические параметры как параметры объекта. Параметры воспроизведения объекта указывает местоположение звукового объекта. В следующих параграфах, углы αi 150 будут использоваться как параметры воспроизведения (расположения) объекта, которые отображают направленность (акустический пеленгатор) звукового объекта 152 относительно слушателя 154. В следующих примерах представлен упрощенный двумерный: один единственный параметр, с одной точки зрения может использоваться, чтобы однозначно параметризовать направление и происхождение (акустический пеленгатор) звукового сигнала, связанного со звуковым объектом. Однако само собой разумеется, что общий трехмерный случай может быть реализован без внесения существенных изменений. Таким образом, имея для примера трехмерное пространство, можно использовать векторы, чтобы указать местоположение звуковых объектов в пределах пространственного звукового поля. Для случая, когда MPEG декодер объемного звука используется, чтобы осуществить идею изобретения; фиг.4 показывает дополнительно расположение акустической системы MPEG с пятью каналами многоканальной конфигурации громкоговорителей (колонок). Когда положение центра громкоговорителя 156а (С) определено, чтобы быть в 0°, правая часть колонки 156b расположена в 30°, а правая акустическая система объемного звучания 156с расположена в 110°, левая акустическая система объемного звучания 156d расположена в - 110° [и левая передняя акустическая система 156е расположена в - 30°.

Следующие примеры будут основаны на 5.1-канальной установке многоканальных звуковых сигналов как MPEG стандарт объемного звука, который определяет два возможных способа выработки параметров, которые визуально изложены в древовидной структуре (разветвленной структуре), показанной на фиг.5.

В случае передачи "моно низведенного сигнала" 160 MPEG декодер объемного звука использует древовидную (разветвленную) структуру параметризации. Дерево населено так называемыми ОТТ элементами (коробками) от 162а до 162е для первой параметризации и от 164а до 164е для второй параметризации.

Каждый ОТТ элемент повышает (возводит) моновходной сигнал в два выходных аудиосигнала. Чтобы осуществить повышение (восхождение), каждый ОТТ элемент использует параметр ICC, описывающий желательную поперечную корреляцию (кросс-корреляция) между выходным сигналом и CLD параметром, описывающим относительные перепады уровней (разность уровней) между двумя выходными сигналами каждого ОТТ элемента.

Несмотря на структурное сходство двух параметризаций на фиг.5, которые отличаются по способу распространения (распределения) содержания звукового канала из монофонического низведенного 160. Например, в левой структуре дерева первый ОТТ элемент 162а производит первый выходной канал 166а и второй выходной канал 166b. Согласно фиг.5 первый выходной канал 166а содержит информацию о звуковых каналах левого переднего (громкоговорителя), правого переднего (громкоговорителя), центрального (громкоговорителя) и низкочастотного обогащенного канала. Второй сигнал 166b содержит только информацию о каналах объемного звучания, то есть о левом канале объемного звука и правом канале объемного звука. По сравнению со вторым применением (изобретения) выход первого ОТТ элемента значительно отличается от содержащихся звуковых каналов. Тем не менее многоканальный преобразователь параметра может применяться, если он основан на любом из двух приведенных выше способах. Если идея изобретения понимается и применяется правильно, то изобретение может использоваться в других канальных конфигурациях, отличающихся от описанных ниже. Из-за своей краткости (описания) несколько возможных применений данного изобретения сосредоточены в левой параметризации на фиг.5 без ограничения общности. Можно, кроме того, отметить, что фиг.5 служит только соответствующим отображением звуковой идеи MPEG, и что вычисления обычно выполняются не последовательно, поскольку можно было поверить изображению на фиг.5. Вообще вычисления могут быть выполнены параллельно, то есть выходные каналы могут производиться в одном единственном вычислительном шаге. В пунктах, описанных выше, битовый поток ПЗКО содержит (относительные) уровни каждого звукового объекта в низведенном (редуцированном) сигнале (для каждой временной частоты - отдельные, как -общепринятая практика - в пределах использования структуры частотного интервала, например, как фильтр-банк или преобразование время - частота).

Кроме того, данное изобретение не ограничено определенным уровнем воспроизведения (представления) объектов; описанное ниже иллюстрирует один метод для вычисления пространственных сигналов MPEG двоичного потока объемного звука, который основан на измерении мощности объекта, которая может быть получена из параметризации ПЗКО (SAOC) объекта(ов).

Из фиг.3 видно, что матрица воспроизведения W, которая генерируется (вырабатывается) весовыми параметрами (весовыми коэффициентами) и используется генератором параметра 108, чтобы картографировать (составить схему) Oi объектов для нужного количества выходных каналов (каналов вывода) (например, определенное количество громкоговорителя (ей)), имеет множество весовых параметров (коэффициентов), которые зависят от определенного индексного объекта i и индекса канала(ов). Весовой параметр (весовой коэффициент) wS [бета] i обозначает смешанный коэффициент усиления объектов i (1<=i<=N) в выходе на громкоговоритель s (1<=s<=М). Таким образом, W преобразовывает (отмечает) объекты о=[ох…oN]<r>в громкоговорителях, производя выходящие сигналы для каждого громкоговорителя (здесь имеется в виду установка 5.1) y=[yLf yRfyc yLFEyLsyRs], таким образом:

Y=W0

Генератор параметра (устройство воспроизведения) 108 использует матрицу воспроизведения W, чтобы подсчитать все CLD и ICC параметры, основанные на данных ПЗКО σi2. Из изображения на фиг.5 становится понятным, что этот процесс должен быть выполнен отдельно для каждого ОТТ элемента. Детально рассмотрим первый ОТТ элемент 162а, так как информация в следующих разделах относится к оставшимся ОТТ элементам без дальнейшего изобретательского таланта.

Поскольку можно определить, что первый выходной сигнал 166а ОТТ элемента 162а в дальнейшем обрабатывается ОТТ элементами 162b, 162с и 162d, что приводит к появлению выходных каналов: LF, RF, С и LFE. Второй выходной канал 166b обрабатывается ОТТ элементом 162е, что приводит к возникновению выходных каналов LS (левый) и RS (правый). Замена ОТТ элементов на фиг.5 на одну единственную матрицу воспроизведения W может происходить при использовании следующей матрицы W:

Число N колонок матрицы W не установлено, поскольку N - число звуковых объектов, которые могут изменяться. Одна из возможностей получать пространственные сигналы - (CLD и ICC) для элемента ОТТ 162а состоит в том, что соответствующее применение каждого объекта к двум выходящим ОТТ элементам 0 было получено суммированием соответствующих элементов в W. Это суммирование дает матрице подпредставления W0 ОТТ элемент 0:

Проблема упрощается до оценки разности уровней, и корреляции для субвоспроизводства матрицы Wo (и для подобного определенного воспроизводства матриц Wi, W2, W3 и W4, связанного с элементами ОТТ 1, 2, 3 и 4 соответственно).

При условии, что сигналы объектов полностью несвязны (некогерентные) (то есть взаимно независимые), вычисленная мощность (ожидаемая мощность) первого выхода ОТТ элемента 0,/р0.i2 выражается:

Точно так же вычисленная мощность (ожидаемая мощность) второго выхода ОТТ элемента 0 выражается:

Перекрестная мощность R0 выражается:

CLD параметр для ОТТ элемента 0, следовательно, выражается:

и параметр ICC выражается:

На фиг.5 в левой части рассматриваются оба сигнала, для которых выходная мощность 1 и выходная мощность 2 определяются, как показано выше, - действительными сигналами (логическими сигналами), так как эти сигналы представляют комбинацию сигналов акустической системы и не составляют сами звуковые сигналы. В этом пункте подчеркивается, что древовидная структура на фиг.5 не используется для генерирования сигналов. Это означает, что в MPEG декодере объемного звука любые сигналы от одного до двух вместе не существуют. Вместо этого большая восходящая матрица (восхождения / возведения сигнала), использует низведение (редуцирование), и различные параметры, чтобы сгенерировать какие-либо сигналы в громкоговорителе (акустической системе). Ниже описана классификация или идентификация каналов левой конфигурации на фиг.5.

Для акустической колонки 162а первый виртуальный сигнал - это сигнал, представляющий комбинацию сигналов акустической системы lf, rf, с, lfe. Второй виртуальный сигнал - это виртуальный сигнал, представляющий комбинацию ls и rs.

Для акустической колонки 162b первый аудиосигнал является виртуальным сигналом и представляет группу, включающую левый фронтальный канал и правый фронтальный канал, и второй аудиосигнал является виртуальным и представляет группу, содержащую центральный канал и lfe канал.

Для акустической колонки 162е первый аудиосигнал является сигналом громкоговорителя для левого объемного канала и второй аудиосигнал является сигналом громкоговорителя для правого объемного канала.

Для акустической колонки 162с первый аудиосигнал является сигналом громкоговорителя для левого фронтального канала и второй аудиосигнал является сигналом громкоговорителя для правого фронтального канала.

Для акустической колонки 162d первый аудиосигнал является сигналом громкоговорителя для центрального канала и второй аудиосигнал является сигналом громкоговорителя для низкочастотного усиленного канала.

В данных акустических колонках значения весовых коэффициентов для первого аудиосигнала или второго аудиосигнала определяют при помощи комбинирования параметров воспроизведения объекта, связанных с каналами, представленными первым звуковым сигналом или вторым звуковым сигналом, как будет показано ниже.

Ниже описана группировка или идентификация каналов для правой конфигурации на фиг.5.

Для акустической колонки 164а первый звуковой сигнал - виртуальный сигнал, который представляет группу, включающую левый фронтальный канал, левый канал объемного звука, правый фронтальный канал и правый канал объемного звука; второй звуковой сигнал - виртуальный сигнал, который представляет группу, включающую центральный канал и низкочастотный усиленный канал.

Для акустической колонки 164b первый звуковой сигнал - виртуальный сигнал, который представляет группу, включающую левый фронтальный канал, левый канал объемного звука; второй звуковой сигнал - виртуальный сигнал и представляет группу, включающую правый фронтальный канал и правый канал объемного звука.

Для акустической колонки 164е первый звуковой сигнал - сигнал громкоговорителя для центрального канала, и второй звуковой сигнал - сигнал громкоговорителя (акустической системы) для низкочастотного усиленного канала.

Для акустической колонки 164с первый звуковой сигнал - сигнал громкоговорителя для левого фронтального канала, и второй звуковой сигнал - сигнал громкоговорителя для левого канала объемного звука.

Для акустической колонки 164d первый звуковой сигнал - сигнал громкоговорителя для правого фронтального канала, и второй звуковой сигнал - сигнал громкоговорителя для правого канала объемного звука.

В этих акустических колонках весовые коэффициенты (параметры) для первого звукового сигнала или второго звукового сигнала определяются при помощи комбинирования параметров воспроизведения объекта, связанных с каналами, представленными первым звуковым сигналом или вторым звуковым сигналом, это будет показано ниже.

Вышеупомянутые виртуальные сигналы являются виртуальными, так как им не обязательно участвовать в осуществлении изобретения. Эти виртуальные сигналы используются, чтобы показать процесс генерирования значения мощности или распределения энергии, которая определена с помощью CLD для всех акустических колонок, например, при использовании различных матриц Wi вторичного воспроизведения (далее - воспроизведения). При этом на фиг.5 первым приведено описание левой стороны.

Выше приведена воспроизводящая матрица Wo для акустической колонки 162а.

Для акустической колонки 162b воспроизводящая матрица определена в виде:

Для (акустической) коробки 162е воспроизводящая матрица определена в виде:

Для (акустической) коробки 162с воспроизводящая матрица определена в виде:

Для 162d воспроизводящая матрица определена в виде:

Для правой конфигурации на фиг.5 ситуация следующая.

Для акустической колонки 164 а воспроизводящая матрица определена в виде:

Для акустической колонки 164b воспроизводящая матрица определена в виде:

Для акустической колонки 164е воспроизводящая матрица определена в виде:

Для акустической колонки 164с воспроизводящая матрица выглядит так:

Для акустической колонки 164d воспроизводящая матрица выглядит так:

В зависимости от применения изобретения соответствующие CLD и ICC параметры могут быть квантованными (оцифрованными) и форматированными (отформатированными), чтобы вписаться в битовый поток MPEG объемного звука, который может подаваться в MPEG декодер 100 объемного звука. Наоборот - значения параметра можно передать MPEG декодеру объемного звука на уровне параметра выходного уровня, то есть без квантования и без форматирования сразу в битовый поток. Все это нужно, чтобы произвести не только согласование объектов, то есть распределение соответственно этих сигнальных энергий, которые могут быть выработаны, используя вышеупомянутый подход с использованием структуры MPEG-2 на фиг.5, также это используется, чтобы осуществлять ослабление или увеличение; так называемое низведенное усиление, может также генерироваться для модификации низведенной сигнальной энергии. Произвольно выбранные коэффициенты усиления при низведении (понижающем микшировании) (ADG) учитывают спектральную модификацию непосредственно низведенного сигнала, прежде чем он будет обработан одним из SAOC элементов. Таким образом, ADG сами по себе частотно зависимы. Для эффективного использования изобретения произвольно низведенные коэффициенты усиления (параметр, показывающий, во сколько раз выходной сигнал отличается от входного) представлены с тем же частотным разрешением и с теми же шагами квантователя (преобразователя непрерывных данных в дискретные или цифровые) как у CLD параметров. Главная цель применения ADGs состоит в том, чтобы видоизменить переданное низведение сигнала таким образом, чтобы распределение энергии во входящем низведенном сигнале входа было схоже с энергией низведения, проигрываемой системой выхода. Используя параметры весового коэффициента Wk,i матрицы воспроизведения W и передаваемых значений мощностей объекта σi2, можно вычислить соответствующие ADGs, используя следующее уравнение:

,

при этом предполагается, что мощность входящего низведенного сигнала равна сумме значений мощностей объекта (i = индекс объекта, k = индекс канала).

Как предварительно обсуждалось, при подсчете CLD и ICC параметров используются параметры весового коэффициента, указывающие на то, что часть энергии сигнала аудиообъекта, связанного с громкоговорителями многоканальной конфигурации акустической системы. Эти весовые коэффициенты в основном будут зависеть от данных звукового поля и данных конфигурации воспроизведения, то есть - от относительного местоположения звуковых объектов и громкоговорителей многоканальной установки акустической системы. В следующих разделах будет описана возможность определения параметров весового коэффициента, основанных на согласовании аудиообъекта, показанного на фиг.4, используя угол азимута и измерение коэффициента усиления как параметры объекта, связанные с каждым звуковым объектом.

Как уже было подчеркнуто выше, существуют независимые воспроизводящие матрицы для каждой ячейки времени/частоты; однако в последующем только одна единственная ячейка времени/частоты будет рассматриваться для внесения ясности. Матрица воспроизведения W имеет М линий (одна для каждого выходного канала) и N колонок (одна для каждого звукового объекта), где матричный элемент в линии s и колонке i представляет собой комбинацию, в которой специфический звуковой объект вносит свой вклад в соответствующий канал выхода:

Матричные элементы вычисляются из следующего описания звукового поля и параметров конфигурации акустической системы:

описание звукового поля (эти параметры могут варьироваться с течением времени):

- Число звуковых объектов: N>=1

- Азимутальный угол для каждого звукового объекта: αi(1<=i≤N)

- Полученные значения (значения коэффициента усиления) для каждого объекта: gi (I<i≤N)

Конфигурация акустической системы (обычно эти параметры являются инвариантными во времени):

- Число каналов выхода (=количеству громкоговорителей): М>=2

- Азимутальный угол для каждого громкоговорителя: θs (1<=s<=М)

- θs<=θs+1+∀s, где 1<=s<=M-l

Элементы матрицы смешения получаются из этих параметров, по следующей схеме для каждого звукового объекта i:

- Найти индекс s'(1<=s'<=М) с θs≤αi≤θs'+lм+i:= θl+2π)

- Применить амплитудное согласование (например, по формуле тангенса) между громкоговорителями s' и s'+1 (между громкоговорителями М и 1 в случае s'=М). В следующем описании переменные v - весовые коэффициенты согласования, то есть маштабирующие факторы, которые будут применены к сигналу, когда он распределяется между двумя каналами как, например, показано на фиг.4:

1≤p≤2.

Что касается вышеупомянутых уравнений, можно отметить, что в двумерном случае сигнал аудиообъекта, связанный со звуковым объектом пространственного звукового поля, будет распределен между двумя громкоговорителями многоканальной конфигурации акустической системы, которые находятся ближе всего к звуковому объекту. Однако параметры объекта, выбранные для вышеупомянутого действия, не единственные параметры объекта, которые могут использоваться, чтобы осуществить дальнейшие воплощения данного изобретения. Например, в трехмерном случае параметры объекта, указывающие на местоположение громкоговорителей или звуковых объектов, могут быть трехмерными векторами. Вообще, два параметра требуются для двумерного случая, и три параметра требуются для трехмерного случая, когда местоположение громкоговорителей должно быть однозначно определено. Однако даже в двумерном случае различные параметризации могут использоваться, например, для передачи двух координат в пределах прямоугольной системы координат. Кроме того, можно отметить, что дополнительный параметр согласования р, который находится в пределах диапазона 1-2, является произвольным стандартным линейным параметром, который устанавливается для отражения свойств акустики комнаты воспроизводящей системы/комнаты и который согласно некоторым функциям данного изобретения применяется дополнительно. Весовые параметры Ws/i могут определяться согласно следующей формуле, после того, как весовые параметры V1,i, и V2,i были получены согласно вышеупомянутым уравнениям. Матричные элементы окончательно определяются следующими уравнениями:

Предварительно введен коэффициент gi, который произвольно связан с каждым звуковым объектом, может использоваться, чтобы усилить или подавить индивидуальные объекты. Это может происходить уже на стороне приема сигнала, то есть в декодере, чтобы улучшать ясность индивидуально выбранных звуковых объектов.

Следующий пример звукового объекта 152 на фиг.4 опять таки должен использоваться, чтобы разъяснить применение вышеупомянутых уравнений. Пример использует ITU-R BS.775-1, соответствующий 3/2- каналу, что уже рассматривалось выше. Целью этого является получение направления согласования аудиообъекта, охарактеризованное азимутальным углом α1=60°, с произвольным согласованным коэффициентом усиления gi из 1 (то есть 0 децибелов). С этим примером комната воспроизведения должна показать некоторое отражение, согласованное с помощью параметра усиления р=2. Согласно фиг.4 установлено, что самые близко расположенные по отношению друг к другу громкоговорители - это правый фронтальный громкоговоритель 156b и правый громкоговоритель объемного звука 156с. Поэтому согласующие весовые параметры могут высчитываться с помощью следующего уравнения:

После некоторых математических подсчетов можно прийти к следующему решению:

v1,i≈0.8374; v2,i≈0.5466

Поэтому согласно вышеупомянутым инструкциям весовые параметры (матричные элементы) связаны с определенным звуковым объектом, который расположен по направлению αI, выражаются следующим образом:

W1=w2=w3=0; w4=0.8374; w5=0/5466

Вышеизложенное рассматривает применение данного изобретения в деталях. Для этого используются только те звуковые объекты, которые представляют собой монофонический сигнал, то есть точечные источники. Однако это гибкое понятие не ограничено применением с монофоническими звуковыми источниками. Наоборот, один объект или больше, которые должны рассматриваться как пространственно "разнесенные", также хорошо соответствует функции изобретения. Многоканальные параметры должны вырабатываться соответствующим образом, когда воспроизводятся источники или звуковые объекты, которые не являются точечными. Соответствующая мера для определения степени рассеянности между одним или более звуковыми объектами является ICC параметром поперечной корреляции объекта.

В системе SAOC все звуковые объекты должны быть точечными источниками, то есть парными некоррелированными монозвуковыми источниками без любого пространственного протяжения. Однако существуют дополнительные способы использования изобретения, в которых звуковые объекты могут содержать больше одного звукового канала и проявляя определенную степень попарной (де) корреляции. Самый простой и вероятно самый важный случай из всех перечисленных представлен стереообъектами, то есть объектами, состоящими из двух более или менее коррелированных каналов, которые соответствуют друг другу. Для примера, подобный объект может быть в виде пространственного представления, произведенного симфоническим оркестром. Чтобы выровнять стереообъекты в монозвуковые объекты системы, как это описано выше, оба канала стереообъекта рассматриваются как индивидуальные объекты. Взаимосвязь обоих объектов частично отражена дополнительным параметром поперечной корреляции, который вычисляется, основываясь на той же самой временной/частотной сетке, которая применяется для определения значения мощности дополнительной полосы σi2. Другими словами: стереообъект определяется рядом тремя параметрами {σi2, σj2, ICCij) временно/частотной ячейки, где ICCij обозначает попарную корреляцию между двумя воспроизведениями одного объекта. Эти две реализации обозначены как индивидуальные объекты i и j, имеющие в наличии попарную корреляцию ICCij).

Для корректного воспроизведения стереообъектов SAOC декодер должен обеспечить необходимые значения, чтобы установить правильную корреляцию между теми каналами воспроизведения, которые участвуют в воспроизведении стереообъектов, таким образом, чтобы вклад стереообъекта в соответствующие каналы показывал корреляцию в соответствии с ICCij параметра. От SAOC до MPEG транскодера объемного звука, который способен обрабатывать стереообъекты и, в свою очередь, должен определять параметры ICC для ОТТ колонок, которые участвуют в процессе воспроизведения связанных сигналов, таким образом, что количество декорреляций между каналами выхода MPEG декодера объемного звука соответствует данному условию.

Чтобы сделать так по сравнению с примером, данным в предыдущей разделе описания, необходимо произвести вычисление мощностей po,i и ро,2, а перекрестная мощность R0 должна измениться. Суммируя индексы двух аудиообъектов, которые вместе друг с другом формируют стереообъект i1 и i2, формула изменяется следующим образом:

,

,

.

Очевидно, что в случае ICCi1,i2 ∀ i1≠i2 и ICCi1,i2=1, в других случаях эти уравнения идентичны данным, указанным в предыдущих разделах.

Способность использования стереообъектов имеет очевидное преимущество, которое заключается в том, что качество воспроизведения пространственного звукового поля может быть увеличено в значительной степени, когда звуковые источники, кроме точечных источников, используются соответствующим образом. Кроме того, выработка пространственного звукового поля может выполняться более эффективно, когда есть возможность использования предварительно смешанных стереосигналов, которые широко доступны для большего числа звуковых объектов.

Следующие ниже положения покажут, что суть изобретения позволяет производить интеграцию точечных источников, которые имеют "врожденную" рассеянность. Помимо объектов, которые представлены точечными источниками как в предыдущих примерах, один или больше объектов могут также расцениваться как 'рассеяние'. Количество (степень) рассеяния может характеризоваться с помощью поперечной корреляции параметра ICCi,i, базированного на объекте. Для ICCi,i=1 объект i представляет собой точечный источник, в то время как для ICCi,i=0 объект максимально отражен. Данное объектно-зависимое рассеивание может быть суммировано в уравнениях, данных выше, при условии заполнения правильными показателями ICCi,i.

Когда используются стереообъекты, весовые факторы матрицы М должны быть адаптированы к этому. Однако адаптация может быть выполнена без использования данного изобретения; что касается обработки стереообъектов, два положения азимута (представляющие показатели азимута левого и правого "края" стереообъекта) преобразуются в матричные элементы воспроизведения.

Как уже было сказано, элементы воспроизводящей матрицы определяются индивидуально для различных ячеек времени/частоты и действительно отличаются друг от друга, независимо от типа звуковых используемых объектов.

Изменение в течение долгого времени может, например, отразить взаимодействие пользователя, через которое согласованные углы и значения коэффициента усиления для каждого индивидуального объекта могут изменяться произвольно в течение времени. Изменение по частоте позволяет влиять на различные особенности пространственного восприятия звукового поля, как частотная корреляция.

При осуществлении данного изобретения используется многоканальный преобразователь параметра, который позволяет достигнуть множество новых, не доступных до этого, применений и использований. В общем, функциональные возможности SAOC могут быть охарактеризованы как эффективное кодирование и интерактивное воспроизведение звуковых объектов. Изобретение может дать большие преимущества для многочисленных применений, требующих интерактивный звук, то есть используя изобретенный многоканальный преобразователь параметра или изобретенный метод для многоканального преобразования параметра.

Например, полностью интерактивные сценарии телеконференций становятся выполнимыми. Текущие телекоммуникационные инфраструктуры (телефон телеконференций и т.д.) являются монофоническими. Таким образом, классическое кодирование звукового объекта не может применяться, так как это потребует передачи одного элементарного потока через звуковой объект. Однако эти обычные каналы передачи могут быть расширены в своих функциональных возможностях с помощью SAOC с одним низведенным каналом. Телекоммуникационные терминалы оборудованы SAOC, который является главным образом многоканальным преобразователем параметра или изобретенным транскодером (преобразователем) параметра объекта, которые могут взять несколько звуковых источников (объектов) и смешать их в единый монофонический низведенный сигнал, который передается совместимым способом при использовании существующих кодировщиков (например, кодировщиков речи). Вспомогательная информация (пространственные звуковые параметры объекта или параметры объекта) может быть передана скрытым, обратным совместимым способом. В то время как такие передовые терминалы производят выходной поток объекта, содержащий несколько звуковых объектов, известные терминалы будут воспроизводить низведенный сигнал. И наоборот, исходящий сигнал, который производится известными терминалами (то есть только низведенный сигнал) будет рассматриваться транскодером SAOC как единый звуковой объект.

Этот принцип показан на фиг.6а.

В телеконференции могут принимать участие с одной стороны (позиция 200 на фиг.6) А объектов (говорящих), тогда как с другой стороны 202 - В объектов (говорящих). Согласно SAOC параметры объекта могут быть переданы от первый группы участников 200 вместе со связанным низведенным сигналом 204, тогда как низведенный сигнал 206 может быть передан от второго группы участников телеконференции 202 первой группе участников 200, связанных параметрами звукового объекта для каждого В объекта на второй стороне 202. Огромное преимущество заключается в том, что выходной сигнал от множества говорящих может передаваться при использовании одного низведенного канала; а также в том, что даже дополнительно говорящие могут быть выделены на приемной стороне как дополнительные аудиообъектные параметры, связанные с индивидуальными говорящим, передаваемые в рамках низведенного сигнала.

Это позволяет пользователю выделить одного интересующего говорящего, применяя объектно-ориентированные коэффициенты усиления gi таким образом, что остальные говорящие почти не слышны. Это было бы невозможно при использовании известных устройств многоканальной аудиотехники, так как они воспроизводят первоначальное звуковое поле наиболее естественно, насколько это возможно и не позволяют пользователю выделить для себя отдельные звуковые объекты. Фиг.6b иллюстрирует более сложный сценарий, в котором телеконференция выполняется из трех мест 200, 202 и 208. Так как каждый участник может только принимать и посылать один звуковой сигнал, инфраструктура использует так называемые многоточечные блоки управления MCU 210. Каждый участок (место) 200, 202 и 208 связан с MCU 210. От каждой стороны до MCU 210 идет единый поток, содержащий сигнал от каждой стороны. Идущий вниз поток для каждой стороны является смешанными сигналами от всех других сторон, кроме собственного сигнала (так называемый N-1 сигнал).

Согласно предварительно обсужденному осуществлению изобретения и изобретенным параметрам транскодеров формат битового потока SAOC поддерживает способность объединять два или более потока от объектов, то есть два потока, которые имеют низведенный канал и параметры звукового объекта. Все это связано в единый поток вычисленным достаточно эффективным способом, то есть способом, не требующим полной предварительной реконструкции пространственного звукового поля от посылающей звук стороны. Такая комбинация поддерживается без декодирования и перекодирования объектов согласно данному изобретению. Такой способ кодировки пространственного звукового объекта особенно удается при использовании коммуникационных MPEG кодирующих устройств с небольшой задержкой, таких как ААС.

Другая область данного изобретения, которая представляет особый интерес, - это интерактивный звук для игр и т.п. Из-за его низкой вычислительной сложности и независимости от воспроизводящей установки SAOC идеально подходит для воспроизведения интерактивного звука, такого как игровые приложения. Звук также может воспроизводиться в зависимости от выходного терминала. Так, например, пользователь/игрок может непосредственно влиять на воспроизведение/смешивание текущего звукового поля. Двигаясь вокруг виртуального звукового пространства, звуки отражаются адаптированными параметрами воспроизведения. Использование гибких установок последовательности/битового потока SAOC позволяет воспроизводить нелинейные игровые истории, которыми управляет пользователь. Согласно дальнейшим воплощениям данного изобретения изобретенный SAOC кодировщик применяется в рамках игр с большим количеством игроков, в которых пользователь взаимодействует с другими игроками в одном виртуальном мире/эпизоде. Видео и звуковое поле для каждого отдельного пользователя основано на его положении и ориентации в виртуальном мире и воспроизводится соответственно на его/ее местном терминале. Общие параметры игры и специфические пользовательские данные (положение, индивидуальный звук; чат и т.д.), обмениваются между различными игроками с использованием одного игрового сервера. При использовании известной техники каждый индивидуальный звуковой источник не доступен по умолчанию для каждого игрового устройства (особенно пользовательский чат, специальные звуковые эффекты), в игре поле должно быть закодировано и послано каждому игроку как индивидуальный звуковой поток. При использовании SAOC для каждого игрока может быть составлен/объединен в соответствующий звуковой поток на общем сервере игры, этот поток передается игроку как единый звуковой поток (содержащий все необходимые и релевантные объекты), поток воспроизводится в правильном пространственном положении для каждого звукового объекта {- звуки других игроков).

Согласно дальнейшему осуществлению данного изобретения SAOC используется для того, чтобы воспроизводить музыку из кинофильма под контролем, подобным многоканальному смешиванию, используя возможность приспособить относительный уровень, пространственное положение и слышимость инструментов согласно желанию слушателя. Слушатель (пользователь) может:

- подавлять/уменьшать определенные инструменты для того, чтобы определенный инструмент звучал отдельно (по типу Karaoke);

- изменять оригинальное соединение, чтобы настроить звук по своему предпочтению (например, больше барабанов и меньше струнных инструментов для танцевальной вечеринки, или меньше барабанов и большего вокала для расслабляющей музыки);

- выбирать между различными вокальными треками (женский ведущий вокал поверх мужского ведущего вокала) согласно своему предпочтению.

Вышеупомянутые примеры показывают, что данное изобретение предназначено для широкого и разнообразного использования в таких ситуациях и применениях, которые ранее были не доступны. Эти применения возможны при использовании многоканального преобразователя параметра, показанного на фиг.7, или при осуществлении метода для генерирования когерентного параметра, указывающего на взаимодействие между первым и вторым звуковым сигналом и параметром выходного уровня, как показано на фиг.8.

Фиг.7 показывает дальнейшее применение данного изобретения. Многоканальный преобразователь параметра 300 имеет провайдер параметра объекта 302, который используется для того, чтобы обеспечить параметры объекта, по крайней мере, одним аудиообъектом, связанным с низведенным каналом, который, в свою очередь, генерируется при использовании аудиосигнала аудиообъекта, связанного со звуковым объектом. Многоканальный преобразователь параметра 300 имеет генератор параметра 304 для выработки когерентного параметра и параметра выходного уровня. Параметр когерентности указывает на взаимодействие первого и второго звукового сигнала воспроизведения многоканального звукового сигнала, связанного с многоканальной конфигурацией громкоговорителя и параметром выходного уровня, который указывает на энергетическое взаимоотношение между звуковыми сигналами. Многоканальные параметры генерируются с использованием параметров объекта и дополнительных параметров акустической системы, указывающих на расположение громкоговорителей (колонок) акустической системы многоканальной конфигурации, которая используется для воспроизведения.

Фиг.8 показывает пример использования изобретенного метода для генерирования когерентного параметра, указывающего на корреляцию между первым и вторым звуковым сигналом многоканального звукового сигнала, связанного с многоканальной конфигурацией акустической системы для выработки параметра выходного уровня, указывающего на энергетическое взаимоотношение между звуковыми сигналами. Для реализации этапа 310 обеспечиваются параметры объекта, по меньшей мере, для одного звукового объекта, связанные с низведенным каналом, который генерируется, при использовании сигнала звукового объекта, связанного с самим звуковым объектом. Параметры объекта включают параметр направления, который указывает расположение звукового объекта и энергетический параметр, указывающий на энергию сигнала звукового объекта.

На этапе преобразования 312 определяются параметр когерентности и параметр выходного уровня в комбинации с параметром направления и энергетическим параметром с дополнительными параметрами акустической системы, указывающими на расположение громкоговорителей многоканальной конфигурации акустической системы, которая используется для воспроизведения.

Дальнейшее использование изобретения связано с транскодером параметра объекта, для генерирования когерентного параметра, определяющего связь между двумя звуковыми сигналами воспроизводства многоканального звукового сигнала, связанного с многоканальной конфигурацией акустической системы. Использование изобретения также связано с генерированием параметра выходного уровня, указывающего на энергетическое соотношение между двумя звуковыми сигналами, основанными на пространственном звуковом закодированном битовом потоке объекта. Это устройство имеет декомпозер битового потока, чтобы извлекать низведенный канал и связанные параметры объекта из пространственного звукового закодированного битового потока объекта и многоканального преобразователя параметра, как было описано выше.

Альтернативно или дополнительно, транскодер параметра объекта содержит многоканальный генератор битового потока, чтобы комбинировать низведенный канал, параметр когерентности и параметр выходного уровня для получения многоканального воспроизведения многоканального сигнала или интерфейса для непосредственного вывода параметра выходного уровня и параметра когерентности без квантизации и/или энтропийного кодирования. Другой транскодер параметра объекта имеет интерфейс выхода для дальнейшего оперативного вывода низведенного канала вместе с параметром когерентности и параметром выходного уровня или имеет интерфейс хранения, связанный с выводным интерфейсом для хранения параметра выходного уровня и параметра когерентности на носителе данных.

Кроме того, транскодер содержит многоканальный преобразователь параметра, как было описано выше, который работает для получения многократного когерентного параметра и параметра входного уровня для различных пар звуковых сигналов, представляющих различные громкоговорители многоканальной конфигурации акустической системы.

В зависимости от определенных требований применения изобретенных методов эти методы могут использоваться на жестких дисках или в программном обеспечении. Применение может быть реализовано с использованием цифровых носителей данных, в частности дисков DVD или CD, имеющих электронно-считываемый контроль сохраненных на них сигналов, которые работают совместно с компьютерной системой, запрограммированной с возможностью выполнения изобретенных методов. Вообще, существующее изобретение поэтому и является компьютерным программным продуктом с кодом программы, который хранится на машиночитаемом носителе, предназначенном для взаимодействия с программируемой компьютерной системой под действием считываемых управляющих сигналов в виде программных кодов. Другими словами, изобретенные методы - это компьютерная программа, имеющая программный код для того, чтобы выполнить, по крайней мере, один из изобретенных методов, когда компьютерная программа установлена на компьютере. Поскольку все ранее сказанное подробно показало и описало специфические применения данного изобретения, люди, сведущие в уровне техники, поймут, что другие изменения по форме и в деталях могут быть сделаны, не отступая от духа и возможностей изобретения. Необходимо также понимать, что различные изменения могут быть сделаны в рамках приспособления к различным осуществлениям данного изобретения, не отступая от более широких понятий, раскрытых и понятных из следующей ниже формулы.

Похожие патенты RU2431940C2

название год авторы номер документа
УСТРОЙСТВО ПОДАВЛЕНИЯ АКУСТИЧЕСКОГО ЭХА И ФРОНТАЛЬНОЕ УСТРОЙСТВО КОНФЕРЕНЦСВЯЗИ 2009
  • Кюх Фабиан
  • Каллингер Маркус
  • Шмидт Маркус
  • Зоуруб Мерай
  • Диатшук Марко
  • Мозер Оливер
RU2520359C2
УСОВЕРШЕНСТВОВАННЫЙ МЕТОД КОДИРОВАНИЯ И ПАРАМЕТРИЧЕСКОГО ПРЕДСТАВЛЕНИЯ КОДИРОВАНИЯ МНОГОКАНАЛЬНОГО ОБЪЕКТА ПОСЛЕ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ 2007
  • Энгдегард Йонас
  • Виллемоес Ларс
  • Пурнаген Хайко
  • Реш Барбара
RU2485605C2
БИНАУРАЛЬНАЯ ВИЗУАЛИЗАЦИЯ МУЛЬТИКАНАЛЬНОГО ЗВУКОВОГО СИГНАЛА 2009
  • Коппенс Жероен
  • Мундт Харалд
  • Терентьев Леонид
  • Фалх Корнелия
  • Хилперт Йоханнес
  • Хеллмут Оливер
  • Виллемоес Ларс
  • Плогштиес Ян
  • Бреебаарт Джероен
  • Энгдегард Йонас
RU2512124C2
ТРАНСКОДИРОВЩИК АУДИО ФОРМАТА 2010
  • Тиергарт Оливер
  • Фалх Корнелиа
  • Кюх Фабиан
  • Дел Галдо Джиованни
  • Херре Юрген
  • Каллингер Маркус
RU2519295C2
УСТРОЙСТВО И СПОСОБ ГЕНЕРИРОВАНИЯ ВЫХОДНЫХ ЗВУКОВЫХ СИГНАЛОВ ПОСРЕДСТВОМ ИСПОЛЬЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННЫХ МЕТАДАННЫХ 2009
  • Шрейнер Стефан
  • Физель Вольфганг
  • Нюзингер Матиас
  • Гельмут Оливер
  • Спершнайдер Ральф
RU2604342C2
УСОВЕРШЕНСТВОВАННЫЙ МЕТОД КОДИРОВАНИЯ И ПАРАМЕТРИЧЕСКОГО ПРЕДСТАВЛЕНИЯ КОДИРОВАНИЯ МНОГОКАНАЛЬНОГО ОБЪЕКТА ПОСЛЕ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ 2007
  • Энгдегард Йонас
  • Виллемоес Ларс
  • Пурнаген Хайко
  • Реш Барбара
RU2430430C2
УСТРОЙСТВО И СПОСОБ ГЕНЕРИРОВАНИЯ ВЫХОДНЫХ ЗВУКОВЫХ СИГНАЛОВ ПОСРЕДСТВОМ ИСПОЛЬЗОВАНИЯ ОБЪЕКТНО-ОРИЕНТИРОВАННЫХ МЕТАДАННЫХ 2009
  • Шрейнер Стефан
  • Физель Вольфганг
  • Нюзингер Матиас
  • Гельмут Оливер
  • Спершнайдер Ральф
RU2510906C2
АУДИОКОДИРОВАНИЕ С ИСПОЛЬЗОВАНИЕМ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ 2008
  • Хелльмут Оливер
  • Херре Юрген
  • Терентьев Леонид
  • Хёльцер Андреас
  • Фалч Корнелия
  • Хилперт Йоханнес
RU2452043C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ГЕНЕРАЦИИ БИНАУРАЛЬНОГО АУДИОСИГНАЛА 2008
  • Виллемоес Ларс Фалк
  • Бриибаарт Дирк Джероен
RU2443075C2
УПРАВЛЯЕМОЕ МОДУЛЕМ РЕНДЕРИНГА ПРОСТРАНСТВЕННОЕ ПОВЫШАЮЩЕЕ МИКШИРОВАНИЕ 2014
  • Эртель Кристиан
  • Хильперт Йоханнес
  • Хельцер Андреас
  • Кунтц Ахим
  • Плогстис Ян
  • Крачмер Михаэль
RU2659497C2

Иллюстрации к изобретению RU 2 431 940 C2

Реферат патента 2011 года АППАРАТУРА И МЕТОД МНОГОКАНАЛЬНОГО ПАРАМЕТРИЧЕСКОГО ПРЕОБРАЗОВАНИЯ

Изобретение относится к многоканальному преобразованию параметров, в частности к генерированию параметров когерентности и параметров выходного уровня, которые указывают на пространственные свойства между двумя звуковыми сигналами, основанными на объектно-параметровом базовом представлении звукового воспроизведения в пространстве. Преобразователь генерирует параметры, определяющие соотношение между первым и вторым каналом многоканального звукового сигнала, связанные с конфигурацией многоканальной акустической системы. Параметры уровня генерируются на основе параметров объекта из множества звуковых объектов, связанных с каналом понижающего микширования, которые генерируются, используя звуковые сигналы объекта, ассоциирующиеся со звуковыми объектами. Параметры объекта содержат энергетический параметр, указывающий энергию звукового сигнала объекта. Для получения параметров когерентности и уровня использован параметрический генератор, который объединяет энергетический параметр и параметры воспроизведения объекта, которые зависят от желаемой конфигурации воспроизведения. Технический результат - уменьшение сложности применения различных систем, которые предназначены для кодирования и расшифровывания параметрических многоканальных звуковых потоков. 3 н. и 24 з.п. ф-лы, 10 ил.

Формула изобретения RU 2 431 940 C2

1. Многоканальный преобразователь параметра для генерирования параметра выходного уровня, который указывает на энергетическое соотношение между первым звуковым сигналом и вторым звуковым сигналом при воспроизведении многоканального пространственного звукового сигнала; характеризующийся тем, что он содержит преобразователь параметра объекта для обеспечения объектных параметров для множества звуковых объектов, подключенный к каналу понижающего микширования в зависимости от объектных звуковых сигналов, связанных со звуковыми объектами; при этом параметры объекта содержат энергетический параметр для каждого звукового объекта, определяющий энергетическую информацию сигнала звукового объекта; и генератор параметра для получения параметра выходного уровня с помощью комбинирования энергических параметров и параметров воспроизведения объекта, которые связаны с конфигурацией воспроизведения.

2. Многоканальный преобразователь параметра по п.1, характеризующийся тем, что он выполнен с возможностью генерирования параметра когерентности, определяющего корреляцию между первым и вторым звуковым сигналом воспроизведения многоканального звукового сигнала; и в котором генератор параметра приспособлен для того, чтобы получать параметр когерентности, основанный на параметрах воспроизведения объекта и энергетическом параметре.

3. Многоканальный преобразователь параметра по п.1, характеризующийся тем, что, он выполнен с возможностью воспроизведения параметров объекта в зависимости от параметров расположения объекта, указывающих расположение звукового объекта.

4. Многоканальный преобразователь параметра по п.1, характеризующийся тем, что в нем конфигурация воспроизведения содержит конфигурацию многоканального громкоговорителя и, в соответствии с которой параметры воспроизведения объекта зависят от параметров акустической системы, указывающих на расположение громкоговорителей конфигурации многоканальной акустической системы.

5. Многоканальный преобразователь параметра по п.1, характеризующийся тем, что преобразователь объектного параметра выполнен с возможностью функционирования для обеспечения параметров объекта дополнительным параметром направления, указывающим на расположение объекта относительно нахождения слушателя; генератор многоканального преобразователя параметра функционирует так, чтобы использовать параметры воспроизведения объекта в зависимости от параметров акустической системы, указывающих на расположение акустических систем относительно положения слушателя и в зависимости от параметра направления.

6. Многоканальный преобразователь параметра по п.1, характеризующийся тем, что преобразователь объектного параметра выполнен с возможностью функционирования для получения пользовательских входных параметров объекта, дополнительно содержащих параметр направления, который указывает задаваемое пользователем расположение объекта относительно положения слушателя в пределах конфигурации акустической системы; и генератор параметра функционирует так, чтобы использовать параметры воспроизведения объекта в зависимости от параметров акустической системы, указывающих на расположение акустических систем относительно положения слушателя и в зависимости от параметра направления ввода пользователя.

7. Многоканальный преобразователь параметра по п.4, характеризующийся тем, что преобразователь параметра объекта и генератор параметра функционируют, чтобы использовать параметр направления, определяющий угол в рамках плоскости отсчета;
плоскость отсчета также содержит акустические системы, указывающие расположение параметров акустической системы.

8. Многоканальный преобразователь параметра в по п.1, характеризующийся тем, что генератор параметра приспособлен для использования первого и второго весового параметра в качестве параметра воспроизведения объектов, которые указывают на то, что определенная часть энергии звукового объекта распределяется между первым и вторым громкоговорителем многоканальной акустическая системы, первый и второй весовые параметры зависят от параметров акустической системы, указывающих на расположение громкоговорителей многоканальной конфигурации акустической системы, такой что весовые параметры не равны нулю, когда параметры акустической системы показывают, что первый и второй громкоговорители находятся наиболее близко к звуковому объекту по сравнению другими громкоговорителями этой акустической системы.

9. Многоканальный преобразователь параметра по п.8, характеризующийся тем, что генератор параметра выполнен с возможностью использования весовых параметров, определяющих большую часть энергии звукового сигнала для первого громкоговорителя, когда параметры акустической системы указывают на наиболее близкое расстояние между первым громкоговорителем и расположением звукового объекта, чем между вторым громкоговорителем и расположением звукового объекта.

10. Многоканальный преобразователь параметра по п.8, характеризующийся тем, что генератор параметра содержит: генератор весового коэффициента для того, чтобы подавать первый и второй весовые параметры w1 и w2 в зависимости от параметров акустической системы Θ1 и Θ2 в первый и второй громкоговорители и в зависимости от параметра направления α звукового объекта, где параметры акустической системы Θ1 и Θ2 и параметр направления α указывают расположение громкоговорителей и звукового объекта относительно положения слушателя.

11. Многоканальный преобразователь параметра по п.10, характеризующийся тем, что генератор весового коэффициента выполнен с возможностью обеспечения весовых параметров w1 и w2 таким образом, чтобы выполнялись следующие уравнения:


где p - дополнительный согласующий линейный параметр, который установлен для отражения акустических свойств комнаты воспроизводящей системы/комнаты и определен как 1≤р≤2.

12. Многоканальный преобразователь параметра по п.10, характеризующийся тем, что генератор выполнен с возможностью дополнительного измерения весовых параметров, применяя общий мультипликативный усилитель, связанный со звуковым объектом.

13. Многоканальный преобразователь параметра по п.1, характеризующийся тем, что генератор выполнен с возможностью получения параметра выходного уровня или параметра когерентности, основанных на первой оценочной мощности pk,1 связанной с первым звуковым сигналом, где первый звуковой сигнал предназначен для громкоговорителя и является виртуальным сигналом, который представляет собой группу сигналов громкоговорителя, и основанных на второй мощности pk,2, связанной со вторым звуковым сигналом, второй звуковой сигнал предназначен для разных громкоговорителей и является виртуальным сигналом, представляющим группу сигналов из различных громкоговорителей, первая мощность pk,1 первого звукового сигнала зависит от энергетических параметров и весовых параметров, связанных с первым звуковым сигналом, а вторая мощность pk,2 связана со вторым звуковым сигналом и зависит от энергетических и весовых параметров, связанных со вторым звуковым сигналом, где k - целое число, указывающее пару из множества различных пар первого и второго сигналов, а весовые параметры зависят от параметров воспроизведения объекта.

14. Многоканальный преобразователь параметра по п.13, характеризующийся тем, что генератор параметра обеспечивает возможность вычисления параметра уровня или параметра последовательности для k пар различных первых и вторых звуковых сигналов, и в котором первая и вторая мощность оценивает pk,1 и pk,2, связанные с первым и вторым звуковыми сигналами, которые основаны на следующих уравнениях, зависящий от энергетических параметров σi2, от весовых параметров w1,i, связанных с первым звуковым сигналом, и весовых параметров w2,j, связанных со вторым звуковым сигналом:


где i - индекс, указывающий звуковой объект из множества звуковых объектов,
k - целое число, указывающее пару множества пар различных первых и вторых сигналов.

15. Многоканальный преобразователь параметра по п.14, в котором k является равным нулю, в котором первый звуковой сигнал является виртуальным сигналом и представляет группу, включающую левый фронтальный канал, правый фронтальный канал, центральный канал и Ife канал, и в которых второй звуковой сигнал является виртуальным сигналом и представляет группу, включающую левый объемный канал и правый объемный канал, или в котором k является равным единице, в котором первый звуковой сигнал является виртуальным сигналом и представляет группу, включающую левый фронтальный канал, правый фронтальный канал, и в которых второй звуковой сигнал является виртуальным сигналом и представляет группу, включающую центральный канал и Ife канал, или в котором k является равным двум, в котором первый звуковой сигнал является сигналом акустической системы для левого объемного канала, и в котором второй звуковой сигнал является сигналом акустической системы для правого объемного канала, или k является равным трем, в котором первый звуковой сигнал является сигналом акустической системы для левого фронтального канала, и в котором второй звуковой сигнал является сигналом акустической системы для правого фронтального канала, или k является равным четырем, в котором первый звуковой сигнал является сигналом акустической системы для центрального канала, и в котором второй звуковой сигнал является сигналом акустической системы для низкочастотного усиливающего канала, и в котором весовые параметры для первого или второго звуковых сигналов определяются комбинацией воспроизводящих параметров объекта, связанных с каналами первым или вторым звуковым сигналом.

16. Многоканальный преобразователь параметра по п.14, характеризующийся тем, что k является равным нулю, в котором первый звуковой сигнал является виртуальным сигналом и представляет группу, включающую левый фронтальный канал, левый объемный канал, правый фронтальный канал и правый объемный канал, и в котором второй звуковой сигнал является виртуальным сигналом и представляет группу, включающую центральный канал и низкочастотный канал усиления, или в котором k является равным одному, в котором первый звуковой сигнал является виртуальным сигналом и представляет группу, включающую левый фронтальный канал, и левый объемный канал, и в котором второй звуковой сигнал является виртуальным сигналом и представляет группу, включающую правый фронтальный канал, и правый объемный канал, или в котором k является равным двум, в котором первый звуковой сигнал является сигналом акустической системы для центрального канала, и в котором второй звуковой сигнал является сигналом акустической системы для низкочастотного канала усиления, или в котором k является равным трем, в котором первый звуковой сигнал является сигналом акустической системы для левого фронтального канала, и в котором второй звуковой сигнал является сигналом акустической системы для левого объемного канала, или в котором k является равным четырем, в котором первый звуковой сигнал является сигналом акустической системы для правого фронтального канала, и в котором второй звуковой сигнал является сигналом акустической системы для правого объемного канала, и в котором весовые параметры для первого звукового сигнала или второго звукового сигнала получены комбинированием параметров воспроизведения объекта, связанных с каналами, представленными первым звуковым сигналом или вторым звуковым сигналом.

17. Многоканальный преобразователь параметра по п.13, характеризующийся тем, что генератор параметра приспособлен для получения параметра выходного уровня CLDk, основанного на следующем уравнении:
.

18. Многоканальный преобразователь параметра по п.13, характеризующийся тем, что генератор параметра приспособлен, чтобы получить параметр когерентности, основанный на взаимной оценке мощности Rk, связанный с первым и вторыми звуковыми сигналами, зависящими от параметров энергии и от весовых параметров w1, связанных с первым звуковым сигналом и весовых параметров w2, связанных со вторым звуковым сигналом, где i - индекс, указывающий на звуковой объект из множества звуковых объектов.

19. Многоканальный преобразователь параметра по п.18, характеризующийся тем, что генератор параметра адаптирован для использования или получения оценки взаимной мощности Rk, основанной на следующем уравнении:
.

20. Многоканальный преобразователь параметра по п.18, характеризующийся тем, что генератор параметра адаптирован для использования или получения параметра когерентности ICC на основе уравнения:
.

21. Многоканальный преобразователь параметра по п.1, характеризующийся тем, что преобразователь параметра адаптирован для получения параметра энергии для каждого звукового объекта и для каждой или множества частотных полос, и в котором генератор параметра выполнен с возможностью вычисления параметра уровня или параметра когерентности для каждой из частоты из полосы частот.

22. Многоканальный преобразователь параметра по п.1, характеризующийся тем, что генератор параметра функционирует с возможностью использования использовать различных параметров воспроизведения объекта для различных временных интервалов звукового сигнала объекта.

23. Многоканальный преобразователь параметра по п.8, характеризующийся тем, что генератор весового коэффициента функционирует, чтобы вырабатывать для каждого объекта i, весовых коэффициентов wr,i для r-th громкоговорителя в зависимости от параметров направления объекта αi и параметров громкоговорителя Θ, основанного на следующих уравнениях: для индекса s' (1≤s'≤M), где
θs'≤αi≤θs'+1M+1:=θ1+2π)
; ; 1≤P≤2.

24. Многоканальный преобразователь параметра по п.8, характеризующийся тем, что преобразователь параметра объекта адаптирован для использования или получения параметров для стерео объекта, стерео объект, имеющий первый стерео подобъект и второй стерео подобъект, параметры энергии, имеющие первый параметр энергии для первого подобъекта стерео звукового объекта, второй параметр энергии для второго подобъекта стерео звукового объекта и параметра корреляции стерео, параметр корреляции стерео, указывающий корреляцию между подобъектами стерео объекта; и в котором генератор параметра функционирует, чтобы получить параметр когерентности или параметр выходного уровня, дополнительно используя второй параметр энергии и параметр стерео корреляции.

25. Многоканальный преобразователь параметра по п.24, характеризующийся тем, что генератор параметра функционирует, чтобы получить параметр выходного уровня и параметр когерентности, основанный на оценке мощности p0,1, связанной с первым звуковым сигналом и оценкой мощности р0,2, связанной со вторым звуковым сигналом и взаимной корреляцией мощности R0, используя первый параметр энергии , второй параметр энергии и параметр стерео корреляции ICCi,j такой, что оценка мощности и оценка взаимной корреляции мощности могут быть охарактеризованы следующими уравнениями:
,
,
.

26. Способ генерирования пространственных звуковых параметров, включая параметр выходного уровня, определяющий энергетическое соотношение между первым звуковым сигналом и вторым звуковым сигналом воспроизведения многоканального пространственного звукового сигнала, включающий: обеспечение параметров объекта для множества звуковых объектов, связанных с низведенным каналом в зависимости от сигналов звукового объекта, связанных со звуковыми объектами, параметры объекта, включающие энергетический параметр для каждого звукового объекта, указывающего на информацию энергии сигнала звукового объекта; обеспечивая воспроизведение параметров объекта, которые связаны с конфигурацией воспроизведения; и получение параметра выходного уровня с помощью комбинирования энергетических параметров и параметров воспроизведения объекта.

27. Машиночитаемый носитель информации, на котором хранится компьютерная программа, имеющая программный код для выполнения при работе на компьютере способа генерирования пространственных звуковых параметров, включая параметр выходного уровня, определяющий энергетическое соотношение между первым звуковым сигналом и вторым звуковым сигналом и вторым звуковым сигналом воспроизведения многоканального пространственного звукового сигнала, включающего обеспечение параметров объекта для множества звуковых объектов, связанных с каналом низведения в зависимости от сигналов звукового объекта, связанных со звуковыми объектами, параметры объекта, включающие энергетический параметр для каждого звукового объекта, определяющий энергетическую информацию сигнала звукового объекта; обеспечивая воспроизведение параметров объекта, которые связаны с конфигурацией воспроизведения; и получение параметра выходного уровня с помощью комбинирования энергетических параметров и параметров воспроизведения объекта.

Документы, цитированные в отчете о поиске Патент 2011 года RU2431940C2

RU 205104123 А, 2005.07.10
US 5912976 А, 1999.06.15
ЕР 1376538 A1, 2004.01.02
Способ приготовления мыла 1923
  • Петров Г.С.
  • Таланцев З.М.
SU2004A1
US 2005195981 A1, 2005.09.08.

RU 2 431 940 C2

Авторы

Хилперт Йоханнес

Линцмайер Карштайн

Херре Юрген

Шпершнайдер Ральф

Хёльцер Андреас

Виллемоес Ларс

Энгдегард Йонас

Пурнаген Хайко

Кёрлинг Кристофер

Бреебаарт Йероен

Оомен Вернер

Даты

2011-10-20Публикация

2007-10-05Подача