Показать метаданные Скрыть метаданные

(19)

(11)

2 573 738

(13)

(51)

МПК

G10L19/00(2013-01-01)

G10L19/08(2013-01-01)

(21) (22)

Заявка

2011145866/08, 2010-04-28

(24)

Дата начала отсчета патента

2010-04-28

(22)

дата подачи заявки

2010-04-28

(45)

опубликовано

2016-01-27

(72)

авторы

Херре ЮргенХоелцер АндреасТерентьев ЛеонидКастнер ТорстенФалх КорнелиаПурнхаген ХеикоЭнгдегард ЙонасФалко Риддербуш

(73)

патентообладатели

Фраунхофер-Гезелльшафт Цур Фёрдерунг Дер Ангевандтен Форшунг Е.Ф.Фридрих-Александр-Университет Эрланген-НюрнбергДолби Интернэшионал Аб

(56)

Документы, цитированные в отчете о поиске

US 2008002842 A1, 03.01.2008WO 2008084427 A2, 17.07.2008WO 2008035275 A2, 27.03.2008WO 2009049895 A1, 23.04.2009RU 2009109125 A, 05.10.2007.

УСТРОЙСТВО ДЛЯ ОПТИМИЗАЦИИ ОДНОГО ИЛИ БОЛЕЕ ПАРАМЕТРОВ ПРЕДСТАВЛЕНИЯ СИГНАЛА ПОВЫШАЮЩЕГО МИКШИРОВАНИЯ НА ОСНОВЕ ПРЕДСТАВЛЕНИЯ СИГНАЛА ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ, ДЕКОДЕР АУДИОСИГНАЛА, ТРАНСКОДЕР АУДИОСИГНАЛА, КОДЕР АУДИОСИГНАЛА, АУДИОБИТСТРИМ, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА С ИСПОЛЬЗОВАНИЕМ ОБЪЕКТНО-ОРИЕНТИРОВАННОЙ ПАРАМЕТРИЧЕСКОЙ ИНФОРМАЦИИ Российский патент 2016 года по МПК G10L19/00 G10L19/08

Описание патента на изобретение RU2573738C2

Область техники

Конструктивные решения, основанные на заявляемом изобретении, относятся к устройству оптимизации одного или более параметров представления микшированного с повышением сигнала [апмикса] на основе представления микшированного с понижением сигнала [даунмикса] и объектно-ориентированной параметрической информации.

Одно из технических решений по данному изобретению относится к декодеру аудиосигнала.

Другое техническое решение заявляемого изобретения связано с транскодером аудиосигнала.

Еще одно аппаратное исполнение предлагаемого изобретения относится к способу оптимизации одного или более параметров.

Кроме того, ряд конструктивных решений связан со способом представления в виде сигнала повышающего микширования [апмикс-сигнснала] множества аудиоканалов повышающего микширования на основе представления микшированного с понижением сигнала [даунмикс-сигнала], объектно-ориентированной параметрической информации и параметров задаваемого рендеринга [желаемого звучания].

Один из вариантов осуществления имеет отношение к способу представления в виде апмикс-сигнала представления даунмикс-сигнала и параметрических данных каналов, сформированных на базе представления даунмикс-сигнала, объектно-ориентированной параметрической информации и параметров задаваемого рендеринга.

Далее, реализации заявляемого изобретения относятся к кодеру аудиосигнала, способу кодированного представления аудиосигнала и двоичному потоку представления звука [аудиобитстрму].

Логическим оформлением указанных версий осуществления являются соответствующие компьютерные программы.

Помимо указанного, изобретение осуществлено в виде способов, устройства и компьютерных программ для обработки аудиосигнала с устранением искажений.

Уровень техники

Технология обработки, передачи и хранения звука все больше стремится к такому преобразованию многоканального аудиоконтента, которое совершенствует качество акустического образа. Использование многоканального аудиоконтента способствует значительному улучшению слухового восприятия. Можно получить, например, трехмерный акустический эффект, при котором возрастает степень удовлетворенности развлекательным приложением. Более того, многоканальный аудиоконтент применяют также в профессиональных средах, в частности, в телеконференцсвязи, где разборчивость речи говорящего может быть скорректирована путем многоканального воспроизведения звука.

При этом необходимо выбрать оптимальное соотношение качества звука и скорости передачи данных [битрейта] во избежание чрезмерной нагрузки на ресурс за счет многоканальных приложений.

В последнее время предложен ряд параметрических инструментов эффективной передачи и/или хранения многообъектных аудиосцен, куда можно причислить, например, кодирование бинаурального сигнала (Тип 1) (см., например, ссылку [ВСС]), кодирование совокупного источника (см., например, ссылку [JSC]), и пространственное кодирование аудиообъекта в стандарте MPEG (SAOC) (см., например, ссылки [SAOC1], [SAOC2]).

Эти инструментальные средства применяют с целью воссоздания выбранной звуковой сцены перцептуально, а не за счет волнового согласования.

На фиг.8 представлена общая схема подобной системы (здесь - системы пространственного кодирования аудиообъекта SAOC формата MPEG-MPEG SAOC). Система MPEG SAOC 800 на фиг.8 состоит из кодера SAOC 810 и декодера SAOC 820. Кодер SAOC 810 принимает множество сигналов объектов x₁-x_N, которые могут представлять собой, скажем, сигналы временной области или сигналы частотно-временной области (допустим, в виде набора коэффициентов одного из преобразований Фурье или в виде подполосовых сигналов КЗФ [квадратурно-зеркального фильтра]). Помимо этого, кодер SAOC 810 часто получает коэффициенты понижающего микширования [даунмикса] d₁-d_N, соотнесенные с сигналами объектов x₁ to x_N. Отдельные комбинации коэффициентов понижающего микширования [даунмикс-коэффициентов] можно применять для каждого канала микшированного с понижением сигнала [даунмикс-сигнала]. С помощью кодера SAOC 810 обычно формируют канал микшированного с понижением сигнала, комбинируя сигналы объектов x₁-x_N в соответствии с присвоенными коэффициентами понижающего микширования d₁-d_N. Типично, даунмикс-каналов меньше, чем сигналов объектов x₁-x_N. Предусматривая (хотя бы, приблизительное) разделение (или раздельное преобразование) сигналов объектов на стороне декодера SAOC 820, кодер SAOC 810 генерирует один или более даунмикс-сигналов (обозначенных как даунмикс-каналы) 812 и сопроводительную служебную информацию 814. Служебная информация 814 отражает характеристики сигналов объектов x₁-x_N, что обеспечивает объектно-ориентированную обработку на стороне декодера.

Декодер SAOC 820 предусматривает прием одного или более даунмикс-сигналов 812 и сопроводительной служебной информации 814. Кроме того, декодер SAOC 820, как правило, рассчитан на получение от пользователя интерактивной информации и/или управляющей информации 822, в которой описывается желаемый режим воспроизведения [рендеринг]. Так, предположим, информация от пользователя в реальном времени/пользовательские параметры управления 822 могут задавать параметры громкоговорителя и желаемое пространственное расположение объектов-источников сигналов x₁-x_N.

Декодер SAOC 820 предусматривает, например, генерирование множества декодированных сигналов канала повышающего микширования [апмикс-канала] ${\hat{y}}_{1} - {\hat{y}}_{M}$ . Сигналы канала повышающего микширования могут, к примеру, быть привязаны к индивидуальным динамикам многоколоночной системы воспроизведения звука. Декодер SAOC 820 может, в частности, включать в себя разделитель объектов 820а, выполняющий, по крайней мере, приближенную, реконструкцию сигналов объектов x₁-x_N на основе одного или более микшированных с понижением сигналов 812 и служебной информации 814, получая в результате реконструированные сигналы объектов 820b. Однако, реконструированные сигналы объектов 820b могут иметь некоторые девиации относительно оригинальных сигналов объектов x₁-x_N потому, например, что сопроводительная служебная информация 814 не всегда достаточна для адекватного воссоздания исходного материала в силу ограничений по скорости передачи данных. Кроме того, декодер SAOC 820 может иметь в своем составе смеситель [микшер] 820 с, способный принимать реконструированные сигналы объектов 820b и информацию обратной связи с пользователем/управляющую информацию пользователя 822 и на их базе генерировать сигналы канала повышающего микширования ${\hat{y}}_{1} - {\hat{y}}_{M}$ . Смеситель 820 предусматривает задействование интерактивной информации от пользователя/пользовательских управляющих данных 822 для расчета соотношения составляющих индивидуальных реконструированных сигналов объектов 820b в сигналах апмикс-каналов ${\hat{y}}_{1} - {\hat{y}}_{M}$ . Интерактивная пользовательская информация/управляющая пользовательская информация 822 может, в частности, включать в себя параметры воспроизведения (называемые также коэффициентами рендеринга), которые определяют соотношение составляющих отдельных сигналов реконструируемых объектов 822 в сигналах каналов повышающего микширования ${\hat{y}}_{1} - {\hat{y}}_{M}$ .

Здесь следует обратить внимание на то, что при реализации часто разделение объектов, обозначенное на фиг.8 как разделитель объектов 820а, и микширование, обозначенное на фиг.8 как смеситель 820 с, осуществляют за одну операцию. Для этого рассчитывают сводные параметры, описывающие прямое соотнесение одного или более микшированных с понижением сигналов 812 с сигналами каналов повышающего микширования ${\hat{y}}_{1} - {\hat{y}}_{M}$ . Эти параметры могут быть рассчитаны, исходя из служебной информации и пользовательской информации обратной связи/управления 820.

Теперь, со ссылкой на фигуры 9а, 9b и 9c рассмотрим другой вариант реализации устройства, формирующего представления сигнала, микшированного с повышением на базе представления сигнала, микшированного с понижением, и объектно-ориентированной служебной информации. На фиг.9а дана принципиальная блочная схема системы MPEG SAOC 900, включающей в себя декодер SAOC 920. Декодер SAOC 920 в качестве самостоятельных функциональных блоков содержит декодер объекта 922 и смеситель/рендерер 926. Декодер объектов 922 генерирует множество восстановленных сигналов объектов 924, опираясь на полученное им представление даунмикс-сигнала (допустим, в виде одного или более сигналов понижающего микширования во временной области или в частотно-временной области) и на объектно-ориентированную сопутствующую информацию (допустим, в виде метаданных объекта). Смеситель/рендерер 924 получает восстановленные сигналы объектов 924, относящиеся к множеству N объектов, и на их основе формирует один или более сигналов апмикс-канала 928. В компоновке SAOC-декодера 920 экстракция сигналов объекта 924 выполняется отдельно от микширования/рендеринга, что позволяет разделить функции декодирования объекта и микширования/рендеринга, однако приводит к относительно высокой вычислительной сложности.

Далее, обратившись к фиг.9b, кратко обсудим еще одно конструктивное решение системы MPEG SAOC 930, куда введен декодер SAOC 950. Декодер SAOC 950 генерирует множество восстановленных сигналов объектов 958, опираясь на полученное им представление даунмикс-сигнала (допустим, в виде одного или более сигналов понижающего микширования) и на объектно-ориентированную служебную информацию (допустим, в виде метаданных объекта). Декодер SAOC 950 представляет собой интегрированный декодер и смеситель/рендерер объекта, выполненный с возможностью генерирования сигналов апмикс-каналов 958 в ходе комбинированного процесса микширования без разделения декодирования и микширования/рендеринга объектов, параметры которого строятся на объектно-ориентированный служебной информации и данных рендеринга. Комбинированный процесс повышающего микширования зависит также от информации понижающего микширования, которая рассматривается как часть объектно-ориентированной служебной информации.

Делая вывод из сказанного, сигналы каналов повышающего микширования 928, 958 могут быть сгенерированы в ходе одноэтапной или двухэтапной операции.

Теперь, обращаясь к фиг.9 с, охарактеризуем систему MPEG SAOC 960. Система [пространственного кодирования оудиообъекта] SAOC 960 предпочтительно включает в себя транскодер SAOC в MPEG Surround 980 вместо декодера SAOC.

Преобразователь кода [транскодер] SAOC в MPEG Surround состоит из перекодировщика [транскодера] служебной информации 982, который предназначен для приема объектно-ориентированной служебной информации (предположительно, в форме метаданных объекта) и, факультативно, информации об одном или более даунмикс-сигналов и параметров рендеринга. Перекодировщик служебной информации предназначен также для выработки на базе полученных данных служебной информации формата MPEG Surround (например, в форме битстрима MPEG Surround). Соответственно, транскодер служебной информации 982 выполняет функцию преобразования объектно-ориентированной (параметрической) служебной информации, поступающей от кодера объектов, в служебную (параметрическую) информацию, описывающую каналы с учетом параметров рендеринга и, произвольно, информации о контенте одного или более микшированных с понижением сигналов.

В качестве опции транскодер SAOC в MPEG Surround 980 может выполнять функцию манипулирования одним или более даунмикс-сигналами, описанными, например, посредством представления даунмикс-сигнала с получением видоизмененного [манипуляцией] представления сигнала понижающего микширования 988. Тем не менее, манипулятор даунмикс-сигналом 986 можно не включать в компоновку, в результате чего представление сигнала понижающего микширования 988 на выходе транскодера SAOC в MPEG Surround 980 будет идентичным представлению сигнала понижающего микширования на входе транскодера SAOC в MPEG Surround. Манипулятор даунмикс-сигналом 986 может найти применение, например, когда служебная информация MPEG Surround 984 с привязкой к каналам не позволяет создать желаемое слуховое впечатление на базе представления сигнала понижающего микширования на входе транскодера SAOC в MPEG Surround 980, что может иметь место при некоторых констелляциях [совокупностях факторов] акустического рендеринга.

Следовательно, транскодер SAOC в MPEG Surround 980 формирует представление сигнала понижающего микширования 988 и битстрим формата MPEG Surround 984 таким образом, что множество сигналов каналов повышающего микширования, отображающих аудиообъекты в соответствии с данными рендеринга, вводимыми в транскодер SAOC -MPEG Surround 980, могут быть сгенерированы с помощью декодера MPEG Surround, на который поступают битстрим MPEG Surround 984 и представление даунмикс-сигнала 988.

Из сказанного вытекает, что для декодирования аудиосигналов, закодированных в SAOC, можно применять различные подходы. В некоторых случаях используют декодер SAOC, который генерирует сигналы каналов повышающего микширования (например, сигналы апмикс-каналов 928, 958) на основе представления сигналов понижающего микширования и объектно-ориентированной служебной параметрической информации. Примеры такого подхода приведены на фиг.9а и 9b. В другом случае аудиоданные, закодированные в SAOC, могут быть перекодированы с получением представления сигнала понижающего микширования (например, представления даунмикс-сигнала 988) и сопроводительной информации, специфицирующей канал (например, битстрима MPEG Surround 984, характеризующего канал), которые будут использованы декодером MPEG Surround для выработки необходимых сигналов каналов повышающего микширования.

На фиг.8 показана общая схема системы MPEG SAOC 800, которая предусматривает частотно-избирательную обработку каждого частотного диапазона таким образом, что: кодер SAOC микширует с понижением N входных сигналов аудиообъектов x₁-x_N. Для понижающего монофонического микширования коэффициенты указаны как d₁-d_N. В дополнение к этому кодер SAOC 810 извлекает служебную информацию 814, описывающую входные аудиообъекты. Для процедуры пространственного кодирования оудиообъекта SAOC в формате MPEG базовым видом сопроводительной информации является соотношение мощностей объектов.

Микшированный с понижением сигнал (или сигналы) 812 и служебная информация 814 пересылают и/или вводят в память. Для этого микшированный с понижением аудиосигнал сжимают, используя такие известные аудиокодеры перцептуального типа, как MPEG-1 уровня II или III (также известный как „.mp3"), как Передовая технология аудиокодирования ААС формата MPEG, или любой другой аудиокодер.

Концептуальная задача декодера SAOC 820 на приемном конце - восстановить исходный сигнал объекта („дифференцировать объекты"), используя полученную служебную информацию 814 (и, естественно, один или более даунмикс-сигналов 812). Затем, из таких приближенных к оригиналам объектных сигналов (определяемых также как реконструированные сигналы объектов [/сигналы реконструированных объектов] 820b) микшируют целевую сцену, отображаемую посредством М выходных звуковых каналов (которые, например, могут быть представлены сигналами каналов повышающего микширования ${\hat{y}}_{1} - {\hat{y}}_{M}$ ) с приложением матрицы аудиорендеринга. Для монофонического звукового выхода, коэффициенты матрицы аудиорендеринга представлены как r₁-r_N.

В действительности, сепарация [дифференциация] сигналов объекта выполняется редко (или даже никогда не выполняется), поскольку и шаг сепарации (обозначенный как разделитель объектов 820а), и шаг микширования (обозначенный как смеситель 820c), объединены в общую процедуру транскодирования, в результате которой зачастую происходит значительное снижение вычислительной сложности.

Было установлено, что такая схема чрезвычайно эффективна, как с точки зрения скорости передачи данных (когда необходимо передавать только несколько даунмикс-каналов и некоторую служебную информацию вместо N дискретных сигналов аудиообъектов или дискретной системы), так и с точки зрения вычислительной трудоемкости (трудоемкость обработки относится, больше, к числу выходных каналов, чем к количеству отображаемых аудиообъектов). Дополнительные преимущества пользователя на приемном конце состоят в свободе выбора воспроизводимого акустического образа (моно-, стереофония, охватывающее, виртуализированное [приближенное к реальности] звучание в наушниках и тому подобное) и в возможности непосредственного участия слушателя/слушательницы: матрица аудиорендеринга обеспечивает возможность адаптации звуковой сцены в режиме реального времени к запросам пользователя в соответствии с его/ее вкусами, личными предпочтениями или иными критериями. Например, можно пространственно ощутимо отделять собеседников одной группы в одной части звукового объема от других участников разговора. Такая интерактивность достигается за счет интерфейса пользователя с декодером:

Регулируются относительный уровень и (для немонофонического рендеринга) пространственное положение каждого звукового объекта. Пользователь может выполнять это в режиме реального времени, изменяя положение соответствующего ползунка устройства пользовательского графического интерфейса (GUI/ГИП) (например: уровень объекта = +5 дБ, положение объекта = -30°).

Тем не менее, было установлено, что в некоторых случаях на стороне декодера выбор параметров представления сигналов повышающего микширования (например, сигналов каналов повышающего микширования ${\hat{y}}_{1} - {\hat{y}}_{M}$ ) ведет к искажениям звука.

Ввиду описанной ситуации целью заявляемого изобретения является создание концепции уменьшения или, возможно, устранения акустических искажений при повышающем микшировании аудиосигнала (например, в виде сигналов каналов повышающего микширования ${\hat{y}}_{1} - {\hat{y}}_{M}$ ).

Сущность изобретения

Поставленная цель достигается с помощью устройства оптимизации одного и более параметров представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации по пункту 1 формулы изобретения, декодера аудиосигнала по п.24, транскодера аудиосигнала по п.25, способов согласно пунктам 26, 27 и 28, кодера аудиосигнала по п.29, способа по п.31, аудиобитстрима по п.32 и компьютерной программы по п.34.

Заявляемое изобретение реализовано в виде устройства оптимизации одного и более параметров представления сигнала повышающего микширования [апмикс-сигнала] на базе представления сигнала понижающего микширования [даунмикс-сигнала] и объектно-ориентированной параметрической информации. Устройство имеет в своем составе регулятор параметров (например, регулятор коэффициентов рендеринга) выполненный с возможностью приема одного или более входных параметров (например, коэффициента рендеринга или описания задаваемой матрицы аудиорендеринга) и генерации на их основе одного или более скорректированных параметров. Регулятор параметров реализован с целью настройки одного или более параметров, исходя из одного или более входных параметров и объектно-ориентированной параметрической информации (например, в зависимости от одного или более коэффициентов понижающего микширования и/или одного или более показателей разности уровней объектов и/или одного или более значений межобъектной корреляции), таким образом, чтобы искажение представления микшированного с повышением сигнала, которое может быть вызвано использованием неоптимальных параметров, было ослаблено, по меньшей мере, для входных параметров, имеющих отклонение от оптимальных параметров на величину, превышающую расчетное отклонение.

Конструктивное исполнение изобретения базируется на идее, что искажения акустического сигнала, вызываемые выбором ненадлежащих входных параметров, могут быть уменьшены путем ввода откорректированных параметров представления апмикс-сигнала, и что корректировка параметров может быть выполнена с подобающей точностью, если в расчет принимать объектно-ориентированную параметрическую информацию. Установлено, что использование объектно-ориентированной параметрической информации позволяет оценивать меру акустических искажений, вызываемых входными параметрами, что, в свою очередь, дает возможность такой корректировки параметров, при которой искажения звука будут удерживаться в пределах заданного диапазона, или при которой искажения звука будут ослаблены по сравнению с входными параметрами. Объектно-ориентированная информация описывает, например, характеристики аудиообъектов и/или содержит параметры обработки объектов на стороне кодера.

Следовательно, нежелательные и часто раздражающие искажения аудиосигнала как следствие использования неадекватных характеристик (допустим, несоответствующих коэффициентов рендеринга) можно уменьшить или даже устранить за счет оптимизации одного или более параметров, выбор которых с использованием объектно-ориентированной параметрической информации обеспечивает эффективное ослабление и/или компенсацию искажений аудиосигнала благодаря достаточно достоверной оценке акустических искажений.

В предпочтительной версии исполнения устройство предусматривает получение в качестве входных характеристик желаемых параметров рендеринга, отражающих требуемый масштабируемый уровень интенсивности множества сигналов аудиообъектов по одному или более каналов, описанных в представлении апмикс-сигнала. В этом случае регулятор параметров выполняет функцию актуализации одного или более параметров рендеринга в зависимости от одного или более параметров рендеринга, выбранных по желанию. Было определено, что выбор несоответствующих параметров рендеринга влечет за собой существенную (и, часто, ощутимую на слух) деградацию представления сигнала повышающего микширования, являющуюся следствием приложения подобных неадекватно подобранных параметров рендеринга. Также установлено, что параметры рендеринга могут быть эффективно скорректированы на основе объектно-ориентированной параметрической информации, так как объектно-ориентированная параметрическая информация позволяет оценивать возможные искажения, вносимые выбранными параметрами рендеринга (которые могут быть заданы входными параметрами).

Предпочтительный вариант осуществления отличается тем, что регулятор параметров выполнен с возможностью выведения одного или более предельных значений параметров рендеринга в зависимости от объектно-ориентированной параметрической информации и данных понижающего микширования, характеризующих соотношение составляющих сигналов аудиообъектов в представлении сигнала понижающего микширования, причем, таким образом, что метрика искажения остается внутри заданного диапазона, ограничивающего значения параметров рендеринга. Для этого регулятор параметров реализован с возможностью актуализации параметров рендеринга в зависимости от желаемых параметров рендеринга и одного или более предельных значений параметров рендеринга таким образом, что актуализованные параметры рендеринга удовлетворяют условиям интервала значений, определенного предельными значениями параметров рендеринга. Расчет предельных значений параметров рендеринга представляет собой простой в вычислительном отношении и надежный механизм, обеспечивающий удержание акустических искажений в пределах допустимого диапазона в соответствии с метрикой искажений.

Предпочтительное техническое решение регулятора параметров характеризуется тем, что задает одну или более величин, ограничивающих параметры рендеринга таким образом, чтобы относительная составляющая сигнала объекта при наложении множества сигналов объектов с использованием параметра рендеринга, удовлетворяющего одной или более пороговых величин параметров рендеринга, отличалась от относительной составляющей сигнала этого объекта в микшированном с понижением сигнале не более, чем на заданную разность. Было определено, что искажения, как правило, достаточно невелики, если соотношение составляющих сигнала объекта во всей совокупности наложенных сигналов отображаемых объектов подобна соотношению составляющих сигнала этого объекта в даунмикс-сигнале, в то время как значительное расхождение указанных соотношений составляющих обычно способствует возникновению искажений звука. Это происходит вследствие того, что сильное изменение (относительного) уровня сигнала объекта по сравнению с (относительным) уровнем этого сигнала объекта в представлении сигнала понижающего микширования часто влечет за собой возникновение артефактов, ибо зачастую невозможно образцово точно разделить сигналы разных аудиообъектов. В результате установлено, что удовлетворительные результаты настройки параметров аудиорендеринга получают преимущественно за счет плавного изменения параметров рендеринга.

Другой вариант аппаратной реализации регулятора параметров отличается тем, что он задает одно или более пороговых значений параметров рендеринга таким образом, что мера искажения, отражающая соотношение между микшированным с понижением сигналом, описанным посредством представления микшированного с понижением сигнала, и сигналом, полученным в результате рендеринга с использованием одного или более параметров рендеринга, удовлетворяющих одному или более пороговых значений параметров рендеринга, находится в пределах заданного диапазона. Было установлено, что параметры рендеринга, выбранные по желанию как входные параметры регулятора параметров, должны подбираться с соблюдением достаточного „сходства" между даунмикс-сигналом, описанным посредством представления даунмикс-сигнала, и сигналом, полученным рендерингом, поскольку иначе возрастает риск возникновения слышимых артефактов при повышающем микшировании.

Еще один предпочтительный вариант осуществления регулятора параметров отличается тем, что вычисляет линейную комбинацию квадрата желаемого параметра рендеринга (как возможного входного параметра регулятора параметров) и квадрата оптимального параметра рендеринга (например, как возможного параметра рендеринга, минимизирующего уровень искажения) с выработкой актуализованного параметра рендеринга (как возможного отрегулированного выходного параметра устройства). В данном случае регулятор параметров выполняет функцию определения соотношения желаемых параметров рендеринга и оптимального параметра рендеринга в линейной комбинации в зависимости от заданного порогового параметра Т и метрики искажения, где метрика искажения [дальше см. 2.3., 2.3.1] отражает искажение, которое может возникнуть при использовании одного или более желаемых параметров рендеринга вместо оптимальных параметров рендеринга для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования. Такой подход позволяет уменьшить искажения до приемлемой меры при сохранении оптимального воздействия желаемых параметров рендеринга. Эта концепция позволяет найти разумный компромисс между оптимальными параметрами рендеринга и желаемыми параметрами рендеринга с учетом желаемой степени ограничения акустических искажений.

В предпочтительном варианте технического решения регулятор параметров реализован с возможностью генерировать один или более оптимизированных параметров в зависимости от вычислительной меры перцепционной деградации [меры расчета ухудшения качества звучания], чтобы ограничить воспринимаемые на слух искажения представления сигнала повышающего микширования, вызванные использованием неоптимальных параметров и представленные вычислительной мерой перцепционной деградации. Таким образом, параметры можно настраивать в соответствии со слуховым впечатлением, избегая неприемлемо плохого звучания, но добиваясь при этом достаточной глубины регулировки параметров в соответствии с желаниями пользователя.

В предпочтительной версии регулятор параметров отличается возможностью приема информации о свойствах объекта, описывающей характеристики одного или более оригинальных сигналов объекта, которые формируют основу даунмикс-сигнала, отображаемого представлением даунмикс-сигнала. В этом случае регулятор параметров выполнен с возможностью учета информации о свойствах объекта при формировании скорректированных параметров таким образом, чтобы искажение представления сигнала повышающего микширования по сравнению со свойствами сигналов объектов, входящих в представление сигнала повышающего микширования, понижалось, по меньшей мере, для входных параметров, отклоняющихся от оптимальных параметров, на величину, большую, чем заданное отклонение. Такой вариант реализации заявляемого изобретения основан на заключении, что свойства одного или более исходных сигналов объекта могут быть использованы для оценки того, отвечают ли входные параметры требованиям или должны быть откорректированы, поскольку микшированный с повышением сигнал должен быть сформирован так, чтобы его характеристики соответствовали свойствам одного или более исходных сигналов объекта, потому что в противном случае перцептивный образ будет значительно искажен по многим показателям.

В предпочтительной реализации регулятор параметров отличается тем, что принимает и учитывает в качестве информации о свойствах объекта тональные данные сигнала объекта для формирования одного или более отрегулированных параметров. Установлено, что тональные характеристики сигналов объекта - показатель, который существенно влияет на перцептивное впечатление, и что следует избегать выбор характеристик, которые значительно изменяют тональное восприятие, чтобы сохранить хорошее слуховое впечатление.

Предпочтительное конструктивное исполнение регулятора параметров характеризуется возможностью оценивания тональных особенностей для идеального рендеринга сигнала повышающего микширования, исходя из полученных тональных данных сигналов объектов и полученных уровней мощности объектов. В этом случае регулятор параметров выполняет функцию генерирования одного или более скорректированных параметров для нивелирования разницы между оцененной тональностью и тональностью апмикс-сигнала, сформированного с использованием одного или более скорректированных параметров, относительно разницы между оцененной тональностью и тональностью апмикс-сигнала, сформированного с использованием входных параметров, или функцию сохранения разницы между оцененной тональностью и тональностью микшированного с повышением сигнала, образованного с использованием одного или более откорректированных параметров, в пределах заданного диапазона. Применение этой концепции обеспечивает высокую вычислительную эффективность оценивания меры деградации слухового восприятия, что позволяет сообразно регулировать параметры рендеринга.

Предпочтительное техническое решение регулятора параметров отличается тем, что предусматривает время-частотный вариант регулирования входных параметров. Благодаря этому настройку входных параметров с целью получения скорректированных параметров можно выполнять только для таких интервалов времени или таких частотных участков, где регулирование действительно способствует улучшению слухового впечатления или предотвращает выраженную деградацию акустического образа.

Еще один предпочтительный вариант реализации регулятора параметров выполнен с возможностью учета представления сигнала понижающего микширования для формирования одного или более скорректированных параметров. Беря в расчет представление даунмикс-сигнала, добиваются еще большей точности оценки потенциального искажения слухового восприятия.

Регулятор параметров в предпочтительной версии исполнения отличается тем, что способен рассчитывать совокупную меру искажения, то есть - сочетание мер искажения, отражающее множество типов артефактов. В таком варианте регулятор параметров выполнен с возможностью расчета совокупной меры искажения как комбинации мер искажений, которые могут быть вызваны использованием одного или более входных параметров рендеринга вместо оптимизированных параметров рендеринга для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования. Путем совмещения множества мер искажения, отражающих множество типов артефактов, можно создать хорошо управляемый механизм настройки слухового восприятия.

В другое конструктивное решение заявляемого изобретения введен декодер аудиосигналов, отличающийся тем, что формирует представление сигнала повышающего микширования из множества аудиоканалов повышающего микширования на базе представления сигнала понижающего микширования, объектно-ориентированной параметрической информации и параметров задаваемого рендеринга [желаемого звучания]. Декодер аудиосигнала включает в себя повышающий микшер, выполненный с возможностью формирования аудиоканалов повышающего микширования на базе представления сигнала понижающего микширования и в зависимости от объектно-ориентированной параметрической информации и актуализованных характеристик рендеринга, специфицирующих распределение по аудиоканалам повышающего микширования множества сигналов аудиообъектов, описанных объектно-ориентированной параметрической информацией. Декодер аудиосигнала также включает в себя устройство оптимизации одного и более параметров, как рассмотрено раньше. Устройство оптимизации одного или более параметров предусматривает прием произвольно задаваемых параметров рендеринга в виде одного или более входных параметров и выработку одного или более откорректированных параметров в виде актуализованных данных рендеринга. Кроме того, устройство оптимизации одного и более параметров выполнено с возможностью генерации одного или более скорректированных параметров таким образом, чтобы искажения по аудиоканалам повышающего микширования, вызванные использованием актуализованных параметров рендеринга с отклонением от оптимальных параметров рендеринга, были сокращены, по меньшей мере, для произвольно задаваемых (желаемых) параметров рендеринга, имеющих отклонения от оптимальных параметров рендеринга, на величину, превышающую заданное отклонение.

Использование устройства оптимизации одного и более параметров в составе декодера аудиосигнала дает возможность предотвращать возникновение сильных слышимых искажений, вызываемых декодированием аудиосигнала при неправильно выбранных данных задаваемого по желанию рендеринга.

Частью осуществления заявляемого изобретения является транскодер аудиосигнала, предназначенный для формирования в виде представления сигнала повышающего микширования информации о параметрах каналов, основанной на представлении сигнала понижающего микширования, объектно-ориентированной параметрической информации и параметров желаемого рендеринга. Транскодер аудиосигнала включает в себя транскодер служебной информации, предназначенный для извлечения информации о параметрах каналов из представления даунмикс-сигнала и из объектно-ориентированной параметрической информации и актуализованных характеристик рендеринга, распределяющих по аудиоканалам повышающего микширования множество сигналов аудиообъектов, описанных объектно-ориентированной параметрической информацией. Декодер аудиосигнала также включает в себя устройство оптимизации одного и более параметров, как описано выше. Устройство оптимизации одного или более параметров предусматривает прием задаваемых параметров рендеринга в виде одного или более входных параметров и выработку одного или более откорректированных параметров в виде актуализованных данных рендеринга. Кроме того, устройство оптимизации одного или более параметров выполнено с возможностью уменьшения искажений по аудиоканалам повышающего микширования, представленным информацией о параметрах каналов (в сочетании с информацией о даунмикс-сигнале), вызванных использованием актуализованных параметров рендеринга, которые подвержены девиации относительно оптимальных параметров рендеринга, по меньшей мере, для желаемых параметров рендеринга, отклоняющихся от оптимальных параметров рендеринга, на величину, превышающую ожидаемое отклонение. Было установлено, что предлагаемая концепция корректировки параметров также хорошо применима в комплексе с транскодером аудиосигнала.

Далее, к заявляемому изобретению относятся способ оптимизации одного или более параметров, способ декодирования аудиосигнала и способ перекодирования [транскодирования] аудиосигнала. Названные способы базируются на тех же ключевых идеях, что и описанное выше устройство.

Еще одним компонентом данного изобретения является кодер аудиосигнала, формирующий представление сигнала понижающего микширования и объектно-ориентированную параметрическую информацию на базе множества сигналов объектов. В состав аудиокодера входит понижающий микшер, генерирующий один или более даунмикс-сигналов на основе коэффициентов понижающего микширования [коэффициентов даунмикса], связанных с сигналами объектов таким образом, что один или более даунмикс-сигналов отражает суперпозицию множества сигналов объектов. Наряду с этим, аудиокодер включает в себя драйвер доступа к служебной информации, обеспечивающий сопутствующую информацию о межобъектном соотношении, содержащую разности уровней и корреляционные характеристики сигналов объектов, и сопутствующую информацию об обособленных объектах, описывающую одно или более индивидуальных свойств сигналов обособленных объектов. Сделано заключение, что как сопутствующие данные межобъектного соотношения, так и сопутствующие данные обособленных объектов, обеспечиваемые аудиокодером, позволяют эффективно редуцировать или даже купировать слышимые искажения на стороне декодера многоканального аудиосигнала. В то время как служебная информация по межобъектному соотношению используется для сепарации сигналов объектов на стороне декодера, служебные данные обособленного объекта могут быть использованы для определения, сохраняются ли индивидуальные характеристики сигналов объектов на стороне декодера, что указывает на то, что искажения находятся внутри поля приемлемых допусков.

Предпочтительный вариант реализации драйвера доступа к служебной информации отличается тем, что обеспечиваемые им служебные данные обособленного объекта описывают тональность индивидуальных звуковых объектов. Было установлено, что тональная индивидуальность обособленных аудиообъектов является важным психоакустическим показателем, обеспечивающим ограничение искажений на стороне декодера.

Другое осуществление заявляемого изобретения представляет собой способ кодирования аудиосигнала.

Кроме того, заявляемое изобретение осуществляется в виде потока двоичного представления звука (аудиобитстрима), отображающего множество сигналов (аудио-) объектов в кодированной форме. Аудиобитстрим включает в поток представление одного или более сигналов понижающего микширования, из которых, по меньшей мере, один микшированный с понижением сигнал отображает суперпозицию множества сигналов (аудио-) объектов. Кроме того, в состав аудиобитстрима включена служебная информация о межобъектном соотношении, содержащая разности уровней и характеристики корреляции сигналов объектов, а также служебная информация об обособленных объектах, описывающая одно или более индивидуальных свойств сигналов обособленных объектов. Как обсуждалось выше, такой аудиобитстрим дает возможность реконструировать многоканальный аудиосигнал, в котором слышимые искажения, вызываемые введением несоответствующих параметров аудиорендеринга, могут быть распознаны и уменьшены, или даже устранены.

Кроме описанного, заявляемое изобретение реализовано в виде компьютерной программы, составленной с целью осуществления указанных ранее способов.

Краткое описание графических фигур

Далее, варианты технических решений в соответствии с предлагаемым изобретением будут описаны со ссылкой на прилагаемые фигуры, где:

на фиг.1 показана принципиальная блочная схема устройства оптимизации одного и более параметров для представления сигнала повышающего микширования на базе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации;

на фиг.2 показана принципиальная блочная схема системы SAOC формата MPEG в техническом исполнении согласно изобретению;

на фиг.3 показана принципиальная блочная схема системы SAOC формата MPEG в другом варианте технического исполнения согласно изобретению;

на фиг.4 дана схема соотношения составляющих сигналов объекта в даунмикс-сигнале и в микшированном сигнале;

на фиг.5а показана принципиальная блочная схема реализации транскодера SAOC в MPEG Surround на базе монодаунмикса в соответствии с изобретением;

на фиг.5b показана принципиальная блочная схема реализации транскодера SAOC в MPEG Surround на базе стереодаунмикса в соответствии с изобретением;

на фиг.6 показана принципиальная блочная схема реализации кодера аудиосигнала в соответствии с изобретением;

на фиг.7 дана схема осуществления аудиобитстрима в соответствии с изобретением;

на фиг.8 показана принципиальная блочная схема стандартной системы MPEG SAOC;

на фиг.9а показана принципиальная блочная схема стандартной системы SAOC с раздельными декодером и микшером; на фиг.9b показана принципиальная блочная схема стандартной системы SAOC с объединенными декодером и микшером; и на фиг.9 с показана принципиальная блочная схема стандартной системы SAOC с транскодером SAOC в MPEG.

Техническая детализация изобретения

1. Устройство для оптимизации одного и более параметров на фиг.1

Ниже, со ссылкой на фиг.1 дается описание устройства 100, предназначенного для оптимизации одного или более параметров с целью формирования представления сигнала повышающего микширования (апмикс-сигнала) на базе представления сигнала понижающего микширования (даунмикс-сигнала) и объектно-ориентированной параметрической информации. На фиг.1 дана принципиальная блочная схема такого устройства 100, предусматривающего прием одного или более входных параметров 110. Входными параметрами 110 могут быть, например, выбранные по желанию параметры рендеринга (звучания). На их основе устройство 100 генерирует один или более скорректированных параметров 120. Скорректированные параметры могут представлять собой, например, оптимизированные параметры рендеринга. Кроме того, устройство 100 предусматривает прием объектно-ориентированной параметрической информации 130. Объектно-ориентированная параметрическая информация 130 может представлять собой, например, показатели разности уровней объектов и/или значения межобъектной корреляции, описывающие множество [звуковых] объектов. Устройство 100 включает в себя регулятор параметров 140, принимающий один или более указанных входных параметров 110 и генерирующий из них один или более скорректированных параметров 120. Регулятор параметров 140 отличается тем, что генерирует один или более скорректированных параметров 120 на основе одного или более входных параметров 110 и объектно-ориентированной параметрической информации 130 так, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров (допустим, одного или более входных параметров 110), в устройстве формирования представления сигнала повышающего микширования на базе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации 130, ослабляется, по крайней мере, для входных параметров 110, имеющих отклонение от оптимальных параметров выше расчетного.

Следовательно, устройство 100 принимает один или более входных параметров 110 и генерирует из них один или более скорректированных (оптимизированных) параметров 120. Генерируя один или более оптимизированных параметров 120, устройство 100 рассчитывает прямым или косвенным образом, вызовет ли использование без изменения одного или более входных параметров 110 неприемлемо сильные искажения, если эти один или более входных параметров 110 были использованы для формирования представления апмикс-сигнала на базе представления даунмикс-сигнала и объектно-ориентированной параметрической информации 130. Отсюда следует, что откорректированные параметры 120, как правило, более эффективны при управлении средством формирования представления сигнала повышающего микширования, чем один или более входных параметров 110, по крайней мере, в том случае, когда один или более входных параметров 110 выбраны ненадлежащим образом.

В силу этого, устройство 100 обеспечивает лучшее перцептивное впечатление от представления сигнала повышающего микширования, сформированного соответствующим устройством повышающего микширования аудиосигнала на основе одного или более скорректированных параметров 120. Установлено, что применение объектно-ориентированной параметрической информации для корректировки одного или более входных параметров с целью генерации одного или более оптимизированных параметров дает хорошие результаты, поскольку, как правило, представление сигнала повышающего микширования имеет хорошее качество, если один или более скорректированных параметров 120 соответствуют объектно-ориентированной параметрической информации 130, в то время как параметры, нарушающие желаемое соответствие объектно-ориентированной параметрической информации 130 чаще всего приводят к искажениям звука. Например, объектно-ориентированная параметрическая информация может содержать параметры понижающего микширования, которые описывают соотношение составляющих сигналов отдельных объектов (из множества акустических объектов) в одном или более даунмикс-сигналов. Наряду с этим, или вместо этого, объектно-ориентированная параметрическая информация может содержать показатели разности уровней объектов и/или характеристики межобъектной корреляции, которые отражают свойства сигналов объектов. Опыт показал, что, как параметры, описывающие процессы обработки на стороне кодера сигналов аудиообъектов, так и параметры, описывающие свойства самих аудиообъектов можно рассмотреть как информацию, полезную для использования регулятором параметров 120. Вместе с этим, или вместо этого, устройство 100 может использовать другую объектно-ориентированную параметрическую информацию 130.

Тем не менее, следует подчеркнуть, что регулятор параметров 140 использует вспомогательную информацию для выведения одного или более оптимизированных параметров 120 из одного или более входных параметров 110. Например, в качестве опции, регулятор (оптимизатор) параметров 140 может рассчитывать даунмикс-коэффициенты, один или более даунмикс-сигналов или любую другую дополнительную информацию для наибольшей оптимизации одного или более скорректированных параметров 120.

2. Система на фиг.2

Далее, рассмотрим в деталях систему SAOC формата MPEG 200, отображенную на фиг.2.

Для лучшего понимания технической сущности системы MPEG SAOC 200 рассмотрим ее с точки зрения предпочтительных технических характеристик и конструкции. Проанализируем структуру системы. Кроме того, будет обсуждена метрика искажений пространственного кодирования аудиообъектов SAOC и приложение такой метрики для компенсации искажений. В дополнение к этому будут рассмотрены возможности дальнейшего расширения системы 200.

2.1 Конструкция системы

Как обсуждалось выше, параметрические техники передачи/хранения аудиосцен со множественными аудиообъектами, в целом, эффективны как в плане скорости передачи данных (битрейта), так и в плане вычислительной трудоемкости. Сверх того, преимущества пользователя подобной системой на приемном конце состоят в свободном выборе режима рендеринга (моно-, стереофоническое, охватывающее, виртуализированное звучание в наушниках и тп) и режима интерактивного прослушивания: наличие матрицы аудиорендеринга обеспечивает возможность интерактивной установки и изменения аудиосцены в зависимости от запросов слушателя в соответствии с его/ее вкусами, личными предпочтениями и другими критериями. Например, можно максимально ощутимо разделять группы собеседников в разных частях акустического пространства. Такая интерактивность достигается за счет интерфейса между пользователем и декодером:

При этом регулируют относительный уровень и (для немонофонического рендеринга) пространственное положение каждого звукового объекта. Пользователь может выполнять это в режиме реального времени, изменяя положение соответствующего ползунка устройства графического интерфейса пользователя (GUI/ГИП) (например: уровень объекта = +5 дБ, положение объекта = -30°). Тем не менее, опытным путем было определено, что благодаря параметрическому подходу на основе понижающего микширования с разделением/смешением субъективно оцениваемое качество сгенерированного выходного акустического сигнала зависит от настроек параметров аудиорендеринга (звукоотображения). Было установлено, что изменение соотношения уровней аудиообъектов при воспроизведении больше влияет на конечное качество звучания, чем изменение их пространственного положения („перепанорамирование"). Было также выявлено, что критические установки относительных параметров (например, +20 дБ) могут даже приводить к неприемлемому качеству выходного сигнала. Хотя, это - простой результат нарушения некоторых перцепционных уставок, введенных в основу данной схемы, для коммерческого продукта неприемлемо, чтобы при настройке параметров с помощью пользовательского интерфейса на выходе возникали плохой звук и артефакты. Отсюда следует, что варианты реализации изобретения, например, система 200, направлены на решение обозначенной задачи предотвращения неприемлемых искажений независимо от настроек пользовательского интерфейса (которые можно обозначить как „входные параметры").

Дальше рассмотрим некоторые детали подходов к предотвращению искажений SAOC (пространственного кодирования аудиообъектов). В основу представленного здесь подхода к компенсации искажений SAOC положены приведенные ниже принципы.

- Выраженные искажения SAOC возникают в случае ненадлежащего выбора коэффициентов рендеринга (которые можно рассматривать как входные параметры). Такой выбор обычно делается пользователем в диалоговом режиме (допустим, через графический интерфейс пользователя в режиме реального времени (GUI / ГИП) в интерактивных приложениях). В силу этого выполняют дополнительную операцию модификации коэффициентов рендеринга, заданных пользователем (которая, например, лимитирует их, выполняя некоторые вычисления), и введения этих модифицированных коэффициентов в процессор рендеринга SAOC. Предположим, коэффициенты рендеринга, введенные пользователем, являются входными параметрами, тогда модифицированные коэффициенты для процессора рендеринга SAOC можно рассматривать как модифицированные (скорректированные) параметры.

- Для контроля чрезмерного ухудшения качества звукового выхода SAOC необходимо выработать вычислительную меру перцепционной деградации (именуемой также мерой искажения DM). Установлено, что такая мера искажения должна отвечать определенным критериям, указанным ниже.

- Мера искажения должна быть легко вычислимой из внутренних параметров процессора декодирования SAOC. Например, желательно отсутствие необходимости расчетов дополнительного банка фильтров для определения меры искажения.

- Показатель меры искажения должен коррелировать с субъективно воспринимаемым качеством звука (перцепционной деградацией), то есть соответствовать основным положениям психоакустики. Для этого расчет меры искажения предпочтительно выполняют частотно-избирательным методом, поскольку он, в основном, известен из области перцептуального кодирования и обработки звука.

Выяснена возможность определения и расчета множества показателей меры искажения SAOC. Однако, поскольку было установлено, что показатели меры искажения SAOC предпочтительно должны учитывать определенные базовые факторы, чтобы обеспечивать правильную оценку качества рендеринга SAOC, то нередко (но не обязательно) они имеют определенные общие свойства, описанные ниже.

- Они учитывают коэффициенты понижающего микширования (даунмикс-коэффициенты). Эти коэффициенты определяют относительные доли микшируемых составляющих каждого аудиообъекта в структуре одного или более даунмикс-сигналов. В качестве пояснения следует указать на то, что было установлено, что возникновение искажения SAOC зависит от соотношения коэффициентов понижающего микширования и рендеринга: если относительная доля составляющей сигнала объекта, определяемая коэффициентами рендеринга, существенно отличается от относительной доли составляющей сигнала объекта в структуре сигнала понижающего микширования, то процессор декодирования SAOC (который использует модифицированные параметры) вынужден выполнять значительную корректировку даунмикс-сигнала, чтобы преобразовать его в выходной сигнал аудиорендеринга. Был сделан вывод, что это приводит к искажениям SAOC.

- Они учитывают коэффициенты рендеринга. Эти коэффициенты определяют относительную выходную мощность каждого аудиообъекта в каждом из преобразованных аудиорендерингом выходных сигналов. В качестве пояснения следует указать на то, что было установлено, что возникновение искажения SAOC зависит также от взаимного соотношения мощностей объектов. Если мощность какого-либо объекта в определенный момент времени выше мощности других объектов (и если даунмикс-коэффициент этого объекта не очень низок), то этот объект доминирует в даунмикс-сигнале и воспроизводится очень отчетливо в преобразованном аудиорендерингом выходном сигнале. И наоборот, маломощные объекты представлены очень слабо в даунмикс-сигнале и, следовательно, не могут быть усилены без значительных искажений.

- Они учитывают (относительные) мощность/ уровень каждого объекта в сопоставлении с другими аудиообъектами. Эти данные описываются, например, как разности уровней объектов (OLD) SAOC. В качестве пояснения следует указать на то, что было установлено, что возникновение искажения SAOC зависит, кроме названного, от свойств сигналов обособленных объектов. В частности, усиление объекта тонального характера в выходном сигнале аудиорендеринга до высокого уровня (в то время, как другие объекты могут быть, более, шумового происхождения) даст в результате сильно выраженное искажение.

- В дополнение к этому может учитываться другая информация о свойствах исходных сигналов объектов. Такая информация может быть передана кодером SAOC как часть служебной информации SAOC. Допустим, информация о тональных или шумовых характеристиках каждого объекта может быть передана как часть сопроводительной информации SAOC и использоваться для компенсации искажений.

2.2 Общий обзор системы

Теперь, опираясь на изложенные выше соображения, кратко проанализируем систему SAOC формата MPEG 200 для лучшего понимания представляемого изобретения. Обратим внимание на то, что система SAOC 200 на фиг.2 представляет собой расширенную версию системы MPEG SAOC 800 на фиг.8, в силу чего предшествующее обсуждение применимо и в этом случае. Кроме того, следует указать на то, что система MPEG SAOC 200 может быть модифицирована в соответствии с альтернативными реализациями 900, 930, 960 на фиг.9а, 9b и 9 с, где кодер объектов соответствует кодеру SAOC, где пользовательская интерактивная информация/пользовательская управляющая информация 822 соответствует параметрам управления рендерингом/коэффициентам рендеринга.

Помимо этого, декодер SAOC системы MPEG SAOC 100 может быть заменен раздельными блоками декодера объекта и смесителя/рендерера 920, интегрированным блоком декодера объекта и смесителя/рендерера 930, или транскодером SAOC в MPEG Surround 980.

Теперь, обратившись к фиг.2, можно увидеть, что система MPEG SAOC 200 включает в себя кодер SAOC 210, предназначенный для приема множества сигналов объектов x₁-x_N, ассоциированных с множеством объектов с 1 по N. Кодер SAOC 210 также предназначен для приема (или получения каким-либо иным способом) коэффициентов понижающего микширования d₁-d_N. К примеру, кодер SAOC 210 для каждого канала даунмикс-сигнала 212, генерируемого им, может получить один набор даунмикс-коэффициентов d₁-d_N. Кодер SAOC 210 может, например, получать взвешенную комбинацию сигналов объектов x₁-x_N для генерации микшированного с понижением сигнала, при этом каждый из сигналов объектов x₁-x_N взвешен с присвоенным ему коэффициентом понижающего микширования d₁-d_N. Кроме того, кодер SAOC 210 получает информацию о межобъектной взаимосвязи, которая отражает соотношение между сигналами различных объектов. Информация о межобъектной взаимосвязи может содержать, скажем, показатели разности уровней объектов, например, в виде параметров OLD, и информацию о межобъектной корреляции, например, в форме параметров IOC. Соответственно, кодер SAOC 200 характеризуется тем, что генерирует один или более даунмикс-сигналов 212, каждый из которых содержит взвешенную комбинацию одного или более сигналов объектов, взвешенных в соответствии с набором параметров понижающего микширования, связанных с соответствующим микшированным с понижением сигналом (или каналом многоканального микшированного с понижением сигнала 212). Также, кодер SAOC 210 выполнен с возможностью формирования сопроводительной служебной информации 214, которая содержит данные межобъектного соотношения (например, в форме показателей разности уровней объектов [OLD] и параметров межобъектной корреляции [IOC]). Служебная информация 214 содержит, кроме того, параметрическую информацию понижающего микширования, например, в виде коэффициентов усиления понижающего микширования и показателей разности уровней каналов понижающего микширования. Помимо этого, служебная информация 214 может включать в себя вспомогательную сопроводительную информацию об индивидуальных свойствах обособленных объектов.

Система MPEG SAOC 200 также включает в себя декодер SAOC 220, выполненный с функциональными возможностями декодера SAOC 820. В силу этого декодер SAOC 220 принимает один или более даунмикс-сигналов 212 и сопроводительную информацию 214, а также модифицированный (или „откорректированный" или „актуализованный") коэффициенты рендеринга 222 и на их основе генерирует сигналы канала повышающего микширования ${\hat{y}}_{1} - {\hat{y}}_{M}$ .

Кроме того, система MPEG SAOC 200 включает в свой состав устройство 240, предназначенное для формирования одного или более модифицированных (или откорректированных или „актуализованных") параметров, а именно, модифицированных коэффициентов рендеринга 222, в зависимости от одного или более входных параметров, а именно, входных параметров, описывающих данные управления рендерингом или коэффициентов рендеринга 242. Кроме того, устройство 240 выполнено с возможностью принимать, хотя бы, часть служебной информации 214. Скажем, устройство 240 может принимать параметры 214а, описывающие мощности объектов (например, показатели мощности сигналов объектов x₁-x_N). Параметры 214а могут содержать, допустим, показатели разности уровней объектов (OLD). Предпочтительно, устройство 240 предусматривает ввод содержащихся в служебной информации 214 даунмикс-коэффициентов 214b. Например, параметры 214b описывают даунмикс-коэффициенты d₁-d_N. Дополнительно устройство 240 может принимать служебную информацию 214c, описывающую индивидуальные свойства звукового объекта.

В целом, устройство 240 отличается тем, что обеспечивает модифицированные коэффициенты рендеринга 222 на базе входных коэффициентов рендеринга 242 (например, полученных через пользовательский интерфейс или рассчитанных, исходя из ввода пользователя, или заданных как уставка) с целью подавления искажения в представлении сигнала повышающего микширования, возникшего вследствие использования декодером SAOC 220 неоптимальных параметров рендеринга. Другими словами, модифицированные коэффициенты рендеринга 222 представляют собой оптимизированную версию входных коэффициентов рендеринга 242, скорректированных на основе параметров 214а, 214b с целью ослабления или компенсации слышимых искажений сигналов ${\hat{y}}_{1} - {\hat{y}}_{M}$ канала повышающего микширования (формирующих представление апмикс-сигнала).

Устройство 240 оптимизации одного и более параметров 242 рассчитано, например, на введение в его конструкцию регулятора коэффициентов рендеринга 250, предназначенного для приема входных коэффициентов рендеринга 242 и расчета из них модифицированных коэффициентов рендеринга 222. Для этого на регулятор коэффициентов рендеринга 250 может быть передан показатель меры искажения [DM] 252, характеризующий искажения, которые могут возникнуть в результате использования входных коэффициентов рендеринга 242. Например, показатель меры искажения 252 может быть задан вычислителем искажения 260, исходя из параметров 214а, 214b и входных коэффициентов рендеринга 242.

Однако, функциональные возможности регулятора коэффициентов рендеринга 250 и вычислителя искажения 260 могут быть интегрированы в общий функциональный блок таким образом, что модифицированные коэффициенты рендеринга 222 будут рассчитываться без эксплицитного (намеренного) вычисления меры искажения 252. Вернее сказать, могут быть применены имплицитные (скрытые) механизмы ослабления или ограничения меры искажения (DM).

Относительно системы MPEG SAOC 200 следует отметить, что представление сигнала повышающего микширования, которое выводится в форме сигналов канала повышающего микширования ${\hat{y}}_{1} - {\hat{y}}_{M}$ , формируется с хорошими перцептуальными свойствами в силу того, что акустические искажения, которые могут являться следствием ненадлежащего выбора интерактивной информации пользователя/управляющей информация пользователя 822 в базовой компоновке системы 800, удается предотвратить путем модификации или регулирования коэффициентов рендеринга. Такую модификацию или регулирование выполняет устройство 240, купируя или, по крайней мере, редуцируя серьезную деградацию перцептивного впечатления по сравнению с тем случаем, когда входные коэффициенты рендеринга 242 используются декодером SAOC 220 напрямую (без модификации или регулирования).

Далее представлен краткий обзор конструктивных возможностей предлагаемой концепции изобретения. При наличии меры искажения (DM) чрезмерное искажение звукового выхода можно избежать путем расчета значения меры искажения для данных сигналов и путем модификации алгоритма декодирования SAOC (ограничения фактически используемых коэффициентов рендеринга 212) таким образом, чтобы значение меры искажения не превышало определенную пороговую величину. Система 200, реализованная в соответствии с предлагаемой концепцией, показана на фиг.2 и подробно уже рассматривалась выше.

В отношении системы 200 можно обратить внимание на следующее:

- желаемые коэффициенты рендеринга 242 вводят через пользовательский или иной интерфейс;

- перед введением в процессор декодирования SAOC 220 коэффициенты рендеринга 242 модифицируют с помощью регулятора коэффициентов рендеринга 250, который использует один или более рассчитанных показателей меры искажения 252, поступающих от вычислителя искажений 260;

- вычислитель искажений 260 оценивает характеристики служебной информации 214 (допустим, параметры 214а, 214b, в частности, относительную мощность объекта / OLD, даунмикс-коэффициенты и - произвольно - данные о свойствах сигналов объектов). Дополнительно вводят желаемые коэффициенты рендеринга 242.

В предпочтительном варианте осуществления устройство 240 отличается тем, что модифицирует коэффициенты рендеринга, исходя из меры искажения. Преимущественно, коэффициенты рендеринга корректируют частотно-избирательно, применяя, скажем, частотное взвешивание.

Модификация коэффициентов рендеринга может основываться на данном фрейме (например, на текущем фрейме), или же коэффициенты рендеринга можно корректировать во времени не только на пофреймовой основе, но и выполнять обработку/регулировку во времени (например, сглаживание во времени), при которой могут быть использованы разные константы времени атаки/затухания, например, для компрессии/ограничения динамического диапазона.

Некоторые конструктивные решения предусматривают частотно-селективную меру искажения.

В некоторых конструктивных решениях мера искажения может учитывать одну или более характеристик, указанных ниже:

- мощность/энергию/уровень каждого объекта;

- даунмикс-коэффициенты;

- коэффициенты рендеринга; и/или

- при необходимости - дополнительную сопроводительную информацию о свойствах объектов.

Некоторые аппаратные версии решены с возможностью расчета меры искажения для каждого объекта и комбинирования с последующей оценкой общего искажения.

Ряд технических решений позволяет оценивать дополнительную сопроводительную информацию о свойствах объектов 214 с.Дополнительная сопроводительная информация о свойствах объектов 214c может быть извлечена с помощью, например, усовершенствованного кодера SAOC 210. Дополнительная сопутствующая информация о свойствах объектов может быть введена, в частности, в расширенный битстрим SAOC, который будет описан со ссылкой на фиг.7. Кроме того, дополнительная сопроводительная информация о свойствах объектов может использоваться для компенсации искажений расширенным декодером SAOC.

В отдельных случаях в качестве характеристики объекта, описываемой дополнительной служебной информацией, используют соотношение шума/тона. В подобном случае показатель отношения шум/тон может быть передан с более грубым частотным разрешением, чем другие параметры объектов (скажем, OLD), входящие в служебную информацию. В крайнем случае служебная информация, отображающая характеристики шумов/тонов объектов, может быть передана с помощью только одного показателя для каждого объекта (допустим, характеристики ширины полосы).

2.3 Метрика искажения SAOC

В последующем будет описано множество мер искажения, которые можно получить, например, с использованием вычислителя искажений 260. Частности приложения таких мер искажения для ограничения коэффициентов рендеринга будут рассмотрены ниже в разделе 2.4.

Другими словами, в этом разделе рассмотрено несколько мер искажения. Их можно использовать по-отдельности или комбинировать, формируя более сложную метрику искажения, например, путем взвешенного сложения отдельных значений метрик искажения. Здесь следует принять во внимание, что термины „мера искажения" и „метрика искажения" характеризуют аналогичные понятия и в большинстве случаев не требуется специальное различие между ними.

Дальше дается описание множества метрик искажения, которые могут быть оценены вычислителем искажений 260 и которые могут быть использованы регулятором коэффициентов рендеринга 250 для расчета модифицированных коэффициентов рендеринга 222, исходя из входных коэффициентов рендеринга 242.

2.3.1 Мера искажения №1

Ниже рассматривается первая мера искажения (также обозначенная как мера искажения #.1).

Для упрощения понимания представляемой концепции рассмотрим систему пространственного кодирования аудиообъекта SAOC N-1-1 (например, моносигнал понижающего микширования [монодаунмикс-сигнал] (212) и одиночный канал (сигнал) повышающего микширования [апмикс-канал/-сигнал]). N входных аудиообъектов микшируют с понижением в моносигнал и выполняют рендеринг в виде выходного моносигнала. Как показано на фигуре 8, коэффициенты понижающего микширования обозначены как d₁..d_N, а коэффициенты рендеринга - как r₁..r_N. Для упрощения последующих формул коэффициенты времени в них опущены. Аналогично не приняты во внимание частотные коэффициенты, что указывает на то, что уравнения относятся к подполосовым сигналам. В некоторых приведенных ниже уравнениях буквами нижнего регистра обозначены коэффициенты или сигналы, а буквами верхнего регистра - соответствующие мощности, что можно определить по контексту уравнений. Также, следует указать на то, что некоторые сигналы представлены соответствующими коэффициентами частотно-временной области, а не во временной области.

Предположим, нас интересует объект #m (с коэффициентом слышимости объекта т), скажем, доминирующий объект, относительный уровень которого усиливают, ограничивая тем самым общее качество звучания. Тогда, идеальный желаемый выходной сигнал (сигнал апмикс-канала) можно выразить как:

${\hat{y}}_{1;} = [x_{m} \cdot r_{m}] + [\sum_{i = 1; i \neq m}^{N} x_{i} \cdot r_{i}] (1)$

Здесь первый член выражения представляет собой желаемую составляющую интересующего нас объекта в выходном сигнале, тогда как второй член указывает на составляющие всех других объектов („интерференцию"). Однако, в действительности благодаря понижающему микшированию (даунмиксу) выходной сигнал формируется как:

${\hat{y}}_{1} = t \cdot \sum_{i = 1}^{N} x_{i} \cdot d_{i} = [x_{m} \cdot t \cdot d_{m}] + [\sum_{i = 1; i \neq m}^{N} x_{i} \cdot t \cdot d_{i}] (2)$

то есть микшированный с понижением сигнал в последующем масштабируется с использованием коэффициента транскодирования t, соответствующего матрице „m2" декодера MPEG Surround. Далее, выражение вновь может быть разбито на первый член (фактическую составляющую сигнала объекта в выходном сигнале) и второй член (фактическую „интерференцию" сигналов других объектов). Здесь система SAOC (предположим, декодер SAOC 220 и, произвольно дополнительно, устройство 240) динамически определяет коэффициент транскодирования t, чтобы мощность актуализированного рендерингом выходного аудиосигнала согласовывалась с мощностью идеального сигнала:

${\hat{Y}}_{1} = Y_{1} \Rightarrow t_{2} = \frac{\sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i}}{\sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i}} (3)$

Мера искажения (DM) может быть определена вычислением соотношения идеальной составляющей мощности объекта #т и его фактической составляющей мощности:

$d m_{1} (m) = \frac{P_{i d e a l}}{P_{a c t u a l}} = \frac{r_{m}^{2}}{d_{m}^{2} \cdot t^{2}} = \frac{r_{m}^{2} \cdot \sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i}}{d_{m}^{2} \cdot \sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i}} (4)$

Здесь, $\sum_{i = 1}^{N} r_{i}^{2} \cdot X$ отображает мощность окончательно сформированного рендерингом сигнала, a $\sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i}$ - мощность даунмикс-сигнала. Следует обратить внимание, что на практике вместо значении X_i могут быть непосредственно подставлены соответствующие значения разности уровней объектов (OLDi), пересылаемые как часть служебной информации SAOC 214.

Для лучшей интерпретации dm₁ его определение может быть повторно сформулировано как:

$d m_{1} (m) = \frac{r_{m}^{2} \cdot \sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i}}{d_{m}^{2} \cdot \sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i}} = \frac{\frac{r_{m}^{2} \cdot X_{m}}{\sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i}}}{\frac{d_{m}^{2} \cdot X_{m}}{\sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i}}} (4 a)$

По сути это значит, что метрика искажения представляет собой пропорцию относительной составляющей мощности объекта в идеальном (выходном) рендеринг-сигнале к такой составляющей в даунмикс - (входном) сигнале. Это согласуется с заключением, что схема SAOC действует лучше всего, когда отсутствует необходимость изменения относительных мощностей объектов на большие коэффициенты.

Возрастающие значения dm₁ означают снижение качества звучания относительно аудиообъекта #m. Было установлено, что значение dm₁ остается постоянным, если все коэффициенты рендеринга масштабируются с одним и тем же коэффициентом, или если аналогично масштабируются все коэффициенты понижающего микширования. Также выявлено, что увеличение коэффициента рендеринга для объекта #m (увеличение его относительного уровня) ведет к росту искажений. Значения dm₁ могут быть интерпретированы следующим образом:

- значение 1 служит показателем идеального качества относительно объекта #m;

- превышение значениями dm₁ 1 означает ухудшение качества;

- уменьшение значений dm₁ ниже 1 не означает дальнейшее повышение качества относительно объекта #m.

Отсюда следует, что общая мера качества звуковой сцены (т.е. качества звучания всех аудиообъектов) может быть рассчитана следующим образом:

$D M_{1} = \frac{\sum_{m = 1}^{N} w (m) \cdot \max [d m_{1} (m), 1]}{\sum_{m = 1}^{N} w (m)} (5)$

В этом уравнении w(m) служит показателем весового коэффициента объекта #m, определяющим соотношение значимости и выразительности конкретного объекта аудиосцены. Тогда, например, w(m) можно выбрать в зависимости от мощности/громкости объекта $w (m) = {(r_{m}^{2} X_{m})}^{a}$ , где для α, в среднем, может быть задано значение 0,25, что будет способствовать приближенной эмуляции психоакустического нарастания громкости для этого объекта. Более того, w(m) может учитывать тональные эффекты и явление маскирования. В другом случае w(m) может быть задано значение 1, что упрощает вычисление DM₁.

2.3.2 Мера искажения #2

Возможен вариант, при котором мера искажения строится на базе уравнения (4) с выведением перцептуальной меры из отношения шум-маска (NMR), то есть - с вычислением соотношения между шумом/интерференцией и порогом слышимости:

$d m_{2} (m) = \frac{P_{N o i s e}}{M a s k} = \frac{P_{i d e a l} - P_{a c t u a l}}{m s r \cdot P_{t o t a l}} = \frac{(r_{m}^{2} - d_{m}^{2} \cdot t^{2})}{m s r \cdot \sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i}} = \frac{(r_{m}^{2} \cdot \sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i} - d_{m}^{2} \cdot \sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i}) \cdot X_{i}}{m s r \cdot (\sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i}) \cdot (\sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i})} (6)$

В этом уравнении msr - показатель отношения маска-сигнал [отношения порога слышимости к сигналу (MSR)] полного аудиосигнала, которое зависит от тональности. Возрастающие величины dm₂ служат показателем усиления искажения относительно звукового объекта #m. Вновь, значение dm₂ остается постоянным, если все коэффициенты рендеринга будут масштабированы с общим множителем, или если все даунмикс-коэффициенты будут масштабированы идентично. Диапазон значений dm₂ можно интерпретировать следующим образом:

- значение 0 означает идеальное качество относительно объекта #m;

- увеличение значений dm₂ выше 1 указывает на прогрессирующую акустическую деградацию;

- значения dm₂ ниже 1 отражают качество звука, нераспознаваемое по сравнению с объектом #m.

$D M_{2} = \frac{\sum_{m = 1}^{N} w (m) \cdot \max [d m_{2} (m), 1]}{\sum_{m = 1}^{N} w (m)} (7)$

Опять же, w(m) обозначает весовой коэффициент объекта #m, определяющий соотношение между выразительностью / уровнем / громкостью выделенного объекта в структуре аудиосцены, обычно выбираемый как $w (m) = {(r_{m}^{2} X_{m})}^{a}$ при α=-25.

В соответствии с уравнением (6) мера искажения определяет искажение как разность мощностей (что соответствует измерению „NMR с разницей спектров"). В качестве альтернативы искажение может быть рассчитано, исходя из формы сигнала, что дает в результате следующую меру, содержащую дополнительный смешанный терм произведения:

$\begin{array}{l} d m_{2}' (m) = \frac{P_{N o i s e}}{M a s k} = \frac{E [{y_{m; i d e a l} - {\hat{y}}_{m; a c t u a l}}]}{m s r \cdot_{P t o t a l}} = \\ \frac{| r_{m}^{2} \cdot \sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i} - d_{m}^{2} \cdot \sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i} - 2 \cdot d_{m} r_{m} \cdot \sqrt{(\sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i}) \cdot (\sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i})} | \cdot X_{m}}{m s r \cdot (\sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i}) \cdot (\sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i})} \end{array}$

2.3.3 Мера искажения #3

Далее представлена третья мера искажения, которая описывает степень когерентности даунмикс-сигнала и рендеринг-сигнала. Более высокая когерентность дает лучшее субъективно воспринимаемое качество звука. Дополнительно в расчет принимается корреляция входных аудиообъектов, если на стороне декодера SAOC присутствуют данные IOC.

Исходя из параметров SAOC (например, данных 214а, которые могут содержать показатели разности уровней объектов и межобъектной корреляции), строится модель ковариации объектов

$E = \sqrt{O L D^{T} \cdot O L D} \cdot I O C$

Для вычисления меры искажения строят матрицу M, которая содержит коэффициенты рендеринга и понижающего микширования (M может быть интерпретирована как матрица аудиорендеринга для системы SAOC N-1-2),

$M = (\begin{matrix} r_{1} & r_{2} \\ d_{1} & d_{2} \end{matrix} \begin{matrix} \dots & r_{N} \\ \dots & d_{N} \end{matrix})$

Тогда, ковариантность С сигнала понижающего микширования и сигнала, полученного рендерингом будет

$C = M \cdot E \cdot M * = (\begin{matrix} c_{11} & c_{12} \\ c_{21} & c_{22} \end{matrix})$

Мера искажения ОМз определяется как

$D M_{3} = 1 - \min (\frac{| c_{12} |}{\sqrt{c_{11} \cdot c_{22}}}, 1)$

Значения DM₃ могут интерпретироваться следующим образом:

- значения находятся в диапазон [0…1] и служат показателем когерентности даунмикс- и рендеринг-сигнала.

- значение 0 указывает на идеальное качество.

- увеличение значений DM₃ означает ухудшение качества.

2.3.4 Мера искажения #4

2.3.4.1 Общие сведения

Предлагается использовать в качестве меры искажения усредненное взвешенное соотношение между заданной энергией аудиорендеринга (UPMIX) и оптимальной энергией понижающего микширования (рассчитанной из данного даунмикса DMX).

На фиг.4 дано графическое представление понижающего микширования (DMX), оптимальная энергия понижающего микширования (DMX_opt) и заданная энергия рендеринга (UPMIX).

2.3.4.2 Список условных обозначений

c -(1, 2,…, N_ch} каналы повышающего микширования (апмикс-каналы)

dx=(1, 2) каналы понижающего микширования (даунмикс-каналы)

ob={1, 2,…, N_ob} аудиообъекты

pb={1, 2,…, N_pb} диапазоны параметров

r_ch,ob,pb=r(ch, ob, pb) матрица аудиорендеринга для канала ch, аудиообъекта ob и диапазона параметров pb

d_dx,ob,pb=d(dx, ob, pb) матрица понижающего микширования для даунмикс-канала dx, аудиообъекта ob и диапазона параметров pb

w_ob,pb=w(ob, pb) весовой коэффициент, представляющий выразительность / уровень / громкость аудиообъекта ob для диапазона параметров pb

NRG_pb=NRG(pb), абсолютная энергия аудиообъекта с наибольшей энергией для частотного диапазона pb

OLD_ob,pb=OLD(ob, pb) разность уровней объектов, описывающая разницу уровней интенсивности между одним аудиообъектом ob и объектом с самой высокой энергией для соответствующей полосы частот pb

$I O C_{o b_{i}, o b_{j}, p b} = I O C (o b_{i}, o b_{j}, p b)$ межобъектная корреляция, описывающая соотношение между двумя каналами аудиообъектов.

2.3.4.3 Алгоритм

Ниже кратко представлены шаги алгоритма оценки меры искажения #4.

- Вычисление относительной энергии повышающего микширования и понижающего микширования:

${\hat{r}}_{c h, o b, p b}^{2} = O L D_{o b, p b} \cdot r_{c h, o b, p b}^{2}$ , ${\hat{d}}_{d x, o b, p b}^{2} = O L D_{o b, p b} \cdot d_{d x, o b}^{2}$ .

- Нормализация энергий, при которой $\sum_{o b = 1}^{N_{o b}} {\tilde{r}}_{c h, o b, p b}^{2} = 1$ и $\sum_{o b = 1}^{N_{o b}} {\tilde{d}}_{d m, o b, p b}^{2} = 1$ :

${\tilde{r}}_{c h, o b, p b}^{2} = \frac{{\hat{r}}_{c h, o b, p b}^{2}}{\sum_{o b = 1}^{N_{o b}} {\hat{r}}_{c h, o b, p b}^{2}}$ , ${\tilde{d}}_{d m, o b, p b}^{2} = \frac{{\hat{d}}_{d m, o b, p b}^{2}}{\sum_{o b = 1}^{N_{o b}} {\hat{d}}_{d m, o b, p b}^{2}}$

- Построение оптимального даунмикса $d_{c h, o b, p b}^{2 (o p t)}$ для каждого апмикс-канала и диапазона: $d_{c h, o b, p b}^{2 (o p t)} = α_{c h, o b, p b} \cdot {\tilde{d}}_{1, o b, p b}^{2} + β_{c h, o b, p b} \cdot {\tilde{d}}_{2, o b, p b}^{2}$

Мультипликативные константы α_ch,ob,pb, β_ch,ob,pb рассчитывают путем решения приведенной выше системы линейных уравнений для удовлетворения следующего условия $‖ d_{c h, o b, p b}^{2 (o p t)} - {\tilde{r}}_{c h, o b, p b}^{2} ‖ \underset{α, β}{\to} 0$ .

- Вычисление меры искажения:

$D M_{4} = \sum_{o b = 1}^{N_{o b}} \sum_{c h = 1}^{N_{c h}} | 1 - \frac{{\tilde{r}}_{c h, o b, p b}^{2}}{d_{c h, o b, p b}^{2 (o p t)}} | w_{o b, p b} {\hat{r}}_{c h, o b, p b}^{2}$ .

2.3.4.4 Контроль над искажениями

Контроль над искажениями достигается за счет ограничения одного или более коэффициентов рендеринга в зависимости от меры искажения DM4.

Можно принять к сведению, что (i) эта мера применима только для понижающего стереомикширования, и (ii) что она может быть приведена к DM1 для #dx=1 и #ch=1.

2.3.4.5 Спецификация

Ниже приведены основные характеристики подхода к вычислению меры искажения номер 4. Данный подход

- подразумевает идеальное транскодирование,

- позволяет выполнять понижающее стереомикширование (стереодаунмикс); и

- предусматривает обобщение (генерализацию) с многоканальным рендерингом.

2.3.5 Мера искажения #5

Рассмотрим еще один вариант расчета коэффициента транскодирования t. Его интерпретация как расширения t дает в результате матрицу транскодирования Т, которая характеризуется межобъектной когерентностью (IOC) и одновременно расширяет текущие метрики DM#1 и DM#2 до стереодаунмикса и многоканального апмикса. Такое приложение коэффициента транскодирования t подразумевает согласование мощности выходного сигнала актуализированного рендеринга с мощностью сигнала идеального рендеринга, т.е.

$t^{2} = \frac{\sum_{i = 1}^{N} r_{i}^{2} X_{i}}{\sum_{i = 1}^{N} d_{i}^{2} X_{i}}$

Введение матрицы ковариантности приводит к модификации представления t, а именно, формирует матрицу транскодирования Т, которая учитывает также межобъектную когерентность. Элементы Е рассчитываются из параметров SAOC 214 как

$e_{i j} = \sqrt{O L D_{i} O L D_{j}} I O C_{i j}$

Матрица транскодирования представляет преобразование понижающего микширования в выходной сигнал аудиорендеринга таким образом, что TDx≈Rx. Это достигается за счет минимизации среднеквадратической ошибки с получением

T=RED*(DED*)^-1.

При H=RED* или $h_{i j} = \sum_{l = 1}^{N} \sum_{m = 1}^{N} r_{i l} d_{j m} e_{l m}$

и V=DFD* или $ν_{i j} = \sum_{l = 1}^{N} \sum_{m = 1}^{N} r_{i l} d_{j m} e_{l m}$

меру искажения типа dm₁, но теперь - для каждой комбинации понижающего микширования/рендеринга (n, k) объекта m, выводим с помощью

$d m_{5}^{"} (m, n, k) = \frac{r_{m, k}^{2} ν_{n, n}}{d_{m, n}^{2} h_{k, n}}$ .

Применяя dm₁(m) отдельно для левого и правого капала понижающего микширования, приходим к

$d m_{L} (m, n, k) = \frac{r_{m, k}^{2} ν_{1,1}}{d_{m,1}^{2} h_{k,1}}$ и $d m_{R} (m, n, k) = \frac{r_{m, k}^{2} ν_{2,2}}{d_{m,2}^{2} h_{k,2}}$ .

Если предположить, что лучший из двух трактов понижающего микширования/повышающего микширования выбирается по качеству выходного сигнал аудиорендеринга, то мера (критерий) соответствует минимальному значению, т.е.

$d m_{S}^{'} (m, k) = \min [d m_{L}, d m_{R}]$ .

Общая мера всех выходных каналов, обозначенных индексом k, может быть рассчитана как

$d m_{5} (m) \frac{\sum_{k = 1}^{N_{C h}} d m_{5}^{'} (m, k) r_{m, k}^{2} X_{m}}{\sum_{k = 1}^{N_{C h}} r_{m, k}^{2} e_{k, k}}$

Общая мера всех объектов может быть получена

$D M_{5} = \frac{\sum_{m = 1}^{N} w (m) \max [d m_{5} (m), 1]}{\sum_{m = 1}^{N} w (m)}$ с $w (m) = {[r_{m}^{2} X_{m}]}^{α}$ как прежде.

Такое же расширение t в T выполнимо для dm₂ и $d m_{2}^{'}$ .

2.3.6. Мера искажения #6

Дальше опишем шестую меру искажения.

Пусть e_i(t) - квадратичная гилбертова огибающая сигнала объекта #i, а P_i - мощность сигнала объекта #i (оба - в пределах одного поддиапазона), тогда мера N тонально-шумового подобия может быть выведена из оценки нормализованной дисперсии (изменчивости) огибающей Гилберта как

$N_{i} = \frac{var {e_{i}}}{P_{i}^{2}}$

В другом случае вместо дисперсии непосредственно огибающей Гилберта можно использовать мощность / дисперсию разностного сигнала гилбертовой огибающей. В любом случае мера отражает интенсивность флуктуации огибающей во времени.

Эта мера тонально-шумового соотношения N может быть определена как для сигнала, смикшированного в соответствии с идеальным рендерингом, так и для звука, смикшированного по актуализированному рендерингу SAOC, при этом мера искажения может быть выведена из разности между ними, так:

$D M_{6} = {| N_{i d e a l} - N_{a c t u a l} |}^{β}$

где β - показатель (например, β=2).

2.3.7. Расчет уровней энергии акустических образов сигналов источника для контрольной сцены и сцены, воспроизведенной по рендерингу SAOC

Чтобы для вычисления мер искажения рассчитать уровни энергии объектов в структуре звукового образа источника в контрольной сцене и в сцене, воссоздаваемой по рендерингу SAOC, необходимо брать в расчет матрицу транскодирования T для сцены, воспроизведенной по рендерингу SAOC, так как она сформирована согласно „Мере искажения 5", а также корреляцию сигналов источника для обеих сцен - базовой (контрольной) и воспроизведенной через рендеринг.

Примечание: прописные буквы в индексации сигналов в данном случае отражают матричное представление сигналов, а не энергии сигналов, как в разделах выше.

Для произвольного источника x_m составляющие x_m сигнала во всех источниках x_i могут быть рассчитаны следующим образом:

Все сигналы источника x_i распределяют между составляющей x_i||m сигнала, коррелирующей с обрабатываемым объектом x_m, и составляющей x_i⊥m, некоррелирующующей с x_m. Это может быть выполнено путем подпространственной проекции x_m на все сигналы x_i, т.е. x_i=x_i||m+x_i⊥m. Коррелирующая составляющая выражена через

$x_{i | | m} = \frac{x_{m}^{T} x_{i}}{x_{m}^{T} x_{m}} x_{m} = \frac{I C O_{i, m}}{{‖ x_{m} ‖}^{2}} x_{m} = g_{i, m} x_{m}$ .

2.3.7.1 Вычисление $P_{i d e a l, x_{m}}$ на основе представления источника $y_{x_{m}}$ в базовой сцене y:

При Y=RX и X=X_⊥m+X_||m образ $y_{x_{m}}$ аудиоисточника для всех каналов рендеринга может быть рассчитано через $Y_{x_{m}} = R X_{| | m}$ , где

$X_{| | m} = (\begin{matrix} x_{1 | | m}^{T} \\ x_{2 | | m}^{T} \\ ⋮ \\ x_{N | | m}^{T} \end{matrix}) = (\begin{matrix} g_{1, m} x_{m}^{T} \\ g_{2, m} x_{m}^{T} \\ ⋮ \\ g_{N, m} x_{m}^{T} \end{matrix})$

$Y_{x_{m}}$ может быть рассчитан так:

$Y_{x_{m}} = R X_{| | m} = (\begin{matrix} r_{c h_{1}, x_{1}} & r_{c h_{1}, x_{2}} & ⋮ & r_{c h_{1}, x_{N}} \\ r_{c h 2, x_{1}} & r_{c h_{2}, x_{2}} & ⋮ & r_{c h_{2}, x_{N}} \\ \dots & \dots & ⋱ & r_{N_{c h - 1}, x_{N}} \\ r_{N_{c h}, x_{1}} & r_{N_{c h}, x_{2}} & r_{N_{c h}, x_{n - 1}} & r_{N_{c h}, x_{N}} \end{matrix}) (\begin{matrix} g_{1, m} x_{m}^{T} \\ g_{2, m} x_{m}^{T} \\ ⋮ \\ g_{N, m} x_{m}^{T} \end{matrix})$

В силу этого уровень энергии $P_{i d e a l, x_{m}}$ исходного акустического образа $Y_{x_{m}}$ в базовой сцена будет оценен как:

$P_{i d e a l, x_{m}} = (\begin{matrix} {‖ r_{c h_{1}, x_{1}} g_{1, m} + r_{c h_{1}, x_{2}} g_{2, m} + \dots + r_{c h_{1}, x_{N}} g_{N, m} ‖}^{2} {‖ x_{m} ‖}^{2} \\ \dots \\ {‖ r_{N_{c h}, x_{1}} g_{1, m} + r_{N_{c h}, x_{2}} g_{2, m} + \dots + r_{N_{c h}, x_{N}} g_{N, m} ‖}^{2} {‖ x_{m} ‖}^{2} \end{matrix})$ .

2.3.7.2 Вычисление $P_{i d e a l, x_{m}}$ на основе представления источника $\hat{y} x_{m}$ в сцене $\hat{y}$ , воспроизведенной по рендерингу SAOC:

Это может быть выполнено способом, аналогичным $P_{i d e a l, x_{m}}$ . При матрице транскодирования Т и матрице понижающего микширования D для всех каналов в рендеринг-сцене $\hat{y} x_{m}$ будет: ${\hat{Y}}_{x_{m}} = T^{0.5} D X_{| | m}$ .

Используя $D = (\begin{array}{l} \begin{matrix} d_{11} & \dots & d_{N} \end{matrix} \\ \begin{matrix} d_{21} & \dots & d_{2 N} \end{matrix} \end{array})$ и $T = (\begin{matrix} \begin{array}{l} t_{11} \\ ⋮ \end{array} & \begin{array}{l} t_{12} \\ ⋮ \end{array} \\ t_{N_{c h} 1} & t_{N_{c h} 2} \end{matrix})$

${\hat{Y}}_{x_{m}} = (\begin{matrix} \sqrt{t_{11}} d_{11} + \sqrt{t_{21}} d_{21} & \sqrt{t_{11}} d_{12} + \sqrt{t_{21}} d_{22} & \dots & \sqrt{t_{11}} d_{1 N} + \sqrt{t_{21}} d_{2 N} \\ \sqrt{t_{21}} d_{11} + \sqrt{t_{22}} d_{21} & \sqrt{t_{21}} d_{12} + \sqrt{t_{21}} d_{22} & \dots & \sqrt{t_{21}} d_{1 N} + \sqrt{t_{22}} d_{2 N} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ \sqrt{t_{N_{c h} 1}} d_{11} + \sqrt{t_{N_{c h} 2}} d_{21} & \sqrt{t_{N_{c h} 1}} d_{12} + \sqrt{t_{N_{c h} 2}} d_{22} & \dots & \sqrt{t_{N_{c h} 1}} d_{1 N} + \sqrt{t_{N_{c h} 2}} d_{2 N} \end{matrix}) (\begin{matrix} g_{1, m} x_{m}^{T} \\ g_{2, m} x_{m}^{T} \\ ⋮ \\ g_{N, m} x_{m}^{T} \end{matrix})$

Р Y Следовательно, энергия $P_{i d e a l, x_{m}}$ исходного акустического образа ${\hat{Y}}_{x_{m}}$ в контрольной сцене будет:

$P_{i d e a l, x_{m}} = (\begin{matrix} {‖ g_{1, m} (\sqrt{t_{11}} d_{11} + \sqrt{t_{12}} d_{21}) + g_{2, m} (\sqrt{t_{11}} d_{12} + \sqrt{t_{12}} d_{22}) + \dots g_{N, m} (\sqrt{t_{11}} d_{1 N} + \sqrt{t_{12}} d_{2 N}) ‖}^{2} {‖ x_{m} ‖}^{2} \\ \dots \\ {‖ g_{1, m} (\sqrt{t_{N_{c h} 1}} d_{11} + \sqrt{t_{N_{c h} 2}} d_{21}) + g_{2, m} (\sqrt{t_{N_{c h} 1}} d_{12} + \sqrt{t_{N_{c h} 2}} d_{22}) + \dots g_{N, m} (\sqrt{t_{N_{c h} 1}} d_{1 N} + \sqrt{t_{N_{c h} 2}} d_{2 N}) ‖}^{2} {‖ x_{m} ‖}^{2} \end{matrix})$ =

2.3.7.3. Вычисление меры искажения

Мера искажения типа dm₁ может быть оценена для каждого объекта m и выходного канала рендеринга k как

$d m_{7}^{'} (m, k) = \frac{P_{i d e a l}}{P_{a c t u a l}} = \frac{{‖ r_{k 1} I O C_{1 m} + \dots + r_{k N} I O C_{N_{m}} ‖}^{2}}{{‖ (\sqrt{t k_{1}} d_{11} + \sqrt{t k_{2}} d_{21}) I O C_{1 m} + \dots + (\sqrt{t k_{1}} d_{1 N} + \sqrt{t k_{2}} d_{2 N}) I O C_{N_{m}} ‖}^{2}}$ .

$d m_{7} (m) \frac{\sum_{k = 1}^{N_{C h}} d m_{7}^{'} (m, k) r_{m, k}^{2} {‖ x_{m} ‖}^{2}}{\sum_{k = 1}^{N_{C h}} r_{m, k}^{2} e_{k, k}}$ .

$D M_{5} = \frac{\sum_{m = 1}^{N} w (m) \max [d m_{7} (m), 1]}{\sum_{m = 1}^{N} w (m)}$ при $w (m) = {[r_{m}^{2} X_{m}]}^{α}$ как прежде.

2.3.8 Характеристики сигнала объекта

Дальше рассмотрим некоторые параметры сигналов объектов, которые могут быть задействованы, например, устройством [регулятором коэффициентов рендеринга] 250 или подавителем артефактов 320 с целью оценки меры искажения (DM).

В процессе пространственного кодирования аудиообъекта - SAOC - несколько сигналов акустических объектов микшируют с понижением, формируя микшированный с понижением сигнал (даунмикс-сигнал), который в последующем используют для генерации в процессе аудиорендеринга итогового выходного звукового сигнала. Если тональный сигнал объекта микшируют вместе со вторым сигналом объекта, равным по мощности, но более приближенным к шуму, результирующий сигнал стремится быть „шумоподобным". Это остается в силе, когда второй сигнал объекта имеет более высокую мощность. Только, если мощность второго сигнала объекта значительно ниже мощности первого, результат будет приближен к тональному. Подобным же образом, соотношение тона / шума в выходном сигнале рендеринга SAOC, главным образом, определяется отношением тон / шум в даунмикс-сигнале, независимо от примененных коэффициентов рендеринга. Для достижения качественного звучания на выходе необходимо также, чтобы тонально-шумовое соотношение сигнала актуализированного рендеринга было приближено к „тональности/шумоподобию" сигнала идеального рендеринга. Чтобы применить такой подход для определения меры искажения, параметры соотношения тона/шума по каждому объекту должны передаваться в составе битстрима. Отношение тон/шум N выходного сигнала идеального рендеринга в таком случае может быть рассчитано декодером SAOC как функция отношения тон/шум каждого объекта N_i от мощности каждого объекта P_i, т.е.

N=f(N₁, P₁, N₂, P₂, N₃, P₃,…)

и сопоставлено с отношением тон/шум выходного сигнала актуализированного рендеринга для вычисления меры искажения. В качестве примера можно привести следующую функцию f():

$N = \frac{\sum_{i} N_{i} \cdot P_{i}^{α}}{{(\sum_{i} P_{i})}^{α}}$

которая объединяет отношения тон/шум объектов и мощности объектов в общий выходной показатель, таксирующий тонально-шумовое соотношение смеси сигналов. Показатель а выбирают, чтобы оптимизировать точность алгоритма оценивания данной меры тонально-шумового соотношения (например, α=2). Удовлетворяющая требованиям метрика искажения, базирующаяся на „тональности/шумоподобии", описана в разделе 2.3.6 как мера искажения #6.

2.4 Схемы компенсации искажений

2.4.1 Обзор схем компенсации искажений

Далее приведен краткий обзор существующих многообразных схем компенсации искажений. Как описано выше, регулятор коэффициентов рендеринга 250 получает входные коэффициенты рендеринга 242 и на их основе генерирует модифицированный коэффициент рендеринга 222 для декодера SAOC 220.

Можно выделить различные концепции расчета модифицированных коэффициентов рендеринга, некоторые из которых могут быть объединены в ряде конструктивных решений. Согласно первой концепции одно или более пороговых значений параметров рендеринга рассчитывают на первом этапе в зависимости от одного или более параметров служебной информации 214 (т.е., исходя из объектно-ориентированной параметрической информации 214). Затем, вычисляют актуализованные („модифицированные или откорректированные") коэффициенты рендеринга 222 в зависимости от произвольно заданного параметра рендеринга 242 и одного или более пороговых значений параметров рендеринга таким образом, что актуализованные параметры рендеринга входили в интервал пороговых значений параметров рендеринга. Соответственно, параметры рендеринга, которые выходят за пределы пороговых величин параметров рендеринга, регулируются (модифицируются) так, чтобы попадать в заданный диапазон предельных значений параметров рендеринга. Эта первая концепция легко осуществима, однако, может иногда не удовлетворять требованиям потребителя, поскольку выбор пользователем желаемых параметров рендеринга 242 не берется в расчет, если задаваемые по желанию пользователя параметры рендеринга 242 выходят за пределы диапазона пороговых значений параметров рендеринга.

Из второй концепции следует, что регулятор параметров вычисляет линейную комбинацию квадрата желаемого параметра рендеринга и квадрата оптимального параметра рендеринга для выведения актуализованного параметра рендеринга. В этом случае регулятор параметров определяет соотношение составляющих желаемого параметра рендеринга и оптимального параметра рендеринга в линейной комбинации с учетом заданного порогового параметра и метрики искажения (как описано выше).

Дополнительно можно определить, мера искажения (метрика искажения) вычислена с использованием свойств межобъектной взаимосвязи или индивидуальных свойств объектов, или же и тех и других. Некоторые конструктивные решения предусматривают оценивание только характеристик взаимного соотношения объектов без учета специфических характеристик отдельных объектов (связанных с одним конкретным объектом). Другие конструктивные решения оценивают только отличительные признаки обособленных объектов, не учитывая параметры взаимного соотношения объектов. Тем не менее, существуют версии реализации, основанные на совокупном оценивании как свойств межобъектной взаимосвязи, так и индивидуальных свойств объектов.

На основании этих соображений, а также на основании рассмотренных выше различных мер искажения можно сформулировать ряд схем компенсации искажений, о чем обзорно говорится в следующем разделе. Такие схемы компенсации искажений могут быть использованы регулятором коэффициентов рендеринга 250 для выведения модифицированных коэффициентов рендеринга на основе входных коэффициентов рендеринга 242.

2.4.2 Схема компенсации искажений #1

В параграфе 2.3.1 простая мера искажения была определена вычислением отношения идеальной составляющей мощности объекта #m к актуализованной составляющей его мощности (уравнение 4):

Это уравнение содержит единственные переменные, управляемые рендерером SAOC, -коэффициенты рендеринга, которые используются в процедуре перекодирования (транскодирования). Следовательно, если результирующая метрика искажения не будет превышать определенное пороговое значение Т, то это вводит некоторое условие для соответствующего коэффициента матрицы аудиорендеринга:

$d m_{1} (m) = \frac{r_{m}^{2} \cdot \sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i}}{d_{m}^{2} \cdot \sum_{i = 1}^{N} r_{i}^{2} \cdot X_{i}} \leq T \Leftrightarrow r_{m}^{2} \leq {\hat{r}}_{m}^{2} = T \cdot \frac{d_{m}^{2} \cdot \sum_{i = 1, i \neq m}^{N} r_{i}^{2} \cdot X_{i}}{| \sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i} - T \cdot d_{m}^{2} \cdot X_{m} |} (6.1. a)$

Чтобы найти решение для всех ${\hat{r}}_{m}^{2}$ , необходимо задать систему линейных уравнений Ax=b, где

$x = [\begin{matrix} {\hat{r}}_{1}^{2} \\ {\hat{r}}_{2}^{2} \\ ⋮ \\ {\hat{r}}_{N}^{2} \end{matrix}]$ , $b = [\begin{matrix} 0 \\ 0 \\ ⋮ \\ \sum_{i = 1}^{N} r_{i}^{2} \end{matrix}]$ и $A = [\begin{matrix} - c_{1} & d_{1}^{2} X_{2} & \dots & d_{1}^{2} X_{N} \\ d_{2}^{2} X_{1} & - c_{2} & \dots & d_{2}^{2} X_{N} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & 1 & 1 & 1 \end{matrix}]$

при $c_{m} = \frac{1}{T} (\sum_{i = 1}^{N} d_{i}^{2} \cdot X_{i} - T \cdot d_{m}^{2} \cdot X_{m})$

Первые N рядов А напрямую получены из уравнения (6.1.а). Вводится дополнительное ограничение, при котором энергия новых (ограниченных) коэффициентов рендеринга эквивалентна энергии заданных пользователем коэффициентов. Тогда решение для ${\hat{r}}_{m}^{2}$ (которые можно рассматривать как пороговые значения параметров рендеринга) будет выглядеть как:

x=(A^TA)^-1A^Tb

С этого момента можно начать рассматривать первую упрощенную схему компенсации искажения. Для SAOC-декодирования в декодер SAOC вместо коэффициентов матрицы рендеринга 242, получаемых непосредственно с пользовательского интерфейса, вводят эффективно примененный коэффициент рендеринга r_m, 222 для объекта #m, предварительно модифицированный / ограниченный (например, регулятором коэффициентов рендеринга 240) на пофреймовой основе:

$r_{m}^{' 2} = \min (r_{m}^{2}, {\hat{r}}_{m}^{2})$

Как примечание, процедура компенсации зависит от индивидуальной энергии объектов в каждом конкретном фрейме. Подход прост, но имеет такие недостатки, как:

- он не учитывает относительный уровень громкости объекта и эффект перцептуального маскирования; и

- он улавливает только эффекты усиления выделенного объекта, но не улавливает эффекты ослабления усиления объекта.

Средством против этого могло бы быть установление более низкой границы значения [меры/метрики искажения] dm.

2.4.3 Схема компенсации #2

2.4.3.1 Обзор схемы компенсации

В этом разделе рассматриваются такие аспекты функции компенсации, как:

- мера искажения в рамках порога компенсации,

- деривация компенсированной матрицы рендеринга основано на функции компенсации и на расстоянии этой матрицы от исходной матрицы аудиорендеринга.

Такая функция компенсации (или схема компенсации) может выполняться, например, регулятором коэффициентов рендеринга 250 во взаимодействии с вычислителем искажений 260.

Мера искажения является функцией от матрицы аудиорендеринга, следовательно:

- исходная матрица рендеринга (описываемая, к примеру, входными коэффициентами рендеринга 242) формирует исходную меру искажения,

- оптимальная мера искажения формирует оптимальную матрицу аудиорендеринга, однако удаленность этой оптимальной матрицы аудиорендеринга от исходной матрицы рендеринга может быть не оптимальной,

- мера искажения линейно обратно пропорциональна расстоянию от матрицы аудиорендеринга до исходной матрицы рендеринга,

- для конкретного порогового значения компенсированная матрица рендеринга (описанная, например, скорректированными или модифицированными коэффициентами рендеринга 222) формируется интерполяцией (например, линейной) между исходной и оптимальной рабочими точками.

Кроме того, делают допущение, что мощность сигнала в результате рендеринга в каждой рабочей точке приблизительно постоянна, так, что

$\sum_{i = 1}^{N_{c h}} r_{i}^{2} X_{i} \approx \sum_{i = 1}^{N_{c h}} r_{\lim, i}^{2} X_{i} \approx \sum_{i = 1}^{N_{c h}} r_{o p t, i}^{2} X_{i}$

Схему компенсации #2 можно использовать с различными мерами искажения, что будет рассмотрено дальше.

2.4.3.2 Ограничение меры искажения #1

В каждом диапазоне параметров мера искажения dm₁(m) для интересующего объекта m определяется как

$d m_{1} (m) = \frac{r_{m}^{2} \sum_{i = 1}^{N} d_{i}^{2} X_{i}}{d_{m}^{2} \sum_{i = 1}^{N} r_{i}^{2} X_{i}}$

Оптимальная матрица аудиорендеринга формируется при задании dm₁(m) оптимального значения, т.е. dm_1,opt(m)=1

$r_{o p t, m}^{1} = d_{m}^{2} = \frac{\sum_{i = 1}^{N_{o b}} r_{i}^{2} X_{i}}{\sum_{i = 1}^{N_{o b}} d_{i}^{2} X_{i}}$ .

Соответственно, оптимальные значения $r_{o p t, m}^{2}$ матрицы рендеринга могут быть получены при применении системы уравнений, где $r_{i}^{2}$ заменено на $r_{o p t, i}^{2}$ .

При предварительно заданном пороговом значении T для dm₁(m) компенсированную матрицу рендеринга получаем из

$r_{\lim, m}^{2} = \frac{T - 1}{d m_{1} (m)} (r_{m}^{2} - r_{o p t, m}^{2}) + r_{o p t, m}^{2}$

2.4.3.3 Ограничение меры искажения #2а

Меру искажения dm_2a(m), которая иногда также кратко обозначается как ”dm₂(m)”,определяют следующим образом:

$d m_{2 a} (m) = \frac{(r_{m}^{2} \cdot \sum_{i = 1}^{N_{o b}} d_{i}^{2} - X_{i} - d_{m}^{2} \sum_{i = 1}^{N_{o b}} r_{i}^{2} X_{i})}{m s r \sum_{i = 1}^{N_{o b}} r_{i}^{2} X_{i} \sum_{i = 1}^{N_{o b}} d_{i}^{2} X_{i}} = \frac{\frac{r_{m}^{2} X_{m}}{\sum_{i = 1}^{N_{o b}} r_{i}^{2} X_{i}} - \frac{d_{m}^{2} X_{m}}{\sum_{i = 1}^{N_{o b}} d_{i}^{2} X_{i}}}{m s r}$

для объекта m и каждого диапазона параметров. Для определенного диапазона pb параметров отношение маска-сигнал msr(pb) является функцией мощности сигнала, полученного рендерингом

$m s r (p b) = {[\sum_{i = 1}^{N_{o b}} r_{i}^{2} X_{i} M_{k}]}_{k = \max (p b)} = {[\sum_{i = 1}^{N_{o b}} r_{i}^{2} X_{i}]}_{k = \max (p b)} = {[M_{k}]}_{k = \max (p b)}$ .

Оптимальным значением меры искажения является ноль, т.е. dm_2a,opt(m)=0. Это соответствует безупречному безошибочному транскодированию. Отсюда, оптимальная матрица рендеринга дает

$r_{o p t, m}^{2} = d_{m}^{2} \frac{\sum_{i = 1}^{N_{o b}} r_{i}^{2} X_{i}}{\sum_{i = 1}^{N_{o b}} d_{i}^{2} X_{i}}$

При dm_2a(m)=T компенсированная матрица рендеринга, которая может быть описана модифицированными коэффициентами рендеринга 222, приобретает вид

$r_{o p t, m}^{2} = \frac{T - 1}{d m_{2 a} (m)} (r_{m}^{2} - r_{o p t, m}^{2}) + r_{o p t, m}^{2}$ .

2.4.3.4 Ограничение меры искажения #2b

Мера искажения dm_2b(m), иногда кратко обозначаемая dm_2'(m) может быть также использована устройством 240 для выработки компенсированной матрицы рендеринга, которая может быть описана модифицированными коэффициентами рендеринга 222, исходя из входных коэффициентов рендеринга 242.

2.4.3.5 Ограничение меры искажения #4

Мера искажения dm₄(m) определяется как

$d m_{4} (m) = | 1 - \frac{r_{2}^{m} \sum_{i = 1}^{N_{o b}} d_{i}^{2} X_{i}}{d_{2}^{m} \sum_{i = 1}^{N_{o b}} r_{i}^{2} X_{i}} |$

для объекта m и каждого диапазона параметров, и его оптимальное значение dm_4,opt(m)=0.

Как результат оптимальная и компенсированная матрицы рендеринга приобретают вид:

$r_{o p t, m}^{2} = d_{m}^{2} \frac{\sum_{i = 1}^{N_{o b}} r_{i}^{2} X_{i}}{\sum_{i = 1}^{N_{o b}} d_{i}^{2} X_{i}}$

$r_{o p t, m}^{2} = \frac{T - 1}{d m_{2 a} (m)} (r_{m}^{2} - r_{o p t, m}^{2}) + r_{o p t, m}^{2}$ .

Следовательно, устройство 240 может генерировать модифицированные коэффициенты рендеринга 222 на основании входных коэффициентов рендеринга 242, а также на основании меры искажения 252, который может быть равной четвертой мере искажения dm^ {т)

2.4.4 Схема компенсации #3

В соответствии с формулой (6.1.а) ограниченный коэффициент рендеринга для объекта т может быть вычислен для меры искажения #3 следующим образом. После сокращений

$c_{1} = \sum_{i = 1}^{N} \sum_{j = 1}^{N} d_{i} d_{j} e_{i j}$ , $c_{2} = \sum_{i = 1, i \neq m}^{N} r_{i} e_{i m}$ , $c_{3} = \sum_{i = 1, i \neq m}^{N} \sum_{j = 1, j \neq m}^{N} r_{i} r_{j} e_{i j}$ , $c_{4} = \sum_{i = 1}^{N} d_{i} e_{m i}$ и $c_{5} = \sum_{i = 1, i \neq m}^{N} \sum_{j = 1, j \neq m}^{N} r_{i} d_{j} e_{i j}$

получаем квадратное уравнение

${\hat{r}}_{m}^{2} ({(1 - T)}^{2} \cdot c_{1} e_{m m}) + {\hat{r}}_{m} \cdot 2 \cdot ({(1 - T)}^{2} \cdot c_{1} c_{2} - c_{4} c_{5}) + {(1 - T)}^{2} \cdot c_{1} c_{3} \overset{!}{=} a \cdot {\hat{r}}_{m}^{2} + b \cdot {\hat{r}}_{m} + c = 0$

чье (положительное) решение представляет собой

${\hat{r}}_{m} = \frac{- b + \sqrt{b^{2} - 4 a c}}{2 a} (6.2 a)$

Таким образом, устройство 240 может предусматривать предельные значения ${\hat{r}}_{m}$ параметров рендеринга и может ограничивать регулируемые (или модифицируемые) коэффициенты рендеринга 222 в соответствии с указанными предельными значениями параметров рендеринга.

2.4.5 Дополнительная подстройка

Описанная выше концепция ограничения коэффициентов рендеринга 222, вырабатываемых раздельно или в комплексе устройством 240, предусматривает последующую оптимизацию. Например, возможно сведение в М-канальное представление (рендеринг). Для этого может быть использована сумма квадратов/степень коэффициентов рендеринга вместо одного коэффициента рендеринга.

Кроме того, возможно сведение в стереосигнал понижающего микширования. С этой целью может быть применена сумма квадратов/степень коэффициентов понижающего микширования вместо одного коэффициента понижающего микширования.

В некоторых версиях реализации метрики искажений могут быть объединены по частотам в одну, используемую для контроля деградации. Иногда, наоборот, предпочтительнее (и проще) контролировать искажения независимо по каждой частотной полосе.

Многие концепции могут найти приложение для актуализации контроля искажений. Например, ограничения могут быть введены для одного или более коэффициентов рендеринга. В другом случае или дополнительно можно лимитировать матричный коэффициент т2 (например, при декодировании в формате MPEG Surround). Вместо этого или вместе с этим, может быть ограничен относительный коэффициент усиления объекта.

3. Конструктивное решение на фиг.3

Далее, со ссылкой на фиг.3 будет рассмотрен еще один возможный вариант компоновки декодера SAOC. Сначала, для ознакомления с тематикой кратко обсудим основные положения. На выходе системы „пространственного кодирования аудиообъекта" (SAOC) (согласно стандарту ISO/IEC 23003-2) могут возникать артефакты, зависящие от свойств конкретного аудиообъекта и взаимодействия между матрицей аудиорендеринга и матрицей понижающего микширования. Чтобы пояснить суть проблемы, рассмотрим, сохраняя общий подход, случай, где матрица понижающего микширование и матрица рендеринга имеют одну размерность. Соответствующие соображения остаются в силе при разном количества каналов понижающего микширования и воспроизводимой рендерингом сцены.

Как установлено, в целом, вероятность появления артефактов возрастает при значительном несовпадении матрицы аудиорендеринга с матрицей понижающего микширования. Различают несколько типов артефактов:

1. Недостатки рендеринга, то есть отличие матрицы „фактического" аудиорендеринга от матрицы желаемого аудиорендеринга, вводимой в декодер SAOC (получаемое в действительности ослабление или усиление аудиообъекта не соответствует тому, что задано в матрице аудиорендеринга). Обычно это происходит в результате перекрывания объектов в определенных параметрических диапазонах.

2. Нежелательные и, возможно, изменяющиеся во времени, колебания тембра аудиообъекта. Этот артефакт особенно неблагоприятен, когда „рассеяние", упомянутое в 1., возникает только локально в отдельном параметрическом диапазоне.

3. Такие артефакты, как модуляции сигналов объектов, тональных сигналов или модуляция шума, вызванные вариантной по времени и частоте обработкой сигналов декодером SAOC.

Было сделано заключение о необходимости минимизации всех типов артефактов.

Унифицированный подход к решению этой проблемы и к минимизации артефактов должен включать в себя вариантный по времени и частоте пост-процессинг (доработку) матрицы желаемого рендеринга перед ее введением в декодер SAOC. Такой подход отображен на фиг.3.

На фиг.3 дана принципиальная блочная схема декодера SAOC 300. Декодер SAOC 300 для краткости может быть назван как декодер аудиосигнала. Декодер аудиосигнала 300 имеет в своем составе ядро декодера SAOC 310, реализованное с целью приема представления сигнала понижающего микширования 312 и битстрима SAOC 314 и с целью формирования на их основе описания 316 преобразованной рендерингом сцены, например, в форме представления множества аудиоканалов повышающего микширования.

Также, декодер аудиосигнала 300 включает в свой состав подавитель артефактов 320, который, в частности, может быть выполнен в форме устройства оптимизации одного и более параметров на базе одного или более входных параметров. Подавитель артефактов 320 принимает информацию 322 о матрице произвольно выбранного (желаемого) рендеринга. Информация 322 может быть в виде, например, множества произвольно заданных (желаемых) параметров рендеринга, которые могут содержать входные данные для подавления артефактов. Кроме того, подавитель артефактов 320 принимает представление даунмикс-сигнала 312 и битстрим SAOC 314, причем битстрим SAOC 314 может содержать объектно-ориентированную параметрическую информацию. Далее, подавитель артефактов 320 генерирует модифицированную матрицу аудиорендеринга 324 (например, в форме множества скорректированных параметров рендеринга) в зависимости от информации 322 о желаемой матрице рендеринга.

Следовательно, ядро декодера SAOC 310 характеризуется тем, что формирует представление 316 звуковой сцены на основании представления сигнала понижающего микширования 312, потока двоичных данных пространственного кодирования аудиообъекта (SAOC) 314 и модифицированной матрицы аудиорендеринга 324.

Далее дана краткая детализация конструктивных возможностей декодера аудиосигнала. Выявлено, что для оценки риска возникновения артефактов из-за потенциально ограниченных сепарационных возможностей системы SAOC для конкретной желаемой рендеринг-матрицы следует задействовать как даунмикс-сигнал (в представлении даунмикс-сигнала 312), так и битстрим SAOC 314. Наличие этих данных позволяет реализовать попытку устранить такие артефакты путем, допустим, модификации матрицы звукоотображения (аудиорендеринга). Эту функцию реализует подавитель артефактов 320. Передовые подходы к подавлению учитывают наряду с ограничениями системы SAOC по временной и частотной селективности (за счет перекрывания), также психоакустические эффекты, что означает, что эти подходы нацелены на формирование в процессе рендеринга аудиосигнала, как можно более приближенного к желаемому звучанию на выходе с как можно меньшим числом воспринимаемых на слух артефактов.

Предпочтительный подход к устранению артефактов, реализованный в декодере аудиосигнала 300 на фиг.3, основан на применении совокупной меры искажения, которая является взвешенной комбинацией мер искажения, оценивающих различные виды упомянутых выше артефактов. Эти весовые показатели устанавливают оптимальное соотношение между различными видами названных артефактов. Следует указать на то, что весовые показатели для этих разновидностей артефактов могут зависеть от назначения применения системы SAOC.

Другими словами, подавитель артефактов 320 реализуется с возможностью определения мер искажения для множества разновидностей артефактов. Например, возможно применение подавителем артефактов 320 некоторых мер искажения dm₁ к dm₆, рассмотренному выше. Как вариант, или дополнительно, подавитель артефактов 320 может использовать другие меры искажения, описывающие другие типы артефактов, о которых говорилось в текущем разделе. Более того, подавление артефактов может предусматривать формирование модифицированной матрицы рендеринга 324 на базе матрицы произвольно задаваемого рендеринга 322 с задействованием одной или более схем компенсации искажений, которые рассматривались выше (например, в разделах 2.4.2, 2.4.3 и 2.4.4), или сопоставимых схем гашения артефактов.

4. Транскодеры аудиосигнала на фиг.5а и 5b

4.1 Транскодер аудиосигнала на фиг.5а

Следует отметить, что концепции, рассмотренные выше, могут быть отнесены как к декодеру, так и к транскодеру аудиосигнала. Ранее фиг.2 и 3 были использованы для иллюстрации концепции изобретения при компоновке в сочетании с декодерами аудиосигнала. Далее приложение концепции изобретения будет кратко рассмотрено в варианте компоновки с транскодерами аудиосигнала.

Обратим внимание на то, что элементы сходства аудиодекодеров и аудиотранскодеров уже обсуждались со ссылкой на фиг.9а, 9b и 9c, поэтому данные ранее пояснения остаются в силе для концепции изобретения.

Фиг.5а отображает принципиальную блочную схему транскодера аудиосигнала 500 в компоновке с декодером формата MPEG Surround 510. Как можно видеть, аудиотранскодер 500, например, транскодер SAOC в MPEG Surround, реализован с возможностью приема битстрима SAOC 520 и генерации на его основе битстрима MPEG Surround 522 без модификации или воздействия на представление даунмикс-сигнала 524. Аудиотранскодер 500 включает в свой состав анализатор SAOC 530, предназначенный для приема битстрима SAOC 520 и извлечения из него необходимых параметров SAOC. Далее, аудиотранскодер 500 включает в себя процессор рендеринга сцены 540, предназначенный для приема параметров SAOC, поступающих от анализатора SAOC 530, и данных матрицы аудиорендеринга 542, которые можно рассматривать как данные (матрицы) актуализированного рендеринга, и которые могут быть представлены, например, в форме множества скорректированных (или модифицированных) параметров аудиорендеринга. Процессор рендеринга сцены 540 генерирует битстрим MPEG Surround 522, исходя из названных параметров SAOC и матрицы рендеринга 542. С этой целью процессор рендеринга сцены 540 рассчитывает параметры битстрима MPEG Surround 522, являющиеся параметрами каналов (называемыми также параметрическими данными). Таким образом, процессор рендеринга сцены 540 выполняет функцию преобразования (или перекодирования - „транскодирования") параметров битстрима SAOC 520, представляющих собой поток объектно-ориентированной параметрической информации, в параметры битстрима MPEG Surround, содержащие параметрические данные каналов, на основании актуализованной матрицы аудиорендеринга 542.

Кроме того, транскодер аудиосигнала 500 включает в свой состав генератор актуализованной матрицы аудиорендеринга 550, который принимает информацию о матрице желаемого рендеринга, например, в виде данных построения звукового образа 552 и пространственной конфигурации акустических объектов 554. В другом случае генератор актуализованной матрицы рендеринга 550 может принимать информацию о произвольно заданных параметрах рендеринга (например, элементы матрицы аудиорендеринга). Кроме того, генератор матрицы аудиорендеринга принимает битстрим SAOC 520 (или, по меньшей мере, набор объектно-ориентированных параметров из битстрима SAOC 520). Далее, на базе полученной информации генератор матрицы рендеринга 550 формирует актуализованную (откорректированную или модифицированную) матрицу аудиорендеринга 542. В этих пределах генератор актуализованной матрицы рендеринга 550 может выполнять функции устройства 100 или устройства 240.

Декодер MPEG Surround 510 стандартно реализован для вырабатывания множества сигналов апмикс-каналов на базе информации даунмикс-сигнала 524 и потока данных MPEG Surround 522, поступающего от процессора рендеринга сцены 540.

Итак, транскодер аудиосигнала 500 характеризуется тем, что формирует битстрим MPEG Surround 522 который позволяет на базе представления сигнала понижающего микширования 524 формировать представление сигнала повышающего микширования, которое, в основном, строится декодером MPEG Surround 510. Генератор актуализованной матрицы рендеринга 550 настраивает матрицу аудиорендеринга 542, используемую процессором рендеринга сцены 540, таким образом, чтобы представление сигнала повышающего микширования, генерируемое декодером MPEG Surround 510, не содержало неприемлемое слышимое искажение.

4.2 Транскодера аудиосигнала на фиг.5b

На фиг.5b показан вариант компоновки транскодера аудиосигнала 560 и декодера MPEG Surround 510. Очевидно, что компоновка на фиг.5b сходна с фиг.5а, в силу чего для обозначения идентичных аппаратных средств и сигналов использованы одинаковые номера ссылок. Аудиотранскодер 560 отличается от аудиотранскодера 500 тем, что имеет в своем составе транскодер сигнала понижающего микширования 570, который принимает входящее представление даунмикс-сигнала 524 и формирует модифицированное представление даунмикс-сигнала 574, которое пересылает на декодер MPEG Surround 510. Модификация представления сигнала понижающего микширования необходима для большей гибкости при построении желаемого акустического результата. Это является следствием того, что битстрим MPEG Surround 522 не может выполнять некоторые преобразования входного сигнала декодера MPEG Surround 510 в сигналы канала повышающего микширования, выводимые декодером MPEG Surround 510. В силу этого, модификация представления даунмикс-сигнала транскодером даунмикс-сигнала 570 обеспечивает лучшую адаптивность.

Вновь, генератор актуализованной матрицы рендеринга 550 может взять на себя функции устройства 100 или устройства 240, обеспечивая таким образом сохранение вполне низкого уровня слышимых искажений в представлении сигнала повышающего микширования, генерируемом декодером MPEG Surround 510.

5. Кодер аудиосигнала на фиг.6

Далее, рассмотрим кодер аудиосигнала 600, опираясь на фиг.6, где представлена принципиальная блочная схема такого аудиокодера. Аудиокодер 600 реализован с целью получения на входе множества сигналов объектов 612а, 612N (обозначенных также x₁-x_N) и формирования на их основе представления даунмикс-сигнала 614 и объектно-ориентированной параметрической информации 616. Аудиокодер 600 включает в себя понижающий микшер 620, генерирующий один или более даунмикс-сигналов (которые составляют представление даунмикс-сигнала 614), используя коэффициенты понижающего микширования d₁-d_N, соотнесенные с сигналами объектов, таким образом, что один или более даунмикс-сигналов отображают суперпозицию совокупности сигналов объектов. Кроме того, аудиокодер 600 включает в себя драйвер доступа к служебной информации 630, обеспечивающий дополнительные данные межобъектного соотношения, описывающие разности уровней и характеристики корреляции двух или более сигналов объектов 612а-612N. Кроме обозначенного, драйвер доступа к служебной информации 630 обеспечивает сопутствующие данные обособленных объектов, описывающие одно или более специфических свойств сигналов обособленных объектов.

Таким образом, кодер аудиосигнала 600 формирует объектно-ориентированную параметрическую информацию 616, которая должна содержать дополнительные данные межобъектного соотношения и индивидуальную сопроводительную информацию аудиообъекта.

Было установлено, что объектно-ориентированная параметрическая информация, которая отражает одновременно взаимосвязь между сигналами объектов и индивидуальные характеристики сигналов обособленных объектов, позволяет построить многоканальный акустический сигнал с использованием декодера аудиосигнала, как обсуждалось выше. Дополнительные данные межобъектного соотношения могут быть полезны для использования аудиодекодером, который принимает объектно-ориентированную параметрическую информацию 616 для извлечения из представления сигнала понижающего микширования, хотя бы приближенно, сигналов обособленных объектов. Сопроводительная информация обособленного объекта, включенная в объектно-ориентированную параметрическую информацию 614, может быть использована декодером аудиосигнала для контроля в процессе повышающего микширования за искажениями избыточной мощности, чтобы параметры повышающего микширования (например, параметры рендеринга) могли быть скорректированы.

Предпочтительно, чтобы драйвер доступа к служебной информации 630 отличался возможностью предоставлять дополнительные данные обособленных объектов таким образом, чтобы они описывали тональные характеристики сигналов обособленных объектов. Было выявлено, что тональные характеристики могут служить надежным критерием оценки того, возникают, или нет, в процессе повышающего микширования существенные искажениям.

Здесь также следует отметить, что аудиокодер 600 может быть дополнен любой из рассмотренных ранее конструктивных и функциональных возможностей кодера аудиосигналов, и что аудиокодер 600 может сформировать представление даунмикс-сигнала 614 и объектно-ориентированную параметрическую информацию 616 таким образом, что они будут содержать те характеристики, которые рассматривались как необходимые для функционирования относящегося к изобретению декодера аудиосигнала.

6. Аудиобитстрим на фиг.7

На фиг.7 схематически представлен поток двоичного представления звука (аудиобитстрим) 700, относящийся к заявляемому изобретению. Аудиобитстрим представляет собой множество сигналов объектов в кодированной форме.

Аудиобитстрим 700 включает в себя представление сигнала понижающего микширования 710, содержащее один или более сигналов понижающего микширования, из которых, по меньшей мере, один микшированный с понижением сигнал отображает суперпозицию совокупности сигналов объектов. Аудиобитстрим 700 включает в себя также дополнительные данные межобъектного соотношения 720, описывающие разности уровней и корреляционные характеристики сигналов объектов. Кроме того, аудиобитстрим заключает в себе служебную информацию о индивидуальных объектах 730, отражающую одно или более специфических свойств сигналов обособленных объектов (которые составляют основу представления даунмикс-сигнала 710).

Дополнительные данные межобъектного соотношения и информация о индивидуальных объектах может рассматриваться как совокупная объектно-ориентированная служебная параметрическая информация.

Предпочтительное конструктивное решение отличается тем, что вспомогательные данные обособленного объекта описывают тональные характеристики сигналов обособленного объекта.

Как и надлежит, аудиобитстрим 700 стандартно генерируется кодером аудиосигнала, о чем говорилось выше, и обрабатывается декодером аудиосигнала, что также обсуждалось здесь. Аудиобитстрим (как поток двоичного представления звука) содержит характеристики, необходимые для работы аудиокодера и аудиодекодера, что также не осталось здесь без внимания. Следовательно, аудиобитстрим 700 полностью удовлетворяет условиям формирования многоканального акустического сигнала с использованием декодера аудиосигнала, о чем здесь также шла речь.

7. Заключение

Рассмотренные реализации заявляемого изобретения обеспечивают решение изложенной выше проблемы ослабления или предупреждения искажений, возникающей вследствие того, что одиночные исходные сигналы объекта-источника не могут быть восстановлены идеально из немногих транслируемых микшированных с понижением сигналов.

Известны более простые способы решения этой задачи:

- упрощенно это выглядит как ограничение диапазона относительного коэффициента усиления объекта, например, до +/-12 dB. Хотя, это справедливо, столь высокие уставки коэффициента усиления объекта могут привести к различимой на слух деградации звука (пример: усиление одного объекта на 20 дБ при сохранении уровней других объектов на 0 дБ), тем более, что в этом нет необходимости. Например, усиление всех относительных уровней объектов с одинаковым коэффициентом не ухудшает качество выхода системы.

- Более сложным выглядит подход, при котором относительные уровни объектов изменяются по-разному. При рендеринге (звукоотображении) двух аудиообъектов разница двух относительных уровней этих объектов, несомненно, представляет собой источник возможной деградации выходного сигнала аудиорендеринга. Тем менее понятно, как этот аспект распространяется на рендеринг более, чем двух объектов.

В данной ситуации конструктивные решения, относящиеся к изобретению, предоставляют средства, обеспечивающие возможность обращения к этой проблеме и, тем самым, предупреждения нежелательного пользовательского опыта. Некоторые варианты осуществления настоящего изобретения могут послужит основой для еще более сложных решений, чем предложены в предыдущих разделах.

Следовательно, при использовании настоящего изобретения положительное слуховое впечатление достигается, даже если пользователь задает неблагоприятные параметры рендеринга.

Говоря в целом, реализации заявляемого изобретения относятся к устройству, способу или компьютерной программе, предназначенных для кодирования аудиосигнала или декодирования закодированного аудиосигнала, или к кодированному аудиосигналу (например, в форме аудиобитстрима), как описано выше.

8. Альтернативные решения

Несмотря на то, что здесь в основном рассматривается оборудование с точки зрения его технического устройства, понятно, что аспекты материальной части тесно связаны с описанием соответствующих способов ее применения, и какое-либо изделие или блок соответствуют особенностям метода или технологической операции. Аналогично, рассматриваемые технологии и рабочие операции непосредственно связаны с соответствующим машинным оборудованием и его элементной базой. Некоторые или все шаги предлагаемого способа могут быть выполнены с использованием аппаратных средств, таких, например, как микропроцессор, программируемый компьютер или электронная схема. В некоторых случаях осуществления одна или больше ответственных операций, составляющих данный способ, могут быть выполнены таким устройством.

Относящийся к изобретению кодированный аудиосигнал или аудиобитстрим могут быть сохранены на цифровом носителе или могут передаваться с использованием средств беспроводной или проводной связи, например, Интернета.

В зависимости от конечного назначения и особенностей практического применения изобретение может быть реализовано в аппаратных или программных средствах. В реализации могу быть применены такие цифровые носители информации, как гибкий диск, DVD, „Блю-рей", CD, ПЗУ, ППЗУ, программируемое ПЗУ, СППЗУ или ФЛЭШ-память, содержащие электронно-считываемые управляющие сигналы, которые взаимодействуют (или совместимы) с программируемой компьютерной системой таким образом, что предлагаемый способ может быть осуществлен. Следовательно, цифровая среда хранения данных может быть читаемой компьютером.

Некоторые варианты конструкции согласно данному изобретению имеют в своем составе носитель информации, содержащий электронно считываемые сигналы управления, совместимый с программируемой компьютерной системой и способный участвовать в реализации одного из описанных здесь способов.

В целом данное изобретение может быть реализовано как компьютерный программный продукт с кодом программы, обеспечивающим осуществление одного из предлагаемых способов при условии, что компьютерный программный продукт используется с применением компьютера. Код программы может, например, храниться на машиночитаемом носителе.

Различные варианты реализации включают в себя компьютерную программу, хранящуюся на машиночитаемом носителе, для осуществления одного из описанных здесь способов.

Таким образом, формулируя иначе, относящийся к изобретению способ осуществляется с помощью компьютерной программы, имеющей код программы, обеспечивающий реализацию одного из описанных здесь способов, если компьютерную программу выполняют с использованием компьютера.

Далее, следовательно, техническое исполнение изобретенного способа включает в себя носитель данных (либо цифровой накопитель информации, либо читаемую компьютером среду), содержащий записанную на нем компьютерную программу, предназначенную для осуществления одного из способов, описанных здесь.

Отсюда следует, что реализация изобретения подразумевает наличие потока данных или последовательности сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть рассчитаны на передачу через средства связи, например, Интернет.

Кроме того, реализация включает в себя аппаратные средства, например, компьютер или программируемое логическое устройство, предназначенные или приспособленные для осуществления одного из описанных здесь способов.

Далее, для технического исполнения требуется компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов.

Некоторые версии конструкции для реализации одной или всех функциональных возможностей описанных здесь способов могут потребовать применения программируемого логического устройства (например, полевой программируемой матрицы логических элементов). В зависимости от назначения версии базовый матричный кристалл может сочетаться с микропроцессором с целью осуществления одного из описанных здесь способов. Как правило, описываемые способы могут быть реализованы с использованием любого аппаратного средства.

Описанные выше конструктивные решения являются только иллюстрациями основных принципов настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные здесь описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями.

Список литературы

[ВСС] С.Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.

[JSC] С.Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752.

[SAOC1] J. Herre, S. Disch, J. Hilpert, 0. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.

[SAOC2] J.Engdegard, B.Resch, C.Falch, O.Hellmuth, J.Hilpert, A.Hölzer, L.Terentiev, J.Breebaart, J.Koppens, E.Schuijers and W.Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377.

Иллюстрации к изобретению RU 2 573 738 C2

Реферат патента 2016 года УСТРОЙСТВО ДЛЯ ОПТИМИЗАЦИИ ОДНОГО ИЛИ БОЛЕЕ ПАРАМЕТРОВ ПРЕДСТАВЛЕНИЯ СИГНАЛА ПОВЫШАЮЩЕГО МИКШИРОВАНИЯ НА ОСНОВЕ ПРЕДСТАВЛЕНИЯ СИГНАЛА ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ, ДЕКОДЕР АУДИОСИГНАЛА, ТРАНСКОДЕР АУДИОСИГНАЛА, КОДЕР АУДИОСИГНАЛА, АУДИОБИТСТРИМ, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА С ИСПОЛЬЗОВАНИЕМ ОБЪЕКТНО-ОРИЕНТИРОВАННОЙ ПАРАМЕТРИЧЕСКОЙ ИНФОРМАЦИИ

Изобретение относится к средствам оптимизации одного и более параметров для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации. Технический результат заключается в уменьшении акустических искажений при повышающем микшировании аудиосигнала. Средство включает в себя регулятор параметров. Регулятор параметров принимает один или более входных параметров, на основе которых генерирует один или более скорректированных параметров. Регулятор параметров генерирует один или более скорректированных параметров с использованием одного или более входных параметров и объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванного использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, отклоняющихся от оптимальных параметров на величину, превышающую заданный предел отклонений.13 н. и 23 з.п. ф-лы, 12 ил.

Формула изобретения RU 2 573 738 C2

1. Устройство (100; 240; 320; 550) для оптимизации одного или более параметров (120; 222; 324; r_m', r_lim,m) представления сигнала повышающего микширования (; 316; 522, 524; 522, 574), которое является представлением аудиосигнала повышающего микширования, на основе представления сигнала понижающего микширования (212; 312; 524), при котором несколько сигналов аудиообъектов микшируются с понижением в сигнал понижающего микширования, и обеспечения объектно-ориентированной параметрической информации (214; 314; 520), включающее: регулятор параметров (140; 240), выполненный с возможностью принимать один или более входных параметров (110; 242; 322; 552, 554; r_i) и на их основе генерировать один или более оптимизированных параметров (120; 222; 324; 542), причем регулятор параметров характеризуется тем, что генерирует один или более оптимизированных параметров в зависимости от одного или более входных параметров и объектно-ориентированной параметрической информации (130; 214а, 214b, 214с; 314; 520) таким образом, что искажение представления сигнала повышающего микширования, вызванное приложением неоптимальных параметров, уменьшается, по меньшей мере, для входных параметров, которые имеют отклонение от оптимальных параметров, выходящее за установленный допустимый диапазон отклонений; при этом устройство предназначено для приема в качестве входных параметров (110; 242; 322; 552, 554; r_i) желаемых параметров аудиорендеринга (r_i), описывающих желаемое масштабирование интенсивности множества сигналов аудиообъектов (x₁-x_N) по одному или более аудиоканалов, описанных в представлении сигнала повышающего микширования (; 316; 522, 524; 522, 574); и в его составе регулятор параметров обеспечивает в качестве оптимизированных параметров один или более актуализованных параметров аудиорендеринга (r_m', r_lim,m) исходя из одного или более желаемых параметров аудиорендеринга (r_i) и объектно-ориентированной параметрической информации.

2. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью генерировать одно или более пороговых значений параметров рендеринга в зависимости от объектно-ориентированной параметрической информации (130; 214а, 214b, 214с; 314; 520) и информации понижающего микширования (214b; d_i), описывающих соотношение составляющих сигналов аудиообъектов (x₁-x_N) для представления сигнала понижающего микширования, при этом генерировать таким образом, что метрика искажений (dm₁(m),dm₂(m),dm₅(m),dm₆(m), DM₁, DM₂, DM₃, DM₄, DM₅, DM₆) находится в пределах заданного диапазона значений параметров рендеринга, удовлетворяющих интервалу значений, установленному предельными значениями параметров рендеринга, и в составе которого регулятор параметров выполнен с возможностью выведения актуализованных параметров аудиорендеринга (r_m', r_lim,m) исходя из желаемых параметров аудиорендеринга (r_i) и одного или более пороговых значений параметров рендеринга таким образом, что актуализованные параметры рендеринга удовлетворяют интервалу значений, заданному предельными значениями параметров аудиорендеринга.

3. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью выведения одного или более пороговых значений параметров рендеринга таким образом, что относительная составляющая сигнала объекта (x₁-x_N) в суперпозиции из множества сигналов объектов, сформированной в процессе аудиорендеринга с использованием одного или более параметров рендеринга (r_m', r_lim,m), отвечающих одному или более пороговым значениям параметров рендеринга, отличается от относительной составляющей сигнала объекта (x₁-x_N) в структуре микшированного с понижением сигнала (212; 312; 524) не больше, чем на расчетную разность.

4. Устройство по п. 3, в котором регулятор параметров выполнен с возможностью расчета одного или более значений параметров рендеринга r_m таким образом, что уравнение

выполняется для одного или более аудиообъектов, обозначенных индексом объекта m, где r_m - параметр рендеринга, описывающий составляющую сигнала аудиообъекта с индексом m в определенном канале микшированного с повышением сигнала, где d_m - параметр понижающего микширования, описывающий составляющую сигнала объекта (x₁-x_N) с индексом m в микшированном с понижением сигнале, и
где Xi - мера энергии аудиообъекта с индексом i, определяемая объектно-ориентированной параметрической информацией.

5. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью выведения одного или более предельных значений параметров рендеринга таким образом, что мера искажения (DM3), описывающая когерентность даунмикс-сигнала, отраженную в представлении даунмикс-сигнала, и сигнала, полученного рендерингом с использованием одного или более параметров аудиорендеринга (r_m), удовлетворяющих одному или более предельным значениям параметров рендеринга , находится в пределах заданного диапазона.

6. Устройство по п. 5, в котором регулятор параметров выполнен с возможностью
выведения одного или более предельных значений параметров рендеринга для так, чтобы мера искажения

принимала заданное значение, где С определяется как

характеризующееся тем, что

- матрица, в которой первый ряд параметров рендеринга r₁-r_n и второй ряд параметров понижающего микширования d₁-d_n описывают составляющие сигналов аудиообъектов в структуре представления сигнала понижающего микширования;
где Е - матрица ковариации объектов, сформированная с использованием параметров (OLD, IOC) объектно-ориентированной параметрической информации, и где "*" - комплексно-сопряженный оператор.

7. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью вычисления линейной комбинации квадрата желаемого параметра рендеринга (r_m) и квадрата оптимального параметра рендеринга (r_opt,m) для актуализации параметра аудиорендеринга (r_lim,m), в составе которого регулятор параметров выполнен с возможностью расчета соотношения составляющих желаемого параметра рендеринга (r_m) и оптимального параметра рендеринга (r_opt,m) в линейной комбинации, исходя из заданного порогового параметра Т и метрики искажения (dm₁, dm₂, dm₃, dm₄, dm₅, dm₆), описывающей искажение, возможное в случае применения одного или более желаемых параметров аудиорендеринга (r_m) вместо оптимальных параметров рендеринга (r_opt,m) для формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования.

8. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью вычисления уравнения

для актуализации (выведения актуализованного) параметра рендеринга r_lim,m, описывающего составляющую сигнала объекта с индексом m в данном апмикс-сигнале,
где Т - расчетный предельный показатель искажения,
dm_x (m) - метрика искажения, соотнесенная с желаемым параметром рендеринга r_m, описывающим желаемую составляющую сигнала аудиообъекта с индексом объекта m в структуре канала апмикс-сигнала;
r_opt,m - оптимальный параметр рендеринга, описывающий оптимальную составляющую сигнала аудиообъекта с индексом объекта m в канале апмикс-сигнала.

9. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью расчета метрики искажения, находящейся в зависимости от соотношения составляющей сигнала объекта в суперпозиции множества сигналов объектов, образованной в процессе рендеринга с введением желаемых параметров рендеринга, и составляющей данного сигнала объекта в структуре даунмикс-сигнала, включающего в себя данный сигнал объекта.

10. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью расчета метрики искажения (dm₁), зависящей от соотношения составляющей данного сигнала объекта (x₁-x_N) в суперпозиции множества сигналов объектов, сформированной в процессе рендеринга с использованием желаемых параметров рендеринга (r_m), и составляющей данного сигнала объекта (x₁-x_N) в даунмикс-сигнале, включающем в себя данный сигнал объекта (x₁-x_N).

11. Устройство по п 7, в в котором регулятор параметров выполнен с возможностью расчета метрики искажения dm_x (m) согласно

где r_m и r_i - произвольно заданные (желаемые) параметры рендеринга, соотнесенные с аудиообъектами, имеющими индексы объектов m и i, соответственно;
d_m и d_i - параметры понижающего микширования, описывающие относительные составляющие сигналов аудиообъектов с индексами объектов m и i, соответственно, в даунмикс-сигнале в представлении даунмикс-сигнала;
N_ob - количество выделенных аудиообъектов;
X_i - показатели уровня энергии, относящиеся к сигналам аудиообъектов с индексом объекта i.

12. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью расчета метрики искажения (dm₂), находящейся в зависимости от разности между относительной составляющей данного сигнала объекта (x₁-x_N) в суперпозиции множества сигналов объектов, сформированной в процессе аудиорендеринга с использованием желаемых параметров рендеринга (r_m) и относительной составляющей данного сигнала объекта (x₁-x_N) в структуре сигнала понижающего микширования, включающего в себя данный сигнал объекта (x₁-x_N).

13. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью расчета метрики искажения (dm₂), находящейся в зависимости от отношения маска-сигнал (порога слышимости к сигналу) (msr), таким образом, что метрика искажения (dm₂) убывает, служа показателем меньшего искажения, если отношение маска-сигнал возрастает.

14. Устройство по п. 7, в котором регулятор параметров выполнен с возможностью расчета метрики искажения на основании
или

где r_m и r_i - желаемые параметры рендеринга, соотнесенные с аудиообъектами, имеющими индексы объектов m и i, соответственно;
d_m и d_i - параметры понижающего микширования, описывающие относительные составляющие сигналов аудиообъектов с индексами объектов m и i, соответственно, в даунмикс-сигнале в представлении даунмикс-сигнала;
N - количество выделенных аудиообъектов;
X_i и X_m - показатели уровня энергии, относящиеся к сигналам аудиообъектов с индексами объекта i и m, соответственно; и
msr - отношение маска-сигнал.

15. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью генерировать один или более оптимизированных параметров в зависимости от вычислительной меры перцепционной деградации таким образом, что перцептивно оцениваемое искажение представления сигнала повышающего микширования, возбужденное введением неоптимальных параметров и выраженное вычислительной мерой перцепционной деградации, ограничено.

16. Устройство по п. 1, в котором регулятор параметров выполнен с возможностью приема информации о свойствах обособленного объекта, описывающей характеристики одного или более сигналов исходного объекта, которые составляют основу сигнала понижающего микширования, описанного посредством представления сигнала понижающего микширования; и в составе которого регулятор параметров выполнен с возможностью учета индивидуальных данных обособленного объекта и генерации оптимизированных параметров таким образом, что искажение представления сигнала повышающего микширования относительно идеального представления сигнала повышающего микширования уменьшается, по крайней мере, для входных параметров, имеющих отклонение от оптимальных параметров, превышающее расчетное отклонение.

17. Устройство по п. 16, в котором регулятор параметров характеризуется тем, что принимает и учитывает в качестве индивидуальных данных аудиообъекта тональные характеристики сигнала объекта для формирования одного или более оптимизированных параметров.

18. Устройство по п. 17, в котором регулятор параметров характеризуется тем, что оценивает тональные характеристики (N) апмикс-сигнала идеального рендеринга исходя из полученной информации о тональных свойствах сигнала объекта и полученной информации о мощности объекта (OLD, Р); и в составе которого регулятор параметров характеризуется тем, что генерирует один или более оптимизированных параметров с целью уменьшения различия между оцененной тональностью и тональностью апмикс-сигнала, сформированного с использованием одного или более оптимизированных параметров, по сравнению с различием между оцененной тональностью и тональностью апмикс-сигнала, сформированного с использованием одного или более входных параметров, или с целью сохранения различия между оцененной тональностью и тональностью апмикс-сигнала, сформированного с использованием одного или более оптимизированных параметров в пределах заданного диапазона.

19. Устройство по п. 1, в составе которого регулятор параметров характеризуется тем, что выполняет подстройку входных параметров по частоте и времени.

20. Устройство по п. 1, в котором регулятор параметров характеризуется тем, что при формировании одного или более оптимизированных параметров учитывает также представление сигнала понижающего микширования.

21. Устройство по п. 1, в котором регулятор параметров характеризуется тем, что определяет совокупную меру искажения, представляющую собой взвешенную совокупность мер искажения, описывающих множество типов артефактов; в составе которого регулятор параметров характеризуется тем, что определяет совокупную меру искажения как меру искажений, которые могли быть вызваны введением одного или более входных параметров рендеринга вместо оптимальных параметров рендеринга при формировании представления сигнала повышающего микширования на основе представления сигнала понижающего микширования.

22. Устройство по п. 21, в котором регулятор параметров характеризуется тем, что объединяет по меньшей мере две из перечисленных ниже мер искажения для выработки совокупной меры искажения:
- мера, описывающая паразитное изменение тембра аудиообъекта;
- мера, описывающая паразитную модуляцию сигнала аудиообъекта;
- мера, описывающая присутствие паразитного музыкального тона;
- мера, описывающая наличие паразитного модулированного шума.

23. Декодер аудиосигнала (220; 240; 300;) для представления в виде сигнала повышающего микширования множества аудиоканалов повышающего микширования (; 316) на основе представления сигнала понижающего микширования (212; 312), объектно-ориентированной параметрической информации (214; 314) и параметров (желаемого) рендеринга (242; 322), включающий: повышающий микшер (220; 310), реализованный с целью формирования аудиоканалов повышающего микширования (; 316) на основе представления сигнала понижающего микширования (212; 312) с учетом объектно-ориентированной параметрической информации (214; 314) и актуализованных данных рендеринга (222; 324), описывающих пространственное расположение множества сигналов аудиообъектов, отображенных в объектно-ориентированной параметрической информации, для аудиоканалов повышающего микширования; и устройство (100; 240; 320) для оптимизации одного или более параметров, включающее регулятор параметров (140; 240), предназначенный для приема одного или более входных параметров (110; 242; 322; 552 554; r_i) и выведения на его основе одного или более оптимизированных параметров (120; 222; 324; 542), при этом регулятор параметров выполнен с возможностью выведения одного или более оптимизированных параметров исходя из одного или более входных параметров и объектно-ориентированной параметрической информации (130; 214а, 214b, 214с; 314; 520) таким образом, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, которые отклоняются от оптимальных параметров больше, чем на предусмотренную величину девиации, и в составе которого устройство для оптимизации одного и более параметров характеризуется тем, что принимает информацию о желаемом рендеринге (242; 322) в виде одного или более входных параметров (110) и генерирует один или более оптимизированных параметров (222; 324) в виде данных актуализированного рендеринга; и характеризуется тем, что генерирует один или более оптимизированных параметров таким образом, что искажения аудиоканалов повышающего микширования (; 316), вызванные использованием актуализованных параметров рендеринга (r_m', r_lim,m), которые имеют отклонения от оптимальных параметров рендеринга (r_opt,m), уменьшаются, по крайней мере, для желаемых параметров рендеринга (r_i), чье отклонение от оптимальных параметров рендеринга (r_opt,m) превышает расчетное отклонение.

24. Транскодер аудиосигнала (500; 560) для представления в виде сигнала повышающего микширования (522) информации о параметрах каналов на основе представления сигнала понижающего микширования (524), объектно-ориентированной параметрической информации (520) и желаемых параметров рендеринга (552, 554), при этом транскодер служебной информации (540) реализован с целью подготовки параметрических данных каналов (522) на основе представления сигнала понижающего микширования (524) с учетом объектно-ориентированной параметрической информации (520) и актуализованных данных рендеринга (542), описывающих пространственное расположение множества сигналов аудиообъектов, отображенных в объектно-ориентированной параметрической информации (522), для аудиоканалов повышающего микширования, описываемых информацией о параметрах каналов; и устройство (100; 550) оптимизации одного или более параметров (542) включает регулятор параметров (140; 240), предназначенный для приема одного или более входных параметров (110; 242; 322; 552 554; r_i) и генерирования на его основе одного или более оптимизированных параметров (120; 222; 324; 542), при этом регулятор параметров выполнен с возможностью выведения одного или более оптимизированных параметров исходя из одного или более входных параметров и объектно-ориентированной параметрической информации (130; 214а, 2Mb, 214 с; 314; 520) таким образом, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, которые отклоняются от оптимальных параметров больше, чем на предусмотренную величину девиации, и где устройство оптимизации одного и более параметров принимает желаемые параметры рендеринга (552, 554) как один или более входных параметров (110) и формирует один или более оптимизированных параметров (120) в виде актуализованных данных рендеринга (542); и где устройство оптимизации одного или более параметров формирует один или более оптимизированных параметров (120) таким образом, что искажения аудиоканалов повышающего микширования, вызванные использованием актуализованных параметров рендеринга (542), отклоняющиеся от оптимальных параметров рендеринга, уменьшаются по крайней мере для желаемых параметров рендеринга (552, 554), отклоняющихся от оптимальных параметров рендеринга больше, чем на предусмотренную величину девиации.

25. Способ оптимизации одного или более параметров для представления сигнала повышающего микширования, которое является представлением аудиосигнала повышающего микширования на основе представления сигнала понижающего микширования, в котором несколько сигналов аудиообъектов микшированы с понижением в сигнал понижающего микширования, и объектно-ориентированной параметрической информации, для осуществления которого: принимают один или более входных параметров и генерируют на их основе один или более оптимизированных параметров, причем один или более оптимизированных параметров генерируют на основе одного или более входных параметров с учетом объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров, уменьшается, по крайней мере, для входных параметров, имеющих отклонение от оптимальных параметров, превышающее расчетное отклонение; при этом выбранные по желанию параметры рендеринга, описывающие желаемое масштабирование интенсивности множества сигналов аудиообъектов по одному или более аудиоканалам, описанные посредством представления сигнала повышающего микширования, принимают как входные параметры; и при этом один или более актуализованных параметров рендеринга формируют как оптимизированные параметры в зависимости от одного или более желаемых параметров аудиорендеринга и объектно-ориентированной параметрической информации.

26. Способ формирования множества аудиоканалов повышающего микширования в виде представления сигнала повышающего микширования на базе представления сигнала понижающего микширования, объектно-ориентированной параметрической информации и задаваемых по желанию параметров рендеринга, для осуществления которого: оптимизируют один или более параметров на основе одного или более принятых входных параметров, где один или более оптимизированных параметров формируют исходя из одного или более входных параметров и объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров уменьшается, по крайней мере, для входных параметров, отклоняющихся от оптимальных параметров больше, чем на предусмотренную величину девиации, и где желаемые параметры рендеринга принимают как один или более входных параметров, и где один или более оптимизированных параметров формируют как актуализованные данные рендеринга, и где один или более оптимизированных параметров формируют таким образом, что искажения аудиоканалов повышающего микширования, вызываемые использованием актуализованных параметров рендеринга, которые отклоняются от оптимальных параметров рендеринга, уменьшаются по крайней мере для желаемых параметров рендеринга, отклоняющихся от оптимальных параметров рендеринга больше, чем на предусмотренную величину девиации; и формируют аудиоканалы повышающего микширования на базе представления сигнала понижающего микширования с учетом объектно-ориентированной параметрической информации и актуализованных данных рендеринга, описывающих пространственное расположение множества сигналов аудиообъектов, отображенных в объектно-ориентированной параметрической информации, для аудиоканалов повышающего микширования.

27. Способ представления параметрических данных каналов в виде сигнала повышающего микширования на базе представления сигнала понижающего микширования, объектно-ориентированной параметрической информации и желаемых параметров рендеринга, для осуществления которого: оптимизируют один или более параметров на основе одного или более принятых входных параметров, где один или более оптимизированных параметров формируют исходя из одного или более входных параметров и объектно-ориентированной параметрической информации таким образом, что искажение представления сигнала повышающего микширования, вызванное использованием неоптимальных параметров, уменьшается по крайней мере для входных параметров, отклоняющихся от оптимальных параметров больше, чем на предусмотренную величину девиации, и где желаемые параметры рендеринга принимают как один или более входных параметров, и где один или более оптимизированных параметров формируют как актуализованные данные рендеринга, и где один или более оптимизированных параметров формируют таким образом, что искажения аудиоканалов повышающего микширования, вызываемые использованием актуализованных параметров рендеринга, которые отклоняются от оптимальных параметров рендеринга, уменьшаются по крайней мере для желаемых параметров рендеринга, отклоняющихся от оптимальных параметров рендеринга больше, чем на предусмотренную величину девиации; и
формируют информацию о параметрах каналов, которая описывает аудиоканалы повышающего микширования на основе представления сигнала понижающего микширования и исходя из объектно-ориентированной параметрической информации и актуализованных данных рендеринга, описывающих расположение множества сигналов аудиообъектов, отраженных в объектно-ориентированной параметрической информации для аудиоканалов повышающего микширования, которые содержатся в относящейся к каналам параметрической информации.

28. Кодер аудиосигнала (600), предназначенный для формирования представления сигнала понижающего микширования (614) и объектно-ориентированной параметрической информации (616) на основе множества сигналов объектов (x1-xN), включающий: понижающий микшер (620), генерирующий один или более сигналов понижающего микширования на основании даунмикс-коэффициентов (d1-dN), соотнесенных с сигналами объектов (x1-xN), таким образом, что один или более даунмикс-сигналов отображают множество наложенных сигналов объектов; драйвер доступа к служебной информации (630), обеспечивающий дополнительные данные межобъектного соотношения (OLD, IOC), описывающие разности уровней и корреляционные характеристики сигналов объектов (x1-xN), и сопутствующие данные обособленного объекта, описывающие одно или более индивидуальных свойств сигналов обособленных объектов (x1-xN).

29. Кодер по п. 28, в котором драйвер доступа к служебной информации (630) обеспечивает дополнительные данные обособленного объекта, описывающие тональные характеристики сигналов обособленного объекта (x₁-x_N).

30. Способ формирования представления сигнала понижающего микширования и объектно-ориентированной параметрической информации на материале массива сигналов объектов, для осуществления которого: формируют один или более микшированных с понижением сигналов в зависимости от даунмикс-коэффициентов, соотнесенных с сигналами объектов, таким образом, что один или более даунмикс-сигналов отображают совокупность наложенных сигналов объектов; и формируют дополнительные данные межобъектного соотношения, описывающие разности уровней и корреляционные характеристики сигналов объектов; и формируют сопутствующие данные обособленного объекта, описывающие одно или более индивидуальных свойств сигналов обособленных объектов.

31. Цифровой носитель информации с сохраненным на нем аудиобитстримом (700), представляющем множество сигналов объектов (x1-xN) в кодированной форме, содержащем представление даунмикс-сигнала (710), включающее один или более даунмикс-сигналов, из которых по меньшей мере один даунмикс-сигнал отображает наложение множества сигналов объектов; и служебную информацию о межобъектном соотношении (720), описывающую разности уровней и характеристики корреляции сигналов объектов; и сопутствующие данные обособленного объекта (730), описывающие одно или более индивидуальных свойств сигналов обособленных объектов.

32. Цифровой носитель по п. 31, в структуре которого сопутствующие данные обособленного объекта отображают тональные характеристики сигналов обособленных объектов.

33. Цифровой носитель информации с сохраненным на нем кодом компьютерной программы для осуществления способа по п. 25.

34. Цифровой носитель информации с сохраненным на нем кодом компьютерной программы для осуществления способа по п. 26.

35. Цифровой носитель информации с сохраненным на нем кодом компьютерной программы для осуществления способа по п. 27.

36. Цифровой носитель информации с сохраненным на нем кодом компьютерной программы для осуществления способа по п. 30.

Документы, цитированные в отчете о поиске Патент 2016 года RU2573738C2

US 2008002842 A1, 03.01.2008
WO 2008084427 A2, 17.07.2008
ИСПАРИТЕЛЬНЫЙ КУБ УСТАНОВКИ ДЛЯ ПОЛУЧЕНИЯ СПИРТА	2000	Молокин Ю.В.	RU2175670C1
WO 2008035275 A2, 27.03.2008
WO 2009049895 A1, 23.04.2009
RU 2009109125 A, 05.10.2007.

RU 2 573 738 C2

Авторы

Херре Юрген

Хоелцер Андреас

Терентьев Леонид

Кастнер Торстен

Фалх Корнелиа

Пурнхаген Хеико

Энгдегард Йонас

Фалко Риддербуш

Даты

2016-01-27—Публикация

2010-04-28—Подача

название	год	авторы	номер документа
ДЕКОДЕР АУДИОСИГНАЛА, СПОСОБ ДЕКОДИРОВАНИЯ АУДИОСИГНАЛА И КОМПЬЮТЕРНАЯ ПРОГРАММА С ИСПОЛЬЗОВАНИЕМ СТУПЕНЕЙ КАСКАДНОЙ ОБРАБОТКИ АУДИООБЪЕКТОВ	2010	Хеллмут Оливер Фалк Корнелиа Херре Юрген Хилперт Йоханнес Терентьев Леонид Риддербуш Фалко	RU2558612C2
ДЕКОДЕР АУДИОСИГНАЛА, КОДЕР АУДИОСИГНАЛА, СПОСОБ ФОРМИРОВАНИЯ ПРЕДСТАВЛЕНИЯ СИГНАЛА ПОВЫШАЮЩЕГО МИКШИРОВАНИЯ, СПОСОБ ФОРМИРОВАНИЯ ПРЕДСТАВЛЕНИЯ СИГНАЛА ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ, КОМПЬЮТЕРНАЯ ПРОГРАММА И БИСТРИМ, ИСПОЛЬЗУЮЩИЙ ЗНАЧЕНИЕ ОБЩЕГО ПАРАМЕТРА МЕЖОБЪЕКТНОЙ КОРРЕЛЯЦИИ	2010	Херре Юрген Хилперт Йоханес Хёлцер Андреас Эндергард Йонас Пурнхаген Хеико	RU2576476C2
УСОВЕРШЕНСТВОВАННЫЙ МЕТОД КОДИРОВАНИЯ И ПАРАМЕТРИЧЕСКОГО ПРЕДСТАВЛЕНИЯ КОДИРОВАНИЯ МНОГОКАНАЛЬНОГО ОБЪЕКТА ПОСЛЕ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ	2007	Энгдегард Йонас Виллемоес Ларс Пурнаген Хайко Реш Барбара	RU2430430C2
УСОВЕРШЕНСТВОВАННЫЙ МЕТОД КОДИРОВАНИЯ И ПАРАМЕТРИЧЕСКОГО ПРЕДСТАВЛЕНИЯ КОДИРОВАНИЯ МНОГОКАНАЛЬНОГО ОБЪЕКТА ПОСЛЕ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ	2007	Энгдегард Йонас Виллемоес Ларс Пурнаген Хайко Реш Барбара	RU2485605C2
УСТРОЙСТВО ПОДАВЛЕНИЯ АКУСТИЧЕСКОГО ЭХА И ФРОНТАЛЬНОЕ УСТРОЙСТВО КОНФЕРЕНЦСВЯЗИ	2009	Кюх Фабиан Каллингер Маркус Шмидт Маркус Зоуруб Мерай Диатшук Марко Мозер Оливер	RU2520359C2
УСТРОЙСТВО И СПОСОБ ДЛЯ СИНТЕЗИРОВАНИЯ ВЫХОДНОГО СИГНАЛА	2008	Энгдегард Йонас Пурнхаген Хейко Реш Барбара Виллемоес Ларс Фалч Корнелия Херре Юрген Хилперт Йоханнес Хёльцер Андреас Терентьев Леонид	RU2439719C2
УСТРОЙСТВО И СПОСОБ ДЛЯ ОСУЩЕСТВЛЕНИЯ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ SAOC ОБЪЕМНОГО (3D) АУДИОКОНТЕНТА	2014	Диш Саша Фукс Харальд Хелльмут Оливер Херре Юрген Муртаза Адриан Риддербуш Фалько Терентив Леон Паулус Йоуни	RU2666239C2
УСТРОЙСТВО И СПОСОБ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА ДЛЯ ПОЛУЧЕНИЯ МОДИФИЦИРОВАННЫХ ВЫХОДНЫХ СИГНАЛОВ	2014	Паулус Йоуни Фукс Харальд Хелльмут Оливер Муртаза Адриан Риддербуш Фалько Терентив Леон	RU2653240C2
УСТРОЙСТВО И СПОСОБ КОДИРОВАНИЯ МНОЖЕСТВА АУДИООБЪЕКТОВ С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИИ НАПРАВЛЕНИЯ ВО ВРЕМЯ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ ИЛИ УСТРОЙСТВО И СПОСОБ ДЕКОДИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ ОПТИМИЗИРОВАННОГО КОВАРИАЦИОННОГО СИНТЕЗА	2021	Айхензер, Андреа Корсе, Срикантх Байер, Штефан Кюх, Фабиан Тиргарт, Оливер Фукс, Гийом Векбеккер, Доминик Херре, Юрген Мультрус, Маркус	RU2826540C1
СПОСОБ ОБРАБОТКИ АУДИОСИГНАЛА, БЛОК ОБРАБОТКИ СИГНАЛОВ, СТЕРЕОФОНИЧЕСКИЙ РЕНДЕРЕР, АУДИОКОДЕР И АУДИОДЕКОДЕР	2014	Фюг Зимоне Плогстис Ян	RU2642376C2

Описание патента на изобретение RU2573738C2

Похожие патенты RU2573738C2

Иллюстрации к изобретению RU 2 573 738 C2

Формула изобретения RU 2 573 738 C2

Документы, цитированные в отчете о поиске Патент 2016 года RU2573738C2

RU 2 573 738 C2