Область техники
Реализация настоящего изобретения относится к декодеру аудиосигнала, формирующему представление микшированного с повышением сигнала (апмикс-сигнала) на базе представления микшированного с понижением сигнала (даунмикс-сигнала) и объектно-ориентированной параметрической информации и исходя из данных рендеринга.
Другие технические решения по данному изобретению относятся к кодеру аудиосигнала, формирующему представление потока двоичных данных (битстрима) на основе множества сигналов аудиообъектов. Ряд вариантов осуществления заявляемого изобретения относятся к способу формирования представления сигнала повышающего микширования на базе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации и исходя из информации рендеринга.
Другие варианты осуществления изобретения относятся к способу формирования представления битстрима на основе множества сигналов аудиообъектов.
Версии реализации данного изобретения относятся к компьютерной программе, направленной на осуществление названных способов.
Ряд реализаций настоящего изобретения относится к потоку битов (битстриму), представляющему многоканальный аудиосигнал.
Область применения
Технология обработки, передачи и хранения звука все больше стремится к такому преобразованию многоканального аудиоконтента, которое совершенствует качество акустического образа. Использование многоканального аудиоконтента способствует значительному улучшению восприятия слушателем. Можно получить, например, трехмерный акустический эффект, при котором возрастает степень удовлетворенности развлекательным приложением. Более того, многоканальный аудиоконтент применяют также в профессиональных средах, в частности, в телеконференцсвязи, где разборчивость речи говорящего может быть скорректирована путем многоканального воспроизведения звука.
При этом необходимо выбрать оптимальное соотношение качества звука и скорости обмена данными (битрейта) во избежание чрезмерной нагрузки на ресурс за счет многоканальных приложений.
Недавно были предложены эффективные с точки зрения битрейта параметрические технологии передачи и/или сохранения аудиосцен, содержащих множество аудиообъектов, в частности, кодирование бинаурального сигнала (тип 1) (см, например, [ВСС]), кодирование совокупного источника (см, например, [JSC]) и пространственное кодирование аудиообъекта в формате MPEG (SAOC) (см, например, [SAOC1], [SAOC2] и еще не опубликованное [SAOC]).
Эти технологии нацелены более на перцептуальное воссоздание на выходе желаемой звуковой сцены, нежели на волновое согласование.
На фиг.8 дан обзор такой системы (здесь: SAOC стандарта MPEG). На фиг.9а также показана общая схема подобной системы (здесь: SAOC MPEG).
Система MPEG SAOC 800 на фиг.8 состоит из кодера SAOC 810 и декодера SAOC 820. Кодер SAOC 810 принимает множество сигналов объектов x1 - xN, которые могут представлять собой, скажем, сигналы временной области или сигналы частотно-временной области (допустим, в виде набора коэффициентов одного из преобразований Фурье или в виде подполосовых сигналов КЗФ [квадратурно-зеркального фильтра]). Помимо этого, кодер SAOC 810 часто принимает коэффициенты понижающего микширования [дауимикс-коэффициенты] d1 - dN, соотнесенные с сигналами объектов x1 - xN. Отдельные комбинации даунмикс-коэффициентов можно применять для каждого канала микшированного с понижением сигнала [даунмикс-канала]. С помощью кодера SAOC 810 обычно формируют канал микшированного с понижением сигнала, комбинируя сигналы объектов x1 - xN в соответствии с присвоенными коэффициентами понижающего микширования d1 - dN. Типично, даунмикс-каналов меньше, чем сигналов объектов x1 - xN. Предусматривая (хотя бы, приблизительное) разделение (или раздельное преобразование) сигналов объектов на стороне декодера SAOC 820, кодер SAOC 810 генерирует один или более даунмикс-сигналов 812 и сопроводительную служебную информацию 814. Служебная информация 814 отражает характеристики сигналов объектов x1 - xN, что обеспечивает объектно-ориентированную обработку на стороне декодера.
Декодер SAOC 820 предусматривает прием одного или более даунмикс-сигналов 812 и сопроводительной служебной информации 814. Кроме того, декодер SAOC 820, как правило, рассчитан на получение от пользователя интерактивной информации и/или управляющей информации 822, в которой описывается желаемый режим воспроизведения [рендеринг]. Например, интерактивная/управляющая информация пользователя 822 может описывать настройку громкоговорителя и желаемое пространственное размещение объектов, отображаемых сигналами объектов x1 - xN. Декодер SAOC 820 предусматривает, например, генерирование множества декодированных сигналов канала повышающего микширования [апмикс-канала]
Здесь следует обратить внимание на то, что при реализации часто разделение объектов, обозначенное на фиг.8 как разделитель объектов 820а, и микширование, обозначенное на фиг.8 как смеситель [микшер] 820с, осуществляются как одна операция. Для этого рассчитывают сводные параметры, описывающие прямое соотнесение одного или более микшированных с понижением сигналов 812 с сигналами каналов повышающего микширования
Теперь, со ссылкой на фигуры 9а, 9b и 9с рассмотрим другой вариант реализации устройства, формирующего представления сигнала, микшированного с повышением, на базе представления сигнала, микшированного с понижением, и объектно-ориентированной служебной информации. На фиг.9а дана принципиальная блочная схема системы MPEG SAOC 900, включающей в себя декодер SAOC 920. Декодер SAOC 920 в качестве самостоятельных функциональных блоков содержит декодер объекта 922 и смеситель/рендерер [микшер/рендерер] 926. Декодер объекта 922 генерирует множество реконструированных сигналов объектов 924 на основании представления сигнала понижающего микширования (допустим, в форме одного или более даунмикс-сигналов, представленных во временной области или во время-частотной области) и объектно-ориентированной служебной информации (допустим, в форме метаданных объекта). Смеситель/рендерер 924 получает восстановленные сигналы объектов 924, относящиеся к множеству N объектов, и на их основе формирует один или более сигналов апмикс-канала 928. В декодере SAOC 920 извлечение сигналов объектов 924 выполняется отдельно от микширования/рендеринга, что позволяет разделять функции декодирования объекта и микширования/рендеринга, однако ведет к относительно высокой вычислительной трудоемкости.
Далее, обратившись к фиг.9b, кратко обсудим еще одно конструктивное решение системы MPEG SAOC 930, куда введен декодер SAOC 950. Декодер SAOC 950 генерирует множество восстановленных сигналов объектов 958, опираясь на полученное им представление даунмикс-сигнала (допустим, в виде одного или более сигналов понижающего микширования) и на объектно-ориентированную служебную информацию (допустим, в виде метаданных объекта). Декодер SAOC 950 представляет собой интегрированный декодер и смеситель/рендерер объекта, выполненный с возможностью генерирования сигналов апмикс-каналов 958 в ходе комбинированного процесса микширования без разделения декодирования и микширования/рендеринга объектов, параметры которого строятся на объектно-ориентированный служебной информации и данных рендеринга. Комбинированный процесс повышающего микширования зависит также от информации понижающего микширования, которая рассматривается как часть объектно-ориентированной служебной информации.
Делая вывод из сказанного, сигналы каналов повышающего микширования 928, 958 могут быть сгенерированы в ходе одноэтапной или двухэтапной операции.
Теперь, обращаясь к фиг.9с, охарактеризуем систему MPEG SAOC 960. Система [пространственного кодирования оудиообъекта] SAOC 960 предпочтительно включает в себя транскодер SAOC в MPEG Surround 980 вместо декодера SAOC.
Преобразователь кода [транскодер] SAOC в MPEG Surround состоит из перекодировщика [транскодера] служебной информации 982, который предназначен для приема объектно-ориентированной служебной информации (предположительно, в форме метаданных объекта) и, факультативно, информации об одном или более даунмикс-сигналов и параметров рендеринга. Перекодировщик служебной информации предназначен также для выработки на базе полученных данных служебной информации формата MPEG Surround (например, в форме битстрима MPEG Surround). Соответственно, транскодер служебной информации 982 выполняет функцию преобразования объектно-ориентированной (параметрической) служебной информации, поступающей от кодера объектов, в служебную (параметрическую) информацию, описывающую каналы с учетом параметров рендеринга и, произвольно, информации о контенте одного или более микшированных с понижением сигналов.
В качестве опции транскодер SAOC в MPEG Surround 980 может выполнять функцию манипулирования одним или более даунмикс-сигналами, описанными, например, посредством представления даунмикс-сигнала с получением видоизмененного [манипуляцией] представления сигнала понижающего микширования 988. Тем не менее, манипулятор даунмикс-сигналом 986 можно не включать в компоновку, в результате чего представление сигнала понижающего микширования 988 на выходе транскодера SAOC в MPEG Surround 980 будет идентичным представлению сигнала понижающего микширования на входе транскодера SAOC в MPEG Surround. Манипулятор даунмикс-сигналом 986 может найти применение, например, когда служебная информация MPEG Surround 984 с привязкой к каналам не позволяет создать желаемое слуховое впечатление на базе представления сигнала понижающего микширования на входе транскодера SAOC в MPEG Surround 980, что может иметь место при некоторых констелляциях [совокупностях факторов] акустического рендеринга.
Следовательно, транскодер SAOC в MPEG Surround 980 формирует представление сигнала понижающего микширования 988 и битстрим формата MPEG Surround 984 таким образом, что множество сигналов каналов повышающего микширования, отображающих аудиообъекты в соответствии с данными рендеринга, вводимыми в транскодер SAOC - MPEG Surround 980, могут быть сгенерированы с помощью декодера MPEG Surround, на который поступают битстрим MPEG Surround 984 и представление даунмикс-сигнала 988.
Из сказанного вытекает, что для декодирования аудиосигналов, закодированных в SAOC, можно применять различные подходы. В некоторых случаях используют декодер SAOC, который генерирует сигналы каналов повышающего микширования (например, сигналы апмикс-каналов 928, 958) на основе представления сигналов понижающего микширования и объектно-ориентированной служебной параметрической информации. Примеры такого подхода приведены на фиг.9а и 9b. В другом случае аудиоданные, закодированные в SAOC, могут быть перекодированы с получением представления сигнала понижающего микширования (например, представления даунмикс-сигнала 988) и сопроводительной информации, специфицирующей канал (например, битстрима MPEG Surround 984, характеризующего канал), которые будут использованы декодером MPEG Surround для выработки необходимых сигналов каналов повышающего микширования.
В системе MPEG SAOC 800, общая схема которой дана на фиг.8, а также в системе MPEG SAOC 900, общая схема которой дана на фиг.9, основное преобразование осуществляется частотно-избирательно и может быть описано в каждом частотном диапазоне следующим образом:
- кодер SAOC микширует с понижением N входных сигналов аудиообъектов x1 - xN. Для понижающего монофонического микширования указаны коэффициенты d1 - dN - Дополнительно кодер SAOC 810, 910 извлекает служебную информацию 814, описывающую характеристик вводимых акустических объектов. Значительную часть этой служебной информации составляют соотношения мощностей объектов и их корреляция, то есть - разность интенсивности объектов (OLD) в межобъектной корреляции (IOC).
- Сигнал (сигналы) понижающего микширования 812, 912 и сопроводительную информацию 814, 914 пересылают и/или сохраняют. Для этого микшированный с понижением аудиосигнал сжимают, используя такие известные аудиокодеры перцептуального типа, как MPEG-1 уровня II или III (также известный как «.mp3»), как Передовая технология аудиокодирования ААС формата MPEG, или любой другой аудиокодер.
На приемном конце декодер SAOC 820, 920 концептуально восстанавливает исходные сигналы объектов («разделение объектов»), используя принятые протокольные данные 814, 914 (и, соответственно, один или более даунмикс-сигналов 812, 912). Эти аппроксимированные сигналы объектов (также обозначенные как реконструированные сигналы объекта 820b, 924) затем микшируют так, чтобы получить желаемую акустическую сцену, отображаемую с использованием М выходных звуковых каналов (которые, предположим, могут быть представлены сигналами апмикс-канала
Разделения сигналов объектов редко дает (или даже никогда не дает) эффективный результат в силу того, что оба шага - шаг разделения (обозначенный как разделитель объектов 820а, 922) и шаг микширования (обозначенный как микшер 820с, 926) - объединены в одну операцию транскодирования, которая часто дает к громадное снижение вычислительной трудоемкости.
Было установлено, что такая схема чрезвычайно продуктивна, как с точки зрения скорости передачи данных (битрейта) (необходимо транслировать лишь несколько каналов даунмикс-каналов и некоторую протокольную информацию вместо аудиосигналов N объектов), так и с точки зрения вычислительной сложности (трудоемкость обработки относится большей частью к количеству выходных каналов, а не к количеству аудиообъектов). Дополнительные преимущества пользователя на приемном конце состоят в свободе выбора воспроизводимого акустического образа (моно-, стереофония, охватывающее, виртуализированное [приближенное к реальности] звучание в наушниках и тому подобное) и в возможности непосредственного участия слушателя/слушательницы: пользователь может задавать и изменять матрицу аудиорендеринга [звукопостроения], а следовательно и аудиосцену на выходе, в интерактивном режиме следуя личным предпочтениям или иным критериям. Например, можно пространственно ощутимо отделять собеседников одной группы в одной части звукового объема от других участников разговора. Такая интерактивность достигается за счет интерфейса между пользователем и декодером, где пользователь может: регулировать относительный уровень и (для немонофонического рендеринга) пространственное положение каждого звукового объекта; выполнять эти действия в режиме реального времени, изменяя положение соответствующего ползунка устройства графического интерфейса пользователя (GUI / ГИП) (например: уровень объекта = +5 дБ, положению объекта = -30 градусов).
Далее будет сделана краткая ссылка на предшествующие методики поканального аудиокодирования.
Документ US 11/032, 689 описывает технологию совмещения нескольких значений контрольных сигналов в одно передаваемое значение, что обеспечивает сохранность служебной информации.
Этот же механизм применен в «многоканальном иерархическом кодировании звука с компактной служебной информацией» в US 60/671, 544.
Однако, было определено, что объектно-ориентированная параметрическая информация, используемая для кодирования многоканального аудиоконтента, требует в некоторых случаях сравнительно высокий битрейт.
Соответственно, целью заявляемого изобретения является создание концепции построения, хранения или передачи многоканального аудиоконтента с сжатой служебной информацией.
Краткое описание изобретения
Поставленная цель достигается за счет применения декодера аудиосигнала (аудиодекодера), кодера аудиосигнала (аудиокодера), способа формирования представления сигнала повышающего микширования (апмикс-сигнала), способа формирования представления потока двоичных данных (битстрима), компьютерной программы и битстрима согласно определению независимых пунктов формулы изобретения.
Изобретение технически реализовано в виде декодера аудиосигнала, выполненного с возможностью представления сигнала, микшированного с повышением на основе представления сигнала, микшированного с понижением, и объектно-ориентированной параметрической информации, исходя из данных рендеринга. Устройство включает в себя определитель параметров объектов, оценивающий значения межобъектной корреляции множества пар аудиообъектов. Определитель параметров объектов выполняет функцию распознавания сигнального параметра битстрима для принятия решения, выполнять оценку индивидуальных значений параметров межобъектной корреляции в битстриме с целью выведения значений межобъектной корреляции для множества пар соотносящихся акустических объектов, или рассчитывать значения межобъектной корреляции для множества пар соотносящихся акустических объектов, используя общее значение параметра межобъектной корреляции в битстриме. Кроме этого, декодер аудиосигнала включает в себя процессор сигналов, генерирующий представление сигнала повышающего микширования на основе представления сигнала понижающего микширования с использованием значений межобъектной корреляции для множества пар взаимосвязанных аудиообъектов и данных рендеринга.
Ключевой идеей реализации предлагаемого аудиодекодера является то, что битрейт, необходимый для кодирования значений межобъектной корреляции, может быть предельно высоким в тех случаях, когда необходимо учитывать корреляции многих пар аудиообъектов, чтобы достичь надлежащего слухового впечатления, и что в таких случаях битрейт, необходимый для кодирования значений межобъектной корреляции, можно существенно снизить, применив общее значение параметра межобъектной корреляции в битстриме вместо индивидуальных значений параметров межобъектной корреляции в битстриме, не ставя в значительной степени под угрозу качество слухового восприятия.
Исследования показали, что в ситуациях, когда между многими парами аудиообъектов присутствуют тесные межобъектные взаимосвязи, которые должны быть учтены для получения надлежащего акустического образа, учет таких межобъектных корреляций, как правило, требует высокого битрейта для значений параметров межобъектной корреляции в битстриме. Тем не менее, выявлено, что в ситуациях, когда нельзя пренебречь межобъектными взаимосвязями во многих парах аудиообъектов, адекватное слуховое впечатление может быть достигнуто путем кодирования лишь одного общего значения параметра межобъектной корреляции в битстриме и путем выведения производных значений межобъектной корреляции для множества пар взаимосвязанных звуковых объектов из этого общего для битстрима значения параметра межобъектной корреляции. Таким образом, в большинстве случаев взаимное соотношение (корреляция) многих аудиообъектов может быть учтено с достаточной точностью при сохранении трудоемкости передачи значения параметра межобъектной корреляции в битстриме в достаточно невысоких пределах.
Вследствие этого рассмотренная выше концепция позволяет сохранять требования к битрейту в невысоких пределах при обмене объектно-ориентированной протокольной информацией относительно некоторых акустических сред, в которых нельзя пренебречь межобъектной корреляцией различных сигналов многих аудиообъектов с получением в результате достаточно хорошего слухового впечатления.
В предпочтительном варианте реализации определитель параметров объектов задает значение межобъектной корреляции для всех пар разнообразных взаимно соотнесенных звуковых объектов как общую величину, определяемую общим для битстрима значением параметра межобъектной корреляции. Признано, что это простое решение обеспечивает надлежащее слуховое восприятие во многих допустимых ситуациях.
В предпочтительной версии исполнения определитель параметров объектов выполнен с возможностью анализа информации о взаимозависимости объектов, содержащей данные, являются ли два объекта взаимно соотнесенными или нет. Далее, определитель параметров объектов выполнен с возможностью выборочно распознавать значения межобъектной корреляции аудиообъектов в парах, для которых в информации о взаимосвязи объектов наличие такой взаимосвязи обозначено посредством общего для битрейта значения параметра межобъектной корреляции, и с возможностью присваивать предварительно заданную величину (например, ноль) значениям межобъектной корреляции пар аудиообъектов, для которых в информации о взаимосвязи объектов указание на взаимосвязь отсутствует. Благодаря этому можно дифференцировать соотносящиеся и не соотносящиеся аудиообъекты, используя битрейт с высокой эффективностью. Следовательно, задание отличного от нуля значения межобъектной корреляции парам аудиообъектов, которые (приближенно) взаимно не связаны, исключается. Это предотвращает деградацию слухового впечатления, и обеспечивает разделение ориентировочно невзаимосвязанных аудиообъектов. Более того, маркирование взаимосвязанных и невзаимосвязанных аудиообъектов осуществляется при очень высокоэффективном использовании битрейта в силу того, что соотнесенность аудиообъектов, как правило, инвариантна в течение всего времени звучания аудиофрагмента, и, следовательно, битрейт, необходимый для такого маркирования типично очень низок. Таким образом, обсуждаемая концепция обеспечивает благоприятный баланс между эффективностью битрейта и слуховым восприятием.
В предпочтительном конструктивном исполнении определитель параметров объектов выполнен с возможностью анализа информации о взаимосвязи объектов, содержащей однобитовый флажок для каждого сочетания различных аудиообъектов, который маркирует каждую комбинацию различных аудиообъектов, указывая, являются или нет аудиообъекты в данной комбинации взаимосвязанными. Передача такой информации осуществляется очень эффективно при существенно сниженной потребности в битрейте и при сохранении хорошего акустического качества.
В предпочтительном конструктивном исполнении определитель параметров объектов выполнен с возможностью задания значениям межобъектной корреляции всех пар разнообразных взаимосвязанных аудиообъектов общего значения, определяемого общим значением параметра межобъектной корреляции в битстриме.
В предпочтительной аппаратной версии определитель параметров объектов включает в свой состав синтаксический анализатор битстрима, выполненный с возможностью синтаксического разбора представления битстрима аудиоконтента для выделения сигнального параметра битстрима и индивидуальных параметров межобъектной корреляции в битстриме или общего параметра межобъектной корреляции в битстриме. Применение синтаксического анализатора битстрима повышает эффективность процесса распознавания сигнального параметра битстрима и индивидуальных параметров межобъектной корреляции в битстриме или общего для битстрима параметра межобъектной корреляции.
В предпочтительном варианте реализации декодер аудиосигнала выполнен с возможностью совмещения значения межобъектной корреляции, связанного с парой соотнесенных аудиообъектов, с величиной параметра разности уровней объектов, описывающей уровень первого аудиообъекта пары соотнесенных аудиообъектов, и с величиной параметра разности уровней объектов, описывающей уровень второго аудиообъекта пары соотнесенных аудиообъектов, с получением показателя ковариации, относящегося к данной паре взаимосвязанных звуковых объектов. В силу этого можно рассчитать значение ковариации определенной пары взаимосвязанных аудиообъектов даже в случае применения общего параметра межобъектной корреляции. Соответственно, для разных пар акустических объектов могут быть рассчитаны разные значения ковариации. Таким образом, применяя общее для битстрима значение параметра межобъектной корреляции, можно рассчитать большое количество разных значений ковариации.
В предпочтительной версии исполнения декодер аудиосигнала выполнен с возможностью обработки трех или более аудиообъектов. В этом случае определитель параметров объектов присваивает значения межобъектной корреляции каждой паре различных аудиообъектов. Было подтверждено, что благодаря использованию концепции изобретения значимые величины могут быть получены даже при наличии довольно большого количества аудиообъектов, которые все взаимосвязаны друг с другом. Выведение значений межобъектной корреляции из множества сочетаний аудиообъектов особенно полезно при кодировании и декодировании сигналов аудиообъектов с использованием объектно-ориентированной служебной параметрической информации.
В предпочтительном конструктивном исполнении определитель параметров объектов выполнен с возможностью идентификации сигнального параметра битстрима, содержащегося в конфигурационном разделе битстрима, для принятия решения относительно того, рассчитывать индивидуальные значения параметров межобъектной корреляции в битстриме для выведения значений межобъектной корреляции для множества пар взаимосвязанных аудиообъектов, или выводить значения межобъектной корреляции для множества пар взаимосвязанных аудиообъектов, исходя из общего для битстрима значения параметра межобъектной корреляции. При подобном техническом решении определитель параметров объектов характеризуется тем, что анализирует информацию о взаимосвязи объектов, содержащуюся в конфигурационном разделе битстрима, чтобы установить наличие взаимосвязи между аудиообъектами.
Вместе с тем, определитель параметров объектов характеризуется тем, что оценивает общее значение параметра межобъектной корреляции в битстриме, содержащееся в разделе данных фреймов битстрима, для каждого фрейма аудиоконтента, если принято решение выводить значения межобъектной корреляции для множества пар взаимосвязанных аудиообъектов, исходя из общего для битстрима значения параметра межобъектной корреляции. В силу этого достигается высокая эффективность битрейта, поскольку достаточно объемная информация о взаимосвязях объектов анализируется в аудиофрагменте только один раз (аудиофрагмент определяется по наличию конфигурационного раздела битстрима), в то время как сравнительно небольшое общее для битстрима значение параметра межобъектной корреляции оценивается для каждого фрейма аудиофрагмента, то есть несколько раз в продолжение аудиофрагмента. В этом отражен тот факт, что взаимосвязь между аудиообъектами чаще всего не меняется в пределах одного аудиофрагмента, или меняется очень редко. Следовательно, хорошее качество восприятия может быть достигнуто при умеренно низком битрейте.
Однако в другом случае может быть распознан сигнал к использованию общего для битстрима значения параметра межобъектной корреляции, при этом такой сигнал содержится в раздел данных фреймов битстрима, что, например, обеспечивает возможность гибкой адаптации изменяющегося аудиоконтента.
Аппаратная версия заявляемого изобретения включает в себя кодер аудиосигнала, формирующий представление потока двоичных данных (битстрима) на основе множества сигналов аудиообъектов. Кодер аудиосигнала включает в себя понижающий микшер, предназначенный для формирования микшированного с понижением сигнала (даунмикс-сигнала) на основе сигналов аудиообъектов и исходя из параметров понижающего микширования, описывающих соотношения составляющих сигналов аудиообъектов, которые будут преобразованы в один или более каналов сигнала понижающего микширования. Кодер аудиосигнала также включает в свой состав драйвер параметров, обеспечивающий вывод общего для битстрима значения параметра межобъектной корреляции, относящегося к множеству пар сигналов взаимосвязанных звуковых объектов, а также - сигнальный параметр битстрима, указывающий, что должно быть применено общее для битстрима значение параметра межобъектной корреляции вместо множественных индивидуальных параметров межобъектной корреляции в битстриме. Кроме того, кодер аудиосигнала включает в свой состав форматер битстрима, предназначенный для построения битстрима, содержащего представление сигнала понижающего микширования, представление общего для битстрима значения параметра межобъектной корреляции и сигнальный параметр битстрима.
Такое техническое решение в соответствии с изобретением обеспечивает возможность представления в битстриме многоканального аудиоконтента с компактным протоколом. Благодаря введению общего для битстрима значения параметра межобъектной корреляции объектно-ориентированная служебная информация имеет компактный объем, обеспечивая при этом исчерпывающие данные для воспроизведения многоканального аудиоконтента с надлежащим качеством восприятия звука. В дополнение к этому следует отметить, что описываемый здесь кодер аудиосигнала обладает преимуществами, аналогичными рассмотренному ранее декодеру аудиосигнала.
В предпочтительной версии исполнения драйвер параметров выводит общее значение параметра межобъектной корреляции в битстриме из отношения между суммой показателей перекрестных (коррелирующих) мощностей и суммой показателей средних мощностей. Выявлено, что такое значение параметра межобъектной корреляции в битстриме может быть рассчитано с приемлемой вычислительной трудоемкостью при одновременном сохранении в большинстве случаев точности воспроизведения акустической сцены.
Другое конструктивное решение предусматривает выведение драйвером параметров постоянной расчетной величины в качестве общего для битстрима значения параметра межобъектной корреляции. Как установлено, в некоторых случаях применение постоянного значения является обоснованным. Так, например, при постоянном использовании определенной конфигурации микрофонов в определенном, спланированном для проведения конференций, помещении такое постоянное значение может быть вполне адекватным желаемому слуховому восприятию. Таким образом, вычислительная трудоемкость может быть минимизирована при сохранении надлежащего акустического качества во многих стандартных приложениях концепции изобретения.
В другом предпочтительном конструктивном варианте драйвер параметров предоставляет также информацию о том, являются ли два аудиообъекта взаимосвязанными. Такая информация о взаимозависимости объектов может быть использована аудиодекодером, как рассматривалось выше. Следовательно, общее для битстрима значение параметра межобъектной корреляции гарантированно применяется только к таким аудиообъектам, которые действительно связаны друг с другом, и не может быть применено к аудиообъектам, не связанным между собой.
В предпочтительном варианте реализации драйвер параметров выполнен с возможностью избирательного оценивания межобъектной корреляции аудиообъектов, для которых в информации о взаимозависимости объектов указано наличие взаимозависимости, для расчета общего значения параметра межобъектной корреляции в битстриме. Это позволяет получать конкретный значимый показатель параметра межобъектной корреляции в битстриме.
Другие варианты осуществления заявляемого изобретения представляют собой способ формирования представления сигнала повышающего микширования и способ формирования представления битстрима. Эти способы базируются на тех же идеях, что и рассмотренные выше аудиодекодер и аудиокодер.
Согласно одному из осуществлений изобретения формируется битстрим, представляющий многоканальный аудиосигнал. Битстрим содержит представление сигнала понижающего микширования аудиосигналов множества аудиообъектов. Кроме того, битстрим содержит объектно-ориентированную служебную параметрическую информацию, описывающую характеристики аудиообъектов. Объектно-ориентированная служебная параметрическая информация включает в себя сигнальный параметр битстрима, индицирующий, содержит битстрим индивидуальные значения параметров межобъектной корреляции в битстриме или общее для битстрима значение параметра межобъектной корреляции. В силу этого битстрим обеспечивает гибкость его использования для передачи различных типов контента аудиоканалов. В частности, битстрим предусматривает передачу как индивидуальных значений параметров межобъектной корреляции в битстриме, так и общего для битстрима значения параметра межобъектной корреляции, в зависимости от того, какой из показателей лучше удовлетворяет требованиям воссоздания акустической сцены.
В силу этого битстрим одинаково хорошо рассчитан как на обработку сравнительно небольшого количества взаимосвязанных аудиообъектов, для которых необходимо передать детализированную (объектно-индивидуальную) информацию о межобъектной корреляции, так и на обработку сравнительно большого количества взаимосвязанных аудиообъектов, для которых передача индивидуальных значений параметров межобъектной корреляции предъявляет предельно высокие требования к битрейту, и для которых применение общего для битрейта значения параметра межобъектной корреляции сохраняет возможность воспроизведения с хорошим акустическим качеством.
Краткое описание фигур
Конструктивные решения по заявляемому изобретению далее будут рассмотрены со ссылкой на прилагаемые фигуры, где: фиг.1 отображает принципиальную блочную схему декодера аудиосигнала, реализованного в соответствии с изобретением; фиг.2 отображает принципиальную блочную схему кодера аудиосигнала, реализованного в соответствии с изобретением; фиг.3 отображает схему потока двоичных данных (битстрима), реализуемого в соответствии с изобретением; фиг.4 отображает принципиальную блочную схему системы MPEG SAOC с вычислением индивидуального параметра межобъектной корреляции; на фиг.5 представлен синтаксис данных конкретизированной конфигурации SAOC, которые могут быть частью битстрима; на фиг.6 представлен синтаксис информации фреймов SAOC, которая может быть частью битстрима; на фиг.7 дана таблица квантования параметра межобъектной корреляции; на фиг.8 показана принципиальная блочная схема стандартной системы MPEG SAOC; на фиг.9а показана принципиальная блочная схема стандартной системы SAOC с раздельными декодером и микшером; на фиг.9b показана принципиальная блочная схема стандартной системы SAOC с объединенными декодером и микшером; и на фиг.9 с показана принципиальная блочная схема стандартной системы SAOC с транскодером SAOC в MPEG.
Подробное техническое описание
1. Декодер аудиосигнала на фиг.1
Далее, со ссылкой на принципиальную блочную схему на фиг.1 описан декодер аудиосигнала (аудиодекодер) 100.
Сначала приведено описание входных и выходных сигналов аудиодекодера 100.
Затем рассмотрена конструкция аудиодекодера 100, и в заключение обсуждается функциональное назначение декодера аудиосигнала 100.
Декодер аудиосигнала 100 предназначен для приема представления сигнала понижающего микширования (даунмикс-сигнала) 110, в котором, как правило, отображено множество сигналов аудиообъектов, например, в форме представления одноканального аудиосигнала или в форме представления двухканального аудиосигнала.
Аудиодекодер 100 также принимает объектно-ориентированную параметрическую информацию 112, как правило, описывающую аудиообъекты, отображенные в представлении даунмикс-сигнала 110.
В частности, объектно-ориентированная параметрическая информация 112 описывает уровни аудиообъектов, которые отображены в представлении даунмикс-сигнала 110 с использованием значений разности уровней объектов (OLD).
Дополнительно, как правило, объектно-ориентированная параметрическая информация 112 отражает характеристики корреляции аудиообъектов, отраженные в представлении даунмикс-сигнала 110. Объектно-ориентированная параметрическая информация стандартно включает в себя сигнальный параметр битстрима (обозначенный здесь еще как «bsOneIOC»), который указывает, что содержит объектно-ориентированная параметрическая информация - индивидуальные значения параметров межобъектной корреляции в битстриме, соотнесенные с индивидуальными парами аудиообъектов, или общее для битстрима значение параметра межобъектной корреляции, связанное с множеством пар аудиообъектов. Соответственно, объектно-ориентированная параметрическая информация содержит индивидуальные значения параметров межобъектной корреляции в битстриме или общее значение параметра межобъектной корреляции в битстриме в зависимости от сигнального параметра битстрима «bsOneIOC».
Помимо этого, объектно-ориентированная параметрическая информация 112 может содержать данные, описывающие понижающее микширование отдельных аудиообъектов с преобразованием в представление даунмикс-сигнала. Например, в объектно-ориентированную параметрическую информацию включен коэффициент усиления при понижающем микшировании DMG, характеризующий соотношение составляющих сигналов аудиообъектов в представлении даунмикс-сигнала 110. Дополнительно, в качестве опции, объектно-ориентированная параметрическая информация может включать в себя данные разности уровней даунмикс-каналов DCLD, описывающие разности коэффициентов усиления при понижающем микшировании разных даунмикс-каналов.
Кроме этого, аудиодекодер 100 принимает информацию по рендерингу 120, например, через пользовательский интерфейс.Данные рендеринга описывают распределение сигналов аудиообъектов между каналами повышающего микширования (апмикс-каналам). Допустим, параметры рендеринга 120 могут иметь форму матрицы аудиорендеринга (звукопостроения) (или ее элементов). Или, скажем, информация по рендерингу 120 может содержать описание желаемого позиционного построения (например, в плане пространственных координат) аудиообъектов и желаемой интенсивности (или уровней громкости) аудиообъектов.
Декодер аудиосигнала (аудиодекодер) 100 формирует представление сигнала повышающего микширования (апмикс-сигнала) 130, который является результатом рендеринга сигналов аудиообъектов, описываемых в представлении сигнала понижающего микширования (даунмикс-сигнала) и в объектно-ориентированной параметрической информации. Так, представление апмикс-сигнала может принять форму сигналов индивидуальных аудиоканалов или может иметь вид представления даунмикс-сигнала в сочетании с описывающей канал служебной параметрической информацией (скажем, с протоколом формата MPEG Surround).
Декодер аудиосигнала 100 характеризуется тем, что формирует представление микшированного с повышением сигнала 130 на основе представления микшированного с понижением сигнала 110 и объектно-ориентированной параметрической информации 112 и с учетом данных рендеринга 120. В конфигурацию устройства 100 введен определитель параметров объектов 140, рассчитывающий значения межобъектной корреляции (по меньшей мере) множества пар взаимосвязанных аудиообъектов на основе объектно-ориентированной параметрической информации 112. С этой целью определитель параметров объектов 140 анализирует сигнальный параметр битстрима (“bsOneIOC”), чтобы сделать выбор, оценивать индивидуальные значения параметров межобъектной корреляции в битстриме с выведением значений межобъектной корреляции множества пар взаимосвязанных аудиообъектов или выводить значения межобъектной корреляции множества пар взаимосвязанных аудиообъектов, используя общее в битстриме значение параметра межобъектной корреляции. Таким образом, определитель параметров объектов 140 выполнен с возможностью расчета значений межобъектной корреляции 142 множества пар взаимосвязанных аудиообъектов на основе индивидуальных значений параметров межобъектной корреляции в битстриме, если сигнальный параметр битстрима указывает, что общее значение параметра межобъектной корреляции в битстриме не применимо. Аналогичным образом определитель параметров объектов рассчитывает значения межобъектной корреляции 142 множества пар взаимосвязанных аудиообъектов на основе общего для битстрима значения параметра межобъектной корреляции, если сигнальный параметр битстрима указывает, что такое общее для битстрима значение параметра межобъектной корреляции применимо.
Наряду с этим определитель параметров объектов выполнен с возможностью вычисления таких объектно-ориентированных показателей, как разность уровней объектов OLD, коэффициент усиления при понижающем микшировании DMG и (факультативно) разность уровней даунмикс-каналов DCLD, на основе объектно-ориентированной параметрической информации 112.
Кроме указанного, в конфигурацию аудиодекодера 100 введен процессор сигналов 150, который формирует представление микшированного с повышением сигнала 130 на базе микшированного с понижением сигнала 110 и с использованием значений межобъектной корреляции 142 множества пар соотнесенных звуковых объектов и данных рендеринга 120. Процессор сигналов 150 использует также такие объектно-ориентированные показатели, как значения разности уровней объектов, значения коэффициентов усиления при понижающем микшировании и значения разности уровней даунмикс-каналов.
Процессор для обработки сигналов 150 способен, например, оценивать статистические характеристики желаемого представления апмикс-сигнала 130 и обрабатывать представление даунмикс-сигнала таким образом, чтобы представление апмикс-сигнала 130, выведенное из представления даунмикс-сигнала, содержало желаемые статистические характеристики. В ином случае процессор сигналов 150 может быть использован для разделения сигналов множества аудиообъектов, объединенных в представлении сигнала понижающего микширования 110, с использованием сведений о характеристиках объектов и о процессе понижающего микширования. Таким образом, процессор сигналов выполнен с возможностью вычисления правила преобразования (например, правила масштабирования или правила линейной комбинации), которое обеспечивает реконструкцию индивидуальных сигналов аудиообъектов или, по меньшей мере, аудиосигналов, имеющих аналогичные статистические характеристики как сигналы индивидуальных аудиообъектов. Затем процессор сигналов 150 предусматривает применение заданного рендеринга для генерации представления сигнала повышающего микширования. Естественно, расчет восстанавливаемых сигналов аудиообъектов с аппроксимацией к соответствующим оригинальным сигналам индивидуальных аудиообъектов и рендеринг могут быть объединены в один технологический шаг, что снижает вычислительные затраты.
Как вывод из сказанного, декодер аудиосигнала характеризуется тем, что формирует представление сигнала повышающего микширования 130 на основе представления сигнала понижающего микширования 110 и объектно-ориентированной параметрической информации 112 с использованием данных рендеринга 120. Объектно-ориентированную параметрическую информацию 112 анализируют с целью получения сведений о статистических характеристиках сигналов индивидуальных аудиообъектов и о взаимосвязях между сигналами индивидуальных аудиообъектов, что необходимо для работы процессора сигналов 150. Объектно-ориентированную параметрическую информацию 112 используют, например, для построения матрицы ожидаемых дисперсий, которая описывает расчетные показатели ковариации сигналов индивидуальных аудиообъектов. Затем матрица расчетной ковариации задействуется процессором сигналов 150 для формулирования правила преобразования (например, как говорилось выше) с целью генерирования представления апмикс-сигнала 130 из представления даунмикс-сигнала 110, в процессе которого, безусловно, может быть использована другая объектно-ориентированная информация.
Определитель параметров объектов 140 предусматривает работу в разных режимах вычисления значений межобъектной корреляции множества пар взаимосвязанных аудиообъектов, что в целом составляет информацию, необходимую для ввода в процессор сигналов 150. Первый режим служит для нахождения значений межобъектной корреляции, рассчитываемых с использованием индивидуальных значений параметров межобъектной корреляции в битстриме. Допустим, одно индивидуальное значение параметра межобъектной корреляции в битстриме для каждой пары взаимосвязанных аудиообъектов таково, что определитель параметров объектов 140 просто переносит такое индивидуальное значение параметра межобъектной корреляции в битстриме на одно или два значения межобъектной корреляции, связанные с данной парой соотнесенных звуковых объектов. Вместе с тем, предусмотрен второй режим, в котором определитель параметров объектов 140 лишь считывает из битстрима одно общее для битстрима значение параметра межобъектной корреляции и выводит множество значений межобъектной корреляции для множества различных пар взаимосвязанных аудиообъектов, исходя из этого единого общего значения параметра межобъектной корреляции в битстриме. Таким образом, значения межобъектной корреляции для множества пар взаимосвязанных аудиообъектов могут, например, быть идентичными показателю, представленному одним общим для битстрима значением параметра межобъектной корреляции, или могут быть производными от того же общего для битстрима значения параметра межобъектной корреляции. Переключение определителя параметров объектов 140 с первого из описанных режимов на второй происходит в зависимости от распознаваемого сигнального параметра битстрима (“bsOneIOC”).
Соответственно, предусмотрены различные режимы предоставления значений межобъектной корреляции, которые могут быть задействованы определителем параметров объектов 140. При наличии относительно небольшого количества пар взаимосвязанных аудиообъектов определитель параметров объектов обычно (в зависимости от сигнального параметра битстрима) рассчитывает значения межобъектной корреляции таких пар индивидуально, что обеспечивает особенно точное представление характеристик указанных пар взаимосвязанных аудиообъектов и в последующем дает процессору сигналов 150 возможность восстанавливать сигналы индивидуальных акустических объектов с надлежащей аутентичностью. В силу этого, как правило, в случаях наличия корреляция только сравнительно небольшого количества пар взаимосвязанных аудиообъектов обеспечивается возможность достижения благоприятного слухового впечатления.
Второй режим работы, при котором определитель параметров объектов для расчета значений межобъектной корреляции множества пар взаимосвязанных аудиообъектов использует общее значение параметра межобъектной корреляции в битстриме, в основном, активируется в случаях, когда корреляцией множества пар аудиообъектов нельзя пренебречь. В большинстве подобных случаев, невозможно обойтись без избыточного увеличения скорости передачи битстрима, содержащего представление микшированного с понижением сигнала 110 и объектно-ориентированную параметрическую информацию 112. Использование общего значения параметра межобъектной корреляции в битстриме дает заметные преимущества в случае, когда между сравнительно большим количеством пар аудиообъектов присутствуют корреляции, которыми нельзя пренебречь и которые не содержат акустически значимых нюансов. В такой ситуации корреляции можно учитывать с применением умеренного битрейта, что обеспечивает рациональный компромисс между требованиями к битрейту и акустическим качеством.
Из сказанного следует, что декодер аудиосигнала 100 реализован с возможностью эффективной обработки аудиосигнала при различных условиях, а именно, при условиях, когда присутствует всего несколько пар взаимосвязанных аудиообъектов, межобъектная корреляция которых должна быть учтена с высокой точностью, и при условиях, в которых есть большое количество пар взаимосвязанных аудиообъектов, межобъектными корреляциями которых нельзя полностью пренебречь, но при этом имеет место их некоторое подобие. Аудиодекодер 100 рассчитан на выполнение функций в обеих ситуациях с обеспечением надлежащего качества слухового восприятия.
2. Кодер аудиосигнала на фиг.2
Далее, со ссылкой на принципиальную блочную схему на фиг.2 будет рассмотрен кодер аудиосигнала 200.
Кодер аудиосигнала (аудиокодер) 200 предназначен для приема множества сигналов аудиообъектов 210а - 210N. Сигналы аудиообъекта 210а - 210N могут представлять собой, например, одноканальные сигналы или двухканальные сигналы, отображающие разнообразные аудиообъекты.
Кроме этого, кодер аудиосигнала 200 предназначен для формирования представления битстрима 220, которое отображает звуковую сцену, воссоздаваемую посредством сигналов аудиообъектов 210а - 210N в сжатой форме при оптимизированной скорости передачи двоичных данных (битрейте).
Аудиокодер 200 имеет в своем составе понижающий микшер 220, предназначенный для приема сигналов аудиообъектов 210а - 210N и генерации микшированного с понижением сигнала (даунмикс-сигнала) 232 на основе сигналов аудиообъектов 210а - 210N. Понижающий микшер 230 генерирует даунмикс-сигнал 232, исходя из параметров понижающего микширования, описывающих соотношения составляющих сигналов аудиообъектов 210а - 210N в одном или более каналов даунмикс-сигнала.
Кроме этого, кодер аудиосигнала включает в свой состав драйвер параметров 240, предназначенный для выведения общего для битстрима значения параметра межобъектной корреляции 242, соотнесенного с множеством пар сигналов взаимосвязанных звуковых объектов 210а - 210N. Драйвер параметров 240 предназначен также для вывода сигнального параметра битстрима 244, указывающего, что будет генерировано общее для битстрима значение параметра межобъектной корреляции 242, а не множество индивидуальных параметров межобъектной корреляции в битстриме (индивидуально соотнесенных с разными парами аудиообъектов).
Наряду с названным кодер аудиосигнала 200 включает в свой состав форматер битстрима 250, предназначенный для формирования представления потока двоичных данных (битстрима) 250, содержащего представление микшированного с понижением сигнала 232 (например, кодированное представление даунмикс-сигнала 232), представление общего для битстрима значения параметра межобъектной корреляции 242 (например, квантованное и закодированное представление такого значения) и сигнальный параметр битстрима 244 (например, в виде однобитового значения параметра).
В последующем аудиокодер 200 формирует представление битстрима 220, которое отображает звуковую сцену, описанную сигналами аудиообъектов 210а - 210N с надлежащей достоверностью. В частности, представление битстрима 220 включает в себя компактную сопроводительную информацию, если многие сигналы аудиообъектов 210а - 210N соотнесены друг с другом, т.е. содержат межобъектную корреляцию, которой нельзя пренебречь. В данной ситуации определяется общее для битстрима значение параметра межобъектной корреляции 242 вместо индивидуальных значений параметров межобъектной корреляции в битстриме, обособленно связанных с парами аудиообъектов. Следовательно, аудиокодер может сформировать сжатое представление битового потока данных 220 при любых условиях - и при наличии многих взаимозависимых пар сигналов аудиообъектов 210а - 210N, и при наличии всего нескольких пар сигналов взаимосвязанных аудиообъектов 210а - 210N. Так, представление битстрима 220 может содержать информацию, необходимую для декодера аудиосигнала 100 в качестве входных данных, а именно, в качестве представления даунмикс-сигнала 110 и объектно-ориентированной параметрической информации 112.
Таким образом, драйвер параметров 240 может выводить дополнительную объектно-ориентированную параметрическую информацию, описывающую сигналы аудиообъектов 210а - 210N, а также - процесс понижающего микширования, выполненный понижающим микшером 230. Например, драйвер параметров 240 может дополнительно выводить информацию о разности уровней объектов, OLD, описывающую уровни громкости объектов (или разности уровней громкости объектов), отраженные в сигналах аудиообъектов 210а - 210N. В дополнение к этому драйвер параметров 240 может выводить параметры усиления при понижающем микшировании, DMG, описывающие коэффициенты усиления, примененные к сигналам отдельных аудиообъектов 210а - 210N в процессе понижающего микшировании при формировании одного или более каналов сигнала понижающего микширования 232. Значения разности уровней даунмикс-каналов, DCLD, описывающие разности коэффициентов усиления при понижающем микшировании различных каналов микшированного с понижением сигнала 232, в качестве опции также могут быть предоставлены драйвером параметров 240 для включения в представление битстрима 220.
Суммируя вышесказанное, можно заключить, что кодер аудиосигнала эффективно обеспечивает объектно-ориентированную параметрическую информацию, необходимую для реконструкции звуковой сцены, описанной сигналами аудиообъектов 210а - 210N с благоприятным слуховым впечатлением, где используется компактное общее для битстрима значение параметра межобъектной корреляции, если присутствует большое количество взаимосвязанных пар аудиообъектов. Наличие такого условия индицирует сигнальный параметр битстрима 244. Благодаря этому в подобной ситуации предотвращают избыточность битового потока.
Ниже дано более подробное описание представления битстрима.
3. Битстрим на фиг.3
На фиг.3 дана схема реализации битстрима 300 в соответствии с изобретением.
Битстрим 300 может выполнять роль, например, входного потока двоичных данных аудиодекодера 100, неся представление микшированного с понижением сигнала 110 и объектно-ориентированную параметрическую информацию 112. Битстрим 300 может быть сгенерирован аудиокодером 200 как выходной двоичный поток 220.
Битстрим 300 включает в себя представление даунмикс-сигнала 310, отображающее одноканальный или многоканальный микшированный с понижением сигнал (например, сигнал понижающего микширования 232), объединяющий аудиосигналы множества аудиообъектов. Битстрим 300 также включает в себя объектно-ориентированную служебную параметрическую информацию 320, описывающую характеристики аудиообъектов, аудиосигналы которых отражены в смешанной форме в представлении даунмикс-сигнала 310. Объектно-ориентированная служебная параметрическая информация 320 содержит сигнальный параметр битстрима 322, указывающий, что включает в себя битстрим - индивидуальные параметры межобъектной корреляции в битстриме (индивидуально связанные с различными парами аудиообъектов), или общее для битстрима значение параметра межобъектной корреляции (связанное с множеством разных пар аудиообъектов). Объектно-ориентированная параметрическая протокольная информация 320, кроме указанного, содержит множество индивидуальных значений 322а параметров межобъектной корреляции в битстриме 300, что обозначено как первое состояние 322а сигнального параметра битстрима 322, или содержит общее значение 322b параметра межобъектной корреляции в битстриме 300, что обозначено как второе состояние 322b сигнального параметра битстрима 322.
Отсюда следует, что битстрим 300 может быть адаптирован к особенностям взаимозависимости сигналов аудиообъектов 210а - 210N путем настройки формата битстрима 300 на представление индивидуальных значений параметров межобъектной корреляции в битстриме или на представление общего для битстрима значения параметра межобъектной корреляции.
Исходя из сказанного, битстрим 300 предусматривает возможность эффективного кодирования разнообразных типов звуковых сцен с приложением сжатого протокола и рассчитан на поддержание надлежащего слухового впечатления в случаях, когда присутствует всего несколько тесно коррелирующих аудиообъектов.
Дополнительные подробности относительно битстрима будут рассмотрены ниже.
4. Система MPEG SAOC на фиг.4
Далее, со ссылкой на фиг.4 описана система пространственного кодирования аудиообъектов SAOC формата MPEG, в которой применено вычисление одного параметра межобъектной взаимной корреляции IOC.
Как видно на фиг.4, система MPEG SAOC 400 состоит из кодера SAOC 410 и декодера SAOC 420.
Кодер SAOC 410 предназначен для приема множества, скажем L, сигналов аудиообъектов 420а - 420N. Кодер SAOC 410 формирует представление сигнала понижающего микширования 430 и сопроводительную информацию 432, которые преимущественно, но не исключительно, составляют двоичный поток.
Кодер SAOC 410 включает в свою конструкцию устройство понижающего микширования SAOC 440, на которое поступают сигналы аудиообъектов 420а - 420N, и который на их основе генерирует представление сигнала понижающего микширования 430. Кодер SAOC 410 также включает в свою конструкцию экстрактор параметров (драйвер доступа к параметрам) 444, предусматривающий извлечение сигналов объектов 420а - 420N и как опцию - получение данных микширования SAOC с понижением 440 (например, один или два параметра понижающего микширования). Экстрактор параметров 444 включает в себя вычислитель общего значения межобъектной корреляции (IOC) 448, предназначенный для расчета единого (общего) значения межобъектной корреляции, соотнесенного с множеством пар аудиообъектов. Дополнительно в функции вычислителя единого показателя межобъектной корреляции 448 входит генерация маркера общей межобъектной корреляции 452, который индицирует начало применения единого показателя межобъектной корреляции вместо целевых значений межобъектной корреляции для обособленных пар объектов. В частности, вычислитель общего значения межобъектной корреляции 448 предусматривает возможность, исходя из анализа сигналов аудиообъектов 420а - 420N, выбрать для генерации единое общее значение межобъектной корреляции (или в ином случае - множество целевых значений параметров межобъектной корреляции, индивидуально соотнесенных с парами сигналов аудиообъектов). Вместе с этим, вычислитель единого показателя межобъектной корреляции (IOC) 448 предусматривает прием внешней управляющей информации, содержащей указание на расчет общего значения межобъектной корреляции (в том числе - значения параметра битстрима) или на расчет индивидуальных значений межобъектной корреляции (в том числе - значений параметров битстрима).
Кроме того, экстрактор параметров 444 выполнен с возможностью выведения множества параметров, описывающих сигналы аудиообъектов 420а - 420N, например, показатели межобъектной разности уровней. Наряду с этим, экстрактор параметров 444 преимущественно выполнен с возможностью выведения параметров, описывающих понижающее микширование, таких как набор коэффициентов усиления при понижающем микшировании DMG и набор показателей разности уровней даунмикс-каналов DCLD.
В функции кодера SAOC 410 включено квантование 456 параметров на выходе экстрактора параметров 444. В частности, квантователь 456 может выполнить квантование общего параметра межобъектной корреляции. В дополнение к этому с помощью квантователя 456 может быть выполнено квантование показателей разности уровней объектов, коэффициентов усиления при понижающем микшировании и показателей разности уровней каналов понижающего микширования. Таким образом, на выходе квантователя 456 получают квантованные параметры.
Кроме того, в функции кодера SAOC 410 входит помехоустойчивое кодирование 460 принятых от квантователя 456 квантованных параметров. Например, помехоустойчивое кодирование может быть применено к квантованному общему показателю межобъектной корреляции, как и к другим квантованным данным (в частности, к OLD [разностям уровней объектов], DMG [коэффициентам усиления при понижающем микшировании] и DCLD [разностям уровней даунмикс-каналов]).
Таким образом, кодер SAOC 410 компонует сопутствующую протокольную информацию 432, которая содержит маркер применения единого показателя IOC 452 (который можно рассматривать как сигнальный параметр битстрима) и кодированные без помех бесшумовым кодером 480 параметры (которые можно рассматривать как значения параметров битстрима).
Декодер SAOC 420 принимает поступающие от кодера SAOC 410 сопроводительную протокольную информацию 432 и представление микшированного с понижением сигнала 430.
Декодер SAOC 420 выполняет бесшумовое декодирование 464 служебной информации 432, представляющее собой функцию, обратную бесшумовому кодированию 460, выполненному кодером SAOC 410.
Затем декодер SAOC 420 выполняет деквантование 468, которое можно также рассматривать как обратное квантование (хотя, строго говоря, квантование необратимо с точки зрения полной адекватности) с использованием деквантователя 468, который принимает декодированную служебную информацию 466 после бесшумового декодирования 464. Результатом деквантования 468 являются деквантованные параметры 470, например, декодированное и деквантованное общее значение межобъектной корреляции, сгенерированное вычислителем единого показателя межобъектной корреляции 448, а также декодированные и деквантованные значения разности уровней объектов OLD, декодированные и деквантованные значения коэффициентов усиления при понижающем микшировании DMG и декодированные и деквантованные значения разности уровней каналов понижающего микширования DCLD. Декодер SAOC 420, кроме указанного, включает в свой состав экспандер (расширитель) 474 общего значения межобъектной корреляции, предназначенный для получения множества значений межобъектной корреляции, связанных с множеством пар взаимосвязанных аудиообъектов, на основе общего значения межобъектной корреляции. При этом следует указать на то, что в некоторых аппаратных версиях экспандер общей межобъектной корреляции 474 может быть введен до бесшумового декодирования 464 и деквантования 468. Например, экспандер общей межобъектной корреляции 474 может быть интегрирован в синтаксический анализатор битстрима, который принимает битстрим, содержащий как представление даунмикс-сигнала 430, так и служебную информацию 432.
Далее в функции декодера SAOC 420 включены обработка и микширование 480, в результате которых получают представление сигнала понижающего микширования 430 и декодированные параметры, входящие (в кодированном виде) в служебную информацию 432. Таким образом, устройство обработки и микширования 480 в составе декодера SAOC предусматривают прием одного или двух значений межобъектной корреляции для каждой пары (разных) аудиообъектов, при этом одно или два значения межобъектной корреляции могут равняться нулю для невзаимосвязанных аудиообъектов и быть отличными от нуля для взаимосвязанных аудиообъектов. Дополнительно устройство обработки и микширования 480 в составе декодера SAOC рассчитаны на прием показателей разности уровней объектов для каждого аудиообъекта. Кроме этого, устройство обработки и микширования 480 в составе декодера SAOC могут принимать значения коэффициентов усиления при понижающем микшировании и (факультативно) показатели разности уровней каналов понижающего микширования, описывающие процесс понижающего микширования SAOC 440. Итак, устройство обработки и микширования 480 декодера SAOC 420 выполнено с возможностью генерации множества сигналов для передачи по каналам 484а - 484М, исходя из представления сигнала понижающего микширования 430, параметров, содержащихся в служебной информации 432, и интерактивных данных 482, отражающих желаемый рендеринг аудиообъектов. При этом следует отметить, что каналы 484а - 484М могут быть представлены как сигналами индивидуальных аудиоканалов, так и параметрически, подобно, например, многоканальному представлению стандарта MPEG Surround (включающему в себя, предположим, сигнал понижающего микширования MPEG Surround и описывающую каналы протокольную информацию в формате MPEG Surround). Иными словами, в рамках данного обсуждения в качестве представления сигнала повышающего микширования будут рассматриваться как представление аудиосигналов индивидуальных каналов, так и параметрическое представление многоканального аудиосигнала.
Далее представлена некоторая детализация технических возможностей кодера SAOC 410 и декодера SAOC 420.
Сопроводительная информация протокола пространственного кодирования аудиообъекта SAOC, которая будет рассмотрена позже, играет важную роль в кодировании и декодировании в формате SAOC. Служебная информация SAOC описывает входящие (звуковые) объекты с помощью ковариационной матрицы их время-частотного варианта. N сигналов объектов с 420а по 420N (иногда для краткости называемых «объекты») могут быть записаны как ряды матрицы:
Здесь элементы si(1) обозначают спектральные характеристики аудиообъекта, имеющего индекс i аудиообъекта для множества временных составляющих, имеющих временной индекс 1. Блок сигнала из L отсчетов представляет сигнал в частотно-временном интервале, который является фрагментом перцептуально мотивированного разбиения частотно-временной плоскости, используемой для описания свойств сигнала. Отсюда, матрица ковариации дана как
при
Матрица ковариации стандартно используется устройством обработки и микширования 480 декодера SAOC для формирования сигналов каналов 484а - 484N.
Диагональные элементы могут быть реконструированы непосредственно на стороне декодера SAOC с использованием данных OLD, а недиагональные элементы
выводят из межобъектных корреляций (IOC) как
Количество значений межобъектной корреляции, необходимых для полного отображения матрицы ковариации, составляет N∗N/2-N/2. В силу того, что это количество может расти (например, при большом числе N сигналов объектов), увеличивая объем требуемых битов, кодер SAOC 410 (как и кодер аудиосигнала 200) может дискреционно пересылать только выборочные значения межобъектной корреляции для пар объектов, маркированных как “взаимосвязанные”. Эта вспомогательная индикация “взаимосвязи” может, например, статически передаваться в составе сконфигурированного специально для SAOC синтаксического элемента битстрима, который может быть обозначен, например, как «SAOCSpecificConfig()». Объекты, не соотнесенные друг с другом, могут, например, быть отнесены к некоррелирующим, то есть их межобъектная корреляция будет равна нулю.
Тем не менее, существуют прикладные сценарии, где все (или почти все) объекты взаимно соотнесены. Примером такого сценария практического приложения может служить телефонная конференция с заданной конфигурацией микрофонов и устойчивой пространственной акустикой при высокой степени взаимного наведения микрофонных сигналов. В этих случаях необходима передача всех значений межобъектной корреляции IOC (если применен вышеупомянутый общепринятый механизм), что обычно ведет к перерасходу битового ресурса. Если в качестве альтернативы принять, что все объекты не коррелируют, в модель будет введена критическая ошибка, что приведет к неадекватному акустическому качеству воссоздаваемой сцены.
В основе предлагаемого подхода лежит допущение, что в контексте определенных прикладных сценариев SAOC некоррелирующие источники звука преобразуются в коррелированные входные аудиообъекты SAOC, что происходит под воздействием акустической среды, в которой они размещены, и в зависимости от используемой звуковоспроизводящей аппаратуры.
В условиях телеконференции, например, воздействие реверберации в закрытом помещении и неполная изолированность каждого говорящего и громкоговорителей приводят к возникновению коррелированных объектов SAOC, несмотря на то, что фрагменты разговора разных собеседников не коррелируют. Подобные акустические условия и результирующая корреляция могут быть приближенно описаны одним общим изменяющимся по частоте и во времени показателем.
Таким образом, предлагаемый способ помогает успешно обойти требование избыточности битрейта для передачи всех показателей корреляции объектов.
Это выполняют, рассчитывая единое зависимое по времени/частоте значение межобъектной корреляции IOC с использованием специального «вычислителя единого показателя IOC» 448 в составе кодера SAOC (см. фиг.4). Задействование функции «единого показателя IOC» индицируется в информации SAOC (например, с использованием сигнального параметра битстрима «bsOneIOC»). Далее, единый показатель IOC для частотно-временной ячейки передают вместо всех отдельных значений межобъектной корреляции (используя, например, общее для битстрима значение параметра межобъектной корреляции).
В типовом приложении заголовок битового потока (допустим, согласно неопубликованному стандарту SAOC [SAOC] - элемент «SAOCSpecificConfig()») содержит один бит, указывающий, какая применена метка - «единого показателя IOC» или «обычной» IOC. Некоторые более подробные данные по этой теме будут представлены ниже.
В последующем полезные данные фрейма (скажем, элемент «SAOCFrame()» согласно неопубликованному стандарту SAOC [SAOC]) содержат показатели IOC, общие для всех объектов, или несколько показателей IOC, в зависимости от режима - «единых показателей IOC» или «обычной» IOC.
Исходя из этого, синтаксический анализатор битстрима (в составе декодера SAOC) для анализа полезных данных может быть рассчитан на выполнение функций в соответствии с приведенным ниже примером (сформулированным в псевдокоде С):
if (iocMode==SINGLE_IOC)
{
readlocDataFromBitstream(1);
}
else
{
readIocDataFromBitstream (numberOfTransmittedIocs);
}
Как следует из приведенного выше примера, синтаксический анализатор битстрима проверяет, что флажок «iocMode» (в последующем обозначаемый также «bsOneIOC») указывает на присутствие только одного значения параметра межобъектной корреляции в битстриме (что индицируется значением параметра «SINGLE_IOC»). Если синтаксический анализатор битового потока определяет наличие в потоке только одного значения межобъектной корреляции, он считывает из битстрима один элемент данных межобъектной корреляции (т.е. - одно значение параметра межобъектной корреляции в битстриме), на что указывает обозначение операции «readlocDataFromBitstream(1)». Если, наоборот, синтаксический анализатор битового потока определяет, что флажок «iocMode» не сигнализирует использование одного (общего) значения межобъектной корреляции, синтаксический анализатор битстрима считывает из битстрима другое количество элементов данных межобъектной корреляции (например, значений параметров межобъектной корреляции в битстриме), на что указывает обозначение функции «readIocDataFromBitstream (numberOfTransmittedlocs)»). Количество («numberOfTransmittedIocs») элементов данных межобъектной корреляции, считанных в подобном случае, обычно определяется числом пар взаимосвязанных аудиообъектов.
В ином случае метка «единого показателя IOC» может присутствовать в полезных данных фрейма (например, в так называемом элементе «SAOCFrame()» согласно неопубликованному стандарту SAOC) для обеспечения динамического коммутирования между режимами единого показателя IOC и нормальной IOC на пофреймовой основе.
5. Вычисление общего для битстрима параметра межобъектной корреляции на стороне кодера
Далее, описаны некоторые предпочтительные варианты вычисления единого показателя IOC (IOCsingle).
5.1. Расчет с использованием перекрестных мощностей
В предпочтительном варианте реализации кодера SAOC 410 общее значение параметра межобъектной корреляции в битстриме IOCsingle может быть рассчитано по уравнению:
членами которого являются показатели перекрестных (коррелирующих) мощностей
где n и k - дискреты времени и частоты (или временные и частотные коэффициенты), для которых задан параметр SAOC.
Говоря иначе, общее для битстрима значение параметра межобъектной корреляции IOCsingle может быть рассчитано из отношения между суммой показателей перекрестных мощностей nrgij (где индексы i, j объектов почти всегда различны) и суммой средних
Суммированы могут быть, например, все пары возможных аудиообъектов или только пары взаимосвязанных аудиообъектов.
Показатель nrgij суммы коррелирующих мощностей может быть выведен, в частности, как сумма комлексно-сопряженных произведений (где один из множителей является комплексно-сопряженным числом) спектральных коэффициентов
Действительная часть указанного отношения может быть образована (например, действием Re{}) для получения действительного общего значения IOCsingle параметра межобъектной корреляции в битстриме, как показано в приведенном выше уравнении.
5.2. Использование постоянного значения
В другом предпочтительном варианте реализации для получения общего значения IOCsingle параметра межобъектной корреляции в битстриме может быть выбрано постоянное значение с в соответствии с IOCsingle=с, где с - константа.
Константа с, например, может описывать не зависящие от времени и частоты перекрестные помехи (уровень реверберации) помещения со специфической акустикой, где проводят телеконференции.
Постоянная с может также, например, быть задана кодером SAOC в соответствии с оценкой параметров пространственной акустики. В иных случаях константа с может быть введена через пользовательский интерфейс или запрограммирована в кодере SAOC 410.
6. Вычисление на стороне декодера значений межобъектной корреляции для всех пар объектов
Дальше приведено описание метода расчета значений межобъектной корреляции для всех пар объектов.
На стороне декодера (например, декодера SAOC 420) из общего (для битстрима) параметра межобъектной корреляции (IOCsingle) выводят значения межобъектной корреляции для всех пар объектов. Это может быть выполнено, в частности, с помощью модуля «расширения единого показателя IOC» (экспандера) 474 (см. фиг.4).
Предпочтительным является метод простого копирования. Копирование выполняют с учетом или без учета инструкции о «взаимосвязи» [«relatedto»], содержащейся, например, в головной метке битового потока SAOC (в частности, в разделе «SAOCSpecificConfiguration()»).
Копирование без инструкции «о взаимосвязи» (т.е. без передачи или без учета информации «relatedto») выполняют следующим образом:
IOCmn=IOCsingle, для всех m, n при m≠n.
Таким образом, всем значениям межобъектной корреляции пар различных аудиообъектов задают общее (для битстрима) значение параметра межобъектной корреляции.
Другая предпочтительная версия исполнения предусматривает копирование с сохранением инструкции о «взаимосвязи» (т.е. с учетом информации о соотнесенности аудиообъектов), выполняемое, например, следующим образом:
Таким образом, если информация о взаимосвязи объектов «relatedTo(м,n)» указывает на то, что названные аудиообъекты соотнесены друг с другом, одному или даже двум значениям межобъектной корреляции, соотнесенным с парой аудиообъектов (с индексами аудиообъектов m и n), присваивается значение IOCsingle, рассчитанное, например, из общего значения параметра межобъектной корреляции в битстриме. И наоборот, то есть, если информация «relatedTo(m,n)» о взаимосвязи объектов указывает, что аудиообъекты пары не связаны между собой, то одному или даже двум показателям межобъектной корреляции, соотнесенным с парой аудиообъектов, присваивается предварительно заданное значение, допустим, ноль.
Однако возможны и другие механизмы распределения, в том числе, с учетом мощностей объектов. Так, значениям межобъектной корреляции, относящимся к объектам с относительно низкой мощностью, могут быть заданы высокие показатели, скажем, 1 (полная корреляция), с целью минимизации воздействия декоррелирующего фильтра декодера SAOC.
7. Концепция декодера с использованием элементов битстрима в соответствии с фиг.5 и 6
Дальше представлена концепция декодера аудиосигнала, где используются элементы синтаксиса битстрима, как показано на фиг.5 и 6. Здесь следует отметить, что синтаксис битстрима и концепция анализа битового потока, рассматриваемые со ссылкой на фиг.5 и 6, могут быть применены, в том числе, и в декодере аудиосигнала 100 на фиг.1, и в декодере аудиосигнала 420 на фиг.4. Следует добавить, что кодер аудиосигнала 200 на фиг.2 и кодер аудиосигнала 410 на фиг.4 могут быть рассчитаны на генерацию элементов синтаксиса битстрима, как рассмотрено применительно к фиг.5 и 6. Соответственно, согласно данному ниже описанию могут быть сформированы битстрим, содержащий представление сигнала понижающего микширования 110 и объектно-ориентированную параметрическую информацию 112, и/или представление битстрима 220 и/или битстрим 300 и/или битстрим, включающий в себя информацию понижающего микширования 430 и служебную информацию 432.
Поток двоичных данных пространственного кодирования аудиообъектов SAOC, который может быть сгенерирован описанными выше кодерами SAOC и который может быть распознан описанными выше декодерами SAOC, может содержать раздел детализации конфигурации SAOC, который будет рассмотрен в контексте фиг.5, где представлен синтаксис такого раздела детализации конфигурации SAOC «SAOCSpecificConfig()».
Данные детализации конфигурации SAOC содержат, например, информацию о частоте дискретизации аудиосигнала кодером и/или - в последующем - декодером. Кроме того, данные детализации конфигурации SAOC содержат информацию о том, был ли использован кодером аудиосигнала режим малой задержки, и/или должен ли быть использован такой режим декодером аудиосигнала. Наряду с этим данные детализации конфигурации SAOC включают в себя информацию о частотном разрешении, которое было применено аудиокодером и/или которое должно быть использовано аудиодекодером. Также в данные детализации конфигурации SAOC включена информация о длине аудиофреймов, которую задал кодер SAOC и/или которая должна быть использована декодером SAOC. Помимо названного, данные детализации конфигурации SAOC содержат информацию о количестве аудиообъектов. Информация о количестве объектов в конфигурации SAOC, обозначенная также «bsNumObjects», описывает, в частности, показатель N, использованный ранее.
Далее, данные детализации конфигурации SAOC включают в себя информацию о взаимозависимости объектов. Например, может применяться один бит в двоичном потоке для каждой пары различных аудиообъектов. В то же время, взаимное соотношение аудиообъектов может быть представлено, например, квадратной матрицей N х N, имеющей однобитовую ячейку для каждой комбинации аудиообъектов. Ячейки указанной матрицы, описывающие взаимосвязь объекта с самим собой, т.е. диагональные элементы, могут быть установлены на единицу, что служит показателем того, что объект связан с самим собой. Две ячейки матрицы, а именно, первая ячейка, несущая первый индекс i и второй индекс j, и вторая ячейка, несущая первый индекс j и второй i, могу быть соотнесены с каждой парой разных аудиообъектов, имеющих индексы аудиообъектов i и j. Следовательно, одиночный бит битстрима определяет значения двух элементов матрицы взаимного соотношения объектов, которым заданы одинаковые значения.
Как можно видеть, первый индекс i аудиообъекта лежит в пределах от i=0 до i=bsNumObjects (внешний для контура). Диагональный элемент «bsRelatedTo[i][i]» установлен на единицу для всех значений i. Для первого индекса i аудиообъекта биты, описывающие взаимосвязь между аудиообъектом i и аудиообъектами j (с индексом аудиообъекта j), включены в последовательность битов для j=i+1 до j=bsNumObjects. Отсюда следует, что ячейки матрицы взаимного соотношения «bsRelatedTo[i][j]», описывающие взаимосвязь между аудиообъектами с индексами аудиообъектов i и j, получают значение, данное в битстриме. Дополнительно, элементу матрицы взаимного соотношения объектов «bsRelatedTo[j][i]» задается такое же значение, т.е. значение элемента матрицы «bsRelatedTo[i][j]». Более подробно синтаксический разбор представлен на фиг.5.
В данные детализации конфигурации SAOC включена также информация о передаче абсолютной энергии, указывающая, включил ли аудиокодер абсолютные показатели энергии в битстрим, и/или должен ли аудиодекодер анализировать информацию о передаче абсолютной энергии, введенную в битстрим.
Данные детализации конфигурации SAOC содержат также информацию о количестве каналов понижающего микширования, которое использовано аудиокодером и/или которое должно быть использовано аудиодекодером. Кроме названного, данные детализации конфигурации SAOC могут включать в себя дополнительные сведения о конфигурации, которые не относятся к настоящему приложению и могут быть опущены.
Помимо этого, данные детализации конфигурации SAOC содержат информацию об общей межобъектной корреляции (также обозначенную здесь как «сигнальный параметр битстрима»), указывающую, что введено в битстрим SAOC - общее для битстрима значение параметра межобъектной корреляции, или индивидуальные для каждой пары объектов значения параметров межобъектной корреляции в битстриме. Указанная информация об общей межобъектной корреляции может быть обозначена, например, как «bsOneIOC», и может носить однобитовое значение.
Наряду с перечисленным данные детализации конфигурации SAOC могут содержать информацию о блоке контроля искажений.
В дополнение к этому данные детализации конфигурации SAOC могут включать в себя один или более битов заполнения, обозначенных как «ByteAlignQ» и используемых для корректировки длины данных детализации конфигурации SAOC. Сверх того, в данные детализации конфигурации SAOC могут быть включены дополнительные сведения о конфигурации «SAOCExtensionConfig()», которые не имеют отношение к настоящему приложению и поэтому рассматриваться здесь не будут.
Здесь необходимо отметить, детализация структуры пространственного кодирования аудиообъектов SAOC может содержать больший или меньший объем информации, чем указано выше. Иными словами, некоторые из перечисленных выше пунктов информации о конфигурации могут быть опущены для некоторых конструктивных решений, а для других вариантов реализации могут быть введены дополнительные данные конфигурации.
Тем не менее, следует обратить внимание на то, что данные детализации конфигурации SAOC, например, могут быть введены только один раз в один аудиофрагмент битстрима SAOC. Однако, данные детализации конфигурации SAOC факультативно могут быть включены в битстрим и чаще. И все же, данные детализации конфигурации SAOC, как правило, вырабатывают для множества фреймов SAOC, так как данные детализации конфигурации SAOC существенно перегружают битовый поток служебной информацией.
Дальше, с опорой на фиг.6 представлен синтаксический разбор фрейма SAOC. Фрейм SAOC содержит закодированные значения разности уровней объектов OLD, которые могут быть отражены по каждой частотной полосе и по каждому звуковому объекту.
Фрейм SAOC также содержит закодированные абсолютные показатели энергии объектов NRG, которые можно рассматривать как опцию, и которые могут быть введены пополосно.
Кроме того, фрейм SAOC содержит закодированные показатели межобъектной корреляции IOC, которые могут вводиться по полосам частот, то есть раздельно для множества частотных диапазонов, и для множества сочетаний аудиообъектов.
Дальше дано описание битстрима с точки зрения действий, которые могут быть произведены синтаксическим анализатором битстрима, выполняющим синтаксический разбор битового потока.
Анализатор синтаксиса битстрима может, например, инициализировать переменные k, iocldx1, iocldx2, задав им на первом предварительном шаге нулевое значение.
В последующем анализатор синтаксиса битстрима может выполнять синтаксический анализ для множества значений первого индекса i аудиообъекта между i=0 и i=bsNumObjects (внешний для контура). Анализатор синтаксиса битстрима может, например, задать значение индекса idxIoc[i][i] межобъектной корреляции, описывающее взаимосвязь аудиообъекта, имеющего индекс i аудиообъекта, с самим собой, как ноль, что указывает на полную корреляцию.
Позже синтаксический анализатор битстрима может определить в битстриме значения j для второго индекса аудиообъекта в интервале между i+1 и bsNumObjects. В случае, если аудиообъекты, имеющие индексы аудиообъектов i и j, взаимосвязаны, на что указывает ненулевое значение элемента «bsRelatedTo[i][j]» матрицы взаимного соотношения объектов, синтаксический анализатор битстрима выполняет алгоритм 610, в ином случае синтаксический анализатор битстрима задает коэффициенту межобъектной корреляции, относящемуся к аудиообъектам с индексами аудиообъектов i и j, значение «пять» (действие «idxIOC[i][j]=5»), что обозначает нулевую корреляцию. Таким образом, для пар аудиообъектов, в отношении которых матрица взаимного соотношения объектов индицирует отсутствие взаимосвязи, значение межобъектной корреляции устанавливается на ноль. Однако, для пар взаимосвязанных аудиообъектов сигнальный параметр битстрима «bsOneIOC», включенный в специфическую конфигурацию SAOC, оценивается для принятия решения относительно дальнейшего образа действий. Если сигнальный параметр битстрима «bsOneIOC» индицирует наличие для каждой пары объектов индивидуальных значений параметров межобъектной корреляции в битстриме, из битстрима для частотных полос «numBands» извлекается множество коэффициентов idxIOC[i]|j] межобъектной взаимосвязи (которые можно рассматривать как значения параметров межобъектной зависимости в битстриме) с применением функции «EcDataSaoc», которая может быть использована для декодирования коэффициентов межобъектной взаимосвязи.
Однако, если сигнальный параметр битстрима «bsOneIOC» указывает, что общее для битстрима значение параметра межобъектной корреляции используется для множества пар аудиообъектов, и если параметр «bsRelatedTo[i][j]» сигнализирует, что аудиообъекты с индексами аудиообъектов i и j взаимно соотнесены, из битстрима считывается одна совокупность из множества коэффициентов межобъектной корреляции «idxIOC[i][j]» с использованием функции «EcDataSaoc» для множества numBands частотных диапазонов, при этом для любой данной полосы частот считывается только один коэффициент межобъектной корреляции. Но, после повторного выполнения алгоритма 610 предварительно считанный коэффициент межобъектной корреляции idxIOC[iocldx1[iocldx2] копируется без оценивания битстрима. Это обеспечивается за счет переменной к, которая инициализируется путем обнуления и получает приращение после оценки первого набора коэффициентов межобъектной корреляции idxIOC[i](j].
Итак, для каждой комбинации из двух аудиообъектов сначала оценивают наличие сообщения о взаимосвязи этих двух аудиообъектов (например, путем проверки значения показателя «bsRelatedTo[i][j]» - нулевого или не нулевого). Если аудиообъекты в паре взаимосвязаны, выполняется дальнейшая обработка 610. В ином случае показателю «idxIOC[i][j]», относящемуся к этой паре (в значительной степени несвязанных) аудиообъектов, присваивают предварительно установленное значение, например, указывающее нулевую межобъектную корреляцию.
В процессе обработки 610 из битового потока считывается значение битстрима для каждой пары аудиообъектов (для которой выдано сообщение о наличии взаимосвязанных аудиообъектов), если сигнальная метка «bsOneIOC» неактивна. В противоположном случае, то есть, если сигнальная метка «bsOneIOC» активна, считывается только одно значение битстрима для одной пары аудиообъектов, и далее на эту одну пару делаются ссылки с помощью индексов iocIdx1 и iocIdx2, значения которых указывают на считанное значение битстрима. Если сигнальная метка «bsOneIOC» активна, указанное одиночное считанное значение многократно применяется к разным парам аудиообъектов (обозначенным как взаимосвязанные).
Наконец, одно и то же значение коэффициента межобъектной корреляции соотносится с обеими комбинациями двух отдельно взятых аудиообъектов, независимо от того какой из двух взятых аудиообъектов является первым аудиообъектом, и какой из двух взятых аудиообъектов является вторым аудиообъектом.
В дополнение следует отметить, что фрейм SAOC обычно содержит закодированные значения коэффициентов усиления при понижающем микшировании (DMG) для каждого аудиообъекта.
Также, фрейм SAOC часто содержит закодированные разности уровней каналов понижающего микширования (DCLD), которые как опция могут быть введены для каждого аудиообъекта.
Кроме того, фрейм SAOC может произвольно включать в себя на частотной основе для каждого даунмикс-канала закодированные значения коэффициентов усиления понижающего микширования при постпроцессинге (PDG).
Помимо этого, в состав фрейма SAOC могут входить закодированные параметры блока контроля искажений, предназначенного для определения мер по устранению шумов.
В дополнение к названному фрейм SAOC может содержать один или более битов заполнения «ByteAlign()».
К тому же, фрейм SAOC может включать в себя данные расширения «SAOCExtensionFrame()», которые, однако, не имеют отношение к настоящему приложению и обсуждаться здесь не будут.
Теперь, на основе фиг.7 рассмотрим пример предпочтительного варианта квантования параметра межобъектной корреляции.
На фиг.7 видно, что в первом ряду 710 таблицы дан индекс idx квантования в диапазоне между нолем и семью. Этот индекс квантования может быть присвоен переменной «idxIOC[i][j]». Во втором ряду 720 таблицы на фиг.7 помещены соотнесенные значения межобъектной корреляции в диапазоне между -0,99 и 1. Следовательно, с использованием таблицы на фиг.7 значения параметров «idxIOC[i][j]» могут быть перенесены на обратно квантованные значения межобъектной корреляции.
Таким образом, составляющая «SAOCSpecificConfIg()» конфигурации SAOC преимущественно включает в себя параметр «bsOneIOC» битового потока, указывающий на передачу только одного показателя IOC, общего для всех взаимно связанных объектов, о чем сигнализирует «bsRelatedTo[i][j]=1». Показатели межобъектной корреляции введены в битстрим в кодированном виде «EcDataSaoc(IOC,k,numBands)». Матрицу «idxIOC[i][j]» заполняют на основе одного или более закодированных показателей межобъектной корреляции. Ячейки матрицы «idxIOC[i][j]» переносят на обратно квантованные значения с использованием подстановочной таблицы на фиг.7, получая обратно квантованные показатели межобъектной корреляции. Обратно квантованные значения межобъектной корреляции, обозначенные как IOCij, используют для выведения элементов матрицы ковариации. Для этого используют также обратно квантованные показатели разности уровней объектов, обозначенные как OLDi.
Матрица ковариации Е размерностью N×N с элементами eij представляет приближение ковариационной матрицы исходного сигнала Е≈SS∗ и строится исходя из параметров OLD и IOC в виде
7. Альтернативные конструктивные решения
Несмотря на то, что здесь в основном рассматривается оборудование с точки зрения его технического устройства, понятно, что аспекты материальной части тесно связаны с описанием соответствующих способов ее применения, и какое-либо изделие или блок соответствуют особенностям метода или технологической операции. Аналогично, рассматриваемые технологии и рабочие операции непосредственно связаны с соответствующим машинным оборудованием и его элементной базой. Некоторые или все шаги предлагаемого способа могут быть выполнены с использованием аппаратных средств, таких, например, как микропроцессор, программируемый компьютер или электронная схема. В некоторых случаях осуществления одна или больше ответственных операций, составляющих данный способ, могут быть выполнены таким устройством.
Относящийся к изобретению кодированный аудиосигнал может быть сохранен в цифровой запоминающей среде или может быть транслирован в среде передачи информации, такой как беспроводная передающая среда или проводная передающая среда, например, Интернет.
В зависимости от конечного назначения и особенностей практического применения изобретение может быть реализовано в аппаратных или программных средствах. Технически изобретение может быть выполнено с использованием цифрового накопителя информации, такого как, гибкий диск, цифровой видеодиск DVD, носитель «блю-рей», компакт-диск CD, ПЗУ, ППЗУ, СППЗУ, ЭСППЗУ или ФЛЭШ-память, несущего электронно считываемые управляющие сигналы, совместимого (или рассчитанного на взаимодействие) с программируемой вычислительной системой таким образом, чтобы обеспечивать осуществление соответствующего способа. Следовательно, цифровая среда хранения данных может быть читаемой компьютером.
Некоторые варианты конструкции согласно данному изобретению имеют в своем составе носитель информации, содержащий электронно считываемые сигналы управления, совместимый с программируемой компьютерной системой и способный участвовать в реализации одного из описанных здесь способов.
В целом данное изобретение может быть реализовано как компьютерный программный продукт с кодом программы, обеспечивающим осуществление одного из предлагаемых способов при условии, что компьютерный программный продукт используется с применением компьютера. Код программы может, например, храниться на машиночитаемом носителе.
Различные варианты реализации включают в себя компьютерную программу, хранящуюся на машиночитаемом носителе, для осуществления одного из описанных здесь способов.
Таким образом, формулируя иначе, относящийся к изобретению способ осуществляется с помощью компьютерной программы, имеющей код программы, обеспечивающий реализацию одного из описанных здесь способов, если компьютерную программу выполняют с использованием компьютера.
Далее, следовательно, техническое исполнение изобретенного способа включает в себя носитель данных (либо цифровой накопитель информации, либо читаемую компьютером среду), содержащий записанную на нем компьютерную программу, предназначенную для осуществления одного из способов, описанных здесь. Носитель данных, цифровая среда хранения или средства записи информации, как правило, представляют собой материальные предметы и/или не подлежат передче средствами связи.
Отсюда следует, что реализация изобретения подразумевает наличие потока данных или последовательности сигналов, представляющих компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть рассчитаны на передачу через средства связи, например, Интернет.
Кроме того, реализация включает в себя аппаратные средства, например, компьютер или программируемое логическое устройство, предназначенные или приспособленные для осуществления одного из описанных здесь способов.
Далее, для технического исполнения требуется компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов.
Некоторые версии конструкции для реализации одной или всех функциональных возможностей описанных здесь способов могут потребовать применения программируемого логического устройства (например, полевой программируемой матрицы логических элементов). В зависимости от назначения версии базовый матричный кристалл может сочетаться с микропроцессором с целью осуществления одного из описанных здесь способов. Как правило, описываемые способы могут быть реализованы с использованием любого аппаратного средства.
Описанные выше конструктивные решения являются только иллюстрациями основных принципов настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого представленные здесь описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями
8. Список литературы
[ВСС] С.Faller and F.Baumgarte, «Binaural Cue Coding - Part II: Schemes and applications,»
IEEE Trans, on Speech and Audio Proc, vol.11, no. 6, Nov. 2003. [JSC] C. Faller, «Parametric Joint-Coding of Audio Sources», 120 th AES Convention, Paris,
2006, Preprint 6752.
[SAOC1] J.Herre, S.Disch, J.Hilpert, O.Hellmuth: «From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio», 22 nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J.Engdegard, B.Resch, C.Falch, O.Hellmuth, J.Hilpert, A.Holzer, L.Terentiev, J.Breebaart, J.Koppens, E.Schuijers and W.Oomen: «Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding», 124 th AES Convention, Amsterdam 2008, Preprint 7377. [SAOC] ISO/IEC, «MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC),» ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.
Изобретение относится к средствам, генерирующим представление сигнала повышающего микширования на основе представления сигнала понижающего микширования с использованием объектно-ориентированной параметрической информации и с учетом данных аудиорендеринга. Технический результат заключается в улучшении качества акустического образа. Аудиокодер включает в себя определитель параметров объектов, генерирующий значения межобъектной корреляции множества пар аудиообъектов, определяющий по сигнальному параметру битстрима выбор между вычислением индивидуальных значений параметров межобъектной корреляции в битстриме для выведения значений межобъектной корреляции множества пар взаимосвязанных аудиообъектов и выведением значений межобъектной корреляции множества пар взаимосвязанных аудиообъектов из значения общего для битстрима параметра межобъектной корреляции. Аудиодекодер, также включающий в себя процессор сигналов, генерирующий представление сигнала повышающего микширования на основе представления сигнала понижающего микширования. 9 н. и 11 з.п. ф-лы, 11 ил.
1. Декодер аудиосигнала (100; 420), предназначенный для генерации представления сигнала повышающего микширования (130; 484а - 484М) на основе представления сигнала понижающего микширования (110; 430), объектно-ориентированной параметрической информации (112; 432) и исходя из параметров рендеринга (120; 482), характеризующийся тем, что содержит определитель параметров объектов (140; 464, 468, 474), выполненный с возможностью генерации показателей межобъектной корреляции (142; IOCij) множества пар аудиообъектов, при этом определитель параметров объектов идентифицирует сигнальный параметр потока двоичных данных - бистрим bsOneIOC, для выбора между необходимостью расчета индивидуальных значений параметров межобъектной корреляции в битстриме с целью выведения показателей межобъектной корреляции для множества пар взаимосвязанных аудиообъектов и необходимостью выведения показателей межобъектной корреляции для множества пар взаимосвязанных аудиообъектов на основе общего для битстрима значения параметра межобъектной корреляции; и процессор сигналов (150; 480), генерирующий представление сигнала повышающего микширования на основе представления сигнала понижающего микширования с использованием показателей межобъектной корреляции множества пар взаимосвязанных аудиообъектов и информации по аудиорендерингу; при этом в объектно-ориентированную параметрическую информацию (112; 432) включен сигнальный параметр битстрима bcOneIOC и индивидуальные значения параметров межобъектной корреляции в битстриме или значение общего для битстрима параметра межобъектной корреляции; определитель параметров объектов (140; 464, 468, 474), кроме того, оценивает информацию о наличии взаимной зависимости объектов bsRelatedTo; а также избирательно выводит из общего для битстрима показателя межобъектной корреляции значения межобъектной корреляции пар аудиообъектов, для которых информация о взаимозависимости объектов содержит указание на наличие взаимосвязи, и устанавливает предварительно заданное значение для показателей межобъектной корреляции пар аудиообъектов, для которых информация о взаимозависимости объектов содержит указание на отсутствие взаимосвязи.
2. Декодер по п. 1, характеризующийся тем, что определитель параметров объектов (140; 464, 468, 474) оценивает информацию о взаимной зависимости объектов, где каждая комбинация различных аудиообъектов маркирована однобитовым флажком, относящимся к данной комбинации различных аудиообъектов и индицирующим наличие или отсутствие взаимосвязи между аудиообъектами в данной комбинации.
3. Декодер по п. 1, характеризующийся тем, что определитель параметров объектов (140; 464, 468, 474) задает показателю межобъектной корреляции всех пар различных взаимосвязанных аудиообъектов общее значение, выводимое из значения общего для битстрима параметра межобъектной корреляции, или значение, производное от общего значения, выводимого из значения общего для битстрима параметра межобъектной корреляции.
4. Декодер по п. 1, характеризующийся тем, что определитель параметров объектов (140; 464, 468, 474) имеет в своем составе анализатор синтаксиса битстрима, выполняющий синтаксический разбор аудиоконтента, представленного в виде битстрима, для идентификации сигнального параметра битстрима bsOneIOC и выведения значений индивидуальных параметров межобъектной корреляции в битстриме или общего для битстрима значения параметра межобъектной корреляции.
5. Декодер по п. 1, характеризующийся тем, что при декодировании аудиосигнала совмещает показатель межобъектной корреляции IOCij пары взаимосвязанных аудиообъектов с показателем разности уровней объектов, описывающим уровень первого аудиообъекта в паре согласованных аудиообъектов, и с показателем разности уровней объектов OLDj, описывающим уровень второго аудиообъекта в паре согласованных аудиообъектов, с получением показателя ковариации eij пары согласованных аудиообъектов; при этом аудиодекодер выводит элемент eij матрицы ковариации в соответствии с .
6. Декодер по п. 1, характеризующийся тем, что он выполнен с возможностью обработки трех или более аудиообъектов и включающий в свой состав определитель параметров объектов (140; 464, 468, 474), который генерирует значение межобъектной корреляции для каждой пары различных аудиообъектов.
7. Декодер по п. 1, характеризующийся тем, что определитель параметров объектов (140; 464, 468, 474) распознает сигнальный параметр битстрима, включенный в раздел детализации конфигурации битстрима SAOCSpecificConfig, с целью определения выбора между расчетом значений индивидуальных параметров межобъектной корреляции в битстриме для выведения значения межобъектной корреляции множества пар взаимосвязанных аудиообъектов и расчетом значения межобъектной корреляции для множества пар взаимосвязанных аудиообъектов с использованием значения общего для битстрима параметра межобъектной корреляции; и в составе которого определитель параметров объектов оценивает информацию о взаимной зависимости объектов bsRelatedTo[i][j], включенную в раздел конфигурации битстрима, для определения наличия взаимосвязи двух аудиообъектов; и в составе которого определитель параметров объектов рассчитывает значение общего для битстрима параметра межобъектной корреляции, включенное в раздел данных каждого фрейма битстрима SAOCFrame аудиоконтента, если выбор сделан в пользу выведения значений межобъектной корреляции для множества пар взаимосвязанных аудиообъектов из общего для битстрима значения параметра межобъектной корреляции.
8. Кодер аудиосигнала (200; 410), генерирующий представление потока битов на основе множества сигналов аудиообъектов (210а - 210N, 420а - 420N), характеризующийся тем, что содержит понижающий микшер (230; 440), предназначенный для генерации сигнала понижающего микширования (232; 430) на основе сигналов аудиообъектов и исходя из параметров понижающего микширования DMG, DCLD, описывающих соотношения составляющих сигналов аудиообъектов в одном или более каналах сигнала понижающего микширования; и драйвер параметров (240; 444, 450, 460), предоставляющий такие данные, как общее для битстрима значение параметра межобъектной корреляции (242), соотнесенное с множеством пар сигналов взаимосвязанных аудиообъектов, и сигнальный параметр битстрима bsOneIOC; (244; 452), указывающий на введение общего для битстрима значения параметра межобъектной корреляции вместо множества индивидуальных значений параметров межобъектной корреляции в битстриме; при этом драйвер параметров, кроме того, предоставляет информацию о взаимной зависимости объектов bsRelatedTo, указывающую на наличие или на отсутствие взаимосвязи между двумя аудиообъектами; и форматер битстрима (250), предназначенный для формирования битстрима, включающего в себя представление сигнала понижающего микширования, представление общего значения параметра межобъектной корреляции в битстриме и сигнальный параметр битстрима.
9. Кодер по п. 8, характеризующийся тем, что драйвер параметров генерирует значение общего для битстрима параметра межобъектной корреляции на основании отношения между суммой показателей совокупности коррелирующих мощностей и суммы показателей средней мощности.
10. Кодер по п. 9, характеризующийся тем, что драйвер параметров рассчитывает показатель совокупности коррелирующих мощностей для данной пары аудиообъектов путем нахождения суммы произведений спектральных коэффициентов, относящихся к аудиообъектам этой пары аудиообъектов по совокупности временных дискретов или по совокупности частотных отсчетов; при этом драйвер параметров выполнен с возможностью расчета показателя средней мощности отдельно взятой пары аудиообъектов путем нахождения среднего геометрического мощности, отражающего мощность первого аудиообъекта по совокупности временных или частотных отсчетов, и среднего геометрического мощности, отражающего мощность второго аудиообъекта по совокупности временных или частотных отсчетов.
11. Кодер по п. 9, характеризующийся тем, что драйвер параметров генерирует значение общего для битстрима параметра межобъектной корреляции IOCsingle, следуя выражению
,
где , n и k описывают временные и частотные отсчеты, для которых применяется параметр SAOC; - спектральная характеристика, связанная с моментом времени n и частотой k аудиообъекта с индексом i; - спектральная характеристика, связанная с моментом времени n и частотой k аудиообъекта с индексом j; N обозначает полное количество аудиообъектов.
12. Кодер по п. 8, характеризующийся тем, что драйвер параметров задает константу значения общего параметра межобъектной корреляции в битстриме.
13. Кодер по п. 8, характеризующийся тем, что драйвер параметров на основании указания в информации о взаимной зависимости аудиообъектов избирательно оценивает межобъектную корреляцию аудиообъектов для расчета значения общего для битстрима параметра межобъектной корреляции.
14. Способ формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, объектно-ориентированной параметрической информации и с учетом данных аудиорендеринга, характеризующийся тем, что включает вычисление показателей межобъектной корреляции множества пар аудиообъектов, идентификацию сигнального параметра битстрима, согласно которому определяется выбор между вычислением индивидуальных значений параметров межобъектной корреляции в битстриме с целью получения значений межобъектной корреляции для множества пар согласованных аудиообъектов, и расчетом значения межобъектной корреляции для множества пар взаимосвязанных аудиообъектов с использованием общего для битстрима значения параметра межобъектной корреляции; и формирование представления сигнала, микшированного с повышением на основе представления сигнала, микшированного с понижением, с использованием значений межобъектной корреляции множества пар согласованных аудиообъектов и данных аудиорендеринга; при этом выполняются операции считывания маркера (bsRelatedTo) наличия взаимосвязи двух аудиообъектов, селективного выведения из значения общего для битстрима параметра межобъектной корреляции показателя межобъектной корреляции для пар аудиообъектов, взаимосвязь которых определена в информации о взаимной зависимости объектов, и присвоения показателям межобъектной корреляции пар аудиообъектов, для которых в информации о взаимозависимости объектов указано на отсутствие взаимосвязи, предварительно заданного значения; при этом объектно-ориентированная параметрическая информация содержит сигнальный параметр битстрима bsOneIOC и индивидуальные значения параметров межобъектной корреляции в битстриме или значение общего для битстрима параметра межобъектной корреляции.
15. Способ формирования представления потока двоичных данных - битстрима на базе множества сигналов аудиообъектов, характеризующийся тем, что включает формирование сигнала, микшированного с понижением на основе сигналов аудиообъектов и исходя из параметров понижающего микширования, описывающих соотношение составляющих сигналов аудиообъекта в одном или более каналов микшированного с понижением сигнала; и оценивание общего для битстрима значения параметра межобъектной корреляции, относящегося к множеству пар сигналов согласованных аудиообъектов; и генерирование сигнального параметра битстрима, определяющего выбор общего для битстрима значения параметра межобъектной корреляции вместо множества индивидуальных значений параметров межобъектной корреляции в битстриме; и спецификацию взаимосвязи двух аудиообъектов, формирование двоичного потока данных, включающего в себя представление сигнала понижающего микширования, представление общего для битстрима значения параметра межобъектной корреляции и сигнальный параметр битстрима.
16. Считываемый компьютером носитель данных, содержащий код для осуществления способа по п. 14.
17. Считываемый компьютером носитель данных, содержащий код для осуществления способа по п. 15.
18. Декодер аудиосигнала (100; 420), реализованный для генерации представления сигнала повышающего микширования (130; 484а - 484М) на основе представления сигнала понижающего микширования (110; 430) и объектно-ориентированной параметрической информации (112; 432) с использованием параметров рендеринга (120; 482), характеризующийся тем, что включает определитель параметров объектов (140; 464, 468, 474), выполненный с возможностью генерации показателей межобъектной корреляции (142; IOCij) множества пар аудиообъектов, при этом определитель параметров объектов идентифицирует сигнальный параметр потока двоичных данных bsOneIOC для выбора между необходимостью расчета индивидуальных значений параметров межобъектной корреляции в битстриме с целью выведения показателей межобъектной корреляции для множества пар взаимосвязанных аудиообъектов и необходимостью выведения показателей межобъектной корреляции для множества пар взаимосвязанных аудиообъектов на основе общего для битстрима значения параметра межобъектной корреляции; и процессор сигналов (150; 480), генерирующий представление сигнала повышающего микширования на основе представления сигнала понижающего микширования с использованием показателей межобъектной корреляции множества пар взаимосвязанных аудиообъектов и информации по аудиорендерингу; при этом декодер аудиосигнала реализован с возможностью совмещения показателя межобъектной корреляции IOCij пары согласованных аудиообъектов с показателем разности уровней объектов OLDi, описывающим уровень первого аудиообъекта в паре согласованных аудиообъектов, и с показателем разности уровней объектов OLDj, описывающим уровень второго аудиообъекта в паре согласованных аудиообъектов, с получением показателя ковариации eij пары согласованных аудиообъектов; при этом аудиодекодер выводит элемент eij матрицы ковариации согласно .
19. Способ формирования представления сигнала повышающего микширования на основе представления сигнала понижающего микширования и объектно-ориентированной параметрической информации с учетом данных аудиорендеринга, характеризующийся тем, что включает вычисление показателей межобъектной корреляции множества пар аудиообъектов, идентификацию сигнального параметра битстрима, согласно которому определяется выбор между вычислением индивидуальных значений параметров межобъектной корреляции в битстриме с целью получения значений межобъектной корреляции для множества пар согласованных аудиообъектов, и расчетом значения межобъектной корреляции для множества пар взаимосвязанных аудиообъектов с использованием общего для битстрима значения параметра межобъектной корреляции; и формирование представления сигнала, микшированного с повышением на основе представления сигнала, микшированного с понижением, с использованием значений межобъектной корреляции множества пар согласованных аудиообъектов и данных аудиорендеринга; при этом показатель межобъектной корреляции IOCij пары взаимосвязанных аудиообъектов совмещают с показателем разности уровней объектов OLDi, описывающим уровень первого аудиообъекта в паре взаимосвязанных аудиообъектов, и с показателем разности уровней объектов OLDj, описывающим уровень второго аудиообъекта в паре взаимосвязанных аудиообъектов, с получением показателя ковариации пары взаимосвязанных аудиообъектов; при этом элемент eij матрицы ковариации рассчитывают, исходя из .
20. Считываемый компьютером носитель данных, содержащий код для осуществления способа по п. 19.
WO 2008150141 A1, 11.12.2008 | |||
WO 2006072270 A1, 13.07.2006 | |||
WO 2009046909 A1, 16.04.2009 | |||
RU 2010114875 A, 17.10.2008. |
Авторы
Даты
2016-03-10—Публикация
2010-09-28—Подача