Область техники
Настоящее изобретение относится к обработке аудиосигнала и, в частности, к обработке описаний аудиосцен аудиосигнала.
Введение и уровень техники:
Передача аудиосцен в трех измерениях требует оперирования несколькими каналами, что обычно порождает большой объем данных для передачи. Более того, 3D звук может быть представлен разными путями: традиционный основанный на канале звук, где каждый канал передачи ассоциирован с позицией громкоговорителя; звук, который переносится посредством аудиообъектов, которые могут быть позиционированы в трех измерениях независимо от позиций громкоговорителя; и основанный на сцене (или Ambisonics, Амбисоник), где аудиосцена представляется посредством набора сигналов коэффициентов, которые являются линейными весовыми коэффициентами пространственно ортогональных базисных функций, например, сферических гармоник. В противоположность основанному на канале представлению, основанное на сцене представление является независимым от конкретной компоновки громкоговорителей и может быть воспроизведено при любых компоновках громкоговорителей за счет дополнительного процесса рендеринга в декодере.
Для каждого из этих форматов специальные схемы кодирования были разработаны для эффективного хранения или передачи при низких скоростях передачи битов аудиосигналов. Например, MPEG surround (объемное звучание MPEG) является схемой параметрического кодирования для основанного на канале объемного звука, тогда как Пространственное Кодирование Аудиообъектов (SAOC) MPEG является способом параметрического кодирования, предназначенным для основанного на объекте аудио. Методика параметрического кодирования для Ambisonics высокого порядка также была предоставлена в недавнем стандарте MPEG-H фаза 2.
В данном контексте там, где требуется поддержка всех трех представлений аудиосцены - основанного на канале, основанного на объекте и основанного на сцене аудио - существует потребность в разработке универсальной схемы, обеспечивающей эффективное параметрическое кодирование всех трех 3D аудиопредставлений. Более того, существует потребность в способности кодирования, передачи и воспроизведения комплексных аудиосцен, составленных их смеси разных аудиопредставлений.
Методика Направленного Аудиокодирования (DirAC) [1] является эффективным подходом для анализа и воспроизведения пространственного звука. DirAC использует перцептивно-мотивированное представление звукового поля, основанное на направлении поступления (DOA) и диффузности, которые измеряются для каждой полосы частот. Оно построено на допущении того, что в один момент времени и в одной критической полосе пространственное разрешение слуховой системы ограничивается декодированием одной метки (cue) для направления, а другой для интерауральной когерентности. Пространственный звук затем представляется в частотной области путем плавного микширования двух потоков: ненаправленного диффузного потока и направленного не-диффузного потока.
DirAC было изначально предназначено для записываемого B-формата, но также может служить в качестве общего формата для микширования разных аудиоформатов. DirAC уже был расширен для обработки обычного формата объемного звука 5.1 в [3]. Также было предложено слияние нескольких потоков DirAC в [4]. Более того, DirAC также было расширено, чтобы поддерживать микрофонные вводы, отличные от B-формата [6].
Однако, отсутствует универсальная концепция, чтобы сделать DirAC универсальным представлением аудиосцен в 3D, которая также способна поддерживать понятие аудиообъектов.
Несколько соображений было сделано ранее в отношении оперирования аудиообъектами в DirAC. DirAC использовался в [5] в качестве акустического внешнего интерфейса для Пространственного Аудиокодера, SAOC, в качестве слепого разделения источников для извлечения нескольких говорящих из смеси источников. Однако, не предполагалось использовать само DirAC в качестве схемы пространственного аудиокодирования и для обработки непосредственно аудиообъектов вместе с их метаданными и для потенциального объединения их вместе и с другими аудиопредставлениями.
Цель настоящего изобретения состоит в предоставлении улучшенной концепции оперирования и обработки аудиосцен и описаний аудиосцен.
Данная цель достигается посредством устройства для формирования описания объединенной аудиосцены по пункту 1, способа формирования описания объединенной аудиосцены по пункту 14 или связанной компьютерной программы по пункту 15.
Кроме того, данная цель достигается посредством устройства для выполнения синтеза множества аудиосцен по пункту 16, способа выполнения синтеза множества аудиосцен по пункту 20 или связанной компьютерной программы по пункту 21.
Данная цель, кроме того, достигается посредством преобразователя аудиоданных по пункту 22, способа выполнения преобразования аудиоданных по пункту 28 или связанной компьютерной программы по пункту 29.
Кроме того, данная цель достигается посредством кодера аудиосцены по пункту 30, способа кодирования аудиосцены по пункту 34 или связанной компьютерной программы по пункту 35.
Кроме того, данная цель достигается посредством устройства для выполнения синтеза аудиоданных по пункту 36, способа выполнения синтеза аудиоданных по пункту 40 или связанной компьютерной программы по пункту 41.
Варианты осуществления изобретения относятся к универсальной схеме параметрического кодирования для 3D аудиосцены, построенной вокруг концепции Направленного Аудиокодирования (DirAC), перцептивно-мотивированной методики для пространственной обработки аудио. Исходно DirAC было разработано для анализа записи B-формата для аудиосцены. Настоящее изобретение направлено на расширение его возможностей для эффективной обработки любых пространственных аудиоформатов, таких как основанное на канале аудио, Ambisonics, аудиообъекты или их микширование.
Воспроизведение DirAC может быть легко сформировано для произвольных схем размещения громкоговорителей и наушников. Настоящее изобретение также расширяет данную возможность для вывода дополнительного Ambisonics, аудиообъектов или смеси форматов. Важнее то, что изобретение обеспечивает для пользователя возможность манипуляции аудиообъектами и достижения, например, улучшения диалога на конце декодера.
Контекст: Обзор системы Пространственного Аудиокодера DirAC
В нижеследующем представляется обзор новой системы пространственного аудиокодирования, основанной на DirAC, которая разработана для Голосовых и Аудио Услуг с Эффектом Присутствия (IVAS). Цель такой системы состоит в обеспечении оперирования разными пространственными аудиоформатами, представляющими аудиосцену, и кодирования их при низких скоростях передачи битов, и воспроизведения исходной аудиосцены после передачи как можно точнее.
Система может осуществлять принятие в качестве ввода разных представлений аудиосцен. Входная аудиосцена может быть захвачена посредством многоканальных сигналов, предназначенных для воспроизведения в разных позициях громкоговорителя, слуховых объектов наряду с метаданными, описывающими позиции объектов по времени, или формата Ambisonics (Амбисоник) первого порядка или более высокого порядка, представляющего звуковое поле в опорной позиции или позиции слушателя.
Предпочтительно система основана на Улучшенных Голосовых Услугах (EVS) 3GPP, поскольку ожидается что решение будет работать с низким временем ожидания для обеспечения разговорных услуг в мобильных сетях.
Фиг. 9 является стороной кодера, основанного на DirAC пространственного аудиокодирования, поддерживающего разные аудиоформаты. Как показано на Фиг. 9 кодер (кодер IVAS) выполнен с возможностью поддержки разных аудиоформатов, которые представляются системе отдельно или в одно и то же время. Аудиосигналы могут быть акустическими по природе, захваченными микрофонами, или электрическими по природе, которые, как предполагается, должны быть переданы громкоговорителям. Поддерживаемыми аудиоформатами могут быть многоканальный сигнал, компоненты Ambisonics первого порядка и более высокого порядка и аудиообъекты. Комплексная аудиосцена также может быть описаны путем объединения разных форматов ввода. Все аудиоформаты затем передаются анализатору 180 DirAC, который извлекает параметрическое представление полной аудиосцены. Направление поступления и диффузность, измеренные для каждой частотно-временной единицы, формируют параметры. За анализатором DirAC следует кодер 190 пространственных метаданных, который квантует и кодирует параметры DirAC, чтобы получить параметрическое представление с низкой скорость передачи битов.
Наряду с параметрами, сигнал понижающего микширования (down-mix), полученный 160 из разных источников или входных аудиосигналов, кодируется для передачи обычным базовым аудиокодером 170. В данном случае основанный на EVS аудиокодер используется для кодирования сигнала понижающего микширования. Сигнал понижающего микширования состоит из разных каналов, именуемых транспортными каналами: сигнал может быть, например, четырьмя сигналами коэффициентов, составляющими сигнал B-формата, стереопарой или монофоническим понижающим микшированием в зависимости от целевой скорости передачи битов. Кодированные пространственные параметры и кодированный аудио битовый поток мультиплексируются до того, как передаются через канал связи.
Фиг. 10 является декодером основанного на DirAC пространственного аудиокодирования, доставляющим разные аудиоформаты. В декодере, показанном на Фиг. 10, транспортные каналы декодируются посредством базового декодера 1020, тогда как метаданные DirAC сначала декодируются 1060 до их пересылки с декодированными транспортными каналами в блоке 220, 240 синтеза DirAC. На данной стадии (1040) могут быть рассмотрены разные опции. Может быть запрошено воспроизведение аудиосцены непосредственно на любых конфигурациях громкоговорителей или наушников, как в целом возможно в обычной системе DirAC (MC на Фиг. 10). В дополнение также может быть запрошено осуществление рендеринга сцены в формате Ambisonics для дальнейших манипуляций, таких как вращение, отражение или перемещение сцены (FAO/HAO на Фиг. 10). В заключение, декодер может доставлять отдельные объекты так, как они были представлены на стороне кодера (Объекты на Фиг. 10).
Аудиообъекты также могут быть восстановлены, но для слушателя более интересно отрегулировать микширование после рендеринга путем манипулирования объектами. Типичными манипуляциями объектом являются регулировка уровня, уравнивание или определение пространственного местоположения объекта. Улучшение диалога на основе объектов становится, например, возможностью, которая предоставляется данным признаком интерактивности. В заключение можно выводить исходные форматы так, как они были представлены на входе кодера. В данном случае это может быть микшированием аудиоканалов и объектов или Ambisonics и объектов. Для достижения раздельной передачи множества каналов и компонентов Ambisonics может быть использовано несколько экземпляров описанной системы.
Настоящее изобретение обладает преимуществом в том, что, в частности, в соответствии с первым аспектом создается инфраструктура для того, чтобы объединять разные описания сцен в объединенную аудиосцену путем общего формата, который позволяет объединять разные описания аудиосцен.
Этот общий формат может, например, быть B-форматом или может быть форматом представления сигналов давления/скорости, или может, предпочтительно, также быть форматом представления параметров DirAC.
Данный формат является компактным форматом, который дополнительно обеспечивает значительный объем взаимодействия с пользователем с одной стороны и который с другой стороны пригоден в отношении требуемой скорости передачи битов для представления аудиосигнала.
В соответствии с дополнительным аспектом настоящего изобретения синтез множества аудиосцен может преимущественно выполняться путем объединения двух или более разных описаний DirAC. Оба эти разные описания DirAC могут быть обработаны путем объединения сцен в области параметров или, в качестве альтернативы, путем раздельного рендеринга каждой аудиосцены и затем путем объединения аудиосцен после рендеринга из отдельных описаний DirAC в спектральной области, или в качестве альтернативы уже во временной области.
Даная процедура обеспечивает очень эффективную и тем не менее с высоким качеством обработку аудиосцен, которые должны быть объединены в единое представление сцены и, в частности, в единый аудиосигнал во временной области.
Дополнительный аспект изобретения обладает преимуществом в том, что, в частности, получаются полезные аудиоданные, преобразованные для преобразования метаданных объекта в метаданные DirAC, где данный преобразователь аудиоданных может быть использован в инфраструктуре первого, второго или третьего аспекта, или также может быть применен независимо друг от друга. Преобразователь аудиоданных обеспечивает эффективное преобразование данных аудиообъекта, например, сигнала формы волны для аудиообъекта, и соответствующих данных позиции, как правило, в отношении времени для представления определенной траектории аудиообъекта в рамках настройки воспроизведения, в очень полезное и компактное описание аудиосцены, и, в частности, формат описания аудиосцены DirAC. Несмотря на то, что типичное описание аудиообъекта с помощью сигнала формы волны аудиообъекта и метаданных позиции аудиообъекта относится к конкретной настройке воспроизведения или, обычно, относится к определенной системе координат воспроизведения, описание DirAC, в частности, полезно в том, что оно относится к позиции слушателя или микрофона и полностью свободно от любых ограничений в отношении компоновки громкоговорителей или настройки воспроизведения.
Таким образом описание DirAC, сформированное из сигналов метаданных аудиообъекта дополнительно обеспечивает очень полезное и компактное и с высоким качеством объединение аудиообъектов, отличное от других технологий объединения аудиообъектов, таких как пространственное кодирование аудиообъекта или амплитудное панорамирование объектов в настройке воспроизведения.
Кодер аудиосцены в соответствии с дополнительным аспектом настоящего изобретения, в частности, полезен при обеспечении объединенного представления аудиосцены с метаданными DirAC и дополнительно аудиообъекта с метаданными аудиообъекта.
В частности, в данной ситуации, чрезвычайно полезно и является преимуществом для обеспечения высокой интерактивности, чтобы формировалось объединенное описание метаданных, которое имеет метаданные DirAC с одной стороны и параллельно метаданные объекта, с другой стороны. Таким образом в данном аспекте метаданные объекта не объединяются с метаданными DirAC, а преобразуются в DirAC-подобные метаданные так, что метаданные объекта содержат направление или, дополнительно, расстояние и/или диффузность отдельного объекта вместе с сигналом объекта. Таким образом, сигнал объекта преобразуется в DirAC-подобное представление так, что обеспечивается и делается возможным очень гибкое оперирование представлением DirAC для первой аудиосцены и дополнительного объекта внутри данной первой аудиосцены. Таким образом, например, конкретные объекты могут быть обработаны очень выборочно благодаря тому факту, что их соответствующий транспортный канал с одной стороны и DirAC-подобные параметры с другой стороны по-прежнему доступны.
В соответствии с дополнительным аспектом изобретения устройство или способ выполнения синтеза аудиоданных в частности полезны в том, что обеспечивается блок манипулирования для манипулирования описанием DirAC одного или более аудиообъектов, описанием DirAC многоканального сигнала или описанием DirAC сигналов Ambisonics первого порядка или сигналов Ambisonics более высокого порядка. И описание DirAC после манипуляции затем синтезируется с использованием блока синтеза DirAC.
Данный аспект обладает конкретным преимуществом в том, что любые конкретные манипуляции в отношении любых аудиосигналов очень удобно и эффективно выполняются в области DirAC, т.е. посредством манипулирования либо транспортным каналом описания DirAC, либо посредством, в качестве альтернативы, манипулирования параметрическими данными описания DirAC. Данная модификация является по существу более эффективной и более практичной для выполнения в области DirAC в сравнении с манипуляцией в других областях. В частности, операции основанного на позиции взвешивания, как предпочтительные операции манипуляции, могут быть в частности выполнены в области DirAC. Таким образом в особом варианте осуществления преобразование соответствующего представления сигналов в области DirAC и затем выполнение манипуляции в рамках области DirAC является, в частности, полезным сценарием приложения для современной обработки и манипуляции аудиосценами.
Предпочтительные варианты осуществления далее обсуждаются в отношении их сопроводительных чертежей, на которых:
Фиг. 1a является структурной схемой предпочтительной реализации устройства или способа формирования описания объединенной аудиосцены в соответствии с первым аспектом изобретения;
Фиг. 1b является реализацией формирования объединенной аудиосцены, где общий формат является представлением давления/скорости;
Фиг. 1c является предпочтительной реализацией формирования объединенной аудиосцены, где параметры DirAC и описание DirAC являются общим форматом;
Фиг. 1d является предпочтительной реализацией объединителя на Фиг. 1c, иллюстрирующей две разные альтернативы для реализации объединителя параметров DirAC разных аудиосцен или описаний аудиосцен;
Фиг. 1e является предпочтительной реализацией формирования объединенной аудиосцены, где общим форматом является B-формат в качестве примера для представления Ambisonics;
Фиг. 1f является иллюстрацией аудиообъекта/преобразователя DirAC пригодного в контексте примера Фиг. 1c или 1d или пригодного в контексте третьего аспекта, относящегося к преобразователю метаданных;
Фиг. 1g является примерной иллюстрацией 5.1 многоканального сигнала в описании DirAC;
Фиг. 1h дополнительно иллюстрирует преобразование многоканального формата в формат DirAC в контексте стороны кодера и декодера;
Фиг. 2a иллюстрирует вариант осуществления устройства или способа выполнения синтеза множества аудиосцен в соответствии со вторым аспектом настоящего изобретения;
Фиг. 2b иллюстрирует предпочтительную реализацию блока синтеза DirAC на Фиг. 2a;
Фиг. 2c иллюстрирует дополнительную реализацию блока синтеза DirAC с объединением сигналов после рендеринга;
Фиг. 2d иллюстрирует реализацию выборочного блока манипулирования, либо соединенного до объединителя 221 сцен на Фиг. 2b, либо до объединителя 225 на Фиг. 2c;
Фиг. 3a является предпочтительной реализацией устройства или способа выполнения и преобразования аудиоданных в соответствии с третьим аспектом настоящего изобретения;
Фиг. 3b является предпочтительной реализацией преобразователя метаданных также проиллюстрированного на Фиг. 1f;
Фиг. 3c является блок-схемой для выполнения дополнительной реализации преобразования аудиоданных через область давления/скорости;
Фиг. 3d иллюстрирует блок-схему для выполнения объединения в рамках области DirAC;
Фиг. 3e иллюстрирует предпочтительную реализацию для объединения разных описаний DirAC, например, как проиллюстрировано на Фиг. 1d в отношении первого аспекта настоящего изобретения;
Фиг. 3f иллюстрирует преобразование данных позиции объекта в параметрическое представление DirAC;
Фиг. 4a иллюстрирует предпочтительную реализацию кодера аудиосцены в соответствии с четвертым аспектом настоящего изобретения для формирования объединенного описания метаданных, содержащего метаданные DirAC и метаданные объекта;
Фиг. 4b иллюстрирует предпочтительный вариант осуществления в отношении четвертого аспекта настоящего изобретения;
Фиг. 5a иллюстрирует предпочтительную реализацию устройства для выполнения синтеза аудиоданных или соответствующего способа в соответствии с пятым аспектом настоящего изобретения;
Фиг. 5b иллюстрирует предпочтительную реализацию блока синтеза DirAC на Фиг. 5a;
Фиг. 5c иллюстрирует дополнительную альтернативу процедуры блока манипулирования на Фиг. 5a;
Фиг. 5d иллюстрирует дополнительную процедуру для реализации блок манипулирования Фиг. 5a;
Фиг. 6 иллюстрирует преобразователь аудиосигнала для формирования из моносигнала и информации о направлении поступления, т.е. из примерного описания DirAC, где диффузность, например, установлена в ноль, представления B-формата, содержащего всенаправленный компонент и направленные компоненты в направлениях X, Y и Z;
Фиг. 7a иллюстрирует реализацию анализа DirAC сигнала микрофона B-формата;
Фиг. 7b иллюстрирует реализацию синтеза DirAC в соответствии с известной процедурой;
Фиг. 8 иллюстрирует блока-схему для иллюстрации дополнительных вариантов осуществления, в частности, для варианта осуществления на Фиг. 1a;
Фиг. 9 является стороной кодера основанного на DirAC пространственного аудиокодирования, поддерживающего разные аудиоформаты;
Фиг. 10 является декодером основанного на DirAC пространственного аудиокодирования, доставляющего разные аудиоформаты;
Фиг. 11 является обзором системы основанного на DirAC кодера/декодера, объединяющего разные форматы ввода в объединенный B-формат;
Фиг. 12 является обзором системы основанного на DirAC кодера/декодера, объединяющего в области давления/скорости;
Фиг. 13 является обзором системы основанного на DirAC кодера/декодера, объединяющего разные форматы ввода в области DirAC с возможностью манипуляции объектами на стороне декодера;
Фиг. 14 является обзором системы основанного на DirAC кодера/декодера, объединяющего разные форматы ввода на стороне декодера, посредством объединителя метаданных DirAC;
Фиг. 15 является обзором системы основанного на DirAC кодера/декодера, объединяющего разные форматы ввода на стороне декодера в синтезе DirAC; и
Фиг. 16a-f иллюстрируют несколько представлений пригодных аудиоформатов в контексте с первого по пятый аспект настоящего изобретения.
Фиг. 1a иллюстрирует предпочтительный вариант осуществления устройства для формирования описания объединенной аудиосцены. Устройство содержит интерфейс 100 ввода для приема первого описания первой сцены в первом формате и второго описания второй сцены во втором формате, при этом второй формат отличается от первого формата. Формат может быть любым форматом аудиосцены, таким как любой из форматов или описаний сцены, которые проиллюстрированы на Фиг. с 16a по 16f.
Фиг. 16a, например, иллюстрирует описание объекта, состоящее, как правило, из (кодированного) сигнала формы волны объекта 1, такого как моноканал, и соответствующих метаданных, которые относятся к позиции объекта 1, где эта информация, как правило, задается для каждого временного кадра или группы временных кадров, и которая кодируется в сигнале формы волны объекта 1. Может быть включено соответствующее представление для второго или дальнейшего объекта, как проиллюстрировано на Фиг. 16a.
Другой альтернативой может быть описание объекта, состоящее из понижающего микширования объектов, которое является моносигналом, стереосигналом с двумя каналами или сигналом с тремя или более каналами, и связанных метаданных объекта, таких как энергия объекта, информация корреляции на каждый временной/частотный бин (элемент разрешения) и, необязательно, позиция объекта. Однако, позиции объекта также могут быть заданы на стороне декодера в качестве типичной информации рендеринга и, вследствие этого, могут быть модифицированы пользователем. Формат на Фиг. 16b может, например, быть реализован в качестве хорошо известного формата SAOC (пространственное кодирование аудиообъектов).
Другое описание сцены иллюстрируется на Фиг. 16c в качестве многоканального описания с кодированным и не кодированным представлением первого канала, второго канала, третьего канала, четвертого канала или пятого канала, где первый канал может быть левым каналом L, второй канал может быть правым каналом R, третий канал может быть центральным каналом C, четвертый канал может быть левым каналом LS объемного звучания и пятый канал может быть правым каналом RS объемного звучания. Конечно, многоканальный сигнал может иметь меньшее или большее количество каналов, как например, только два канала применительно к стереоканалу или шесть каналов применительно к 5.1 формату, или восемь каналов применительно к 7.1 формату и т.д.
Более эффективное представление многоканального сигнала иллюстрируется на Фиг. 16, где понижающее микширование каналов, такое как монофоническое понижающее микширование или стереофоническое понижающее микширование или понижающее микширование с более чем двумя каналами ассоциировано с параметрической добавочной информацией, такой как метаданные канала для, как правило, каждого временного и/или частотного бина. Такое параметрическое представление может, например, быть реализовано в соответствии со стандартом объемного звучания MPEG.
Другим представлением аудиосцены может, например, быть B-формат, состоящий из всенаправленного сигнала W, и направленных компонентов X, Y, Z, как показано на Фиг. 16e. Это будет первым порядком или сигналом FoA. Сигнал Ambisonics более высокого порядка, т.е. сигнал HoA может иметь дополнительные компоненты, как известно в соответствующей области техники.
Представление на Фиг. 16e является, в противоположность представлениям на Фиг. 16c и Фиг. 16d, представлением, которое не зависит от определенной компоновки громкоговорителей, но описывает звуковое поле, как воспринимаемое в определенной позиции (микрофона или слушателя).
Другим таким описанием звукового поля является формат DirAC, как, например, проиллюстрировано на Фиг. 16f. Формат DirAC, как правило, содержит сигнал понижающего микширования DirAC, который является моно или стерео или любым сигналом понижающего микширования или транспортным сигналом и соответствующей параметрической добавочной информацией. Параметрическая добавочная информация является, например, направлением информации поступления на каждый временной/частотный бин и, необязательно, информацией диффузности на каждый временной/частотный бин.
Ввод в интерфейс 100 ввода на Фиг. 1a может быть, например, в любом из этих форматов, проиллюстрированных в отношении фигур с Фиг. 16a по Фиг. 16f. Интерфейс 100 ввода переадресовывает соответствующие описания формата преобразователю 120 форматов. Преобразователь 120 форматов выполнен с возможностью преобразования первого описания в общий формат и преобразования второго описания в тот же самый общий формат, когда второй формат отличается от общего формата. Однако, когда второй формат уже присутствует в общем формате, тогда преобразователь форматов преобразует только первое описание в общий формат, поскольку первое описание присутствует в формате отличном от общего формата.
Таким образом на выходе преобразователя форматов или, в общем, на входе объединителя форматов присутствует представление первой сцены в общем формате и представление второй сцены в том же самом общем формате. Благодаря тому факту, что оба описания теперь включены в одном и том же общем формате, объединитель форматов теперь может объединить первое описание и второе описание, чтобы получить объединенную аудиосцену.
В соответствии с вариантом осуществления, проиллюстрированным на Фиг. 1e, преобразователь 120 форматов выполнен с возможностью преобразования первого описания в первый сигнал B-формата, как, например, проиллюстрировано в блоке 127 на Фиг. 1e, и вычисления представления B-формата для второго описания, как проиллюстрировано в блоке 128 на Фиг. 1e.
Тогда объединитель 140 форматов реализован в качестве сумматора компонентного сигнала, проиллюстрированного в блоке 146a применительно к сумматору W компонентов, проиллюстрированного в блоке 146b применительно к сумматору X компонентов, проиллюстрированного в блоке 146c применительно к сумматору Y компонентов и проиллюстрированного в блоке 146d применительно к сумматору Z компонентов.
Таким образом, в варианте осуществления на Фиг. 1e объединенная аудиосцена может быть представлением B-формата и сигналы B-формата тогда могут работать в качестве транспортных каналов и тогда могут быть кодированы через кодер 170 транспортного канала на Фиг. 1a. Таким образом объединенная аудиосцена в отношении сигнала B-формата может быть непосредственно введена в кодер 170 на Фиг. 1a, чтобы сформировать кодированный сигнал B-формата, который затем может быть выведен через интерфейс 200 вывода. В данном случае не требуются любые пространственные метаданные, но за счет кодированного представления четырех аудиосигналов, т.е. всенаправленного компонента W и направленных компонентов X, Y, Z.
В качестве альтернативы общий формат является форматом давления/скорости, как проиллюстрировано на Фиг. 1b. С этой целью преобразователь 120 форматов содержит анализатор 121 времени/частоты для первой аудиосцены и анализатор 122 времени/частоты для второй аудиосцены или, в общем, аудиосцены с номером N, где N является целым числом.
Тогда, для каждого пространственного представления, сформированного спектральными преобразователями 121, 122, вычисляются давление и скорость, как проиллюстрировано в блоках 123 и 124, и объединитель форматов тогда выполнен с возможностью вычисления суммированного сигнала давления с одной стороны путем суммирования соответствующих сигналов давления, сформированных блоками 123, 124. И, дополнительно, отдельный сигнал скорости также вычисляется каждым из блоков 123, 124 и сигналы скорости могут быть просуммированы вместе для того, чтобы получить объединенный сигнал давления/скорости.
В зависимости от реализации процедуры в блоках 142, 143 не обязательно должны быть выполнены. Наоборот, объединенный или «суммированный» сигнал давления, или объединенный или «суммированный» сигнал скорости может быть кодирован по аналогии с проиллюстрированным на Фиг. 1e сигналом B-формата и данное представление давления/скорости может быть кодировано еще раз через тот кодер 170 на Фиг. 1a и затем может быть передано декодеру без какой-либо дополнительной добавочной информации в отношении пространственных параметров, поскольку объединенное представление давления/скорости уже включает в себя необходимую пространственную информацию для получения итогового звукового поля высокого качестве после рендеринга на стороне декодера.
Однако, в варианте осуществления предпочтительным является выполнение анализа DirAC для представления давления/скорости, сформированного блоком 141. С этой целью вычисляется вектор 142 интенсивностей и, в блоке 143, вычисляются параметры DirAC из вектора интенсивности и, затем, объединенные параметры DirAC получаются в качестве параметрического представления объединенной аудиосцены. С этой целью анализатор 180 DirAC на Фиг. 1 реализуется для выполнения функциональной возможности блока 142 и 143 на Фиг. 1b. И, предпочтительно, данные DirAC дополнительно подвергаются операции кодирования метаданных в кодере 190 метаданных. Кодер 190 метаданных, как правило, содержит квантователь и энтропийный кодер для того, чтобы уменьшать скорость передачи битов, которая требуется для передачи параметров DirAC.
Вместе с кодированными параметрами DirAC также передается кодированный транспортный канал. Кодированный транспортный канал формируется генератором 160 транспортного канала на Фиг. 1a, который может, например, быть реализован как проиллюстрировано на Фиг. 1b посредством первого генератора 161 понижающего микширования для формирования понижающего микширования из первой аудиосцены и N-ого генератора 162 понижающего микширования для формирования понижающего микширования из N-ой аудиосцены.
Затем каналы понижающего микширования объединяются в объединителе 163, как правило, путем непосредственного сложения и тогда объединенный сигнал понижающего микширования является транспортным каналом, который кодируется кодером 170 на Фиг. 1a. Объединенное понижающее микширование может, например, быть стереопарой, т.е. первым каналом и вторым каналом стереопредставления, или может быть моноканалом, т.е. сигналом одного канала.
В соответствии с дополнительным вариантом осуществления, проиллюстрированным на Фиг. 1c, преобразование форматов в преобразователе 120 форматов выполняется для непосредственного преобразования каждого из аудиоформатов ввода в формат DirAC, в качестве общего формата. С этой целью преобразователь 120 форматов снова образует частотно-временное преобразование или анализ времени/частоты в соответствующем блоке 121 для первой сцены и блоке 122 для второй дополнительной сцены. Затем параметры DirAC извлекаются из пространственных представлений соответствующих аудиосцен, проиллюстрированных в блоках 125 и 126. Результатом процедуры в блоках 125 и 126 являются параметры DirAC, составляющие информацию об энергии на каждый временной/частотный мозаичный фрагмент (tile), информацию eDOA о направлении поступления на каждый временной/частотный мозаичный фрагмент и информацию ψ о диффузности для каждого временного/частотного мозаичного фрагмента. Тогда объединитель 140 форматов выполнен с возможностью выполнения объединения непосредственно в области параметров DirAC для того, чтобы формировать объединенные параметры ψ DirAC для диффузности и eDOA для направления поступления. В частности, информация E1 и EN об энергии требуется объединителю 144, но не является частью итогового объединенного параметрического представления, формируемого объединителем 140 форматов.
Таким образом, сравнение Фиг. 1c с Фиг. 1e показывает, что когда объединитель 140 форматов уже выполняет объединение в области параметров DirAC, анализатор 180 DirAC не требуется и не реализован. Вместо этого вывод объединителя 140 форматов, являясь выводом блока 144 на Фиг. 1c, непосредственно переадресовывается кодеру 190 метаданных на Фиг. 1a и из него в интерфейс 200 вывода так, что кодированные пространственные метаданные и, в частности, кодированные объединенные параметры DirAC, включаются в кодированный выходной сигнал, который выводится интерфейсом 200 вывода.
Кроме того, генератор 160 транспортного канала на Фиг. 1a может принимать, уже от интерфейса 100 ввода, представление сигналов формы волны для первой сцены и представление сигналов формы волны для второй сцены. Эти представления вводятся в блоки 161, 162 генератора понижающего микширования и результаты складываются в блоке 163, чтобы получить объединенное понижающее микширование, как проиллюстрировано в отношении Фиг. 1b.
Фиг. 1d иллюстрирует аналогичное представление в отношении Фиг. 1c. Однако, на Фиг. 1d форма волны аудиообъекта вводится в преобразователь 121 представления по времени/частоте для аудиообъекта 1 и 122 для аудиообъекта N. Дополнительно метаданные вводятся вместе со спектральным представлением в калькулятор 125, 126 параметров DirAC, как проиллюстрировано также на Фиг. 1c.
Однако, Фиг. 1d обеспечивает более подробное представление в отношении того, каким образом работают предпочтительные реализации объединителя 144. В первой альтернативе объединитель выполняет взвешенное по энергии сложение отдельных диффузностей для каждого отдельного объекта или сцены и выполняет соответствующее взвешенное по энергии вычисление объединенного DoA для каждого временного/частотного мозаичного фрагмента, как проиллюстрировано в нижнем уравнении альтернативы 1.
Однако, также могут быть выполнены другие реализации. В частности, другим очень эффективным вычислением является установка диффузностей в ноль для объединенных метаданных DirAC и выбор в качестве направления поступления для каждого временного/частотного мозаичного фрагмента направления поступления, вычисленного из определенного аудиообъекта, который обладает наивысшей энергией в рамках конкретного временного/частотного мозаичного фрагмента. Предпочтительно, процедура на Фиг. 1d более уместна, когда ввод в интерфейс ввода представлен отдельными аудиообъектами, соответственно представленными формой волны или моносигналом для каждого объекта и соответствующими метаданными, такими как информация о позиции, проиллюстрированными в отношении Фиг. 16a или 16b.
Однако, в варианте осуществления на Фиг. 1c аудиосцена может быть любой другой из представлений, проиллюстрированных на Фиг. 16c, 16d, 16e или 16f. Тогда, метаданные могут присутствовать или нет, т.е. метаданные на Фиг. 1c являются необязательными. Однако, тогда обычно полезная диффузность вычисляется для определенного описания сцены, такого как описание сцены Ambisonics на Фиг. 16e, и тогда первая альтернатива образа, посредством которого объединяются параметры, является предпочтительной над второй альтернативой Фиг. 1d. Вследствие этого, в соответствии с изобретением, преобразователь 120 форматов выполнен с возможностью преобразования формата Ambisonics высокого порядка или Ambisonics первого порядка в B-формат, при этом формат Ambisonics высокого порядка усекается перед преобразованием в B-формат.
В дополнительном варианте осуществления преобразователь форматов выполнен с возможностью проецирования объекта или канала на сферические гармоники в опорной позиции для получения спроецированных сигналов, и при этом объединитель форматов выполнен с возможностью объединения сигналов проекции для получения коэффициентов B-формата, при этом объект или канал располагается в пространстве в указанной позиции и имеет необязательное отдельное расстояние от опорной позиции. Данная процедура, в частности, хорошо работает для преобразования сигналов объекта или многоканальных сигналов в сигналы Ambisonics первого порядка или высокого порядка.
В дополнительной альтернативе преобразователь 120 форматов выполнен с возможностью выполнения анализа DirAC, содержащего частотно-временной анализ компонентов B-формата и определение векторов давления и скорости, и где объединитель форматов тогда выполнен с возможностью объединения разных векторов давления/скорости, и где объединитель форматов дополнительно содержит анализатор 180 DirAC для извлечения метаданных DirAC из объединенных данных давления/скорости.
В дополнительном альтернативном варианте осуществления преобразователь форматов выполнен с возможностью извлечения параметров DirAC непосредственно из метаданных объекта формата аудиообъекта в качестве первого или второго формата, где вектор давления для представления DirAC является сигналом формы волны объекта и направление извлекается из позиции объекта в пространстве или диффузность непосредственно задается в метаданных объекта или устанавливается в значение по умолчанию, такое как нулевое значение.
В дополнительном варианте осуществления преобразователь форматов выполнен с возможностью преобразования параметров DirAC, извлеченных из формата данных объекта, в данные давления/скорости, и объединитель форматов выполнен с возможностью объединения данных давления/скорости с данными давления/скорости, извлеченными из другого описания одного или более других аудиообъектов.
Однако, в предпочтительной реализации, проиллюстрированной в отношении Фиг. 1c и 1d, объединитель форматов выполнен с возможностью непосредственного объединения параметров DirAC, извлеченных преобразователем 120 форматов, так, что объединенная аудиосцена, сформированная блоком 140 на Фиг. 1a, уже является итоговым результатом, и анализатор 180 DirAC, проиллюстрированный на Фиг. 1a, не требуется, поскольку данные, которые выводятся объединителем 140 формата, уже находятся в формате DirAC.
В дополнительной реализации преобразователь 120 форматов уже содержит анализатор DirAC для формата ввода Ambisonics первого порядка или Ambisonics высокого порядка или формата многоканального сигнала. Кроме того, преобразователь формата содержит преобразователь метаданных для преобразования метаданных объекта в метаданные DirAC, и такой преобразователь метаданных является, например, проиллюстрированным на Фиг. 1f в блоке 150, который снова работает над анализом времени/частоты в блоке 121 и вычисляет энергию для каждой полосы на каждый временной кадр, как проиллюстрировано в блоке 147, направление поступления, как проиллюстрировано в блоке 148 на Фиг. 1f, и диффузность, как проиллюстрировано в блоке 149 на Фиг. 1f. И метаданные объединяются объединителем 144 для объединения отдельных потоков метаданных DirAC, предпочтительно путем взвешенного сложения, как проиллюстрировано в качестве примера одной из двух альтернатив варианта осуществления на Фиг. 1d.
Сигналы многоканального канала могут быть непосредственно преобразованы в B-формат. Полученный B-формат затем может быть обработан посредством обычного DirAC. Фиг. 1g иллюстрирует преобразование 127 в B-формат и последующую обработку 180 DirAC.
Ссылка [3] описывает способы выполнения преобразования из многоканального сигнала в B-формат. В принципе преобразование многоканальных аудиосигналов в B-формат является простым: виртуальные громкоговорители определяются как находящиеся в разных позициях схемы размещения громкоговорителей. Например, для схемы размещения 5.0 громкоговорители располагаются в горизонтальной плоскости при азимутальных углах +/-30 и +/-110 градусов. Виртуальный микрофон B-формата тогда определяется как находящийся в центре громкоговорителей, и выполняется виртуальная запись. Следовательно, канал W создается путем суммирования всех каналов громкоговорителей аудиофайла 5.0. Процесс для получения W и прочих коэффициентов B-формата тогда может быть обобщен:
где являются многоканальными сигналами, расположенными в пространстве в позициях громкоговорителей, определенных азимутальным углом и углом возвышения , каждого громкоговорителя, и являются весовыми коэффициентами как функции расстояния. Если расстояние недоступно или просто игнорируется, тогда =1. Тем не менее, эта простая методика ограничена, поскольку это необратимый процесс. Более того, поскольку громкоговорители обычно распределены неравномерно, у оценки, которая выполняется последующим анализом DirAC, также есть смещение в направлении самой высокой плотности громкоговорителей. Например, в схеме размещения 5.1 будет присутствовать смещение вперед, поскольку в ней больше громкоговорителей спереди, чем сзади.
Для решения этой проблемы дополнительная методика была предложена в [3] для обработки многоканального сигнала 5.1 с помощью DirAC. Итоговая схема кодирования тогда будет выглядеть так, как проиллюстрировано на Фиг. 1h, показывающая преобразователь 127 B-формата, анализатор 180 DirAC, как в общем описано в отношении элемента 180 на Фиг. 1, и прочие элементы 190, 1000, 160, 170, 1020 и/или 220, 240.
В дополнительном варианте осуществления интерфейс 200 вывода выполнен с возможностью добавления в объединенный формат отдельного описания объекта для аудиообъекта, где описание объекта содержит по меньшей мере одно из направления, расстояния и диффузности или любого другого атрибута объекта, где этот объект имеет одно направление по всем полосам частот и является либо статическим, либо движущимся медленнее порогового значения скорости.
Кроме того, данный признак более подробно разбирается в отношении четвертого аспекта настоящего изобретения, который обсуждается в отношении Фиг. 4a и 4b.
1-ая Альтернатива Кодирования: Объединение и обработка разных аудиопредставлений посредством B-формата или эквивалентного представления.
Первая реализация предполагаемого кодера может быть достигнута путем преобразования всех форматов ввода в объединенный B-формат, как это изображено на Фиг. 11.
Фиг. 11: Обзор системы основанного на DirAC кодера/декодера, объединяющего разные форматы ввода в объединенный B-формат.
Поскольку DirAC исходно разрабатывался для анализа сигнала B-формата, то система преобразует разные аудиоформаты в объединенный сигнал B-формата. Форматы сначала отдельно преобразуются 120 в сигнал B-формата до того, как объединяются вместе путем суммирования их компонентов W, X, Y, Z B-формата. Компоненты Ambisonics Первого Порядка (FOA) могут быть нормализованы и переупорядочены в B-формат. Предполагая, что FOA находится в формате CAN/N3D, четыре сигнала ввода B-формата получаются посредством:
Где обозначает компонент Ambisonics порядка и индекс , . Поскольку компоненты FAO полностью содержатся в формате Ambisonics более высокого порядка, то требуется лишь усечение формата HOA до преобразования в B-формат.
Поскольку объекты и каналы имеют определенные позиции в пространстве, можно спроецировать каждый отдельный объект и канал на сферические гармоники (SH) при центральной позиции такой, как позиция записи или опорная позиция. Сумма проекций обеспечивает объединение разных объектов и нескольких каналов в единый B-формат и затем может быть обработана путем анализа DirAC. Коэффициенты (W, X, Y, Z) B-формата тогда определяются по формулам:
где являются независимыми сигналами, расположенными в пространстве в позициях, определенных азимутальным углом и углом возвышения , и являются весовыми коэффициентами как функции расстояния. Если расстояние недоступно или просто игнорируется, тогда =1. Например, независимые сигналы могут соответствовать аудиообъектам, которые располагаются в заданной позиции, или сигналу, ассоциированному с каналом громкоговорителя в указанной позиции.
В приложениях, в которых требуется представление Ambisonics порядков выше первого порядка, формирование коэффициентов Ambisonics, представленное выше для первого порядка, расширяется путем дополнительного рассмотрения компонентов более высокого порядка.
Генератор 160 транспортного канала может непосредственно принимать многоканальный сигнал, сигналы формы волны объектов и компоненты Ambisonics более высокого порядка. Генератор транспортного канала будет уменьшать количество входных каналов для передачи путем их понижающего микширования. Каналы могут быть микшированы вместе как в объемном звучании MPEG в моно- или стереофоническое понижающее микширование, тогда как сигналы формы волны объекта могут быть просуммированы пассивным образом в монофоническое понижающее микширование. В дополнение из Ambisonics более высокого порядка можно извлечь представление более низкого прядка или создать путем формирования диаграммы направленности стереофонического понижающего микширования или любое другое секционирование пространства. Если понижающего микширования, полученные из разных форматов ввода, совместимы друг с другом, то они могут быть объединены вместе путем простой операции сложения.
В качестве альтернативы, генератор 160 транспортного канала может принимать тот же самый объединенный B-формат как тот, что переносится к анализу DirAC. В данном случае подмножество компонентов или результат формирования диаграммы направленности (или другой обработки) формирует транспортные каналы, которые должны быть кодированы и переданы декодеру. В предложенной системе требуется обычное аудиокодирование, которое может быть основано на, но не ограничивается, стандартном кодеке 3GPP EVC. 3GPP EVC является предпочтительным выбором кодека из-за его способности кодировать либо речь, либо музыкальные сигнала при низких скоростях передачи битов с высоким качеством, при этом требуя относительно низкой задержки, обеспечивающей связь в режиме реального времени.
При очень низкой скорости передачи битов количество каналов для передачи должно быть ограничено до одного и, вследствие этого, передается только всенаправленный сигнал W микрофона B-формата. Если скорость передачи битов позволяет, то количество транспортных каналов может быть увеличено путем выбора подмножества компонентов B-формата. В качестве альтернативы сигналы B-формата могут быть объединены в формирователе 160 диаграммы направленности, направленными в особые участки пространства. В качестве примера могут быть разработаны два кардиоида, чтобы указывать в противоположных направлениях, например, влево и вправо от пространственной сцены:
Эти два стереоканала L и R затем могут быть эффективно кодированы путем кодирования в виде сведенного стерео. Два сигнала затем будут надлежащим образом использованы Синтезом DirAC на стороне декодера для рендеринга звуковой сцены. Можно предположить другое формирование диаграммы направленности, например, виртуальный кардиоидный микрофон может быть направлен в любых направлениях заданного азимута и возвышения :
Можно предположить дополнительные пути формирования каналов передачи, которые несут больше пространственной информации, чем будет нести один монофонический канал передачи. В качестве альтернативы непосредственно могут быть переданы 4 коэффициента B-формата. В этом случае метаданные DirAC могут быть извлечены непосредственно на стороне декодера без необходимости передачи дополнительной информации для пространственных метаданных.
Фиг. 12 показывает другой альтернативный способ объединения разных форматов ввода. Фиг. 12 также является обзором системы основанного на DirAC кодера/декодера, объединяющего в области давления/скорости.
Как многоканальный сигнал, так и компоненты Ambisonics вводятся в анализ 123, 124 DirAC. Для каждого формата ввода выполняется анализ DirAC, состоящий из частотно-временного анализа компонентов B-формата и определения векторов давления и скорости:
где является индексом ввода, и n индексами времени и частоты частотно-временного мозаичного фрагмента, и представляет собой декартовы единичные векторы.
и необходимы для вычисления параметров DirAC, а именно DOA и диффузности. Объединитель метаданных DirAC может использовать те источники, которые при воспроизведении вместе, приводят к линейному объединению их давлений и скоростей частиц, которые будут измерены, когда они воспроизводятся отдельно. Объединенные количества затем получаются по формулам:
Объединенные параметры DirAC, вычисляются 143 посредством вычисления объединенного вектора интенсивностей:
,
где обозначает комплексное сопряжение. Диффузность объединенного звукового поля определяется по формуле:
где обозначает временный оператор усреднения, с является скоростью звука и является энергией звукового поля, которая определяется по формуле:
Направление поступления (DOA) выражается посредством единичного вектора , который определяется по формуле:
Если вводится аудиообъект, то параметры DirAC могут быть непосредственного извлечены из метаданных объекта, тогда как вектор является сигналом (формы волны) сущности объекта. Точнее, направление непосредственно извлекается из позиции объекта в пространстве, тогда как диффузность непосредственно задается в метаданных объекта или, если недоступна, может быть установлена по умолчанию в ноль. Из параметров DirAC векторы давления и скорости непосредственно определяются по формулам:
Объединение объектов или объединение объектов с разными форматами ввода затем получается путем суммирования векторов давления и скорости, как объяснялось ранее.
Вкратце, объединение разных вкладов (Ambisonics, каналов, объектов) выполняется в области давления/скорости и результат затем впоследствии преобразуется в параметры направления/диффузности DirAC. Работа в области давления/скорости теоретически является эквивалентом работы в B-формате. Основное преимущество данной альтернативы в сравнении с предыдущей состоит в возможности оптимизации анализа DirAC в соответствии с каждым форматом ввода, как это предложено в [3] для формата объемного звучания 5.1.
Основной недостаток такого слияния в объединенный B-формат или область давления/скорости, состоит в том, что преобразование, происходящее на переднем крае цепочки обработки уже является узким местом для всей системы кодирования. Действительно, преобразование аудиопредставлений из Ambisonics более высокого порядка, объектов или каналов в сигнал B-формата (первого порядка) уже порождает большие потери пространственного разрешения, которые не могут быть восстановлены позже.
2-ая Альтернатива Кодирования: объединение и обработка в области DirAC
Чтобы обойти ограничения преобразования всех форматов ввода в объединенный сигнал B-формата настоящая альтернатива предлагает извлекать параметры DirAC непосредственного из исходного формата и затем объединять их позже в области параметров DirAC. Общий обзор такой системы приведен на Фиг. 13. Фиг. 13 является обзором системы основанного на DirAC кодера/декодера, объединяющего разные форматы ввода в области DirAC с возможностью манипулирования объектами на стороне декодера.
В нижеследующем мы также может рассматривать отдельные каналы многоканального сигнала в качестве ввода аудиообъекта для системы кодирования. Тогда метаданные объекта являются статическими по времени и представляют собой позицию громкоговорителя и расстояние, которое относится к позиции слушателя.
Цель данного альтернативного решения состоит в том, чтобы избежать систематического объединения разных форматов ввода в объединенный B-формат или эквивалентное представление. Цель состоит в вычислении параметров DirAC до их объединения. Тогда способ избегает любые смещения в направлении и оценки диффузности из-за объединения. Более того, он может оптимально использовать характеристики каждого аудиопредставления во время анализа DirAC или при определении параметров DirAC.
Объединение метаданных DirAC происходит после определения 125, 126, 126a для каждого формата ввода параметров DirAC, диффузности, направления, как, впрочем, и давления, которые содержатся в переданных транспортных каналах. Анализ DirAC может оценивать параметры из промежуточного B-формата, полученного путем преобразования формата ввода, как объяснено ранее. В качестве альтернативы, параметры DirAC могут быть преимущественно оценены без прохождения через B-формат, а непосредственно из формата ввода, что может дополнительно улучшить точность оценки. Например, в [7] предлагается оценивать диффузность непосредственно из Ambisonics более высокого порядка. В случае аудиообъектов, простой преобразователь 150 метаданных на Фиг. 15 может извлекать из метаданных объекта направление и диффузность для каждого объекта.
Объединение 144 нескольких потоков метаданных DirAC в один объединенный поток метаданных DirAC может быть достигнуто, как предложено в [4]. Для некоторого контента много лучше непосредственно оценивать параметры DirAC из исходного формата, а не преобразовывать его сначала в объединенный B-формат перед выполнением анализа DirAC. Действительно, параметры, направление и диффузность могут быть смещены при переходе в B-формат [3] или при объединении разных ресурсов. Боле того, данная альтернатива обеспечивает
Другой более простой альтернативой может быть усреднение параметров разных источников путем взвешивания их в соответствии с их энергиями:
Для каждого объекта присутствует возможность по-прежнему отправить свое собственное направление и необязательно расстояние, диффузность или любые другие релевантные атрибуты объекта, как часть переданного битового потока от кодера декодеру (см., например, Фиг. 4a, 4b). Эта дополнительная добавочная информация будет расширять объединенные метаданные DirAC и будет позволять декодеру восстанавливать и/или манипулировать объектами отдельно. Поскольку объект имеет одно направление по всем полосам частот и может считаться либо статическим, либо медленно движущимся, то обновление дополнительной информации требуется менее часто, чем других параметров DirAC, и будет порождать только очень низкую дополнительную скорость передачи битов.
На стороне декодера направленная фильтрация может быть выполнена в соответствии с [5] для манипулирования объектами. Направленная фильтрация основана на методике кратковременного спектрального ослабления. Она выполняется в спектральной области посредством нуль-фазовой функции усиления, которая зависит от направления объектов. Направление может содержаться в битовом потоке, если направления объектов были переданы в качестве добавочной информации. Иначе направление также может быть интерактивно задано пользователем.
3-я Альтернатива: объединение на стороне декодера
В качестве альтернативы объединение может быть выполнено на стороне декодера. Фиг. 14 является обзором системы основанного на DirAC кодера/декодера, объединяющего разные форматы ввода на стороне декодера посредством объединителя метаданных DirAC. На Фиг. 14 основанная на DirAC схема кодирования работает при более высоких скоростях передачи битов, чем ранее, но обеспечивает передачу отдельных метаданных DirAC. Разные потоки метаданных DirAC объединяются 144, как, например, предложено в [4], в декодере перед синтезом 220, 240 DirAC. Объединитель 144 метаданных DirAC также может получать позицию отдельного объекта для последующей манипуляции объектом в анализе DirAC.
Фиг. 15 является обзором системы основанного на DirAC кодера/декодера, объединяющего разные форматы ввода на стороне декодера в синтезе DirAC. Если позволяет скорость передачи битов, то система может дополнительно быть улучшены как предложено на Фиг. 15 путем отправки для каждого компонента ввода (FOA/HOA, MC, Объекта) своего собственного сигнала понижающего микширования наряду с его ассоциированными метаданными DirAC. По-прежнему разные потоки DirAC совместно используют общий синтез 220, 240 DirAC в декодере, чтобы уменьшить сложность.
Фиг. 2a иллюстрирует концепцию для выполнения синтеза множества аудиосцен в соответствии с дополнительным вторым аспектом настоящего изобретения. Устройство, проиллюстрированное на Фиг. 2a, содержит интерфейс 100 ввода для приема первого описания DirAC первой сцены и для приема второго описания DirAC второй сцены и одного или более транспортных каналов.
Кроме того, блок 220 синтеза DirAC предусмотрен для синтеза множества аудиосцен в спектральной области, чтобы получать аудиосигнал в спектральной области, представляющий собой множество аудиосцен. Кроме того, предусмотрен спектрально-временной преобразователь 214, который преобразует аудиосигнал в спектральной области во временную область для того, чтобы выводить аудиосигнал во временной области, который может быть выведен динамиками, например. В данном случае блок синтеза DirAC выполнен с возможностью выполнения рендеринга выходного сигнала громкоговорителя. В качестве альтернативы, аудиосигнал может быть стереосигналом, который может быть выведен на наушники. Вновь в качестве альтернативы аудиосигнал, который выводится спектрально-временным преобразователем 214, может быть описанием звукового поля B-формата. Все эти сигналы, т.е. сигналы громкоговорителя для больше чем двух каналов, сигналы наушников или описания звукового поля являются сигналом во временной области для дальнейшей обработки, такой как вывод посредством динамиков или наушников, или для передачи или хранения в случае описаний звукового поля в качестве сигналов Ambisonics первого порядка или сигналов Ambisonics более высокого порядка.
Кроме того, устройство на Фиг. 2a дополнительно содержит интерфейс 260 пользователя для управления блоком 220 синтеза DirAC в спектральной области. Дополнительно, один или более транспортных каналов может быть предоставлено интерфейсу 100 ввода, которые должны быть использованы вместе с первым и вторым описаниями DirAC, которые являются в данном случае параметрическими описаниями, предоставляющими для каждого временного/частотного мозаичного фрагмента информацию о направлении поступления и, необязательно, дополнительно информацию о диффузности.
Как правило, два разных описания DirAC, которые вводятся в интерфейс 100 на Фиг. 2a, описывают две разные аудиосцены. В данном случае, блок 220 синтеза DirAC выполнен с возможностью выполнения объединения этих аудиосцен. Одна альтернатива объединению проиллюстрирована на Фиг. 2b. Здесь объединитель 221 сцен выполнен с возможностью объединения двух описаний DirAC в параметрической области, т.е. параметры объединяются, чтобы получить объединенные параметры направления поступления (DoA) и необязательно параметры диффузности на выходе блока 221. Эти данные затем вводятся в рендерер (блок рендеринга) 222 DirAC, который принимает дополнительно один или более транспортных каналов в очередности каналов для получения аудиосигнала 222 в спектральной области. Объединение параметрических данных DirAC предпочтительно выполняется как проиллюстрировано на Фиг. 1d и как описано в отношении данной фигуры и, в частности, в отношении первой альтернативы.
Если по меньшей мере одно из двух описаний, введенных в объединитель 221 сцен, включает в себя значения диффузности равные нулю или значения диффузности вообще отсутствуют, тогда дополнительно может быть также применена вторая альтернатива, как обсуждалось в контексте Фиг. 1d.
Другая альтернатива проиллюстрирована на Фиг. 2c. В данной процедуре осуществляется рендеринг отдельных описаний DirAC посредством первого рендерера 223 DirAC для первого описания и второго рендерера 224 DirAC для второго описания и на выходе блока 223 и 224 доступны первый и второй аудиосигналы в спектральной области, и эти первый и второй аудиосигналы в спектральной области объединяются внутри объединителя 225, чтобы получить на выходе объединителя 225 сигнал объединения в спектральной области.
В качестве примера первый рендерер 223 DirAC и второй рендерер 224 DirAC выполнены с возможностью формирования стереосигнала с левым каналом L и правым каналом R. Тогда объединитель 225 выполнен с возможностью объединения левого канала из блока 223 и левого канала из блока 224, чтобы получить объединенный левый канал. Дополнительно, правый канал из блока 223 складывается с правым каналом из блока 224, и результатом является объединенный правый канал, на выходе из блока 225.
Применительно к отдельным каналам многоканального сигнала выполняется аналогичная процедура, т.е. отдельные каналы отдельно складываются так, что всегда один и тот же канал из рендерера 223 DirAC складывается с соответствующим одним и тем же каналом другого рендерера DirAC и т.д. Точно такая же процедура также выполняется для, например, сигналов B-формата или Ambisonics более высокого порядка. Когда, например, первый рендерер 223 DirAC выводит сигналы W, X, Y, Z, а второй рендерер 224 DirAC выводит аналогичный формат, тогда объединитель объединяет два всенаправленных сигнала, чтобы получить объединенный всенаправленный сигнал W, и точно такая же процедура выполняется также для соответствующих компонентов для того, чтобы в итоге получить объединенный компонент X, Y и Z.
Кроме того, как уже было указано в отношении Фиг. 2a, интерфейс ввода выполнен с возможностью приема дополнительных метаданных аудиообъекта для аудиообъекта. Этот аудиообъект может быть уже включен в первое или второе описание DirAC или является отдельным от первого и второго описания DirAC. В данном случае блок 220 синтеза DirAC выполнен с возможностью выборочной манипуляции дополнительными метаданными аудиообъекта или данными объекта, которые относятся к этим дополнительным метаданным объекта, чтобы, например, выполнять направленную фильтрацию на основании дополнительных метаданных объекта или на основании заданной пользователем информации о направлении, полученной от интерфейса 260 пользователя. В качестве альтернативы или дополнительно и как проиллюстрировано на Фиг. 2d блок 220 синтеза DirAC выполнен с возможностью выполнения в спектральной области нуль-фазовой функции усиления, причем нуль-фазовая функция усиления зависит от направления аудиообъекта, при этом направление содержится в битовом потоке, если направления объектов передаются в качестве добавочной информации, или при этом направление принимается от интерфейса 260 пользователя. Дополнительные метаданные аудиообъекта, которые вводятся в интерфейс 100 в качестве необязательного признака на Фиг. 2a, отражают возможность по-прежнему отправлять для каждого отдельного объекта его собственное направление и необязательно расстояние, диффузность и любые другие релевантные атрибуты объекта, как часть передаваемого битового потока от кодера к декодеру. Таким образом дополнительные метаданные аудиообъекта могут относиться к объекту, уже включенному в первое описание DirAC или во второе описание DirAC, или дополнительному объекту, еще не включенному в первое описание DirAC и во второе описание DirAC.
Однако, предпочтительным является наличие дополнительных метаданных аудиообъекта уже в стиле DirAC, т.е. информацию о направлении поступления и необязательно информацию о диффузности, несмотря на то, что, как правило, аудиообъекты имеют диффузность равную нулю, т.е. или сконцентрированных на своей фактической позиции, что приводит к концентрированному и конкретному направлению поступления, которое является постоянным по всем полосам частот и которое является в отношении частоты кадров либо статическим, либо медленно движущимся. Таким образом, поскольку такой объект имеет одно направление по всем полосам частот и может считаться либо статическим, либо медленно движущимся, то требуется менее частое обновление дополнительной информации, чем других параметров DirAC и оно, вследствие этого, будет нести только очень низкую дополнительную скорость передачи битов. В качестве примера, в то время, как первое и второе описания DirAC имеют данные DoA и данные диффузности для каждой спектральной полосы или для каждого кадра, дополнительные метаданные аудиообъекта требуют только одних данных DoA для всех полос частот и эти данные являются только для каждого второго кадра или предпочтительно каждого третьего, четвертого, пятого или даже каждого десятого кадра в предпочтительном варианте осуществления.
Кроме того, в отношении направленной фильтрации, которая выполняется в блоке 220 синтеза DirAC, который, как правило, включен в декодер на стороне декодера системы кодера/декодера, блок синтеза DirAC может в альтернативе на Фиг. 2b выполнять направленную фильтрацию в области параметров перед объединением сцен или снова выполнять направленную фильтрацию вслед за объединением сцен. Однако, в данном случае направленная фильтрация применяется к объединенной сцене, а не к отдельным описаниям.
Кроме того, в случае, когда аудиообъект не включен в первое или второе описание, но включается посредством своих собственных метаданных аудиообъекта, направленная фильтрация, как проиллюстрировано выборочным блоком манипулирования, может быть выборочно применена только к дополнительному аудиообъекту, для которого присутствуют дополнительные метаданные аудиообъекта, не затрагивая первое или второе описание DirAC или объединенное описание DirAC. Применительно к самому аудиообъекту либо присутствует отдельный транспортный канал, представляющий собой сигнал формы волны объекта, либо сигнал формы волны объекта включается в транспортный канал со понижающим микшированием.
Выборочная манипуляция, как проиллюстрировано, например, на Фиг. 2b, может, например, происходить таким образом, что определенное направление поступления задается посредством направления аудиообъекта, введенного на Фиг. 2d, включенного в битовый поток в качестве добавочной информации, или принятого от интерфейса пользователя. Тогда на основании заданного пользователем направления или информации управления пользователь может, например, указать, что с определенного направления аудиоданные должны быть улучшены или должны быть ослаблены. Таким образом объект (метаданные) для рассматриваемого объекта усиливается или ослабляется.
В случае, когда фактические данные формы волны, как данные объекта, вводятся в выборочный блок 226 манипулирования слева на Фиг. 2d, аудиоданные фактически будут ослаблены или улучшены в зависимости от информации управления. Однако, в случае, когда данные объекта имеют, в дополнение к направлению поступления и необязательным диффузности и расстоянию, дополнительную информацию об энергии, тогда информация об энергии объекта будет уменьшена в случае, если требуется ослабление объекта, или информация об энергии будет увеличена в случае, если требуется усиление данных объекта.
Таким образом направленная фильтрация основана на методике кратковременного спектрального ослабления, и выполняется в спектральной области посредством нуль-фазной функции усиления, которая зависит от направления объектов. Направление может содержаться в битовом потоке, если направления объектов были переданы в качестве добавочной информации. Иначе направление также может быть задано интерактивно пользователем. Естественно, та же самая процедура не может быть применена только к отдельному объекту, заданному и отраженному посредством дополнительных метаданных аудиообъекта, как правило, предоставленными посредством данных DoA для всех полос частот и данных DoA с низким коэффициентом обновления по отношению к частоте кадров, и также заданному информацией об энергии для объекта, но направленная фильтрация также может быть применена к первому описанию DirAC независимо от второго описания DirAC или наоборот или также может быть применена к объединенному описанию DirAC в зависимости от обстоятельств.
Кроме того, следует отметить, что признак в отношении дополнительных данных аудиообъекта также может быть применен в первом аспекте настоящего изобретения, который проиллюстрирован в отношении Фиг. с 1a по 1f. Тогда интерфейс 100 ввода на Фиг. 1a дополнительно принимает дополнительные данные аудиообъекта, как обсуждалось в отношении Фиг. 2a, и объединитель форматов может быть реализован в качестве блока синтеза DirAC в спектральной области 220, которым управляет интерфейс 260 пользователя.
Кроме того, второй аспект настоящего изобретения, как проиллюстрировано на Фиг. 2, отличается от первого аспекта тем, что интерфейс ввода принимает уже два описания DirAC, т.е. описания звукового поля, которые находятся в одном и том же формате и, вследствие этого, для второго аспекта не обязательно требуется преобразователь 120 форматов первого аспекта.
С другой стороны, когда ввод в объединитель 140 форматов на Фиг. 1a состоит из двух описаний DirAC, тогда объединитель 140 форматов может быть реализован, как обсуждалось в отношении второго аспекта, проиллюстрированного на Фиг. 2a, или в качестве альтернативы устройства 220, 240 на Фиг. 2a могут быть реализованы, как обсуждалось в отношении объединителя 140 форматов на Фиг. 1a первого аспекта.
Фиг. 3a иллюстрирует преобразователь аудиоданных, содержащий интерфейс 100 ввода для приема описания объекта у аудиообъекта с метаданными аудиообъекта. Кроме того, за интерфейсом 100 ввода следует преобразователь 150 метаданных, также соответствующий преобразователям 125, 126 метаданных, которые обсуждались в отношении первого аспекта настоящего изобретения для преобразования метаданных аудиообъекта в метаданные DirAC. Выход преобразователя аудио на Фиг. 3a состоит из интерфейса 300 вывода для передачи и хранения метаданных DirAC. Интерфейс 100 ввода может дополнительно принимать сигнал формы волны, как проиллюстрировано второй стрелкой, которая входит в интерфейс 100. Кроме того, интерфейс 300 вывода может быть реализован, чтобы вводить, как правило, кодированное представление сигналов формы волны в выходной сигнал, который выводится блоком 300. Если преобразователь аудиоданных выполнен с возможностью только преобразования одного описания объекта, включающего в себя метаданные, тогда интерфейс 300 вывода также предоставляет описание DirAC этого одного аудиообъекта, как правило, вместе с кодированным сигналом формы волны в качестве транспортного канала DirAC.
В частности, метаданные аудиообъекта имеют позицию объекта, и метаданные DirAC имеют направление поступления относительно опорной позиции, извлеченной из позиции объекта. В частности, преобразователь 150, 125, 126 метаданных выполнен с возможностью преобразования параметров DirAC, извлеченных из формата данных объекта в данные давления/скорости, и преобразователь метаданных выполнен с возможностью применения анализа DirAC к этим данным давления/скорости, например, как проиллюстрировано блок-схемой на Фиг. 3c, состоящей из этапов 302, 304, 306. С этой целью параметры DirAC, которые выводятся на этапе 306, обладают более хорошим качеством, чем параметры DirAC, которые извлекаются из метаданных объекта, полученных этапом 302, т.е. являются расширенными параметрами DirAC. Фиг. 3b иллюстрирует преобразование позиции для объекта в направление поступления относительно опорной позиции для конкретного объекта.
Фиг. 3f иллюстрирует принципиальную схему для объяснения функциональных возможностей преобразователя 150 метаданных. Преобразователь 150 метаданных принимает позицию объекта, указанную вектором P в системе координат. Кроме того, опорная позиция, к которой должны относиться метаданные, задается вектором R в той же самой системе координат. Таким образом, вектор направления поступления DoA проходит от конца вектора R к концу вектора B. Таким образом фактический вектор DoA получается путем вычитания вектора R опорной позиции из вектора P позиции объекта.
Для того, чтобы иметь нормализованную информацию DoA, указанную вектором DoA, разность векторов делится на величину или длину вектора DoA. Кроме того, и, если это необходимо и предназначено, длина вектора DoA также может быть включена в метаданные, формируемые преобразователем 150 метаданных так, что дополнительно расстояние объекта от опорной точки также включается в метаданные с тем, чтобы выборочная манипуляция этим объектом также могла быть выполнена на основании расстояния объекта от опорной позиции. В частности, блок 148 извлечения направления на Фиг. 1f также может работать, как обсуждалось в отношении Фиг. 3f, несмотря на то, что также могут быть применены другие альтернативы для вычисления информации DoA и, необязательно, информации о расстоянии. Кроме того, как уже обсуждалось в отношении Фиг. 3a, блоки 125 и 126, проиллюстрированные на Фиг. 1c или 1d, могут работать образом аналогичным тому, который обсуждался в отношении Фиг. 3f.
Кроме того, устройство на Фиг. 3a может быть выполнено с возможностью приема множества описаний аудиообъектов, а преобразователь метаданных выполнен с возможностью преобразования каждого описания метаданных непосредственно в описание DirAC и, тогда, преобразователь метаданных выполнен с возможностью объединения отдельных описаний метаданных DirAC для получения объединенного описания DirAC в качестве метаданных DirAC, проиллюстрированных на Фиг. 3a. В одном варианте осуществления объединение выполняется путем вычисления 320 весового коэффициента для первого направления поступления с использованием первой энергии и путем вычисления 322 весового коэффициента для второго направления поступления с использованием второй энергии, где направление поступления обрабатывается этапами 320, 332, которые относятся к одному и тому же временному/частотному бину. Тогда, на этапе 324 взвешенное сложение выполняется, как также обсуждалось в отношении элемента 144 на Фиг. 1d. Таким образом, процедура, проиллюстрированная на Фиг. 3a, представляет собой вариант осуществления первой альтернативы на Фиг. 1d.
Однако, в отношении второй альтернативы процедура будет состоять из того, что все диффузности устанавливаются равными нулю или в небольшое значение и применительно к временному/частотному бину рассматриваются все разные значения направлений поступления, которые задаются для данного временного/частотного бина, и наибольшее значение направления поступления выбирается в качестве объединенного значения направления поступления для данного временного/частотного бина. В других вариантах осуществления можно также выбирать второе для наибольшего значения, при условии, что информация об энергии для этих двух значений направления поступления не такая уж и разная. Выбирается значение направления поступления, энергия которого является либо наибольшей энергией среди энергий от разных вкладов для этого временного/частотного бина, либо второй или третьей наибольшей энергией.
Таким образом, третий аспект, как описано в отношении Фиг. с 3a по 3f, отличается от первого аспекта тем, что третий аспект также полезен для преобразования одного описания объекта в метаданные DirAC. В качестве альтернативы интерфейс 100 ввода может принимать несколько описаний объектов, которые находятся в одном и том же формате объекта/метаданных. Таким образом, любой преобразователь формата, как обсуждалось в отношении первого аспекта на Фиг. 1a, не требуется. Таким образом, вариант осуществления на Фиг. 3a может быть полезен в контексте приема двух разных описаний объекта с использованием разных сигналов формы волны объекта и разных метаданных объекта в качестве первого описания сцены и второго описания, как ввода в объединитель 140 форматов, и выводом преобразователя 150, 125, 126 или 148 метаданных может быть представление DirAC с метаданными DirAC и, вследствие этого, анализатор 180 DirAC на Фиг. 1 также не требуется. Однако, прочие элементы в отношении генератора 160 транспортного канала, соответствующие устройству 163 понижающего микширования на Фиг. 3a, могут быть использованы в контексте третьего аспекта, как, впрочем, и кодер 170 транспортного канала, кодер 190 метаданных и, в данном контексте, интерфейс 300 вывода на Фиг. 3a соответствует интерфейс 200 вывода на Фиг. 1a. Следовательно, все соответствующие описания, приведенные в отношении первого аспекта, также применяются к третьему аспекту.
Фиг. 4a, 4b иллюстрируют четвертый аспект настоящего изобретения в контексте устройства для выполнения синтеза аудиоданных. В частности, устройство имеет интерфейс 100 ввода для приема описания DirAC аудиосцены с метаданными DirAC и дополнительно для приема сигнала объекта с метаданными объекта. Этот кодер аудиосцены, проиллюстрированный на Фиг. 4b, дополнительно содержит генератор 400 метаданных для формирования объединенного описания метаданных, содержащего метаданные DirAC с одной стороны и метаданные объекта, с другой стороны. Метаданные DirAC содержат направление поступления для отдельных временных/частотных мозаичных фрагментов, а метаданные объекта содержат направление, или дополнительно расстояние или диффузность отдельного объекта.
В частности, интерфейс 100 ввода выполнен с возможностью приема дополнительно транспортного сигнала, ассоциированного с описанием DirAC аудиосцены, как проиллюстрировано на Фиг. 4b, и интерфейс ввода дополнительно выполнен с возможностью приема сигнала формы волны объекта, ассоциированного с сигналом объекта. Вследствие этого, кодер сцены дополнительно содержит кодер транспортного сигнала для кодирования транспортного сигнала и сигнала формы волны объекта, и кодер 170 транспортного канала может соответствовать кодеру 170 на Фиг. 1a.
В частности, генератор 140 метаданных, который формирует объединенные метаданные, может быть сконфигурирован, как обсуждалось в отношении первого аспекта, второго аспекта или третьего аспекта. И в предпочтительном варианте осуществления генератор 400 метаданных выполнен с возможностью формирования для метаданных объекта одного широкополосного направления на каждую единицу времени, т.е. для определенного временного кадра, и генератор метаданных выполнен с возможностью актуализации одного широкополосного направления на каждую единицу времени менее часто, чем метаданные DirAC.
Процедура, которая обсуждается в отношении Фиг. 4b, позволяет иметь объединенные метаданные, которые имеют метаданные для полного описания DirAC и, которые имеют в дополнение метаданные для дополнительного аудиообъекта, но в формате DirAC так, что может быть выполнен очень удобный рендеринг DirAC, причем, в то же время, может быть выполнена выборочная направленная фильтрация или модификация, как уже обсуждалось в отношении второго аспекта.
Таким образом, четвертый аспект настоящего изобретения и, в частности, генератор 400 метаданных, представляет особый преобразователь форматов, где общим форматом является формат DirAC, а вводом является описание DirAC для первой сцены в первом формате, который обсуждался в отношении Фиг. 1a, а вторая сцена является одиночной или объединенной, такой как сигнал объекта SAOC. Следовательно, вывод преобразователя 120 форматов представляет собой вывод генератора 400 метаданных, но в противоположность фактическому конкретному объединению метаданных посредством одной из двух альтернатив, например, как обсуждалось в отношении Фиг. 1d, в выходной сигнал включаются метаданные объекта, т.е. «объединенные метаданные» отдельно от метаданных для описания DirAC для обеспечения выборочной модификации данных объекта.
Таким образом, «направление/расстояние/диффузность», указанные в пункте 2 справой стороны Фиг. 4a, соответствуют дополнительным метаданным аудиообъекта, которые вводятся в интерфейс 100 ввода на Фиг. 2a, но в варианте осуществления на Фиг. 4a только для одного описания DirAC. Таким образом, в некотором смысле, можно сказать, что Фиг. 2a представляет реализацию со стороны декодера для кодера, проиллюстрированного на Фиг. 4a, 4b при условии, что сторона декодера у устройства на Фиг. 2a принимает только одно описание DirAC и метаданные объекта, сформированные генератором 400 метаданных в одном и том же битовом потоке в качестве «дополнительных метаданных аудиообъекта».
Таким образом, может быть выполнена полностью другая модификация дополнительных данных объекта, когда кодированный транспортный сигнал имеет отдельное представление сигналов формы волны объекта, которое отделено от транспортного потока DirAC. И, однако, кодер 170 транспортного сигнала сводит оба вида данных, т.е. транспортный канал для описания DirAC и сигнал формы волны от объекта, тогда разделение будет менее безупречным, но посредством дополнительной информации об энергии объекта отделение понижающего микширования возможно даже из объединенного канала и возможна выборочная модификация объекта в отношении описания DirAC.
Фиг. с 5a по 5d представляют дополнительный пятый аспект изобретения в контексте устройства для выполнения синтеза аудиоданных. С этой целью интерфейс 100 ввода предусмотрен для приема описания DirAC одного или более аудиообъектов и/или описания DirAC многоканального сигнала и/или описания DirAC сигнала Ambisonics первого порядка и/или сигнала Ambisonics более высокого порядка, при этом описание DirAC содержит информацию о позиции одного или более объектов или добавочную информацию для сигналов Ambisonics первого порядка или сигналов Ambisonics высокого порядка, или информацию о позиции для многоканального сигнала в качестве добавочной информации или от интерфейса пользователя.
В частности, блок 500 манипулирования выполнен с возможностью манипулирования описанием DirAC одного или более аудиообъектов, описанием DirAC многоканального сигнала, описанием DirAC сигналов Ambisonics первого порядка или описанием DirAC сигналов Ambisonics высокого порядка, чтобы получать описание DirAC после манипуляции. Для того чтобы синтезировать данное описание DirAC после манипуляции блок 220, 240 синтеза DirAC выполнен с возможностью синтеза этого описания DirAC после манипуляции, чтобы получать синтезированные аудиоданные.
В предпочтительном варианте осуществления блок 220, 240 синтеза DirAC содержит рендерер 222 DirAC, как проиллюстрировано на Фиг. 5b, и позже соединенный спектрально-временной преобразователь 240, который выводит сигнал во временной области после манипуляции. В частности, блок 500 манипулирования выполнен с возможностью выполнения зависимой от позиции операции взвешивания перед рендерингом DirAC.
В частности, когда блок синтеза DirAC выполнен с возможностью вывода множества объектов сигналов Ambisonics первого порядка или сигнала Ambisonics высокого порядка или многоканального сигнала, блок синтеза DirAC выполнен с возможностью использования отдельного спектрально-временного преобразователя для каждого объекта или каждого компонента сигналов Ambisonics первого или высокого порядка, или для каждого канала многоканального сигнала, как проиллюстрировано на Фиг. 5d на этапах 506, 508. Как указано на этапе 510 затем выводы соответствующих отдельных преобразований складываются вместе, при условии, что все сигналы находятся в общем формате, т.е. совместимом формате.
Вследствие этого, в случае, когда интерфейс 100 ввода на Фиг. 5a принимает больше одного, т.е. два или три представления, манипулирование каждым представлением может быть осуществлено отдельно, как проиллюстрировано на этапе 502 в области параметров, как уже обсуждалось в отношении Фиг. 2b или 2c, и затем синтез может быть выполнен, как указано на этапе 504 для каждого описания после манипуляции, и синтез затем может быть сложен во временной области, как обсуждалось в отношении этапа 510 на Фиг. 5d. В качестве альтернативы результат отдельных процедур синтеза DirAC в спектральной области может быть уже сложен в спектральной области и тогда также может быть использовано одно преобразование во временной области. В частности, блок 500 манипулирования может быть реализован в качестве блока манипулирования, который обсуждался в отношении Фиг. 2d или обсуждался в отношении любого другого аспекта ранее.
Следовательно, пятый аспект настоящего изобретения обеспечивает существенный признак в отношении того факта, что когда вводятся отдельные описания DirAC очень разных звуковых сигналов и когда определенная манипуляция над отдельными описаниями выполняется, как обсуждалось в отношении блока 500 на Фиг. 5a, где ввод в блок 500 манипулирования может быть описанием DirAC любого формата, включая только один формат, тогда как второй аспект был сконцентрирован на приеме по меньшей мере двух разных описаний DirAC или где четвертый аспект, например, относился к приему описания DirAC с одной стороны и описанию сигнала объекта с другой стороны.
Далее обратимся к Фиг. 6. Фиг. 6 иллюстрирует другую реализацию для выполнения синтеза, отличного от блока синтеза DirAC. Когда, например, анализатор звукового поля формирует для каждого сигнал-источника отдельный моносигнал S и исходное направление поступления, и когда в зависимости от информации о переводе вычисляется новое направление поступления, тогда генератор 430 сигнала Ambisonics на Фиг. 6, например, будет использован для формирования описания звукового поля для звукового сигнала-источника, т.е. моносигнала S но для новых данных направления поступления (DoA), состоящих из горизонтального угла Ɵ или угла Ɵ возвышения и азимутального угла φ. Тогда процедура, которая выполняется калькулятором 420 звукового поля на Фиг. 6, будет состоять в формировании, например, представления звукового поля Ambisonics первого порядка для каждого источника звука с новым направлением поступления, и тогда дополнительная модификация на каждый источник звука может быть выполнена с использованием коэффициента масштабирования в зависимости от расстояния звукового поля до нового опорного местоположения, и тогда все звуковые поля от отдельных источников могут быть наложены друг на друга для итогового получения модифицированного звукового поля, снова в, например, представлении Ambisonics, которое относится к определенному новому опорному местоположению.
Когда интерпретируется, что каждый временной/частотный бин, который обрабатывается анализатором 422 DirAC, представляет собой определенный (ограниченный по ширине полосы) источник звука, тогда генератор 430 сигнала Ambisonics может быть использован вместо блока 425 синтеза DirAC для формирования для каждого временного/частотного бина полного представления Ambisonics с использованием сигнала понижающего микширования или сигнала давления, или всенаправленного компонента для этого временного/частотного бина в качестве «моносигнала S» на Фиг. 6. Тогда отдельное частотно-временное преобразование в частотно-временном преобразователе 426 для каждого компонента W, X, Y, Z, приведет к описанию звукового поля, отличного от того, что проиллюстрировано на Фиг. 6.
Далее приводятся известные в данной области техники дополнительные объяснения касательно анализа DirAC и синтеза DirAC. Фиг. 7a иллюстрирует анализатор DirAC, как исходно раскрытый, например, в документе «Directional Audio Coding» от IWPASH в 2009 г. Анализатор DirAC содержит гребенку полосовых фильтров 1310, анализатор 120 энергии, анализатор 1330 интенсивности, блок 1340 временного усреднения, и калькулятор 1350 диффузности и калькулятор 1360 направления. В DirAC как анализ, так и синтез выполняются в частотной области. Существует несколько способов разделения звука на полосы частот, в рамках различных свойств каждого. Наиболее часто используемые преобразования частоты включают в себя кратковременное преобразование Фурье (STFT) и решетку квадратурных зеркальных фильтров (QMF). В дополнение к этому существует полная свобода для разработки гребенки фильтров с произвольными фильтрами, которые оптимизированы для любых конкретных целей. Цель направленного анализа состоит в оценке по каждой полосе частот направления поступления звука, вместе с оценкой того, поступает ли звук в одном или нескольких направлениях одновременно. В принципе это может быть выполнено с помощью некоторого количества методик, однако, подходящим оказался энергетический анализ звукового поля, который иллюстрируется на Фиг. 7a. Энергетический анализ может быть выполнен, когда сигнал давления и сигналы скорости в одном, двух или трех измерениях захватываются из одной позиции. В сигналах B-формата первого порядка всенаправленный сигнал именуется W-сигналом, который был уменьшен посредством квадратного корня двух. Звуковое давление может быть оценено как , выраженное в области STFT.
X-, Y- и Z каналы имеют диаграмму направленности диполя, направленного по декартовой оси, которые вместе формируют вектор U = [X, Y, Z]. Вектор оценивает вектор скорости звукового поля и также выражается в области STFT. Вычисляется энергия E звукового поля. Захват сигналов B-формата может быть получен с помощью либо совпадающего позиционирования направленных микрофонов, либо с помощью близко расположенного набора всенаправленных микрофонов. В некоторых приложениях сигналы микрофона могут быть сформированы в вычислительной области, т.е. смоделированы. Направление звука определяется как противоположное направлению вектора I интенсивностей. Направление обозначается в качестве соответствующего угловых значений азимута и возвышения в переданных метаданных. Диффузность звукового поля также вычисляется с использованием оператора математического ожидания для вектора интенсивностей и энергии. Результатом этого уравнения является действительное число межу нулем и единицей, которое отличается в зависимости от того, поступает ли звуковая энергия по одному направлению (диффузность равна нулю) или по всем направлениям (диффузность равна единице). Эта процедура уместна в случае, когда доступна полная 3D или в меньших измерениях информация о скорости.
Фиг. 7b иллюстрирует синтез DirAC, снова с гребенкой полосовых фильтров 1370, блоком 1400 виртуального микрофона, блоком 1450 прямого/диффузного блока синтеза и определенной компоновкой громкоговорителей или виртуальной предназначенной компоновкой 1460 громкоговорителей. Дополнительно используются преобразователь 1380 усиления диффузности, блок 1390 таблицы усиления векторного амплитудного панорамирования (VBAP), блок 1420 компенсации микрофона, блок 1430 усреднения усиления громкоговорителя и распределитель 1440 для других каналов. При этом синтезе DirAC с громкоговорителями, версия высокого качества синтеза DirAC, показанная на Фиг. 7b, принимает все сигналы B-формата, для которых сигнал виртуального микрофона вычисляется для каждого направления громкоговорителя компоновки 1460 громкоговорителей. Используемая диаграмма направленности, как правило, представляет собой диполь. Сигналы виртуального микрофона затем модифицируются нелинейным образом, в зависимости от метаданных. Версия с низкой скоростью передачи битов у DirAC не показана на Фиг. 7b, однако, в данной ситуации передается только один канал аудио, как проиллюстрировано на Фиг. 6. Отличие в обработке состоит в том, что все сигналы виртуального микрофона будут замещены одним принятым каналом аудио. Сигналы виртуального микрофона делятся на два потока: диффузный и не-диффузный потоки, которые обрабатываются отдельно.
Не-диффузный звук воспроизводится как точечные источники путем использования векторного амплитудного панорамирования (VBAP). При панорамировании монофонический звуковой сигнал применяется к подмножеству громкоговорителей после умножения на особые для громкоговорителя коэффициенты усиления. Коэффициенты усиления вычисляются с использованием информации компоновки громкоговорителей и указанного направления панорамирования. В версии с низкой скоростью передачи битов входной сигнал просто панорамируется в направлениях, подразумеваемых метаданными. В версии высокого качества каждый сигнал виртуального микрофона умножается на соответствующий коэффициент усиления, который создает тот же эффект с помощью панорамирования, однако, он менее подвержен любым нелинейным искажениям.
Во многих случаях направленные метаданные подвержены резким временным изменениям. Чтоб избежать искажений коэффициенты усиления для громкоговорителей, вычисленные с помощью VBAP, сглаживаются посредством временной интеграции с частотно-зависимыми константами времени, равными приблизительно 50 периодам циклов в каждой полосе. Это эффективно устраняет искажения, однако, в большинстве случаев, изменения в направлении не воспринимаются, как происходящие медленнее, чем без усреднения. Цель синтеза диффузного звука состоит в создании восприятия звука, которое окружает слушателя. В версии с низкой скоростью передачи битов диффузный поток воспроизводится путем декорреляции входного сигнала и воспроизведения его из каждого громкоговорителя. В версии высокого качества сигналы виртуального микрофона диффузного потока уже являются некогерентными в некоторой степени, и требуется лишь их умеренная декорреляция. Этот подход обеспечивает более хорошее пространственное качество для объемной реверберации и звукового сопровождения, чем версия с низкой скоростью передачи битов. Применительно к синтезу DirAC с наушниками, DirAC формулируется с помощью определенного количества виртуальных громкоговорителей вокруг слушателя для не-диффузного потока и определенного количества громкоговорителей для диффузного потока. Виртуальные громкоговорители реализуются в качестве свертывания входных сигналов с помощью измеренной зависящей от головы человека функции передачи звука (HRTF).
Далее приводится дополнительное общая зависимость в отношении различных аспектов и, в частности, в отношении дополнительных реализаций первого аспекта, как обсуждалось в отношении Фиг. 1a. В общем, настоящее изобретение относится к объединению разных сцен в разных форматах с использованием общего формата, где общий формат может, например, быть областью B-формата, областью давления/скорости или областью метаданных, как обсуждалось, например, в элементах 120, 140 на Фиг. 1a.
Когда объединение не выполняется непосредственно в общем формате DirAC, тогда выполняется анализ 802 DirAC в одной альтернативе в кодере перед передачей, как обсуждалось ранее в отношении элемента 180 на Фиг. 1a.
Затем, вслед за анализом DirAC, результат кодируется, как обсуждалось ранее в отношении кодера 170 и кодера 190 метаданных, и кодированный результат передается через кодированный выходной сигнал, сформированный интерфейсом 200 вывода. Однако, в дополнительной альтернативе, рендеринг результата может быть непосредственно осуществлен устройством на Фиг. 1a, когда выход из блока 160 на Фиг. 1a и выход из блока 180 на Фиг. 1a переадресовываются в рендерер DirAC. Таким образом устройство на Фиг. 1a не будет особым устройством кодера, а будет анализатором и соответствующим рендерером.
Дополнительная альтернатива иллюстрируется в правой ветви Фиг. 8, где выполняется передача от кодера к декодеру и, как проиллюстрировано на этапе 804, анализ DirAC и синтез DirAC выполняются вслед за передачей, т.е. на стороне декодера. Эта процедура будет случаем, когда используется альтернатива Фиг. 1a, т.е. когда кодированный выходной сигнал является сигналом B-формата без пространственных метаданных. Вслед за этапом 808 может быть осуществлен рендеринг результата для воспроизведения или в качестве альтернативы результат может быть даже кодирован и вновь передан. Таким образом становится очевидно, что процедуры изобретения, как определено и описано в отношении разных аспектов, являются очень гибкими и могут быть очень хорошо адаптированы к особым случаям использования.
1-ый Аспект Изобретения: Универсальное основанное на DirAC пространственное кодирование/рендеринг аудио
Основанный на DirAC пространственный аудиокодер, который может кодировать многоканальные сигналы, форматы Ambisonics и аудиообъекты отдельно или одновременно.
Полезные результаты и Преимущества перед Уровнем Техники
- Универсальная основанная на DirAC схема пространственного аудиокодирования для наиболее релевантных с эффектом присутствия форматов ввода аудио
- Универсальный рендеринг звука разных форматов ввода в разных форматах вывода
2-ой Аспект изобретения: Объединение двух или более описаний DirAC в декодере
Второй аспект изобретения относится к объединению и рендерингу двух или более описаний DirAC в спектральной области.
Полезные результаты и Преимущества перед Уровнем Техники
- Эффективное и точное объединение потоков DirAC
- Обеспечивает использование DirAC для универсального представления любой сцены и эффективного объединения разных потоков в области параметров или спектральной области
- Эффективная и интуитивная манипуляция сценой для отдельных сцен DirAC или объединенной сценой в спектральной области и последующее преобразование во временную область объединенной сцены после манипуляции.
3-ий Аспект Изобретения: Преобразование аудиообъектов в область DirAC
Третий аспект изобретения относится к преобразованию метаданных объекта и необязательно сигналов формы волны объекта в область DirAC и в варианте осуществление объединению нескольких объектов в представление объектов.
Полезные результаты и Преимущества перед Уровнем Техники
- Эффективная и точная оценка метаданных DirAC посредством простого транскодера метаданных для метаданных аудиообъектов
- Позволяет DirAC кодировать комплексные аудиосцены, включающие один или более аудиообъектов
- Эффективный способ кодирования аудиообъектов посредством DirAC в едином параметрическом представлении полной аудиосцены.
4-ый Аспект Изобретения: Объединение метаданных Объекта и обычных метаданных DirAC
Третий аспект изобретение касается изменения метаданных DirAC с помощью направлений и необязательно расстояния или диффузности отдельных объектов, составляющих объединенную аудиосцену, представленную параметрами DirAC. Эта дополнительная информация легко кодируется, поскольку она состоит главным образом из одного широкополосного направления на каждую единицу времени и может быть актуализирована менее часто, чем прочие параметры DirAC, поскольку можно предположить, что объекты являются либо статическими, либо движущимися в медленном темпе.
Полезные результаты и Преимущества перед Уровнем Техники
- Позволяет DirAC кодировать комплексную аудиосцену, включающую один или более аудиообъектов
- Эффективная и точная оценка метаданных DirAC посредством простого транскодера метаданных для метаданных аудиообъектов.
- Более эффективный способ кодирования аудиообъектов посредством DirAC путем объединения эффективным образом из метаданных в области DirAC
- Эффективный способ кодирования аудиообъектов и посредством DirAC путем объединения эффективным образом их аудиопредставлений в едином параметрическом представлении аудиосцены.
5-ый Аспект Изобретения: Манипуляция сценами Объектов MC и FOA/HOA C в синтезе DirAC
Четвертый аспект относится к стороне декодера и использует известные позиции аудиообъектов. Позиции могут быть заданы пользователем посредством интерактивного интерфейса и также могут быть включены в качестве дополнительной добавочной информации внутри битового потока.
Цель состоит в том, чтобы иметь возможность манипулирования выходной аудиосценой, содержащей некоторое количество объектов путем отдельного изменения атрибутов объекта, таких как уровни, уравнивание и/или пространственные позиции. Также может быть предусмотрена полная фильтрация объекта или восстановление отдельных объектов из объединенного потока.
Манипуляция выходной аудиосценой может быть достигнута путем совместной обработки пространственных параметров метаданных DirAC, метаданных объектов, интерактивного ввода пользователя, если присутствует, и аудиосигналов, которые переносятся в транспортных каналах.
Полезные результаты и Преимущества перед Уровнем Техники
- Позволяет DirAC выводить на стороне декодера аудиообъекты, как представлено на входе кодера.
- Обеспечивает воспроизведение DirAC для манипулирования отдельным аудиообъектом путем применения усилений, поворота или …
- Возможность требует минимальных дополнительных вычислительных усилий, поскольку для нее требуется только зависимая от позиции операция взвешивания перед гребенкой фильтров рендеринга и синтеза на конце синтеза DirAC (дополнительные выводы объекта потребуют лишь одной дополнительной решетки фильтров синтеза на каждый вывод объекта).
Список цитированной литературы, вся из которой в полном объеме включена путем ссылки:
[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki и T Pihlajamaki «Directional audio coding - perception-based reproduction of spatial sound» Международный Семинар по Принципам и Применению Пространственного Слуха, ноябрь 2009 г., Дзао; Мияги, Япония.
[2] Ville Pulkki. «Virtual source positioning using vector base amplitude panning» Журнал Общества Инженеров по Звукотехнике, том 45(6), стр. 456-466, июнь 1997 г.
[3] M. V. Laitinen и V. Pulkki «Converting 5.1 audio recordings to B-format for directional audio coding reproduction» Международная Конференция по Акустике IEEE 2011, Речь и Обработка Сигнала (ICASSP), Прага, 2011 г., стр. 61-64.
[4] G. Del Galdo, F. Kuech, M. Kallinger и R. Schultz-Amling «Efficient merging of multiple audio streams for spatial sound reproduction in Directional Audio Coding» Международная Конференция по Акустике IEEE 2009, Речь и Обработка Сигнала, Тайбэй, 2009 г., стр. 265-268.
[5] Jurgen HERRE, CORNELIA FALCH, DIRK MAHNE, GIOVANNI DEL GALDO, MARKUS KALLINGER И OLIVER THIERGART «Interactive Teleconferencing Combining Spatial Audio Object Coding and DirAC Technology», Журнал Общества Инженеров по Звукотехнике, том 59, № 12, декабрь 2011 г.
[6] R. Schultz-Amling, F. Kuech, M. Kallinger, G. Del Galdo, J. Ahonen, V. Pulkki «Planar Microphone Array Processing for the Analysis and Reproduction of Spatial Audio using Directional Audio Coding» 124 Съезд Общества Инженеров по Звукотехнике, Амстердам, Нидерланды, 2008 г.
[7] Daniel P. Jarrett и Oliver Thiergart и Emanuel A. P. Habets и Patrick A. Naylor «Coherence-Based Diffuseness Estimation in the Spherical Harmonic Domain» 27-ой Съезд Инженеров по Электротехнике и Радиоэлектронике IEEE в Израиле (IEEEI), 2012 г.
[8] Патент США 9,015,051.
Настоящее изобретение предоставляет в дополнительных вариантах осуществления и, в частности, в отношении первого аспекта, а также в отношении других аспектов разные альтернативы. Эти альтернативы являются следующими:
Во-первых, объединение разных форматов в области B-формата и либо осуществление анализа DirAC в кодере, либо передача объединенных каналов декодеру и осуществление анализа DirAC и синтеза там.
Во-вторых, объединение разных форматов в области давления/скорости и осуществление анализа DirAC в кодере. В качестве альтернативы данные давления/скорости передаются декодеру и анализ DirAC осуществляется в декодере и синтез также осуществляется в декодере.
В-третьих, объединение разных форматов в области метаданных и передача одного потока DirAC или передача нескольких потоков DirAC декодеру до объединения их и осуществление объединения в декодере.
Кроме того, варианты осуществления или аспекты настоящего изобретения относятся к следующим аспектам:
Во-первых, объединение разных аудиоформатов в соответствии с вышеупомянутыми тремя альтернативами.
Во-вторых, прием, объединение и рендеринг двух описаний DirAC выполняется уже в одном и том же формате.
В-третьих, реализуется особый объект в преобразователе DirAC с «непосредственным преобразованием» данных объекта в данные DirAC.
В-четвертых, метаданные объекта в дополнение к нормальным метаданным DirAC и объединение двух видов метаданных; оба вида данных существуют в битовом потоке бок о бок, но аудиообъекты также описываются посредством стиля метаданных DirAC.
В-пятых, объекты и поток DirAC отдельно передаются декодеру и осуществляется выборочное манипулирование объектами внутри декодера перед преобразованием выходных аудиосигналов (громкоговорителя) во временную область.
Здесь следует упомянуть, что все альтернативы или аспекты, которые обсуждались ранее, и все аспекты, которые определяются независимыми пунктами формулы изобретения в нижеследующей формуле изобретения, могут быть использованы отдельно, т.е. без какой-либо другой альтернативы или объекта, кроме рассматриваемой альтернативы, объекта или независимого пункта формулы изобретения. Однако, в других вариантах осуществления две или более альтернатив, или аспектов или независимых пунктов формулы изобретения могут быть объединены друг с другом и, в других вариантах осуществления, все аспекты, или альтернативы и все независимые пункты формулы изобретения могут быть объединены друг с другом.
Кодированный в соответствии с изобретением аудиосигнал может быть сохранен на цифровом запоминающем носителе информации или не временном запоминающем носителе информации или может быть передан по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, такая как Интернет.
Несмотря на то, что некоторые аспекты были описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока или элемента, или признака соответствующего устройства.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратном обеспечении или в программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя информации, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, с хранящимися на нем электронно-читаемыми сигналами управления, которые взаимодействуют (или выполнены с возможностью взаимодействия) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ.
Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных с электронно-читаемыми сигналами управления, которые выполнены с возможностью взаимодействия с программируемой компьютерной системой таким образом, что выполняется соответствующий один из способов, описанных в данном документе.
Обычно варианты осуществления настоящего изобретения могут быть реализованы в качестве компьютерного программного продукта с программным кодом, причем программный код работает для выполнения одного из способов, когда компьютерный программный продукт запущен на компьютере. Программный код может, например, быть сохранен на машиночитаемом носителе.
Прочие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в данном документе, которая хранится на машиночитаемом носителе или не временном запоминающем носителе информации.
Другими словами, вариант осуществления способа изобретения является, вследствие этого, компьютерной программой с программным кодом для выполнения одного из способов, описанных в данном документе, когда компьютерная программа запущена на компьютере.
Дополнительный вариант осуществления способов изобретения является, вследствие этого, носителем данных (или цифровым запоминающим носителем информации, или машиночитаемым носителем информации), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в данном документе.
Дополнительный вариант осуществления способа изобретения является, вследствие этого, потоком данных или последовательностью сигналов, представляющим собой компьютерную программу для выполнения одного из способов, описанных в данном документе. Поток данных или последовательность сигналов могут, например, быть выполнены с возможностью переноса через соединение связи для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер, или программируемое логическое устройство, выполненное с возможностью или адаптированное для выполнения одного из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер с инсталлированной на нем компьютерной программой для выполнения одного из способов, описанных в данном документе.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая вентильная матрица) может быть использовано для выполнения некоторых или всех функциональных возможностей способов, описанных в данном документе. В некоторых вариантах осуществления программируемая вентильная матрица может взаимодействовать с микропроцессором для того, чтобы выполнять один из способов, описанных в данном документе. Обычно способы предпочтительно выполняются любым устройством аппаратного обеспечения.
Описанные выше варианты осуществления являются лишь иллюстративными для принципов настоящего изобретения. Следует понимать, что модификации и вариации организаций и подробностей, описанных в данном документе, будут очевидны специалистам в соответствующей области техники. Вследствие этого смысл состоит в том, что изобретение ограничивается только объемом предстоящей патентной формулы изобретения, а не конкретными подробностями, представленным в качестве описания и объяснения вариантов осуществления в данном документе.
Изобретение относится к вычислительной технике. Технический результат заключается в улучшении обработки аудиосцен и описаний аудиосцен. Устройство для формирования описания объединенной аудиосцены содержит интерфейс ввода для приема первого описания первой сцены в первом формате и второго описания второй сцены во втором формате, при этом второй формат отличается от первого формата; преобразователь форматов для преобразования первого описания в общий формат и для преобразования второго описания в общий формат, когда второй формат отличается от общего формата; и объединитель форматов для объединения первого описания в общем формате и второго описания в общем формате для получения описания объединенной аудиосцены. 15 н. и 26 з.п. ф-лы, 41 ил.
1. Устройство для формирования описания объединенной аудиосцены, содержащее:
интерфейс (100) ввода для приема первого описания первой сцены в первом формате и второго описания второй сцены во втором формате, при этом второй формат отличается от первого формата;
преобразователь (120) форматов для преобразования первого описания в общий формат и для преобразования второго описания в общий формат, когда второй формат отличается от общего формата; и
объединитель (140) форматов для объединения первого описания в общем формате и второго описания в общем формате для получения описания объединенной аудиосцены.
2. Устройство по п. 1,
при этом первый формат выбирается из группы форматов, содержащей формат Ambisonics (Амбисоник) первого порядка, формат Ambisonics высокого порядка, формат DirAC, формат аудиообъекта и многоканальный формат, и
при этом второй формат выбирается из группы форматов, содержащей формат Ambisonics (Амбисоник) первого порядка, формат Ambisonics высокого порядка, общий формат, формат DirAC, формат аудиообъекта и многоканальный формат.
3. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление сигналов B-формата и преобразования второго описания во второе представление сигналов B-формата, и
в котором объединитель (140) форматов выполнен с возможностью объединения первого представления сигналов B-формата и второго представления сигналов B-формата путем отдельного объединения отдельных компонентов первого представления сигналов B-формата и второго представления сигналов B-формата.
4. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление сигналов давления/скорости и преобразования второго описания во второе представление сигналов давления/скорости, и
в котором объединитель (140) форматов выполнен с возможностью объединения первого представления сигналов давления/скорости и второго представления сигналов давления/скорости путем отдельного объединения отдельных компонентов представлений сигналов давления/скорости для получения объединенного представления сигналов давления/скорости.
5. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования первого описания в первое представление параметров DirAC и преобразования второго описания во второе представление параметров DirAC, когда второе описание отличается от представления параметров DirAC, и
в котором объединитель (140) форматов выполнен с возможностью объединения первого представления параметров DirAC и второго представления параметров DirAC путем отдельного объединения отдельных компонентов первого представления параметров DirAC и второго представления параметров DirAC для получения объединенного представления параметров DirAC для объединенной аудиосцены.
6. Устройство по п. 5,
в котором объединитель (140) форматов выполнен с возможностью формирования значений направления поступления для частотно-временных мозаичных фрагментов или значений направления поступления и значений диффузности для частотно-временных мозаичных фрагментов, представляющих собой объединенную аудиосцену.
7. Устройство по п. 1,
дополнительно содержащее анализатор (180) DirAC для анализа объединенной аудиосцены, чтобы извлекать параметры DirAC для объединенной аудиосцены,
при этом параметры DirAC содержат значения направления поступления для частотно-временных мозаичных фрагментов или значения направления поступления и значения диффузности для частотно-временных мозаичных фрагментов, представляющих собой объединенную аудиосцену.
8. Устройство по п. 1,
дополнительно содержащее генератор (160) транспортного канала для формирования сигнала транспортного канала из объединенной аудиосцены или из первой сцены и второй сцены, и
кодер (170) транспортного канала для базового кодирования сигнала транспортного канала, или
в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в формате Ambisonics первого порядка или Ambisonics более высокого порядка с использованием формирователя диаграммы направленности, направленного в левую позицию или правую позицию соответственно, или
в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в многоканальном представлении путем понижающего микширования трех или более каналов многоканального представления, или
в котором генератор (160) транспортного канала выполнен с возможностью формирования стереосигнала из первой сцены или второй сцены в представлении аудиообъекта путем панорамирования каждого объекта с использованием позиции объекта или путем понижающего микширования объектов в стереофоническое понижающее микширование с использованием информации, указывающей, какой объект располагается в каком стереоканале, или
в котором генератор (160) транспортного канала выполнен с возможностью сложения только левого канала стереосигнала с левым транспортным каналом понижающего микширования и сложения только правого канала стереосигнала для получения правого транспортного канала, или
в котором общий формат является B-форматом и при этом генератор (160) транспортного канала выполнен с возможностью обработки объединенного представления B-формата для извлечения сигнала транспортного канала, при этом обработка содержит выполнение операции формирования диаграммы направленности или извлечение подмножества компонентов сигнала B-формата, таких как всенаправленный компонент, в качестве транспортного моноканала, или
при этом обработка содержит формирование диаграммы направленности с использованием всенаправленного сигнала и компонента Y с противоположными знаками B-формата для вычисления левого и правого каналов, или
при этом обработка содержит операцию формирования диаграммы направленности с использованием компонентов B-формата и заданного азимутального угла и заданного угла возвышения, или
в котором генератор (160) транспортного канала выполнен с возможностью предоставления сигналов B-формата объединенной аудиосцены кодеру транспортного канала, при этом любые пространственные метаданные не включаются в вывод объединенной аудиосцены посредством объединителя (140) форматов.
9. Устройство по п. 1, дополнительно содержащее:
кодер (190) метаданных
для кодирования метаданных DirAC, описанных в объединенной аудиосцене, для получения кодированных метаданных DirAC, или
для кодирования метаданных DirAC, извлеченных из первой сцены, для получения первых кодированных метаданных DirAC и для кодирования метаданных DirAC, извлеченных из второй сцены, для получения вторых кодированных метаданных DirAC.
10. Устройство по п. 1, дополнительно содержащее:
интерфейс (200) вывода для формирования кодированного выходного сигнала, представляющего собой объединенную аудиосцену, причем выходной сигнал содержит кодированные метаданные DirAC и один или более кодированных транспортных каналов.
11. Устройство по п. 1,
в котором преобразователь (120) форматов выполнен с возможностью преобразования формата Ambisonics высокого порядка или Ambisonics первого порядка в B-формат, при этом формат Ambisonics высокого порядка усекается перед преобразованием в B-формат, или
в котором преобразователь (120) форматов выполнен с возможностью проецирования объекта или канала на сферические гармоники в опорной позиции для получения спроецированных сигналов, и при этом объединитель (140) форматов выполнен с возможностью объединения спроецированных сигналов для получения коэффициентов B-формата, при этом объект или канал располагается в пространстве в указанной позиции и имеет необязательное отдельное расстояние от опорной позиции, или
в котором преобразователь (120) форматов выполнен с возможностью выполнения анализа DirAC, содержащего частотно-временной анализ компонентов B-формата и определение векторов давления и скорости, и при этом объединитель (140) форматов выполнен с возможностью объединения разных векторов давления/скорости, и при этом объединитель (140) форматов дополнительно содержит анализатор DirAC для извлечения метаданных DirAC из объединенных данных давления/скорости, или
в котором преобразователь (120) форматов выполнен с возможностью извлечения параметров DirAC из метаданных объекта формата аудиообъекта в качестве первого или второго формата, при этом вектор давления является сигналом формы волны объекта и направление извлекается из позиции объекта в пространстве, или диффузность непосредственно задается в метаданных объекта или устанавливается в значение по умолчанию, такое как значение 0, или
в котором преобразователь (120) форматов выполнен с возможностью преобразования параметров DirAC, извлеченных из формата данных объекта, в данные давления/скорости, и объединитель (140) форматов выполнен с возможностью объединения данных давления/скорости с данными давления/скорости, извлеченными из другого описания одного или более других аудиообъектов, или
в котором преобразователь (120) форматов выполнен с возможностью непосредственного извлечения параметров DirAC, и при этом объединитель (140) форматов выполнен с возможностью объединения параметров DirAC для получения объединенной аудиосцены.
12. Устройство по п. 1, в котором преобразователь (120) форматов содержит:
анализатор (180) DirAC для формата ввода Ambisonics первого порядка, или формата ввода Ambisonics высокого порядка, или формата многоканального сигнала;
преобразователь (150, 125, 126, 148) метаданных для преобразования метаданных объекта в метаданные DirAC или для преобразования многоканального сигнала с независимой от времени позицией в метаданные DirAC; и
объединитель (144) метаданных для объединения отдельных потоков метаданных DirAC или объединения метаданных направления поступления из нескольких потоков путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или для объединения метаданных диффузности из разных потоков путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или
при этом объединитель (144) метаданных выполнен с возможностью вычисления для временного/частотного бина первого описания первой сцены значения энергии и значения направления поступления, и вычисления для временного/частотного бина второго описания второй сцены значения энергии и значения направления поступления, и при этом объединитель (140) форматов выполнен с возможностью умножения первой энергии на первое значение направления поступления и сложения результата умножения второго значения энергии и второго значения направления поступления для получения объединенного значения направления поступления или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.
13. Устройство по п. 1,
дополнительно содержащее интерфейс (200, 300) вывода для добавления в объединенный формат отдельного описания объекта для аудиообъекта, причем описание объекта содержит по меньшей мере одно из направления, расстояния, диффузности или любого другого атрибута объекта, при этом объект имеет одно направление по всем полосам частот и является либо статическим, либо движущимся медленнее порогового значения скорости.
14. Способ формирования описания объединенной аудиосцены, содержащий этапы, на которых:
принимают первое описание первой сцены в первом формате и принимают второе описание второй сцены во втором формате, при этом второй формат отличается от первого формата;
преобразуют первое описание в общий формат и преобразуют второе описание в общий формат, когда второй формат отличается от общего формата; и
объединяют первое описание в общем формате и второе описание в общем формате для получения описания объединенной аудиосцены.
15. Запоминающий носитель информации, имеющий сохраненную на нем компьютерную программу для выполнения, при исполнении на компьютере или процессоре, способа по п. 14.
16. Устройство для выполнения синтеза множества аудиосцен, содержащее:
интерфейс (100) ввода для приема первого описания DirAC первой сцены и для приема второго описания DirAC второй сцены и одного или более транспортных каналов; и
блок (220) синтеза DirAC для синтеза множества аудиосцен в спектральной области для получения аудиосигнала в спектральной области, представляющего собой множество аудиосцен; и
спектрально-временной преобразователь (240) для преобразования аудиосигнала в спектральной области во временную область.
17. Устройство по п. 16, в котором блок синтеза DirAC содержит:
объединитель (221) сцен для объединения первого описания DirAC и второго описания DirAC в объединенное описание DirAC; и
рендерер (222) DirAC для рендеринга объединенного описания DirAC с использованием одного или более транспортных каналов для получения аудиосигнала в спектральной области, или
при этом объединитель (221) сцен выполнен с возможностью вычисления для временного/частотного бина первого описания первой сцены значения энергии и значения направления поступления, и вычисления для временного/частотного бина второго описания второй сцены значения энергии и значения направления поступления, и при этом объединитель (221) сцен выполнен с возможностью умножения первой энергии на первое значение направления поступления и сложения результата умножения второго значения энергии и второго значения направления поступления для получения объединенного направления значения поступления или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.
18. Устройство по п. 16,
в котором интерфейс (100) ввода выполнен с возможностью приема для описания DirAC отдельного транспортного канала и отдельных метаданных DirAC,
при этом блок (220) синтеза DirAC выполнен с возможностью рендеринга каждого описания с использованием транспортного канала и метаданных для соответствующего описания DirAC, чтобы получить аудиосигнал в спектральной области для каждого описания, и объединения аудиосигнала в спектральной области для каждого описания, чтобы получить аудиосигнал в спектральной области.
19. Устройство по п. 16, в котором интерфейс (100) ввода выполнен с возможностью приема дополнительных метаданных аудиообъекта для аудиообъекта, и
при этом блок (220) синтеза DirAC выполнен с возможностью выборочной манипуляции дополнительными метаданными аудиообъекта или данными объекта, которые относятся к метаданным, чтобы выполнять направленную фильтрацию на основании данных объекта, включенных в метаданные объекта, или на основании заданной пользователем информации о направлении, или
при этом блок (220) синтеза DirAC выполнен с возможностью выполнения в спектральной области нуль-фазовой функции (226) усиления, причем нуль-фазовая функция усиления зависит от направления аудиообъекта, при этом направление содержится в битовом потоке, если направления объектов передаются в качестве добавочной информации, или при этом направление принимается от интерфейса пользователя.
20. Способ выполнения синтеза множества аудиосцен, содержащий этапы, на которых:
принимают первое описание DirAC первой сцены и принимают второе описание DirAC второй сцены и один или более транспортных каналов; и
синтезируют множество аудиосцен в спектральной области для получения аудиосигнала в спектральной области, представляющего собой множество аудиосцен; и
осуществляют спектрально-временное преобразование аудиосигнала в спектральной области во временную область.
21. Запоминающий носитель информации, имеющий сохраненную на нем компьютерную программу для выполнения, при исполнении на компьютере или процессоре, способа по п. 20.
22. Преобразователь аудиоданных, содержащий:
интерфейс (100) ввода для приема описания объекта для аудиообъекта с метаданными аудиообъекта;
преобразователь (150, 125, 126, 148) метаданных для преобразования метаданных аудиообъекта в метаданные DirAC; и
интерфейс (300) вывода для передачи или сохранения метаданных DirAC.
23. Преобразователь аудиоданных по п. 22, в котором метаданные аудиообъекта имеют позицию объекта и при этом метаданные DirAC имеют направление поступления относительно опорной позиции.
24. Преобразователь аудиоданных по п. 22,
при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью преобразования параметров DirAC, извлеченных из формата данных объекта, в данные давления/скорости, и при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью применения анализа DirAC к данным давления/скорости.
25. Преобразователь аудиоданных по п. 22,
в котором интерфейс (100) ввода выполнен с возможностью приема множества описаний аудиообъектов,
при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью преобразования каждого описания метаданных объекта в отдельное описание данных DirAC, и
при этом преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью объединения отдельных описаний метаданных DirAC для получения объединенного описания DirAC в качестве метаданных DirAC.
26. Преобразователь аудиоданных по п. 25, в котором преобразователь (150, 125, 126, 148) метаданных выполнен с возможностью объединения отдельных описаний метаданных DirAC, причем каждое описание метаданных содержит метаданные направления поступления или метаданные направления поступления и метаданные диффузности, путем отдельного объединения метаданных направления поступления из разных описаний метаданных путем взвешенного сложения, при этом взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или путем объединения метаданных диффузности из разных описаний метаданных DirAC путем взвешенного сложения, причем взвешивание при взвешенном сложении осуществляется в соответствии с энергиями у ассоциированных энергий сигнала давления, или, в качестве альтернативы, выбора значения направления поступления из первого значения направления поступления и второго значения направления поступления, которое ассоциировано с более высокой энергией, в качестве объединенного значения направления поступления.
27. Преобразователь аудиоданных по п. 22,
в котором интерфейс (100) ввода выполнен с возможностью приема для каждого аудиообъекта сигнала формы волны аудиообъекта в дополнение к этим метаданным объекта,
при этом преобразователь аудиоданных дополнительно содержит устройство (163) понижающего микширования для понижающего микширования сигналов формы волны аудиообъектов в один или более транспортных каналов, и
при этом интерфейс (300) вывода выполнен с возможностью передачи или сохранения одного или более транспортных каналов в ассоциации с метаданными DirAC.
28. Способ выполнения преобразования аудиоданных, содержащий этапы, на которых:
принимают описание объекта для аудиообъекта с метаданными аудиообъекта;
преобразуют метаданные аудиообъекта в метаданные DirAC; и
передают или сохраняют метаданные DirAC.
29. Запоминающий носитель информации, имеющий сохраненную на нем компьютерную программу для выполнения, при исполнении на компьютере или процессоре, способа по п. 28.
30. Кодер аудиосцены, содержащий:
интерфейс (100) ввода для приема описания DirAC аудиосцены с метаданными DirAC и для приема сигнала объекта с метаданными объекта;
генератор (400) метаданных для формирования объединенного описания метаданных, содержащего метаданные DirAC и метаданные объекта, при этом метаданные DirAC содержат направление поступления для отдельных частотно-временных мозаичных фрагментов, а метаданные объекта содержат направление или дополнительно расстояние или диффузность отдельного объекта.
31. Кодер аудиосцены по п. 30, в котором интерфейс (100) ввода выполнен с возможностью приема транспортного сигнала, ассоциированного с описанием DirAC аудиосцены, и при этом интерфейс (100) ввода выполнен с возможностью приема сигнала формы волны объекта, ассоциированного с сигналом объекта, и
при этом кодер аудиосцены дополнительно содержит кодер (170) транспортного сигнала для кодирования транспортного сигнала и сигнала формы волны объекта.
32. Кодер аудиосцены по п. 30,
при этом генератор (400) метаданных содержит преобразователь (150, 125, 126, 148) метаданных, который описан в любом из пп. 12, 22-27.
33. Кодер аудиосцены по п. 30,
в котором генератор (400) метаданных выполнен с возможностью формирования, для метаданных объекта, одного широкополосного направления на каждую единицу времени, и при этом генератор метаданных выполнен с возможностью актуализации одного широкополосного направления на каждую единицу времени менее часто, чем метаданных DirAC.
34. Способ кодирования аудиосцены, содержащий этапы, на которых:
принимают описание DirAC аудиосцены с метаданными DirAC и принимают сигнал объекта с метаданными объекта; и
формируют объединенное описание метаданных, содержащее метаданные DirAC и метаданные объекта, при этом метаданные DirAC содержат направление поступления для отдельных частотно-временных мозаичных фрагментов, и при этом метаданные объекта содержат направление или дополнительно расстояние или диффузность отдельного объекта.
35. Запоминающий носитель информации, имеющий сохраненную на нем компьютерную программу для выполнения, при исполнении на компьютере или процессоре, способа по п. 34.
36. Устройство для выполнения синтеза аудиоданных, содержащее:
интерфейс (100) ввода для приема описания DirAC одного или более аудиообъектов, или многоканального сигнала, или сигнала Ambisonics первого порядка, или сигнала Ambisonics высокого порядка, при этом описание DirAC содержит информацию о позиции одного или более объектов, или добавочную информацию для сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, или информацию о позиции для многоканального сигнала в качестве добавочной информации или от интерфейса пользователя;
блок (500) манипулирования для манипулирования описанием DirAC одного или более аудиообъектов, многоканального сигнала, сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка для получения описания DirAC после манипуляции; и
блок (220, 240) синтеза DirAC для синтеза описания DirAC после манипуляции для получения синтезированных аудиоданных.
37. Устройство по п. 36,
при этом блок (220, 240) синтеза DirAC содержит рендерер (222) DirAC для выполнения рендеринга DirAC с использованием описания DirAC после манипуляции для получения аудиосигнала в спектральной области; и
спектрально-временной преобразователь (240) для преобразования аудиосигнала в спектральной области во временную область.
38. Устройство по п. 36,
в котором блок (500) манипулирования выполнен с возможностью выполнения зависимой от позиции операции взвешивания перед рендерингом DirAC.
39. Устройство по п. 36,
в котором блок (220, 240) синтеза DirAC выполнен с возможностью вывода множества объектов, или сигнала Ambisonics первого порядка, или сигнала Ambisonics высокого порядка, или многоканального сигнала, и при этом блок (220, 240) синтеза DirAC выполнен с возможностью использования отдельного спектрально-временного преобразователя (240) для каждого объекта, или каждого компонента сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка, или для каждого канала многоканального сигнала.
40. Способ выполнения синтеза аудиоданных, содержащий этапы, на которых:
принимают описание DirAC одного или более аудиообъектов, или многоканального сигнала, или сигнала Ambisonics первого порядка, или сигнала Ambisonics высокого порядка, при этом описание DirAC содержит информацию о позиции одного или более объектов или многоканального сигнала или дополнительную информацию для сигнала Ambisonics первого порядка или сигнала Ambisonics высокого порядка в качестве добавочной информации или от интерфейса пользователя;
осуществляют манипулирование описанием DirAC для получения описания DirAC после манипуляции; и
синтезируют описание DirAC после манипуляции для получения синтезированных аудиоданных.
41. Запоминающий носитель информации, имеющий сохраненную на нем компьютерную программу для выполнения, при исполнении на компьютере или процессоре, способа по п. 40.
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок | 1923 |
|
SU2008A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
Многоступенчатая активно-реактивная турбина | 1924 |
|
SU2013A1 |
P | |||
MOTLICEK et al | |||
"Real-Time Audio-Visual Analysis for Multiperson Videoconferencing", опубл | |||
Прибор для получения стереоскопических впечатлений от двух изображений различного масштаба | 1917 |
|
SU26A1 |
УСТРОЙСТВО ДЛЯ ОБЪЕДИНЕНИЯ ПРОСТРАНСТВЕННЫХ АУДИОПОТОКОВ | 2009 |
|
RU2504918C2 |
Авторы
Даты
2021-11-09—Публикация
2018-10-01—Подача