ОБОРУДОВАНИЕ И СПОСОБ ДЛЯ СИНТЕЗИРОВАНИЯ ПРОСТРАНСТВЕННО ПРОТЯЖЕННОГО ИСТОЧНИКА ЗВУКА С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИОННЫХ ЭЛЕМЕНТОВ СИГНАЛЬНЫХ МЕТОК Российский патент 2023 года по МПК H04S7/00 H04S1/00 H04S3/00 

Описание патента на изобретение RU2808102C1

Настоящее изобретение относится к обработке аудиосигналов и, в частности, к воспроизведению одного или более пространственно протяженных источников звука.

Для различных применений требуется воспроизведение источников звука по нескольким громкоговорителям или наушникам. Эти применения включают в себя применения виртуальной с 6 степенями свободы (6DoF), смешанной или дополненной реальности. Простейший способ воспроизводить источники звука по таким компоновкам представляет собой их рендеринг в качестве точечных источников. Однако, в случае нацеленности на воспроизведение физических источников звука с не пренебрежимо малой слуховой пространственной протяженностью, эта модель не является достаточной. Примеры для таких источников звука представляют собой рояль, хор или водопад, все из которых имеют некоторый "размер".

Реалистичное воспроизведение источников звука с пространственной протяженностью становится целью многих способов воспроизведения звука. Оно включает в себя бинауральное воспроизведение, с использованием наушников, а также традиционное воспроизведение, с использованием компоновок громкоговорителей в пределах от 2 динамиков ("стерео") до множества динамиков, скомпонованных в горизонтальной плоскости ("звук вокруг"), и до множества динамиков, окружающих слушателя во всех трех измерениях ("трехмерное аудио"). Ниже по тексту приводится описание существующих способов. Различные способы в силу этого группируются в способы с учетом ширины источника в двумерном и, соответственно, трехмерном пространстве.

Описываются способы, которые относятся к рендерингу SESS на двумерной поверхности, обращенной от точки обзора слушателя. Он, например, может быть в некотором диапазоне изменения азимута в ноль градусов подъема (аналогично традиционному стерео/ звуку вокруг) или в некоторых диапазонах азимута и подъема (аналогично трехмерному аудио или виртуальной реальности (VR) с 3 степенями свободы (3DoF) перемещения пользователя, т.е. с вращением головы в осях наклона в продольном направлении/наклона относительно вертикали/крена).

Увеличение кажущейся ширины аудиообъекта, который панорамируется между двумя или более громкоговорителями (формирование так называемого фантомного изображения или фантомного источника), может достигаться посредством снижения корреляции участвующих канальных сигналов [1, стр. 241-257].

Со снижением корреляции, разброс фантомных источников увеличивается до тех пор, пока для корреляционных значений, близких к нулю, он не охватывает весь диапазон между громкоговорителями. Декоррелированные версии сигнала источника получаются посредством извлечения и применения подходящих декорреляционных фильтров. В работе автора Lauridsen [2] предложено суммировать/вычитать масштабированную версию с временной задержкой сигнала источника относительно себя, чтобы получать две декоррелированные версии сигнала. Более сложные подходы, например, предложены в работе автора Kendall [3]. Он итеративно извлекает спаренные декорреляционные всечастотные фильтры на основе комбинаций последовательностей случайных чисел. Работа авторов Faller и др. предлагает подходящие декорреляционные фильтры ("рассеиватели") в [4, 5]. Кроме того, в работе авторов Zotter и др. [6] извлекаются пары фильтров, в которых частотно-зависимые разности фаз или амплитуд используются для того, чтобы достигать расширения фантомного источника. Работа авторов Alary и др. [7] предлагает декорреляционные фильтры на основе бархатного шума, которые дополнительно оптимизированы посредством работы авторов Schlecht и др. [8].

Помимо уменьшения корреляции соответствующих канальных сигналов фантомного источника, ширина источника также может увеличиваться посредством увеличения числа фантомных источников, относящихся к аудиообъекту. В [9], ширина источника управляется посредством панорамирования одного и того же сигнала источника в (немного) различных направлениях. Первоначально предложен способ для того, чтобы стабилизировать воспринимаемый разброс фантомных источников сигналов VBAP-панорамированных [10] источников, когда они перемещаются в звуковой сцене. Это является преимущественным, поскольку в зависимости от направления источника, подготовленный посредством рендеринга источник воспроизводится посредством двух или более динамиков, что может приводить к нежелательным изменениям воспринимаемой ширины источника.

DirAC в виртуальном мире [11] представляет собой расширение традиционного подхода на основе направленного кодирования аудио (DirAC) [12] для синтеза звука в виртуальных мирах. Для рендеринга пространственной протяженности, направленные звуковые компоненты источника случайно панорамируются в пределах некоторого диапазона вокруг исходного направления источника, причем направления панорамирования варьируются во времени и по частоте.

Аналогичный подход задействуется в [13], при котором пространственная протяженность достигается посредством случайного распределения полос частот сигнала источника на различные пространственные направления. Он представляет собой способ, направленный на формирование пространственно распределенного и огибающего звука, поступающего одинаково из всех направлений, вместо управления точной степенью протяженности.

В работе авторов Verron и др. пространственная протяженность источника достигается не посредством использования панорамированных коррелированных сигналов, а посредством синтезирования нескольких некогерентных версий сигнала источника, их равномерного распределения по окружности вокруг слушателя и смешения между собой [14]. Число и усиление одновременно активных источников определяют интенсивность эффекта расширения. Этот способ реализован как пространственное протягивание для синтезатора для звуков окружающей среды.

Описываются способы, которые относятся к рендерингу протяженных источников звука в трехмерном пространстве, т.е. объемным способом, что требуется для VR с 6DoF перемещения пользователя. Эти 6 степеней свободы включают в себя вращение головы в осях наклона в продольном направлении/наклона относительно вертикали/крена плюс 3 направления x/y/z поступательного перемещения в пространстве.

Работа авторов Potard и др. расширяет понятие протяженности источника в качестве одномерного параметра источника (т.е. его ширины между двумя громкоговорителями) посредством изучения восприятия форм источников [15]. В ней формируются несколько некогерентных точечных источников посредством применения (варьирующихся во времени) технологий декорреляции к первоначальному сигналу источника и затем помещения некогерентных источников в различные пространственные местоположения и за счет этого предоставления им трехмерной протяженности [16].

В усовершенствованном MPEG-4 AudioBIFS-стандарте [17], объемные объекты/формы (раковина, коробка, эллипсоид и цилиндр) могут быть заполнены несколькими одинаково распределенными и декоррелированными источниками звука для того, чтобы вызывать трехмерную протяженность источника.

Недавно, в работе Schlecht и др. [18] предложен подход, который проецирует выпуклую оболочку SESS-геометрии к позиции слушателя, это обеспечивает возможность осуществлять рендеринг SESS в любой относительной позиции к слушателю. Аналогично усовершенствованному MPEG-4 AudioBIFS-стандарту, несколько декоррелированных точечных источников затем размещаются в пределах этой проекции.

Чтобы увеличивать и управлять протяженностью источника с использованием амбиофонии, в работе Schmele и др. [19] предложено сочетание уменьшения амбиофонического порядка входного сигнала, который внутренне увеличивает кажущуюся ширину источника, и распределения декоррелированных копий сигнала источника вокруг пространства прослушивания.

Другой подход введен в работе авторов Zotter и др., в которой приспосабливается принцип, предложенный в [6] (т.е. извлечение пар фильтров, которые вводят частотно-зависимые разности фаз и абсолютных величин для того, чтобы достигать протяженности источника в компоновках для стереовоспроизведения) для амбиофонии [20].

Общий недостаток подходов на основе панорамирования (например, [10, 9, 12, 11]) заключается в их зависимости от позиции слушателя. Даже небольшое отклонение от зоны наилучшего восприятия приводит к тому, что пространственное изображение сворачивается до громкоговорителя, ближайшего к слушателю. Это радикально ограничивает их применение в контексте VR и дополненной реальности (AR), в котором слушатель предположительно свободно перемещается. Дополнительно, распределение частотно-временных бинов в подходах на основе DirAC (например, [12, 11]) не всегда гарантирует надлежащий рендеринг пространственной протяженности фантомных источников. Кроме того, оно типично значительно ухудшает тембр сигнала источника.

Декорреляция сигналов источников обычно достигается посредством одного из следующих способов: i) извлечение пар фильтров с комплементарной абсолютной величиной (например, [2]) или ii) использование всечастотных фильтров с постоянной абсолютной величиной, но (случайно) скремблированной фазой (например, [3, 16]). Кроме того, расширение сигнала источника получается посредством пространственно случайного распределения частотно-временных бинов сигнала источника (например, [13]).

Все подходы влекут за собой собственные последствия: Комплементарная фильтрация сигнала источника согласно i) типично приводит к измененному воспринимаемому тембру декоррелированных сигналов. Хотя всечастотная фильтрация, как указано в ii), сохраняет тембр сигнала источника, скремблированная фаза нарушает исходные соотношения фаз и, в частности, для переходных сигналов, вызывает серьезные артефакты дисперсии и размывания. Пространственное распределение частотно-временных бинов оказывается эффективным для некоторых сигналов, но также и изменяет воспринимаемый тембр сигнала. Оно демонстрирует сильную зависимость от сигнала и вводит серьезные артефакты для импульсных сигналов.

Заполнение объемных форм множественными декоррелированными версиями сигнала источника, предложенное в усовершенствованном AudioBIFS-стандарте ([17, 15, 16]), предполагает доступность большого числа фильтров, которые формируют взаимно декоррелированные выходные сигналы (типично, более десяти точечных источников в расчете на объемную форму используются). Однако, нахождение таких фильтров не представляет собой тривиальную задачу и становится тем более сложным, чем больше таких фильтров требуется. Если сигналы источников не полностью декоррелируются, и слушатель перемещается вокруг такой формы, например, в VR-сценарии, отдельные расстояния от источника до слушателя соответствуют различным задержкам сигналов источников. Их наложение в ушах слушателя в силу этого должно приводить к позиционно-зависимой гребенчатой фильтрации, потенциально вводя раздражающее неустановившееся окрашивание сигнала источника. Кроме того, применение множества декорреляционных фильтров означает существенную вычислительную сложность.

Аналогичные соображения применяются к подходу, описанному в [18], в котором некоторое число декоррелированных точечных источников размещается на проекции выпуклой оболочки SESS-геометрии. Хотя авторы ничего не упоминают касательно требуемого числа декоррелированных вспомогательных источников, потенциально большое число требуется для того, чтобы достигать убедительной протяженности источника. Это приводит к недостаткам, уже поясненным в предыдущем параграфе.

Управление шириной источника с использованием технологии на основе амбиофонии, описанной в [19], посредством понижения амбиофонического порядка демонстрирует наличие слышимого эффекта только для переходов от второго к первому или к нулевому порядку. Эти переходы воспринимаются не только в качестве расширения источника, но также и часто в качестве перемещения фантомного источника. При том, что суммирование декоррелированных версий сигнала источника может помогать в стабилизации восприятия очевидной ширины источника, оно также вводит эффекты гребенчатой фильтрации, которые изменяют тембр фантомного источника.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованную концепцию синтезирования пространственно протяженного источника звука.

Это цель достигается посредством оборудования для синтезирования пространственно протяженного источника звука по п. 1, способа синтезирования пространственно протяженного источника звука по п. 23 или компьютерной программы по п. 24.

Настоящее изобретение основано на таких выявленных сведениях, что воспроизведение пространственно протяженного источника звука может эффективно достигаться посредством использования индикатора пространственного диапазона, указывающего ограниченный пространственный целевой диапазон для пространственно протяженного источника звука в пределах максимального пространственного диапазона. На основе индикатора пространственного диапазона и, в частности, на основе ограниченного пространственного диапазона, предоставляются один или более информационных элементов сигнальных меток, и процессор обрабатывает аудиосигнал, представляющий пространственно протяженный источник звука, с использованием одного или более элементов сигнальных меток.

Эта процедура достигает высокоэффективной обработки пространственно протяженного источника звука. Для воспроизведения в наушниках, например, требуются только два бинауральных канала, т.е. левый бинауральный канал или правый бинауральный канал. Для стереовоспроизведения, также требуются только два канала. Таким образом, в отличие от синтезирования пространственно протяженного источника звука с использованием значительного числа периферийных источников звука, заполняющих фактический объем или зону пространственно протяженного источника звука либо, в общем, заполняющих ограниченный пространственный диапазон вследствие своего отдельного размещения, это не требуется в соответствии с настоящим изобретением, поскольку пространственно протяженный источник звука не подготавливается посредством рендеринга с использованием значительного числа отдельных источников звука, размещенных внутри объема, но рендеринг пространственно протяженного источника звука осуществляется с использованием двух или, вероятно, трех каналов, которые имеют некоторые сигнальные метки друг с другом, которые должны получаться, когда высокое число периферийных отдельных источников звука принято в двух или трех местоположениях.

Таким образом, в отличие от различных способов, которые существуют и направлены на реалистичное воспроизведение пространственно протяженных источников звука (SESS), причем эти существующие способы типично требуют большого числа декоррелированных входных сигналов, настоящее изобретение идет в другом направлении. Формирование таких декоррелированных входных сигналов может быть относительно затратным с точки зрения вычислительной сложности. Более ранние существующие способы также могут нарушать воспринимаемое качество звука в силу разностей тембра или размывания тембра. Кроме того, нахождение большого числа взаимно ортогональных декорреляторов, в общем, не упрощает решение проблемы. Следовательно, такие предшествующие процедуры всегда приводят к компромиссу между степенью взаимной декорреляции и введенным ухудшением характеристик сигнала, помимо требуемых больших объемов вычислительных ресурсов.

В отличие от этого, настоящее изобретение синтезирует результирующее небольшое число каналов, к примеру, результирующий левый канал и результирующий правый канал для пространственно протяженного источника звука с использованием только двух декоррелированных входных сигналов. Предпочтительно, результат синтеза представляет собой сигнал в левое и в правое ухо для воспроизведения в наушниках. Однако, для других видов сценариев воспроизведения, таких как рендеринг в громкоговорителях или рендеринг в громкоговорителях для уменьшения активных перекрестных помех, также может применяться настоящее изобретение. Вместо размещения многих различных декоррелированных звуковых сигналов в различных местах внутри объема для пространственно протяженного источника звука, аудиосигнал для пространственно протяженного источника звука, состоящий из одного или более каналов, обрабатывается с использованием одного или более информационных элементов сигнальных меток, извлекаемых из поставщика информации сигнальных меток в ответ на индикатор ограниченного пространственного диапазона, принимаемый из интерфейса пространственной информации.

Предпочтительные варианты осуществления направлены на эффективное синтезирование SESS для воспроизведения в наушниках. Синтез в силу этого основан на базовой модели описания SESS посредством (в идеале) бесконечного числа плотно разнесенных декоррелированных точечных источников, распределенных по всему диапазону протяженностей источников. Требуемый диапазон протяженностей источников может выражаться как функция от угла азимута и подъема, что обеспечивает применимость изобретаемого способа к 3DoF-вариантам применения. Однако, расширение на 6DoF-варианты применения является возможным посредством непрерывного проецирования SESS-геометрии в направлении к текущей позиции слушателя, как описано в [18]. В качестве конкретного примера, требуемая протяженность источника описывается далее с точки зрения диапазона углов азимута и подъема.

Дополнительные предпочтительные варианты осуществления базируются на использовании значения межканальной корреляции в качестве информации сигнальных меток или дополнительно используют межканальную разность фаз, межканальную разность времен, межуровневую разность и коэффициент усиления или пару из информационного элемента первых и вторых коэффициентов усиления. Следовательно, абсолютные уровни каналов могут или задаваться посредством двух коэффициентов усиления или одного коэффициента усиления и межканальной разности уровней. Любые функции аудиофильтра вместо фактических элементов сигнальных меток или в дополнение к фактическим элементам сигнальных меток также могут предоставляться в качестве информационных элементов сигнальных меток из поставщика информации сигнальных меток в аудиопроцессор таким образом, что аудиопроцессор работает посредством синтезирования, например, двух выходных каналов, таких как два бинауральных выходных канала или пара из левого и правого выходного канала с использованием применения фактического элемента сигнальных меток и, необязательно, фильтрации с использованием передаточной функции восприятия звука для каждого канала в качестве информационного элемента сигнальных меток либо с использованием функции импульсного отклика восприятия звука в качестве информационного элемента сигнальных меток, либо с использованием бинауральной или (небинауральной) функции импульсного отклика в помещении в качестве информационного элемента сигнальных меток. В общем, задание только одного элемента сигнальных меток может быть достаточным, но в более тщательно продуманных вариантах осуществления, более одного элемента сигнальных меток с или без фильтров могут налагаться на аудиосигналы посредством аудиопроцессора.

Таким образом, когда, в варианте осуществления, значение межканальной корреляции предоставляется в качестве информационного элемента сигнальных меток, и при этом аудиосигнал содержит первый аудиоканал и второй аудиоканал для пространственно протяженного источника звука, либо при этом аудиосигнал содержит первый аудиоканал, и второй аудиоканал извлекается из первого аудиоканала посредством процессора второго канала, реализующего, например, обработку декорреляции или нейронную сетевую обработку, или любой другую обработку для извлечения сигнала, который может рассматриваться как декоррелированный сигнал, аудиопроцессор выполнен с возможностью налагать корреляцию между первым аудиоканалом и вторым аудиоканалом с использованием значения межканальной корреляции и, либо помимо этого, либо до или после этой обработки, функции аудиофильтра также могут применяться для того, чтобы в итоге получать два выходных канала, которые имеют целевую межканальную корреляцию, указываемую посредством значения межканальной корреляции, и которые дополнительно имеют другие взаимосвязи, указываемые посредством отдельных функций фильтра или других фактических элементов сигнальных меток.

Поставщик информации сигнальных меток может реализовываться как таблица поиска, содержащая запоминающее устройство, либо как гауссова смешанная модель, либо как метод опорных векторов, либо как векторная таблица кодирования, многомерная подгонка функции или некоторое другое устройство, эффективно предоставляющее требуемые сигнальные метки в ответ на индикатор пространственного диапазона.

Например, в примере на основе таблицы поиска либо в примере на основе векторной таблицы кодирования или на основе многомерной подгонки функции, либо также в GMM- или SVM-примере, можно предоставлять предварительные сведения таким образом, что основная задача интерфейса пространственной информации заключается в том, чтобы фактически находить совпадающий кандидатный пространственный диапазон, который совпадает, из всех доступных кандидатных пространственных диапазонов, максимально хорошо с информацией индикатора входного пространственного диапазона. Эта информация может предоставляться непосредственно через пользователя или может вычисляться с использованием информации относительно пространственно протяженного источника звука и с использованием позиции слушателя или ориентации слушателя (например, определенной посредством модуля слежения за положением головы или такого устройства) посредством некоторого вычисления проекции. Геометрия или размер объекта и расстояние между слушателем и объектом могут быть достаточными для того, чтобы извлекать угол раскрытия и таким образом ограниченный пространственный диапазон для рендеринга источника звука. В других вариантах осуществления, интерфейс пространственной информации представляет собой просто ввод для приема ограниченного пространственного диапазона и для перенаправления этих данных в поставщик информации сигнальных меток, когда данные, принятые посредством интерфейса, уже находятся в формате, используемом посредством поставщика информации сигнальных меток.

Далее поясняются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:

Фиг. 1a иллюстрирует предпочтительную реализацию оборудования для синтезирования пространственно протяженного источника звука;

Фиг. 1b иллюстрирует другой вариант осуществления аудиопроцессора и поставщика информации сигнальных меток;

Фиг. 2 иллюстрирует предпочтительный вариант осуществления процессора второго канала, включенного в аудиопроцессор по фиг. 1a;

Фиг. 3 иллюстрирует предпочтительную реализацию устройства для выполнения ICC-регулирования;

Фиг. 4 иллюстрирует предпочтительный вариант осуществления настоящего изобретения, в котором информационные элементы сигнальных меток базируются на фактических элементах сигнальных меток и фильтрах;

Фиг. 5 иллюстрирует другой вариант осуществления, дополнительно базирующийся на фильтрах и элементе межканальной корреляции;

Фиг. 6 иллюстрирует схематичную карту секторов, иллюстрирующую максимальный пространственный диапазон в двумерной или трехмерной ситуации и отдельные секторы или ограниченные пространственные диапазоны, которые, например, могут использоваться в качестве кандидатных секторов;

Фиг. 7 иллюстрирует реализацию интерфейса пространственной информации;

Фиг. 8 иллюстрирует другую реализацию интерфейса пространственной информации, базирующуюся на процедурах вычисления проекции;

Фиг. 9a и 9b иллюстрируют варианты осуществления для выполнения вычисления проекции и определения пространственных диапазонов;

Фиг. 10 иллюстрирует другую предпочтительную реализацию интерфейса пространственной информации;

Фиг. 11 иллюстрирует еще одну дополнительную реализацию интерфейса пространственной информации, связанную с реализацией декодера;

Фиг. 12 иллюстрирует вычисление ограниченного пространственного диапазона для сферического пространственно протяженного источника звука;

Фиг. 13 иллюстрирует дополнительные вычисления ограниченных пространственных диапазонов для эллипсоидного пространственно протяженного источника звука;

Фиг. 14 иллюстрирует дополнительное вычисление ограниченного пространственного диапазона для линейного пространственно протяженного источника звука;

Фиг. 15 приводит дополнительную иллюстрацию для вычисления ограниченного пространственного диапазона для кубоидного пространственно протяженного источника звука;

Фиг. 16 иллюстрирует дополнительный пример для вычисления ограниченного пространственного диапазона для сферического пространственно протяженного источника звука;

Фиг. 17 иллюстрирует пространственно протяженный источник звука в форме фортепьяно с аппроксимированной параметрической эллипсоидной формой; и

Фиг. 18 иллюстрирует точки для задания ограниченного пространственного диапазона для рендеринга пространственно протяженного источника звука в форме фортепьяно.

Фиг. 1a иллюстрирует предпочтительную реализацию оборудования для синтезирования пространственно протяженного источника звука. Оборудование содержит интерфейс 10 пространственной информации, который принимает ввод информации индикатора пространственного диапазона, указывающий ограниченный пространственный диапазон для пространственно протяженного источника звука в пределах максимального пространственного диапазона. Ограниченный пространственный диапазон вводится в поставщик 200 информации сигнальных меток, выполненный с возможностью предоставления одного или более информационных элементов сигнальных меток в ответ на ограниченный пространственный диапазон, предоставленный посредством интерфейса 10 пространственной информации. Информационный элемент сигнальных меток или несколько информационных элементов сигнальных меток предоставляются в аудиопроцессор 300, выполненный с возможностью обработки аудиосигнала, представляющего пространственно протяженный источник звука, с использованием одного или более информационных элементов сигнальных меток, предоставленных посредством поставщика 200 информации сигнальных меток. Аудиосигнал для пространственно протяженного источника звука (SESS) может представлять собой один канал либо может представлять собой первый аудиоканал и второй аудиоканал, либо может представлять собой более двух аудиоканалов. Однако, для целей наличия низкой нагрузки по обработке, небольшое число каналов для пространственно протяженного источника звука или для аудиосигнала, представляющего пространственно протяженный источник звука, является предпочтительным. Аудиосигнал вводится в аудиосигнальный интерфейс 305 аудиопроцессора 300, и аудиопроцессор 300 обрабатывает входной аудиосигнал, принимаемый посредством аудиосигнального интерфейса, либо когда число входных аудиоканалов меньше, чем требуется, например, составляет только один, аудиопроцессор содержит процессор 310 второго канала, проиллюстрированный на фиг. 2, содержащий, например, декоррелятор для формирования второго аудиоканала S2, декоррелированного из первого аудиоканала S, который также проиллюстрирован на фиг. 2 в качестве S1. Информационные элементы сигнальных меток могут представлять собой фактические элементы сигнальных меток, такие как элементы межканальной корреляции, элементы межканальной разности фаз, элементы межканальной разности уровней и усилений, элементы G1, G2 коэффициентов усиления, совместно представляющие межканальную разность уровней и/или абсолютные уровни амплитуды или мощности, или энергии, например, либо информационные элементы сигнальных меток также могут представлять собой фактические функции фильтра, такие как передаточные функции восприятия звука с числом, требуемым посредством фактического числа подлежащих синтезированию выходных каналов в синтезирующем сигнале. Таким образом, когда синтезирующий сигнал должен иметь два канала, к примеру, два бинауральных канала или два каналов громкоговорителей, требуется одна передаточная функция восприятия звука для каждого канала. Вместо передаточных функций восприятия звука, необходимы функции импульсного отклика восприятия звука (HRIR) или функции бинаурального или небинаурального импульсного отклика в помещении ((B)RIR). Как проиллюстрировано на фиг. 1a, одна такая передаточная функция требуется для каждого канала, и фиг. 1a иллюстрирует реализацию с наличием двух каналов таким образом, что индексы указывают "1" и "2".

В варианте осуществления, поставщик 200 информации сигнальных меток выполнен с возможностью предоставлять, в качестве информационного элемента сигнальных меток, значение межканальной корреляции. Аудиопроцессор 300 выполнен с возможностью фактически принимать, через аудиосигнальный интерфейс 305, первый аудиоканал и второй аудиоканал. Однако, когда аудиосигнальный интерфейс 305 принимает только один канал, необязательно предоставляемый второй процессор каналов формирует, для примера, посредством процедуры на фиг. 2, второй аудиоканал. Аудиопроцессор выполняет обработку корреляции, чтобы налагать корреляцию между первым аудиоканалом и вторым аудиоканалом с использованием значения межканальной корреляции.

Дополнительно или альтернативно, может предоставляться дополнительный информационный элемент сигнальных меток, такой как элемент межканальной разности фаз, элемент межканальной разности времен, элемент межканальной разности уровней и усилений либо информационный элемент первых коэффициентов усиления и вторых коэффициентов усиления. Элементы также могут представлять собой значения интерауральной корреляции (IACC), т.е. более конкретные значения межканальной корреляции, или элементы интерауральной разности фаз (IAPD), т.е. более конкретные значения межканальной разности фаз.

В предпочтительном варианте осуществления, корреляция налагается посредством аудиопроцессора 300 в ответ на информационный элемент сигнальных меток корреляции, до того, как выполняются ICPD-, ICTD- или ICLD-регулирования, либо до того, как выполняются HRTF или другие функциональные обработки передаточного фильтра. Однако, в зависимости от обстоятельств, порядок может задаваться по-другому.

В предпочтительном варианте осуществления, аудиопроцессор содержит запоминающее устройство для сохранения информации касательно различных информационных элементов сигнальных меток относительно различных индикаторов пространственного диапазона. В этой ситуации, поставщик информации сигнальных меток дополнительно содержит выходной интерфейс для извлечения, из запоминающего устройства, одного или более информационных элементов сигнальных меток, ассоциированных с индикатором пространственного диапазона, вводимым в соответствующее запоминающее устройство. Такая таблица 210 поиска, например, иллюстрируется на фиг. 1b, 4 или 5, причем таблица поиска содержит запоминающее устройство и выходной интерфейс для вывода соответствующих информационных элементов сигнальных меток. В частности, запоминающее устройство может не только сохранять IACC-, IAPD- или Gl- и Gr-значения, как проиллюстрировано на фиг. 1b, но запоминающее устройство в таблице поиска также может сохранять функции фильтра, как проиллюстрировано в блоке 220 по фиг. 4 и по фиг. 5, что указывается как "выбор HRTF". В этом варианте осуществления, хотя иллюстрируются отдельно на фиг. 4 и на фиг. 5, блоки 210, 220 могут содержать одинаковое запоминающее устройство, причем, в ассоциации с соответствующим индикатором пространственного диапазона, указываемым в качестве углов азимута и углов подъема, соответствующие информационные элементы сигнальных меток, такие как IACC и, необязательно, IAPD, и передаточные функции для фильтров, такие как HRTFl для левого выходного канала и HRTFr для правого выходного канала сохраняются, при этом левый и правый выходные каналы указываются в качестве Sl и Sr на фиг. 4 или на фиг. 5, или на фиг. 1b.

Запоминающее устройство, используемое посредством таблицы 210 поиска или блока 220 выбора функции, также может использовать устройство хранения данных, в котором, на основе некоторых кодов секторов либо углов секторов или диапазонов углов секторов, доступны соответствующие параметры. Альтернативно, запоминающее устройство может сохранять процедуру обработки векторной таблицы кодирования или многомерной подгонки функции либо гауссову смешанную модель (GMM) или метод опорных векторов (SVM) в зависимости от обстоятельств.

С учетом требуемого диапазона протяженностей источников, SESS синтезируется с использованием двух декоррелированных входных сигналов. Эти входные сигналы обрабатываются таким образом, что перцепционно важные слуховые сигнальные метки воспроизводятся корректно. Это включает в себя следующие интерауральные сигнальные метки: интерауральная взаимная корреляция (IACC), интерауральные разности фаз (IAPD) и интерауральные разности уровней (IALD). Помимо этого, воспроизводятся монауральные спектральные сигнальные метки. Они являются важными главным образом для локализации источников звука в вертикальной плоскости. Хотя IAPD и IALD также являются важными главным образом для целей локализации, известно, что IACC представляет собой крайне важную сигнальную метку для восприятия ширин источников в горизонтальной плоскости. Во время выполнения, целевые значения этих сигнальных меток извлекаются из предварительно вычисляемого хранилища данных. Ниже по тексту, таблица поиска используется с этой целью. Однако, может использоваться каждое другое средство сохранения многомерных данных, например, векторная таблица кодирования или многомерная подгонка функции. За исключением рассматриваемого диапазона протяженностей источников, все сигнальные метки зависят только от используемого набора данных передаточной функции восприятия звука (HRTF). В дальнейшем приводится извлечение различных слуховых сигнальных меток.

На фиг. 1b, показывается общая блок-схема предложенного способа. описывает требуемую протяженность источника с точки зрения диапазона углов азимута. является требуемой протяженностью источника с точки зрения диапазона углов подъема. S1(ω) и S2(ω) обозначают два декоррелированных входных сигнала, где ω описывает частотный индекс. Таким образом, для S1(ω) и S2(ω), следующее уравнение является справедливым:

Дополнительно, оба входных сигнала должны иметь одинаковую спектральную плотность мощности. В качестве альтернативы, можно предоставлять только один входной сигнал, S(ω). Второй входной сигнал формируется внутренне с использованием декоррелятора, как проиллюстрировано на фиг. 2. При условии Sl(ω) и Sr(ω), протяженный источник звука синтезируется посредством последовательного регулирования межканальной когерентности (ICC), межканальных разностей фаз (ICPD) и межканальных разностей уровней (ICLD) таким образом, что они совпадают с соответствующими интерауральными сигнальными метками. Величины, необходимые для этих этапов обработки, считываются из предварительно вычисленной таблицы поиска. Результирующие сигналы левого и правого канала, Sl(ω) и Sr(ω), могут воспроизводиться через наушники и напоминать SESS. Следует отметить, что ICC-регулирование должно выполняться сначала; однако, блоки ICPD- и ICLD-регулирования могут меняться местами. Вместо IAPD, также могут воспроизводиться соответствующие интерауральные разности времен (IATD). Однако, далее подробнее рассматривается только IAPD.

В блоке ICC-регулирования, взаимная корреляция между обоими входными сигналами регулируется до требуемого значения |IACC(ω)| с использованием следующих формул[21]:

(2)

(3)

, (4)

. (5)

Применение этих формул приводит к требуемой взаимной корреляции, при условии, что входные сигналы S1(ω) и S2(ω) полностью декоррелируются. Дополнительно, их спектральная плотность мощности должна быть одинаковой. Соответствующая блок-схема показывается на фиг. 3.

Блок ICPD-регулирования описывается посредством следующих формул:

В завершение, ICLD-регулирование выполняется следующим образом:

где Gl(ω) описывает усиление для левого уха, и Gr(ω) описывает усиление для правого уха. Это приводит к требуемой ICLD при условии, что и фактически имеют одинаковую спектральную плотность мощности. Поскольку усиление для левого и правого уха используется непосредственно, монауральные спектральные сигнальные метки воспроизводятся в дополнение к IALD.

Чтобы дополнительно упрощать ранее поясненный способ, описываются два варианта для упрощения. Как упомянуто выше, основная интерауральная сигнальная метка, оказывающая влияние на воспринимаемую пространственную протяженность (в горизонтальной плоскости), представляет собой IACC. Следовательно, должна быть возможность не использовать предварительно вычисленные IAPD- и/или IALD-значения, а регулировать IAPD- и/или IALD-значения непосредственно через HRTF. С этой целью, используется HRTF, соответствующая позиции, представляющей требуемый диапазон протяженностей источников. В качестве этой позиции, среднее требуемого диапазона изменения азимута/подъема выбирается здесь без потери общности. Ниже по тексту приводится описание обоих вариантов.

Первый вариант заключает в себе использование предварительно вычисленных IACC- и IAPD-значений. Однако, ICLD регулируется с использованием HRTF, соответствующей центру диапазона протяженностей источников.

Блок-схема первого варианта показывается на фиг. 4. Sl(ω) и Sr(ω) теперь вычисляются с использованием следующих формул:

где и описывают местоположение HRTF, которая представляет среднее требуемого диапазона изменения азимута/подъема. Основные преимущества первого варианта включают в себя:

- Отсутствие формирования спектра/окрашивания, когда протяженность источника увеличивается по сравнению с точечным источником в центре диапазона протяженностей источников.

- Более низкие требования к запоминающему устройству по сравнению с полнофункциональным способом, поскольку Gl(ω) и Gr(ω) не должны обязательно сохраняться в таблице поиска.

- Большая гибкость к изменениям набора HRTF-данных во время выполнения по сравнению с полнофункциональным способом, поскольку только результирующие ICC и ICPD, а не ICLD, зависят от набора HRTF-данных, используемого во время предварительного вычисления.

Основной недостаток этой упрощенной версии заключается в том, что она должна сбоить каждый раз, когда радикальные изменения в IALD возникают, по сравнению с непротяженным источником. В этом случае, IALD не должна воспроизводиться с достаточной точностью. Это, например, имеет место, когда источник не центрируется вокруг азимута в 0°, и в то же время, протяженность источника в горизонтальном направлении становится слишком большой.

Второй вариант заключает в себе использование только предварительно вычисленных IACC-значений. ICPD и ICLD регулируются с использованием HRTF, соответствующей центру диапазона протяженностей источников.

Блок-схема второго варианта показывается на фиг. 5. Sl(ω) и Sr(ω) теперь вычисляются с использованием следующих формул:

В отличие от первого варианта, фаза и абсолютная величина HRTF теперь используются вместо только абсолютной величины. Это обеспечивает возможность регулировать не только ICLD, но также и ICPD. Основные преимущества второго варианта включают в себя:

--- Что касается первого варианта, формирование спектра/окрашивание не возникает, когда протяженность источника увеличивается по сравнению с точечным источником в центре диапазона протяженностей источников.

--- Еще более низкие требования к запоминающему устройству, чем для первого варианта, поскольку ни Gl(ω) и Gr(ω), ни IAPD не должны обязательно сохраняться в таблице поиска.

--- По сравнению с первым вариантом, еще большая гибкость к изменениям набора HRTF-данных во время выполнения. Только результирующая ICC зависит от набора HRTF-данных, используемого во время предварительного вычисления.

--- Эффективная интеграция в существующие системы бинаурального рендеринга является возможной, поскольку только два различных ввода, и , должны использоваться для формирования сигналов в левое и в правое ухо.

Что касается первого варианта, эта упрощенная версия должна сбоить каждый раз, когда радикальные изменения в IALD возникают по сравнению с непротяженным источником. Дополнительно, изменения IAPD не должны быть слишком большими по сравнению с непротяженным источником. Однако, поскольку IAPD протяженного источника должна составлять достаточно близко к IAPD точечного источника в центре диапазона протяженностей источников, последнее не предполагается в качестве существенной проблемы.

Фиг. 6 иллюстрирует примерную схематичную карту секторов. В частности, схематичная карта секторов проиллюстрирована на 600, и схематичная карта 600 секторов иллюстрирует максимальный пространственный диапазон. Когда схематичная карта секторов считается двумерной иллюстрацией трехмерной поверхности сферы, которая обусловлена за счет показа диапазонов углов азимута и подъема от 0° до 360° для угла азимута и от -90° до +90° для угла подъема, становится очевидным, что когда схематичная карта секторов обертывается на сферу, и позиция слушателя размещается в центре сферы, все отдельные секторы, примерно проиллюстрированные посредством некоторых экземпляров, т.е. S1-S24, могут подразделять целую сферическую поверхность на секторы. Следовательно, например, сектор S3 протягивается относительно диапазона углов азимута от Φ1=60° до Φ2 в 90°, когда применяется обозначение по фиг. 1b, по фиг. 4, по фиг. 5. Сектор S3 примерно протягивается в пределах диапазона углов подъема между -30° и 0°.

Однако, схематичная карта 600 секторов также может использоваться, когда слушатель размещается не в центре сферы, а размещается в некоторой позиции относительно сферы. В таком случае, только некоторые секторы сферы являются видимыми, но не обязательно, что для всех секторов сферы некоторые информационные элементы сигнальных меток доступны. Необходимо только то, что для некоторых (требуемых) секторов, доступны некоторые информационные элементы сигнальных меток, которые предпочтительно предварительно вычисляются, как пояснено позднее, или которые альтернативно получаются посредством измерений.

Альтернативно, схематичная карта секторов может рассматриваться в качестве двумерного максимального диапазона, в котором может быть расположен пространственно протяженный источник звука. В такой ситуации, горизонтальное расстояние протягивается между 0% и 100%, и вертикальное расстояние протягивается между 0% и 100%. Фактическое вертикальное расстояние или протягивание и фактическое горизонтальное расстояние или протягивание могут преобразовываться через некоторый абсолютный коэффициент масштабирования в абсолютные расстояния или протягивания. Когда, например, коэффициент масштабирования составляет 10 метров, 25% должно соответствовать 2,5 метра в горизонтальном направлении. В вертикальном направлении, коэффициенты масштабирования могут быть одинаковыми или отличающимися от коэффициента масштабирования в горизонтальном направлении. Таким образом, для примера горизонтального/вертикального расстояния/протягивания, сектор S5 должен протягиваться, относительно размера по горизонтали, между 33% и 42% относительно (максимального) коэффициента масштабирования, и сектор S5 протягиваться, в вертикальном диапазоне, между 33% и 50% относительно коэффициента вертикального масштабирования. Таким образом, сферический или несферический максимальный пространственный диапазон может подразделяться, например, на ограниченные пространственные диапазоны или секторы S1-S24.

Чтобы адаптировать растеризацию эффективным способом к человеческому восприятию при прослушивании, предпочтительно иметь низкое разрешение в вертикальном или подъемном направлении и иметь более высокое разрешение в горизонтальном или азимутальном направлении. В качестве примера, можно использовать только секторы сферы, которые охватывают весь диапазон изменения подъема, что должно означать то, что только одна линия секторов, протягивающихся, например, от S1 до S12, доступна в качестве различных секторов или ограниченных пространственных диапазонов, причем размеры по горизонтали задаются посредством некоторых угловых значений, и размер по вертикали протягивается от -90° до +90° для каждого сектора. Естественно, также доступны другие технологии секторизации, например, имеющие в примере по фиг. 6, 24 сектора, при этом секторы S1-S12 охватывают, для каждого сектора, весь диапазон изменения подъема или вертикальный диапазон между -90° и 0° или между 0% и 50%, при этом другие секторы S13-S24 охватывают верхнюю полусферу между углами подъема от 0° до 90° или охватывают верхнюю половину "горизонта", протягивающегося между 50% и 100%.

Фиг. 7 иллюстрирует предпочтительную реализацию интерфейса 10 пространственной информации по фиг. 1a. В частности, интерфейс пространственной информации содержит фактический (пользовательский) приемный интерфейс для приема индикатора пространственного диапазона. Индикатор пространственного диапазона может вводиться самим пользователем или может извлекаться из информации модуля слежения за положением головы в случае, если модуль 30 согласования в режиме виртуальной реальности или дополненной реальности сопоставляет фактически принимаемый ограниченный пространственный диапазон с доступными кандидатными пространственными диапазонами, которые известны из поставщика 200 информации сигнальных меток, чтобы находить совпадающий кандидатный пространственный диапазон, который является ближайшим к фактически входному ограниченному пространственному диапазону. На основе этого совпадающего кандидатного пространственного диапазона, поставщик 200 информации сигнальных меток из фиг. 1a доставляет один или более информационных элементов сигнальных меток, таких как межканальные данные или функции фильтра. Совпадающий кандидатный пространственный диапазон или ограниченный пространственный диапазон может содержать пару углов азимута или пару углов подъема либо и то, и другое, как проиллюстрировано, например, на фиг. 1b, показывающем диапазон изменения азимута и диапазон изменения подъема для сектора.

Альтернативно, как проиллюстрировано на фиг. 6, ограниченный пространственный диапазон может быть ограничен посредством информации относительно горизонтального расстояния, информации относительно вертикального расстояния либо информации относительно вертикального расстояния и информации относительно горизонтального расстояния. Когда максимальный пространственный диапазон растеризуется в двух измерениях, не только одно вертикальное или горизонтальное расстояние является достаточным, но и пара из вертикального расстояния и горизонтального расстояния, как проиллюстрировано относительно сектора S5, требуется. С другой стороны, альтернативно, информация ограниченного пространственного диапазона может содержать код, идентифицирующий ограниченный пространственный диапазон в качестве конкретного сектора максимального пространственного диапазона, причем максимальный пространственный диапазон содержит множество различных секторов. Такой код, например, задается посредством индикаторов S1-S24, поскольку каждый код уникально ассоциирован с некоторым геометрическим двумерным или трехмерным сектором на схематичной карте 600 секторов.

Фиг. 8 иллюстрирует дополнительную реализацию интерфейса пространственной информации, также состоящего из пользовательского приемного интерфейса 100, но теперь состоящего, дополнительно, из модуля 120 вычисления проекции и последующего соединенного модуля 140 определения пространственных диапазонов. Пользовательский приемный интерфейс 100 примерно принимает позицию слушателя, причем позиция слушателя содержит фактическое местоположение пользователя в некотором окружении и/или ориентацию пользователя в некотором местоположении. Таким образом, позиция слушателя может быть связана с фактическим местоположением с фактической ориентацией либо как с фактическим местоположением слушателя, так и с фактической ориентацией слушателя. На основе этих данных, модуль 120 вычисления проекции вычисляет, с использованием информации относительно пространственно протяженного источника звука, так называемые данные проекции оболочки. SESS-информация может содержать геометрию пространственно протяженного источника звука и/или позицию пространственно протяженного источника звука, и/или ориентацию пространственно протяженного источника звука и т.д. На основе данных проекции оболочки, модуль 140 определения пространственных диапазонов определяет ограниченный пространственный диапазон в одной из альтернатив, проиллюстрированных на фиг. 6, либо как пояснено относительно фиг. 10, 11 или относительно фиг. 12-18, при этом ограниченный пространственный диапазон задается посредством двух или более характеристических точек, проиллюстрированных в примерах между фиг. 12 и фиг. 18, причем набор характеристических точек всегда задает некоторый ограниченный пространственный диапазон из полного пространственного диапазона.

Фиг. 9a и фиг. 9b иллюстрируют различные способы вычисления данных проекции оболочки, выводимых посредством блока 120 по фиг. 8. В варианте осуществления по фиг. 9a, интерфейс пространственной информации выполнен с возможностью вычислять оболочку пространственно протяженного источника звука с использованием, в качестве информации относительно пространственно протяженного источника звука, геометрии пространственно протяженного источника звука, как указано посредством этапа 121. Оболочка пространственно протяженного источника звука проецируется 122 к слушателю с использованием позиции слушателя, чтобы получать проекцию двумерной или трехмерной оболочки на плоскость проекции. Альтернативно, как проиллюстрировано на фиг. 9b, пространственно протяженный источник звука и, в частности, геометрия пространственно протяженного источника звука, заданная посредством информации относительно геометрии пространственно протяженного источника звука, проецируется в направлении к позиции слушателя, проиллюстрированной в блоке 123, и оболочка проецируемой геометрии вычисляется, как указано в блоке 124, для того, чтобы получать проекцию двумерной или трехмерной оболочки на плоскость проекции. Ограниченный пространственный диапазон представляет вертикальное/горизонтальное или азимутальное/подъемное протягивание проецируемой оболочки в варианте осуществления по фиг. 9a или оболочки проецируемой геометрии, полученной посредством реализации по фиг. 9b.

Фиг. 10 иллюстрирует предпочтительную реализацию интерфейса 10 пространственной информации. Он содержит интерфейс 100 обработки позиций слушателя, который также проиллюстрирован на фиг. 8 в качестве пользовательского приемного интерфейса. Дополнительно, позиция и геометрия пространственно протяженного источника звука вводятся, как проиллюстрировано, также, на фиг. 8. Предоставляются проектор 120 и модуль 140 вычисления для вычисления ограниченного пространственного диапазона.

Фиг. 11 иллюстрирует предпочтительную реализацию интерфейса пространственной информации, содержащего интерфейс 100, проектор 120 и модуль 140 вычисления местоположений в ограниченном пространственное диапазоне. Интерфейс 100 выполнен с возможностью приема позиции слушателя. Проектор 120 выполнен с возможностью вычисления проекции двумерной или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием позиции слушателя, принимаемой посредством интерфейса 100, и с использованием, дополнительно, информации относительно геометрии пространственно протяженного источника звука, и дополнительно, с использованием информации относительно позиции пространственно протяженного источника звука в пространстве. Предпочтительно, заданная позиция пространственно протяженного источника звука в пространстве и, дополнительно, геометрия пространственно протяженного источника звука в пространстве принимается для воспроизведения пространственно протяженного источника звука через поток битов, поступающий в демультиплексор 180 потоков битов или синтаксический анализатор сцен. Демультиплексор 180 потоков битов извлекает, из потока битов, информацию геометрии пространственно протяженного источника звука и предоставляет эту информацию в проектор. Демультиплексор потоков битов также извлекает позицию пространственно протяженного источника звука из потока битов и перенаправляет эту информацию в проектор.

Предпочтительно, поток битов также содержит аудиосигнал для SESS, имеющего один или два различных аудиосигнала, и, предпочтительно, демультиплексор потоков битов также извлекает, из потока битов, сжатое представление одного или более аудиосигналов, и сигнал(ы) распаковывается(ются)/декодируется(ются) посредством декодера в качестве аудиодекодера 190. Декодированные один или более сигналов в конечном счете перенаправляются в аудиопроцессор 300 по фиг. 1a, например, и процессор, подготавливает посредством рендеринга, по меньшей мере, два источника звука в соответствии с элементами сигнальных меток, предоставленными посредством поставщика 200 информации сигнальных меток по фиг. 1a.

Хотя фиг. 11 иллюстрирует связанное с потоками битов оборудование воспроизведения, имеющее демультиплексор 180 потоков битов и аудиодекодер 190, воспроизведение также может осуществляться в ситуации, отличающейся от сценария кодера/декодера. Например, заданная позиция и геометрия в пространстве может уже существовать в оборудовании воспроизведения, к примеру, в сцене в стиле виртуальной реальности или дополненной реальности, в которой данные формируются на площадке и потребляются на этой площадке. Демультиплексор 180 потоков битов и аудиодекодер 190 фактически не требуются, и информация геометрии пространственно протяженного источника звука и позиции пространственно протяженного источника звука доступна вообще без извлечения из потока битов.

Далее поясняются предпочтительные варианты осуществления настоящего изобретения. Варианты осуществления относятся к рендерингу пространственно протяженных источников звука в 6DoF VR/AR (виртуальной реальности/дополненной реальности).

Предпочтительные варианты осуществления изобретения направлены на способ, оборудование или компьютерную программу, разработанные с возможностью улучшать воспроизведение пространственно протяженных источников звука (SESS). В частности, варианты осуществления изобретаемого способа или оборудования рассматривают варьирующуюся во времени относительную позицию между пространственно протяженным источником звука и виртуальной позицией слушателя. Другими словами, варианты осуществления изобретаемого способа или оборудования обеспечивают возможность слуховой ширине источника совпадать с пространственной протяженностью представленного звукового объекта в любой относительной позиции к слушателю. В связи с этим, вариант осуществления изобретаемого способа или оборудования применяется, в частности, к вариантам применения в стиле виртуальной, смешанной и дополненной реальности с 6 степенями свободы (6DoF), в которых пространственно протяженный источник звука дополняет традиционно используемые точечные источники.

Вариант осуществления изобретаемого способа или оборудования подготавливает посредством рендеринга пространственно протяженный источник звука посредством использования ограниченного пространственного диапазона. Ограниченный пространственный диапазон зависит от позиции слушателя относительно пространственно протяженного источника звука.

Фиг. 1a иллюстрирует блок-схему общего представления модуля рендеринга пространственно протяженных источников звука согласно варианту осуществления изобретаемого способа или оборудования. Ключевые компоненты блок-схемы являются следующими:

1. Позиция слушателя: Этот блок предоставляет мгновенную позицию слушателя, например, измеренную посредством системы отслеживания в стиле виртуальной реальности. Блок может реализовываться как детектор 100 для обнаружения или интерфейс 100 для приема позиции слушателя.

2. Позиция и геометрия пространственно протяженного источника звука: Этот блок предоставляет данные позиции и геометрии пространственно протяженного источника звука, который должен подготавливаться посредством рендеринга, например, в качестве части представления сцены в стиле виртуальной реальности.

3. Проекция и вычисление выпуклой оболочки: Этот блок 120 вычисляет выпуклую оболочку геометрии пространственно протяженных источников звука и затем проецирует ее в направлении к позиции слушателя (например, к "плоскости изображений", см. нижеприведенную информацию). Альтернативно, такая же функция может достигаться посредством проецирования сначала геометрии к позиции слушателя и затем вычисления ее выпуклой оболочки.

4. Местоположение определения ограниченных пространственных диапазонов: Этот блок 140 вычисляет местоположение ограниченного пространственного диапазона из данных проекции выпуклой оболочки, вычисленных посредством предыдущего блока. При этом вычислении, он также может рассматривать позицию слушателя и в силу этого близость/расстояние слушателя (см. нижеприведенную информацию). Вывод, например, представляет собой местоположения точек, совместно задающие ограниченный пространственный диапазон.

Фиг. 10 иллюстрирует общее представление блок-схемы варианта осуществления изобретаемого способа или оборудования. Пунктирные линии указывают передачу метаданных, таких как геометрия и позиции.

Местоположения точек, совместно задающих ограниченный пространственный диапазон, зависят от геометрии, в частности, пространственной протяженности, пространственно протяженного источника звука и относительной позиции слушателя относительно пространственно протяженного источника звука. В частности, точки, задающие ограниченный пространственный диапазон, могут быть расположены на проекции выпуклой оболочки пространственно протяженного источника звука на плоскость проекции. Плоскость проекции может представлять собой либо плоскость кинокадра, т.е. плоскость, перпендикулярную линии зрения от слушателя к пространственно протяженному источника звуку, либо сферическую поверхность вокруг головы слушателя. Плоскость проекции расположена на произвольном небольшом расстоянии от центра головы слушателя. Альтернативно, выпуклая оболочка проекции пространственно протяженного источника звука может вычисляться из углов азимута и подъема, которые представляют собой поднабор сферических координат относительно перспективы головы слушателя. В иллюстративных нижеприведенных примерах, плоскость проекции является предпочтительной вследствие своего более интуитивного характера. В реализации с вычислением проецируемой выпуклой оболочки, угловое представление является предпочтительным вследствие более простой формализации и более низкой вычислительной сложности. Проекция выпуклой оболочки пространственно протяженного источника звука является такой же как выпуклая оболочка геометрии проецируемых пространственно протяженных источников звука, т.е. вычисление выпуклой оболочки, и проекция на плоскость кинокадра может использоваться в любом порядке.

Когда позиция слушателя относительно пространственно протяженного источника звука изменяется, далее проекция пространственно протяженного источника звука на плоскость проекции изменяется соответствующим образом. В свою очередь, местоположения точек, задающих ограниченный пространственный диапазон, изменяются соответствующим образом. Точки предпочтительно должны выбираться таким образом, что они изменяются плавно для непрерывного перемещения пространственно протяженного источника звука и слушателя. Проецируемая выпуклая оболочка изменяется, когда геометрия пространственно протяженного источника звука изменяется. Это включает в себя вращение геометрии пространственно протяженных источников звука в трехмерном пространстве, которое изменяет проецируемую выпуклую оболочку. Вращение геометрии равно угловому смещению позиции слушателя относительно пространственно протяженного источника звука и, к примеру, называется включающим способом "относительной позицией слушателя и пространственно протяженного источника звука". Например, круговое движение слушателя вокруг сферического пространственно протяженного источника звука представляется посредством вращения точек, задающих изменение ограниченного пространственного диапазона вокруг центра тяжести. Аналогичным образом, вращение пространственно протяженного источника звука со стационарным слушателем приводит к такому же изменению точек, задающих ограниченный пространственный диапазон.

Пространственная протяженность, которая формируется посредством варианта осуществления изобретаемого способа или оборудования, внутренне воспроизводится корректно для любого расстояния между пространственно протяженным источником звука и слушателем. Естественно, когда пользователь приближается к пространственно протяженному источнику звука, углу раскрытия между точками, задающими изменение ограниченного пространственного диапазона, увеличивается так, как является целесообразным для моделирования физической реальности.

Следовательно, угловое размещение точек, задающих ограниченный пространственный диапазон, уникально определяется посредством местоположения на проецируемой выпуклой оболочке на плоскости проекции.

Чтобы указывать геометрическую форму/выпуклую оболочку пространственно протяженного источника звука, используется (и, возможно, передается в модуль рендеринга или ядро модуля рендеринга) аппроксимация, включающая в себя упрощенную одномерную, например, линейную, кривую; двумерную, например, эллипс, прямоугольник, многоугольники; или трехмерную форму, например, эллипсоид, кубоид и многогранники. Геометрия пространственно протяженного источника звука или соответствующая аппроксимированная форма, соответственно, может описываться различными способами, включающими в себя:

- Параметрическое описание, т.е. формализация геометрии через математическое выражение, которое разрешает дополнительные параметры. Например, эллипсоидная форма в трехмерном может описываться посредством неявной функции на декартовой системе координат, и дополнительные параметры представляют собой протяженность главных осей во всех трех направлениях. Дополнительные параметры могут включать в себя функции трехмерного вращения, деформации эллипсоидной поверхности.

- Многоугольное описание, т.е. совокупность примитивных геометрических форм, таких как линии, треугольники, квадрат, четырехгранник и кубоиды. Приматные многоугольники и многогранник могут конкатенироваться в более крупные более сложные геометрии.

В некоторых сценариях применения, внимание акцентируется на компактном и функционально совместимом хранении/передаче 6DoF VR/AR-контента. В этом случае, вся цепочка состоит из трех этапов:

1. Авторская разработка/кодирование требуемых пространственно протяженных источников звука в поток битов

2. Передача/хранение сформированного потока битов. В соответствии с представленным изобретением, поток битов содержит, помимо других элементов, описание геометрий пространственно протяженных источников звука (параметрических или в виде многоугольников) и ассоциированного базисного сигнала(ов) источника, такого как монофоническая или стереофоническая запись фортепьяно. Формы сигналов могут сжиматься с использованием алгоритмов перцепционного кодирования аудио, таких как MP3 или усовершенствованное кодирование аудио (AAC) по стандарту MPEG-2/4.

3. Декодирование/рендеринг пространственно протяженных источников звука на основе передаваемого потока битов, как описано выше.

Далее представляются различные практические примеры реализации. Они включают в себя сферический пространственно протяженный источник звука, эллипсоидный пространственно протяженный источник звука, линейный пространственно протяженный источник звука, кубоидный пространственно протяженный источник звука, зависимые от расстояния ограниченные пространственные диапазоны и/или пространственно протяженный источник звука в форме фортепьяно или форму пространственно протяженного источника звука в качестве любого другого музыкального инструмента.

Как описано в вариантах осуществления изобретаемого способа или оборудования выше, могут применяться различные способы для определения местоположения точек, задающих ограниченный пространственный диапазон. Следующие практические примеры демонстрируют некоторые изолированные способы в конкретных случаях. В полной реализации варианта осуществления изобретаемого способа или оборудования, различные способы могут комбинироваться надлежащим образом с учетом вычислительной сложности, назначения применения, качества звучания и простоты реализации.

Геометрия пространственно протяженных источников звука указывается в качестве поверхностной ячеистой сетки. Следует отметить, что визуализация ячеистой сетки не подразумевает, что геометрия пространственно протяженных источников звука описывается посредством многоугольного способа, поскольку фактически геометрия пространственно протяженных источников звука может формироваться из параметрической спецификации. Позиция слушателя указывается посредством синего треугольника. В нижеприведенных примерах, плоскость кинокадра выбирается в качестве плоскости проекции и иллюстрируется в качестве прозрачной серой плоскости, которая указывает конечный поднабор плоскости проекции. Проецируемая геометрия пространственно протяженного источника звука на плоскость проекции проиллюстрирована с такой же поверхностной ячеистой сеткой. Точки, задающие ограниченный пространственный диапазон на проецируемой выпуклой оболочке, проиллюстрированы как кресты на плоскости проекции. Заднепроецируемые точки, задающие ограниченный пространственный диапазон на геометрию пространственно протяженных источников звука, проиллюстрированы как точки. Соответствующие точки, задающие ограниченный пространственный диапазон на проецируемой выпуклой оболочке, и заднепроецируемые точки, задающие ограниченный пространственный диапазон на геометрии пространственно протяженных источников звука, соединяются посредством линий, чтобы помогать идентифицировать визуальное соответствие. Позиции всех предусмотренных объектов проиллюстрированы в декартовой системе координат с единицами в метрах. Выбор проиллюстрированной системы координат не подразумевает то, что предусмотренные вычисления выполняются с декартовыми координатами.

Первый пример на фиг. 12 рассматривает сферический пространственно протяженный источник звука. Сферический пространственно протяженный источник звука имеет фиксированный размер и фиксированную позицию относительно слушателя. Три других набора из трех, пяти и восьми точек, задающих ограниченный пространственный диапазон, выбираются на проецируемой выпуклой оболочке. Все три набора точек, задающие ограниченный пространственный диапазон, выбираются с равномерным расстоянием на кривой выпуклой оболочки. Смещенные позиции точек, задающих ограниченный пространственный диапазон на кривой выпуклой оболочки, намеренно выбираются таким образом, что горизонтальная протяженность геометрии пространственно протяженных источников звука представляется оптимально. Фиг. 12 иллюстрирует сферический пространственно протяженный источник звука с различными числами (т.е. 3 (верхний), 5 (средний) и 8 (нижний)) точек, задающих ограниченный пространственный диапазон, равномерно распределенный в выпуклой оболочке.

Следующий пример на фиг. 13 рассматривает эллипсоидный пространственно протяженный источник звука. Эллипсоидный пространственно протяженный источник звука имеет фиксированную форму, позицию и вращение в трехмерном пространстве. Четыре точки, задающие ограниченный пространственный диапазон, выбираются в этом примере. Три различных способа определения местоположения точек, задающих ограниченный пространственный диапазон, примерно иллюстрируются:

a) Две точки, задающие ограниченный пространственный диапазон, размещаются в двух горизонтальных экстремальных точках, и две точки, задающие ограниченный пространственный диапазон, размещаются в двух вертикальных экстремальных точках. При этом позиционирование экстремальных точек является простым и зачастую надлежащим. Этот пример показывает то, что этот способ может давать в результате местоположения точек, которые находятся относительно близко друг к другу.

b) Все четыре точки, задающие ограниченный пространственный диапазон, распределяются равномерно на проецируемой выпуклой оболочке. Смещение точек, задающих местоположение в ограниченном пространственное диапазоне, выбирается таким образом, что местоположение самой верхней точки совпадает с местоположением самой верхней точки в a).

c) Все четыре точки, задающие ограниченный пространственный диапазон, распределяются равномерно на стянутой проецируемой выпуклой оболочке. Местоположение смещения местоположений точек равно местоположению смещения, выбранному в b). Операция стягивания проецируемой выпуклой оболочки выполняется к центру тяжести проецируемой выпуклой оболочки с независимым от направления коэффициентом растягивания.

Таким образом, фиг. 13 иллюстрирует эллипсоидный пространственно протяженный источник звука с четырьмя точками, задающими ограниченный пространственный диапазон согласно трем различным способам определения местоположения точек, задающих ограниченный пространственный диапазон: a/верхний) горизонтальные и вертикальные экстремальные точки, b/средний) равномерно распределенные точки на выпуклой оболочке, c/нижний) равномерно распределенные точки на стянутой выпуклой оболочке.

Следующий пример на фиг. 14 рассматривает линейный пространственно протяженный источник звука. Исходя из того, что предыдущие примеры рассматривают объемную геометрию пространственно протяженных источников звука, этот пример демонстрирует то, что геометрия пространственно протяженных источников звука может выбираться в качестве одномерного объекта в трехмерном пространстве. Вложенный фиг. a) иллюстрирует две точки, задающие ограниченный пространственный диапазон, размещенные в экстремальных точках геометрии конечных линейных пространственно протяженных источников звука. b) Две точки, задающие ограниченный пространственный диапазон, размещаются в экстремальных точках геометрии конечных линейных пространственно протяженных источников звука, и одна дополнительная точка размещается в середине линии. Как описано в вариантах осуществления изобретаемого способа или оборудования, размещение дополнительных точек в пределах геометрии пространственно протяженных источников звука может помогать заполнять большие зазоры в больших геометриях пространственно протяженных источников звука. c) Рассматривается такая же геометрия линейных пространственно протяженных источников звука что и в a) и b),; однако, относительный угол к слушателю изменен таким образом, что проецируемая длина линейной геометрии значительно меньше. Как описано в вариантах осуществления изобретаемого способа или оборудования выше, уменьшенный размер проецируемой выпуклой оболочки может представляться посредством сокращенного числа точек, задающих ограниченный пространственный диапазон, в этом конкретном примере, посредством одной точки, расположенной в центре линейной геометрии.

Таким образом, фиг. 14 иллюстрирует линейный пространственно протяженный источник звука с тремя различными способами для того, чтобы распределять местоположение точек, задающих ограниченный пространственный диапазон: a/верхний) две экстремальных точки на проецируемой выпуклой оболочке; b/средний) две экстремальных точки на проецируемой выпуклой оболочке с дополнительной точкой в центре линии; c/нижний) одна или две точки, задающие ограниченный пространственный диапазон в центре выпуклой оболочки, поскольку проецируемая выпуклая оболочка вращаемой линии является слишком небольшой для того, чтобы обеспечивать возможность более чем одной или двух точек.

Следующий пример на фиг. 15 рассматривает кубоидный пространственно протяженный источник звука. Кубоидный пространственно протяженный источник звука имеет фиксированный размер и фиксированное местоположение; однако, относительная позиция слушателя изменяется. Вложенные фиг. a) и b) иллюстрируют отличающиеся способы размещения четырех точек, задающих ограниченный пространственный диапазон, на проецируемой выпуклой оболочке. Местоположения заднепроецируемых точек уникально определяются посредством выбора на проецируемой выпуклой оболочке. c) иллюстрирует четыре точки, задающие ограниченный пространственный диапазон, которые не имеют хорошо разделенных заднепроекционных местоположений. Вместо этого, расстояния местоположений точек выбираются равными расстоянию от центра тяжести геометрии пространственно протяженных источников звука.

Таким образом, фиг. 15 иллюстрирует кубоидный пространственно протяженный источник звука с тремя различными способами для того, чтобы распределять точки, задающие ограниченный пространственный диапазон: a/верхний) две точки, задающие ограниченный пространственный диапазон в горизонтальной оси, и две точки, задающие ограниченный пространственный диапазон в вертикальной оси; b/средний) две точки, задающие ограниченный пространственный диапазон на горизонтальных экстремальных точках проецируемой выпуклой оболочки, и две точки, задающие ограниченный пространственный диапазон на вертикальных экстремальных точках проецируемой выпуклой оболочки; c/нижний) расстояния между заднепроецируемыми точками выбираются равными расстоянию от центра тяжести геометрии пространственно протяженных источников звука.

Следующий пример на фиг. 16 рассматривает сферический пространственно протяженный источник звука фиксированного размера и формы, но на трех различных расстояниях относительно позиции слушателя. Точки, задающие ограниченный пространственный диапазон, распределяются равномерно на кривой выпуклой оболочки. Число точек, задающее ограниченный пространственный диапазон, динамически определяется из длины кривой выпуклой оболочки и минимального расстояния между возможными местоположениями точек. a) Сферический пространственно протяженный источник звука находится на небольшом расстоянии таким образом, что четыре точки, задающие ограниченный пространственный диапазон, выбираются на проецируемой выпуклой оболочке. b) Сферический пространственно протяженный источник звука находится на среднем расстоянии таким образом, что три точки, задающие ограниченный пространственный диапазон, выбираются на проецируемой выпуклой оболочке. a) Сферический пространственно протяженный источник звука находится на большом расстоянии таким образом, что только две точки, задающие ограниченный пространственный диапазон, выбираются на проецируемой выпуклой оболочке. Как описано в вариантах осуществления изобретаемого способа или оборудования выше, число точек, задающих ограниченный пространственный диапазон, также может определяться из протяженности, представленной в сферических угловых координатах.

Таким образом, фиг. 16 иллюстрирует сферический пространственно протяженный источник звука равного размера, но на различных расстояниях: a/верхний) небольшое расстояние с четырьмя точками, задающими ограниченный пространственный диапазон, распределенный равномерно на проецируемой выпуклой оболочке; b/средний) среднее расстояние с тремя точками, задающими ограниченный пространственный диапазон, распределенный равномерно на проецируемой выпуклой оболочке; c/нижний) большое расстояние с двумя точками, задающими ограниченный пространственный диапазон, распределенный равномерно на проецируемой выпуклой оболочке.

Последний пример на фиг. 17 и 18 рассматривает пространственно протяженный источник звука в форме фортепьяно, размещенный в виртуальном мире. Пользователь носит наголовный дисплей (HMD) и наушники. Пользователю представляется сцена в стиле виртуальной реальности, состоящая из открытого мирового полотна и трехмерной модели на основе пианино, стоящей на полу в зоне свободного перемещения (см. фиг. 17). Открытое мировое полотно представляет собой сферическое статическое изображение, проецируемое на сферу, окружающую пользователя. В данном случае, открытое мировое полотно иллюстрирует голубое небо с белыми облаками. Пользователь имеет возможность проходить вокруг и смотреть и слушать фортепьяно из различных углов. В этой сцене, фортепьяно подготавливается посредством рендеринга с использованием сигнальных меток, представляющих одиночный точечный источник, размещенный в центре тяжести, или представляющих пространственно протяженный источник звука с тремя точками, задающими ограниченный пространственный диапазон на проецируемой выпуклой оболочке (см. фиг. 18).

Чтобы упрощать вычисление точки, геометрия фортепьяно абстрагируется в эллипсоидную форму с аналогичными размерностями, см. фиг. 17. Две сменных точки размещаются в левой и правой экстремальных точках на экваториальной линии, тогда как третья сменная точка остается в северном полюсе, см. фиг. 18. Эта компоновка гарантирует соответствующую горизонтальную ширину источника из всех углов при сильно сниженных вычислительных затратах.

Таким образом, фиг. 17 иллюстрирует пространственно протяженный источник звука в форме фортепьяно с аппроксимированной параметрической эллипсоидной формой, и фиг. 18 иллюстрирует пространственно протяженный источник звука в форме фортепьяно с тремя точками, задающими ограниченный пространственный диапазон, распределенный по вертикальным экстремальным точкам проецируемой выпуклой оболочки и вертикальной верхней позиции проецируемой выпуклой оболочки. Следует отметить, что для лучшей визуализации, точки, задающие ограниченный пространственный диапазон, размещаются на растянутой проецируемой выпуклой оболочке.

Применение описанной технологии может задаваться в качестве части 6DoF VR/AR-аудиостандарта. В этом контексте, предусмотрен классический сценарий на основе кодирования/потока битов/декодера (+модуля рендеринга):

- В кодере, форма пространственно протяженного источника звука должна кодироваться как вспомогательная информация вместе с "базисными" формами сигнала пространственно протяженного источника звука, которые могут представлять собой:

-- моносигнал, или

-- стереосигнал (предпочтительно декоррелированный в достаточной степени), или

-- еще больше записанных сигналов (также предпочтительно декоррелированных в достаточной степени),

- характеризующие пространственно протяженный источник звука. Эти формы сигналов могут кодироваться с низкой скоростью передачи битов.

- В декодере/модуле рендеринга, форма пространственно протяженного источника звука и соответствующие формы сигналов извлекаются из потока битов и используются для рендеринга пространственно протяженного источника звука, как описано выше.

В зависимости от используемых вариантов осуществления и в качестве альтернатив описанным вариантам осуществления, следует отметить, что интерфейс может реализовываться как фактический модуль отслеживания или детектор для обнаружения позиции слушателя. Однако, позиция прослушивания типично должна приниматься из внешнего устройства модуля отслеживания и подаваться в оборудование воспроизведения через интерфейс. Однако, интерфейс может представлять просто ввод данных для выходных данных из внешнего модуля отслеживания либо также может представлять непосредственно модуль отслеживания.

Как указано, генератор потоков битов может реализовываться для того, чтобы формировать поток битов только с одним звуковым сигналом для пространственно протяженного источника звука, и оставшиеся звуковые сигналы формируются на стороне декодера или на стороне воспроизведения посредством декорреляции. Когда только один сигнал существует, и когда все пространство должно быть заполнено одинаково этим одним сигналом, информация местоположения вообще не требуется. Однако, может быть полезным иметь, в такой ситуации, по меньшей мере, дополнительную информацию относительно геометрии пространственно протяженного источника звука.

В зависимости от реализации, предпочтительно использовать, в поставщике 200 информации сигнальных меток по фиг. 1a, 1b, 4, 5, некоторые предварительно вычисленные данные, чтобы иметь корректные информационные элементы сигнальных меток для некоторого окружения. Эти предварительно вычисленные данные, т.е. набор значений для каждого сектора, к примеру, из карты 600 секторов по фиг. 6, могут измеряться и сохраняться таким образом, что данные, например, в блоках таблицы 210 поиска и 220 выбора HRTF определяются эмпирически. В другом варианте осуществления, эти данные могут предварительно вычисляться, или данные могут извлекаться в смешанной эмпирической процедуре и процедуре предварительного вычисления. Далее приводится предпочтительный вариант осуществления для вычисления этих данных.

Во время формирования таблиц поиска, IACC-, IAPD- и IALD-значения, необходимые для SESS-синтеза, как описано выше, предварительно вычисляются для определенного числа диапазонов протяженностей источников.

Как упомянуто выше, в качестве базовой модели, SESS описывается посредством бесконечного числа декоррелированных точечных источников, распределенных по всему диапазону протяженностей источников. Эта модель аппроксимируется здесь посредством размещения одного декоррелированного точечного источника в каждой позиции в наборе HRTF-данных в пределах требуемого диапазона протяженностей источников. Посредством свертки этих сигналов с соответствующей HRTF, может определяться результирующий сигнал в левое и в правое ухо, Yl(ω) и, соответственно, Yr(ω). Из этого, могут извлекаться IACC-, IAPD- и IALD-значения. Ниже по тексту приводится извлечение соответствующих выражений.

Предоставляются N декоррелированных сигналов Sn(ω) с равной спектральной плотностью мощности:

где:

где N равно числу точек набора HRTF-данных в пределах требуемого диапазона протяженностей источников. Данные N входных сигналов в силу этого размещаются в различной позиции в наборе HRTF-данных, где:

Примечание: , , и , в общем, зависят от ω. Однако, эта зависимость опускается здесь для простоты обозначения. С использованием уравнения (16), (17), сигналы в левое и в правое ухо, Yl(ω) и, соответственно, Yr(ω), могут выражаться следующим образом:

Чтобы определять IACC, IALD и IAPD, первые выражения для и извлекаются:

С использованием уравнений (20)-(22), следующие выражения для IACC(ω), IALD(ω) и IAPD(ω) могут определяться:

Усиление для левого и правого уха, Gl(ω) и, соответственно, Gr(ω), определяются посредством нормализации и, соответственно, посредством числа источников, а также мощности источника:

Как можно видеть, все результирующие выражения зависят только от выбранного набора HRTF-данных и более не зависят от входных сигналов.

Чтобы уменьшать вычислительную сложность во время формирования таблиц поиска, одна возможность состоит в том, чтобы не рассматривать каждую доступную позицию в наборе HRTF-данных. В этом случае, желательное разнесение задается. Хотя эта процедура уменьшает вычислительную сложность во время предварительного вычисления, в некоторой степени это также должно приводить к ухудшению решения.

Предпочтительные варианты осуществления настоящего изобретения предоставляют значимые преимущества по сравнению с предшествующим уровнем техники.

Из того факта, что предложенный способ требует двух декоррелированных входных сигналов только, ряд преимуществ возникает по сравнению с технологиями современного уровня техники, которые требуют большего числа декоррелированных входных сигналов:

- Предложенный способ демонстрирует более низкую вычислительную сложность, поскольку только один декоррелятор должен применяться. Дополнительно, только два входных сигнала должны фильтроваться.

- Поскольку попарная декорреляция обычно является более высокой при формировании меньшего количества декоррелированных сигналов (при одновременном обеспечении одинаковой величины ухудшения характеристик сигнала), ожидается более точное воспроизведение слуховых сигнальных меток.

- Аналогично, ожидается большее ухудшение характеристик сигнала, чтобы достигать ождинаковой величины попарной декорреляции и в силу этого одинаковой точности воспроизведенных слуховых сигнальных меток.

Далее обобщаются несколько интересных характеристик вариантов осуществления настоящего изобретения.

1. Необходимы только два декоррелированных входных сигнала (или один входной сигнал плюс декоррелятор).

2. [Частотно-избирательное] регулирование бинауральных сигнальных меток этих входных сигналов, чтобы эффективно достигать бинауральных выходных сигналов для пространственно протяженного источника звука (вместо моделирования многих одиночных точечных источников, которые охватывают зону/объем SESS),

(a) Входные ICC всегда регулируются.

(b) ICPD/ICTD и ICLD либо могут регулироваться на выделенном этапе обработки, либо могут вводиться в сигналы посредством использования HRIR/HRTF-обработки с этими характеристиками.

3. [Частотно-избирательные] целевые бинауральные сигнальные метки определяются из предварительно вычисляемого хранилища данных (таблицы поиска либо другого средства сохранения многомерных данных, такого как векторная таблица кодирования или многомерная подгонка функции, GMM, SVM) в качестве функции пространственного диапазона, который должен заполняться (конкретный пример: диапазон изменения азимута, диапазон изменения подъема)

(a) Целевые IACC всегда сохраняются и повторно вызываются/используются для синтеза.

(b) Целевые IAPD/IATD и IALD могут либо сохраняться и повторно вызываться/использоваться для синтеза, либо заменяться посредством использования HRIR/HRTF-обработки.

Предпочтительная реализация настоящего изобретения может заключаться в качестве части MPEG-I-аудио 6 DoF VR/AR (стандарта в стиле виртуальной реальности/дополненной реальности). В этом контексте, предусмотрен сценарий применения на основе кодирования/потока битов/декодера (плюс модуля рендеринга). В кодере, форма пространственно протяженного источника звука или нескольких пространственно протяженных источников звука должна кодироваться как вспомогательная информация вместе с (одной или более) форм сигнала "пространств" пространственно протяженного источника звука. Эти формы сигналов, которые представляют сигнал, вводимый в блок 300, т.е. аудиосигнал для пространственно протяженного источника звука, могут кодироваться с низкой скоростью передачи битов посредством AAC, EVS или любого другого кодера. В декодере/модуле рендеринга, в котором вариант применения, например, иллюстрируется на фиг. 11 как содержащий демультиплексор потоков битов (синтаксический анализатор 180 и аудиодекодер 190), SESS-форма и соответствующие формы сигналов извлекаются из потока битов и используются для рендеринга SESS. Процедуры, проиллюстрированные относительно настоящего изобретения, предоставляют высококачественный декодер/модуль рендеринга с низкой сложностью.

Хотя некоторые аспекты описаны в контексте оборудования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего оборудования.

В зависимости от некоторых требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут реализовываться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на компьютерночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на компьютерночитаемом носителе или на энергонезависимом носителе хранения данных.

Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или компьютерночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональных возможностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного оборудования.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.

Библиографический список

[1] J. Blauert, Spatial Hearing: Psychophysics of Human Sound Localization, 3rd ed. Cambridge, Mass: MIT Press, 2001 год.

[2] H. Lauridsen, "Experiments Concerning Different Kinds of Room-Acoustics Recording", Ingenioren, 1954 год.

[3] G. Kendall, "The Decorrelation of Audio Signals and Its Impact on Spatial Imagery", Computer Music Journal, издание 19, номер 4, стр. 71-87, 1995 год.

[4] C. Faller и F. Baumgarte, "Binaural cue coding-Part II: Schemes и Applications", IEEE Transactions on Speech and Audio Processing, издание 11, номер 6, стр. 520-531, ноябрь 2003 года.

[5] F. Baumgarte и C. Faller, "Binaural cue coding-Part I: Psychoacoustic fundamentals and design principles", IEEE Transactions on Speech and Audio Processing, издание 11, номер 6, стр. 509-519, ноябрь 2003 года.

[6] F. Zotter и M. Frank, "Efficient Phantom Source Widening", Archives of Acoustics, издание 38, стр. 27-37, март 2013 года.

[7] B. Alary, A. Politis и V. Valimaki, "Velvet-noise decorrelator", Proc. DAFx-17, Эдинбург, Великобритания, стр. 405-411, 2017 год.

[8] S. Schlecht, B. Alary, V. Valimaki и E. Habets, "Optimized velvet-noise decorrelator", сентябрь 2018 года.

[9] V. Pulkki, "Uniform spreading of amplitude panned virtual sources", Proceedings of the 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. WASPAA'99 (категория номер 99TH8452), стр. 187-190, 1999 год.

[10] ---, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of the Audio Engineering Society, издание 45, номер 6, стр. 456-466, июнь 1997 года.

[11] V. Pulkki, M.-V. Laitinen и C. Erkut, "Efficient Spatial Sound Synthesis for Virtual Worlds." Audio Engineering Society, февраль 2009 года.

[12] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Journal of the Audio Engineering Society, издание 55, номер 6, стр. 503-516, июнь 2007 года.

[13] T. Pihlajamaki, O. Santala и V. Pulkki, "Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals", Journal of the Audio Engineering Society, издание 62, номер 7/8, стр. 467-484, август 2014 года.

[14] C. Verron, M. Aramaki, R. Kronland-Martinet и G. Pallone, "A 3-D Immersive Synthesizer for Environmental Sounds", Audio, Speech and Language Processing, IEEE Transactions on, издание 18, стр. 1550-1561, сентябрь 2010 года.

[15] G. Potard и I. Burnett, "A study on sound source apparent shape and wideness", стр. 6-9, август 2003 года.

[16] --- "Decorrelation techniques for the rendering of apparent sound source width in 3D audio displays", январь 2004 года, стр. 280-208.

[17] J. Schmidt и E. F. Schroeder, "New and Advanced Features for Audio Presentation in the MPEG-4 Standard." Audio Engineering Society, май 2004 года.

[18] S. Schlecht, A. Adami, E. Habets и J. Herre, "Apparatus and Method for Reproducing the Spatially Extended Sound Source or Apparatus and Method for Generating the Bitstream from the Spatially Extended Sound Source", заявка на патент PCT/EP2019/085 733.

[19] T. Schmele и U. Sayin, "Controlling the Apparent Source Size in Ambisonics Using Decorrelation Filters." Audio Engineering Society, июль 2018 года.

[20] F. Zotter, M. Frank, M. Kronlachner и J.-W. Choi, "Efficient Phantom Source Widening and Diffuseness in Ambisonics", январь 2014 года.

[21] C. Borß, "An Improved Parametric Model for the Design of Virtual Acoustics and its Applications", Ph.D. dissertation, Ruhr-Universit at Bochum, январь 2011 года.

Похожие патенты RU2808102C1

название год авторы номер документа
ДЕКОДИРОВАНИЕ БИНАУРАЛЬНЫХ АУДИОСИГНАЛОВ 2007
  • Ойяла Паси
  • Турку Юлия
  • Вяянянен Маури
RU2409911C2
ДЕКОДИРОВАНИЕ БИНАУРАЛЬНЫХ АУДИОСИГНАЛОВ 2007
  • Ояла Паси
  • Турку Юлия
  • Вяянянен Маури
  • Тамми Микко
RU2409912C9
ОБОРУДОВАНИЕ И СПОСОБ ДЛЯ РЕНДЕРИНГА АУДИООБЪЕКТОВ 2022
  • Вальтер, Андреас
  • Фаллер, Кристоф
  • Херре, Юрген
  • Шмидт, Маркус
  • Борс, Кристиан
  • Клапп, Юлиан
  • Гётц, Филипп
RU2826517C1
СИСТЕМА И СПОСОБ СЛЕЖЕНИЯ ЗА ДВИЖЕНИЕМ ГОЛОВЫ ДЛЯ ПОЛУЧЕНИЯ ПАРАМЕТРИЧЕСКОГО БИНАУРАЛЬНОГО ВЫХОДНОГО СИГНАЛА 2016
  • Бребарт Дирк Ерун
  • Купер Дэвид Мэттью
  • Дэвис Марк Ф.
  • Макграт Дэвид С.
  • Черлинг Кристофер
  • Мундт Харальд
  • Уилсон Ронда Дж.
RU2722391C2
ТРАНСКОДИРОВЩИК АУДИО ФОРМАТА 2010
  • Тиергарт Оливер
  • Фалх Корнелиа
  • Кюх Фабиан
  • Дел Галдо Джиованни
  • Херре Юрген
  • Каллингер Маркус
RU2519295C2
УСТРОЙСТВО ДЛЯ ФОРМИРОВАНИЯ ВЫХОДНОГО ПРОСТРАНСТВЕННОГО МНОГОКАНАЛЬНОГО АУДИО СИГНАЛА 2009
  • Диш Саша
  • Пулкки Вилле
  • Лаитинен Микко-Вилле
  • Эркут Кумхур
RU2537044C2
СИСТЕМА И СПОСОБ СЛЕЖЕНИЯ ЗА ДВИЖЕНИЕМ ГОЛОВЫ ДЛЯ ПОЛУЧЕНИЯ ПАРАМЕТРИЧЕСКОГО БИНАУРАЛЬНОГО ВЫХОДНОГО СИГНАЛА 2016
  • Бребарт, Дирк Ерун
  • Купер, Дэвид Мэттью
  • Дэвис, Марк Ф.
  • Макграт, Дэвид С.
  • Черлинг, Кристофер
  • Мундт, Харальд
  • Уилсон, Ронда Дж.
RU2818687C2
СПОСОБ И УСТРОЙСТВО ДЛЯ РЕНДЕРИНГА АКУСТИЧЕСКОГО СИГНАЛА И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ЗАПИСИ 2015
  • Чон Санг-Бае
  • Ким Сун-Мин
  • Дзо Хиун
RU2752600C2
СПОСОБ И УСТРОЙСТВО ДЛЯ РЕНДЕРИНГА АКУСТИЧЕСКОГО СИГНАЛА И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ЗАПИСИ 2015
  • Чон Санг-Бае
  • Ким Сун-Мин
  • Дзо Хиун
RU2643630C1
УСТРОЙСТВО ДЛЯ ФОРМИРОВАНИЯ ВЫХОДНОГО ПРОСТРАНСТВЕННОГО МНОГОКАНАЛЬНОГО АУДИО СИГНАЛА 2009
  • Диш Саша
  • Пулкки Вилле
  • Лаитинен Микко-Вилле
  • Эркут Кумхур
RU2523215C2

Иллюстрации к изобретению RU 2 808 102 C1

Реферат патента 2023 года ОБОРУДОВАНИЕ И СПОСОБ ДЛЯ СИНТЕЗИРОВАНИЯ ПРОСТРАНСТВЕННО ПРОТЯЖЕННОГО ИСТОЧНИКА ЗВУКА С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИОННЫХ ЭЛЕМЕНТОВ СИГНАЛЬНЫХ МЕТОК

Изобретение относится к средствам для синтезирования пространственно протяженного источника звука. Технический результат заключается в повышении эффективности синтезирования пространственно протяженного источника звука. Принимают индикатор пространственного диапазона, указывающий ограниченный пространственный диапазон для пространственно протяженного источника звука. Предоставляют один или более информационных элементов сигнальных меток в ответ на ограниченный пространственный диапазон, причем один или более информационных элементов сигнальных меток содержат значение межканальной корреляции, предоставленное в ответ на ограниченный пространственный диапазон. Обрабатывают аудиосигнал с использованием информационных элементов сигнальных меток. Аудиосигнал содержит первый и второй аудиоканалы для пространственно протяженного источника звука, или аудиосигнал содержит первый аудиоканал для пространственно протяженного источника звука, а второй аудиоканал извлекается из первого аудиоканала посредством процессора второго канала. Выполняют обработку корреляции для первого аудиоканала и второго аудиоканала. 3 н. и 19 з.п. ф-лы, 20 ил.

Формула изобретения RU 2 808 102 C1

1. Оборудование для синтезирования пространственно протяженного источника звука, содержащее:

интерфейс (100) пространственной информации для приема индикатора пространственного диапазона, указывающего ограниченный пространственный диапазон для пространственно протяженного источника звука в пределах максимального пространственного диапазона (600);

поставщик (200) информации сигнальных меток для предоставления одного или более информационных элементов сигнальных меток в ответ на ограниченный пространственный диапазон, причем один или более информационных элементов сигнальных меток содержат значение межканальной корреляции, предоставленное в ответ на ограниченный пространственный диапазон; и

аудиопроцессор (300) для обработки аудиосигнала, представляющего пространственно протяженный источник звука с использованием одного или более информационных элементов сигнальных меток,

причем аудиосигнал содержит первый аудиоканал для пространственно протяженного источника звука и второй аудиоканал для пространственно протяженного источника звука, или при этом аудиосигнал содержит первый аудиоканал для пространственно протяженного источника звука, а второй аудиоканал для пространственно протяженного источника звука извлекается из первого аудиоканала посредством процессора (310) второго канала, и

при этом аудиопроцессор (300) выполнен с возможностью выполнять обработку корреляции для первого аудиоканала для пространственно протяженного источника звука и второго аудиоканала для пространственно протяженного источника звука, чтобы налагать (320) корреляцию между первым аудиоканалом для пространственно протяженного источника звука и вторым аудиоканалом для пространственно протяженного источника звука с использованием значения межканальной корреляции, обеспеченного в ответ на ограниченный пространственный диапазон.

2. Оборудование по п. 1,

причем поставщик (200) информации сигнальных меток выполнен с возможностью предоставлять, в качестве дополнительного информационного элемента сигнальных меток, по меньшей мере одно из элемента межканальной разности фаз, элемента межканальной разности времен, элемента межканальной разности уровней и усилений и информационного элемента первых усилений и вторых усилений,

и

при этом аудиопроцессор (300) выполнен с возможностью налагать межканальную разность фаз, межканальную разность времен или межканальную разность уровней или абсолютные уровни первого аудиоканала и второго аудиоканала с использованием по меньшей мере одного из элемента межканальной разности фаз, элемента межканальной разности времен, элемента межканальной разности уровней и усилений и элемента первых и вторых усилений.

3. Оборудование по п. 1,

причем аудиопроцессор (300) выполнен с возможностью налагать (320), после определения (320) корреляции, межканальную разность (330) фаз, межканальную разность времен или межканальную разность (340) уровней или абсолютные уровни первого канала и второго канала, или

при этом процессор (310) второго канала содержит декорреляционный фильтр или нейронный сетевой процессор для извлечения, из первого аудиоканала, второго аудиоканала таким образом, что второй аудиоканал декоррелируется из первого аудиоканала.

4. Оборудование по п. 1,

причем поставщик (200) информации сигнальных меток содержит поставщик (220) функций фильтра для предоставления функций аудиофильтра в качестве одного или более информационных элементов сигнальных меток в ответ на ограниченный пространственный диапазон, и

при этом аудиопроцессор (300) содержит модуль (350) применения фильтрации для применения функций аудиофильтра к первому аудиоканалу и второму аудиоканалу.

5. Оборудование по п. 4,

причем функции аудиофильтра содержат, для каждого из первого и второго аудиоканала, передаточную функцию восприятия звука, импульсный отклик восприятия звука, бинауральный импульсный отклик в помещении или импульсный отклик в помещении, или

при этом процессор (310) второго канала содержит декорреляционный фильтр или нейронный сетевой процессор для извлечения, из первого аудиоканала, второго аудиоканала таким образом, что второй аудиоканал декоррелируется из первого аудиоканала.

6. Оборудование по п. 4 или 5,

причем модуль (350) применения фильтрации выполнен с возможностью применять функции аудиофильтра к результату определения (320) корреляции, выполняемого посредством аудиопроцессора (300) в ответ на значение межканальной корреляции.

7. Оборудование по одному из предшествующих пунктов,

причем поставщик (200) информации сигнальных меток содержит запоминающее устройство (210) для сохранения информации относительно различных информационных элементов сигнальных меток относительно различных ограниченных пространственных диапазонов и

выходной интерфейс для извлечения, с использованием запоминающего устройства (210), одного или более информационных элементов сигнальных меток, ассоциированных с ограниченным пространственным диапазоном.

8. Оборудование по п. 7, в котором запоминающее устройство (210) содержит по меньшей мере одно из таблицы поиска, векторной таблицы кодирования, многомерной подгонки функции, гауссовой смешанной модели (GMM) и метода опорных векторов (SVM), и

при этом выходной интерфейс выполнен с возможностью извлекать один или более информационных элементов сигнальных меток посредством поиска в таблице поиска, либо посредством использования векторной таблицы кодирования, либо посредством применения многомерной подгонки функции, либо посредством использования GMM или SVM.

9. Оборудование по одному из предшествующих пунктов,

причем поставщик (200) информации сигнальных меток выполнен с возможностью сохранять информацию относительно одного или более информационных элементов сигнальных меток, ассоциированных с набором разнесенных кандидатных пространственных диапазонов, набором разнесенных ограниченных пространственных диапазонов, охватывающих максимальный пространственный диапазон (600), при этом поставщик (200) информации сигнальных меток выполнен с возможностью сопоставлять (30) ограниченный пространственный диапазон с кандидатным ограниченным пространственным диапазоном, задающим кандидатный пространственный диапазон, ближайший к конкретному ограниченному пространственному диапазону, заданному посредством ограниченного пространственного диапазона, и предоставлять один или более информационных элементов сигнальных меток, ассоциированных с совпадающим кандидатным ограниченным пространственным диапазоном, или

при этом ограниченный пространственный диапазон содержит по меньшей мере одно из пары углов азимута, пары углов подъема, информации относительно горизонтального расстояния, информации относительно вертикального расстояния, информации относительно полного расстояния и пары углов азимута и пары углов подъема, или

при этом индикатор пространственного диапазона содержит код (S3, S5), идентифицирующий ограниченный пространственный диапазон в качестве конкретного сектора максимального пространственного диапазона (600), при этом максимальный пространственный диапазон (600) содержит множество различных секторов.

10. Оборудование по п. 9, в котором сектор из множества различных секторов имеет первое протяжение в азимутальном или горизонтальном направлении и второе протяжение в подъемном или вертикальном направлении, при этом второе протяжение в подъемном или вертикальном направлении сектора больше первого протяжения, или при этом второе протяжение охватывает максимальный диапазон подъемного или вертикального направления.

11. Оборудование по п. 9 или 10, в котором множество различных секторов задаются таким образом, что расстояние между центрами смежных секторов в азимутальном или горизонтальном направлении больше 5 градусов или больше или равно 10 градусов.

12. Оборудование по одному из предшествующих пунктов,

причем аудиопроцессор (300) выполнен с возможностью формировать, из аудиосигнала, обработанный первый канал и обработанный второй канал для бинаурального рендеринга или рендеринга в громкоговорителях или рендеринга в громкоговорителях для уменьшения активных перекрестных помех.

13. Оборудование по одному из предшествующих пунктов,

причем поставщик (200) информации сигнальных меток выполнен с возможностью предоставлять одно или более значений межканальных сигнальных меток в качестве одного или более информационных элементов сигнальных меток,

при этом аудиопроцессор (300) выполнен с возможностью формировать (320, 330, 340, 350), из аудиосигнала, обработанный первый канал и обработанный второй канал таким образом, что обработанный первый канал и обработанный второй канал имеют одну или более межканальных сигнальных меток, управляемых посредством одного или более значений межканальных сигнальных меток.

14. Оборудование по одному из предшествующих пунктов, в котором поставщик (200) информации сигнальных меток выполнен с возможностью предоставления одного или более информационных элементов сигнальных меток для множества полос частот в ответ на ограниченный пространственный диапазон, одинаковый для множества полос частот, при этом информационные элементы сигнальных меток для различных полос частот отличаются друг от друга.

15. Оборудование по одному из предшествующих пунктов,

причем поставщик (200) информации сигнальных меток выполнен с возможностью предоставления одного или более информационных элементов сигнальных меток для множества различных полос частот, и

при этом аудиопроцессор (300) выполнен с возможностью обрабатывать аудиосигнал в спектральной области, при этом информационный элемент сигнальных меток для полосы частот применяется ко множеству спектральных значений аудиосигнала в полосе частот.

16. Оборудование по одному из предшествующих пунктов,

причем первый аудиоканал и второй аудиоканал декоррелированы друг с другом посредством некоторой степени декорреляции,

при этом поставщик (200) информации сигнальных меток выполнен с возможностью предоставления значения межканальной корреляции в качестве одного или более информационных элементов сигнальных меток, и

при этом аудиопроцессор (300) выполнен с возможностью снижения (320) степени корреляции между первым каналом и вторым каналом до значения, указываемого посредством одной или более сигнальных меток межканальной корреляции, предоставленных посредством поставщика (200) информации сигнальных меток.

17. Оборудование по одному из предшествующих пунктов, дополнительно содержащее аудиосигнальный интерфейс (305) для приема аудиосигнала, представляющего пространственно протяженный источник звука, при этом аудиосигнал содержит только упомянутый первый аудиоканал или при этом аудиоканал содержит только упомянутый первый аудиоканал и упомянутый второй аудиоканал, или при этом аудиосигнал не содержит более аудиоканалов, чем упомянутый первый аудиоканал и упомянутый второй аудиоканал.

18. Оборудование по одному из предшествующих пунктов, в котором интерфейс (100) пространственной информации выполнен с возможностью:

приема (100) позиции слушателя в качестве индикатора пространственного диапазона,

вычисления (120) проекции двумерной или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием, в качестве индикатора пространственного диапазона, позиции слушателя и информации относительно пространственно протяженного источника звука, такой как геометрия или позиция пространственно протяженного источника звука, либо вычисления (120) двумерной или трехмерной оболочки проекции геометрии пространственно протяженного источника звука на плоскость проекции с использованием, в качестве индикатора пространственного диапазона, позиции слушателя и информации относительно пространственно протяженного источника звука, такой как геометрия или позиция пространственно протяженного источника звука, и

определения (140) ограниченного пространственного диапазона из данных проекции оболочки.

19. Оборудование по п. 18, в котором интерфейс (100) пространственной информации выполнен с возможностью вычислять (121) оболочку пространственно протяженного источника звука с использованием, в качестве информации относительно пространственно протяженного источника звука, геометрии пространственно протяженного источника звука и проецировать (122) оболочку в направлении к слушателю с использованием позиции слушателя, чтобы получать проекцию двумерной или трехмерной оболочки на плоскость проекции, или проецировать (123) геометрию пространственно протяженного источника звука, заданную посредством информации относительно геометрии пространственно протяженного источника звука в направлении к позиции слушателя, и вычислять (124) оболочку проецируемой геометрии, чтобы получать проекцию двумерной или трехмерной оболочки на плоскость проекции.

20. Оборудование по п. 18 или 19, в котором интерфейс (100) пространственной информации выполнен с возможностью определять ограниченный пространственный диапазон таким образом, что граница сектора, заданного посредством ограниченного пространственного диапазона, расположена справа от плоскости проекции относительно слушателя, и/или слева от плоскости проекции относительно слушателя, и/или сверху от плоскости проекции относительно слушателя, и/или снизу от плоскости проекции относительно слушателя либо совпадает, например, в пределах допуска в +/-10% с одной из правой границы, левой границы, верхней границы и нижней границы плоскости проекции относительно слушателя.

21. Способ синтезирования пространственно протяженного источника звука, при этом способ содержит этапы, на которых:

принимают индикатор пространственного диапазона, указывающий ограниченный пространственный диапазон для пространственно протяженного источника звука в пределах максимального пространственного диапазона (600);

предоставляют один или более информационных элементов сигнальных меток в ответ на ограниченный пространственный диапазон, причем один или более информационных элементов сигнальных меток содержат значение межканальной корреляции, предоставленное в ответ на ограниченный пространственный диапазон; и

обрабатывают аудиосигнал, представляющий пространственно протяженный источник звука с использованием одного или более информационных элементов сигнальных меток,

причем аудиосигнал содержит первый аудиоканал для пространственно протяженного источника звука и второй аудиоканал для пространственно протяженного источника звука, или при этом аудиосигнал содержит первый аудиоканал для пространственно протяженного источника звука, а второй аудиоканал для пространственно протяженного источника звука извлекается из первого аудиоканала посредством процессора (310) второго канала, и

при этом обработка содержит выполнение обработки корреляции для первого аудиоканала для пространственно протяженного источника звука и второго аудиоканала для пространственно протяженного источника звука, чтобы налагать (320) корреляцию между первым аудиоканалом для пространственно протяженного источника звука и вторым аудиоканалом для пространственно протяженного источника звука с использованием значения межканальной корреляции, обеспеченного в ответ на ограниченный пространственный диапазон.

22. Компьютерночитаемый носитель, имеющий сохраненную на нем компьютерную программу для осуществления, при выполнении на компьютере или процессоре, способа по п. 21.

Документы, цитированные в отчете о поиске Патент 2023 года RU2808102C1

Автомобиль-сани, движущиеся на полозьях посредством устанавливающихся по высоте колес с шинами 1924
  • Ф.А. Клейн
SU2017A1
US 8437868 B2, 07.05.2013
Станок для придания концам круглых радиаторных трубок шестигранного сечения 1924
  • Гаркин В.А.
SU2019A1
POTARD G et al, "Decorrelation techniques for the rendering of apparent sound source width in 3D audio displays", THE INTERNATIONAL CONFERENCE ON DIGITAL AUDIO EFFECTS, 2004
SCHISSLER CARL et al, "Efficient HRTF-based Spatial Audio for Area and Volumetric

RU 2 808 102 C1

Авторы

Херре, Юрген

Адами, Александер

Анемюллер, Карлотта

Даты

2023-11-23Публикация

2021-03-12Подача