Настоящее изобретение относится к обработке аудиосигналов и, в частности, к устройству и способу для автоматического позиционирования микрофона.
Обработка аудиосигналов становится более важной. В частности, запись пространственного звука используется во множестве применений. Целью записи пространственного звука является фиксация звукового поля с помощью множества микрофонов таким образом, чтобы на стороне воспроизведения слушатель воспринимал звуковое изображение таким, каким оно было в месте записи.
Стандартные подходы для записи пространственного звука обычно вовлекают разнесенные, всенаправленные микрофоны (например, для AB-стереофонии), совпадающие направленные микрофоны (например, в стереофонии интенсивного звучания) или более сложные микрофоны, такие как микрофон B-формата, например, в Ambisonics, см., например,
(1) Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33(11):859-871, 1985.
Пространственный микрофон, например направленные микрофоны, массивы микрофонов и т. д., способен записывать пространственный звук. Термин «пространственный микрофон» относится к любому устройству для направленно-выборочного получения пространственного звука (например, направленные микрофоны, массивы микрофонов и т. д.).
Для воспроизведения звука существующие непараметрические подходы извлекают необходимые аудиосигналы воспроизведения непосредственно из записанных сигналов микрофона. Главным недостатком этих подходов является то, что записанное пространственное изображение всегда связано с используемым пространственным микрофоном.
Во многих применениях невозможно или недопустимо размещать пространственный микрофон в необходимой позиции, которая, например, может быть позицией близко к одному или большему количеству источников звука. В этом случае было бы более выгодно разместить множество пространственных микрофонов еще дальше от активных источников звука и все равно иметь возможность зафиксировать звуковую сцену, как необходимо.
В некоторых применениях используют два или более реальных пространственных микрофона. Следует отметить, что термин «реальный пространственный микрофон» относится к микрофону необходимого типа или к комбинации микрофонов (например, направленный микрофон, пара направленных микрофонов, которые используются в обычных стереомикрофонах, а также и массив микрофонов), которые физически существуют.
Для каждого реального пространственного микрофона направление прибытия (DOA) может оцениваться в частотно-временной области. Используя информацию, собранную с помощью реальных пространственных микрофонов, вместе со знанием их относительной позиции, можно вычислять выходные сигналы **** пространственного микрофона, фактически размещенного в произвольной позиции (по желанию) в окружающей среде. Этот пространственный микрофон в последующем упоминается «как виртуальный пространственный микрофон».
В таких применениях позицию и ориентацию одного или более виртуальных микрофонов необходимо вводить вручную. Однако было бы высоко оценено, если бы оптимальная позиция и/или ориентация одного или более виртуальных микрофонов определялась автоматически.
Было бы предпочтительно, если бы были доступны устройство и способ для определения, где разместить виртуальный микрофон, где разместить физический микрофон или определить оптимальную позицию прослушивания. Кроме того, было бы предпочтительно определить, как разместить микрофон в оптимальной ориентации. Термины «позиционирование микрофона» и «информация позиционирования» относятся к тому, как определять подходящую позицию микрофона или слушателя, а так же, как определять подходящую ориентацию микрофона или слушателя.
Целью настоящего изобретения является обеспечение улучшенных концепций для позиционирования микрофона. Цель настоящего изобретения достигается с помощью устройства по п. 1, способа по п. 10 и компьютерной программы по п. 11.
Обеспечено устройство для определения оптимальной позиции микрофона или прослушивания. Устройство содержит средство определения пространственной плотности мощности и средство оценки пространственной информации. Средство определения пространственной плотности мощности выполнено с возможностью определения пространственной плотности мощности, указывающей значения мощности для множества местоположений в окружающей среде, основываясь на информации источника звука, которая указывает одно или более значений мощности и одно или более значений позиции одного или более источников звука, расположенных в окружающей среде. Средство оценки пространственной информации выполнено с возможностью оценки акустической пространственной информации, основываясь на пространственной плотности мощности.
В последующем термин «виртуальный микрофон» относится в общем случае к микрофону любого типа. В частности, термин «виртуальный микрофон» относится и к виртуальным пространственным, и к непространственным микрофонам, а также к физически существующим пространственным или непространственным микрофонам, для которых должна определяться информация позиционирования.
Средство оценки пространственной информации выполнено с возможностью определения оптимальной позиции виртуального микрофона или оптимальной ориентации виртуального микрофона в окружающей среде, основываясь на пространственной плотности мощности, определенной с помощью средства определения пространственной плотности мощности. Пространственная плотность мощности определяется с помощью средства определения пространственной плотности мощности, основываясь на значениях мощности источников звука и соответствующей информации позиции.
Обеспечен автоматический способ определения оптимальной позиции и/или ориентации одного или более микрофонов дляописания звуковой сцены, например, одного или более виртуальных микрофонов.
В некоторых вариантах осуществления средство определения пространственной плотности мощности может настраиваться для использования дополнительной информации, предоставленной показателем значимости, который, например, представляет критерий надежности для оценки позиций ESS.
Например, в некоторых вариантах осуществления рассеяние Psi звука может использоваться в качестве показателя значимости. Выражение (1-Psi) можно затем просто умножать на значения мощности источника, вычисляя пространственную плотность мощности, так что рассеянный звук будет иметь вклад меньше, чем прямой звук, при определении пространственной плотности мощности.
Важным преимуществом предложенных концепций является то, что они могут применяться независимо от условий в комнате и не запрашивают никакой предварительной информации, относящейся к количеству или позиции собеседников и/или физических источников звука. С помощью этого система является самодостаточной и может настраиваться для любого вида сценария, используя только анализ звука. Согласно уровню техники, предварительная информация должна быть доступной для определения оптимальной позиции и/или ориентации одного или более микрофонов. Это или ограничивает применение, или, если оценка должна быть сделана, ограничивает точность. Используя описанные выше варианты осуществления, это не является необходимым. Позиция виртуального микрофона (или множества виртуальных микрофонов) вычисляется с помощью выполнения «полуслепого» анализа сцены и затем изменения его согласно требованиям целевого применения.
В отличие от других способов для оценки оптимальной позиции и/или ориентации виртуальных микрофонов, предложенный способ не запрашивает информации о рассматриваемой геометрической сцене. Например, нет никакой потребности ни в предварительной информации о количестве активных источников звука (например, о количестве участников конференции), ни в какой-либо информации об относительных позициях активных источников звука (например, о расположении участников в зале заседаний). Информация о звуке получается только из свойств описывающих звуковую сцену активных источников звука, которые упоминаются как «эффективные источники звука» (ESS). ESS моделирует пространственную звуковую сцену, в которой один или более ESS активны в определенный момент времени или в определенном частотно-временном элементе. В последующем термин «физический источник» используется для описания реального источника звуковой сцены, например собеседника, тогда как термин «эффективный источник звука» (ESS) (также называют «источник звука») используется для описания звукового события, которое активно в один момент времени или частотно-временной элемент. Каждый ESS характеризуется позицией и мощностью. Эта информация предоставляет возможность создать пространственную плотность мощности, например, пространственную плотность мощности, которая предоставляет возможность определять оптимальную позицию или ориентацию виртуального микрофона.
Параметры ESS могут быть получены, например, используя концепции, объясненные ниже для устройства для генерации выходного аудиосигнала виртуального микрофона в конфигурируемой виртуальной позиции. Оценка позиции звуковых событий объясняется ниже для устройства для генерации выходного аудиосигнала виртуального микрофона, в частности объясняется со ссылкой на фиг. 15-17. Описанные концепции могут использоваться для определения позиции эффективного источника звука. Компенсация распространения объясняется ниже для устройства для генерации выходного аудиосигнала виртуального микрофона, в частности объясняется со ссылкой на фиг. 17-20. Описанные концепции могут использоваться для определения мощности эффективного источника звука.
Согласно варианту осуществления средство оценки пространственной информации может содержать средство оценки центра звуковой сцены для оценки позиции центра звуковой сцены в окружающей среде. Средство оценки пространственной информации может кроме того содержать средство расчета позиции микрофона для расчета позиции микрофона в качестве акустической пространственной информации, основываясь на позиции центра звуковой сцены.
В другом варианте осуществления средство расчета позиции микрофона может настраиваться для расчета позиции микрофона, причем микрофон является виртуальным микрофоном.
Кроме того, согласно другому варианту осуществления средство оценки центра звуковой сцены может настраиваться для расчета центра масс пространственной плотности мощности для оценки центра звуковой сцены.
В добавочном варианте осуществления средство оценки центра звуковой сцены может конфигурироваться для определения профиля задержки мощности, основываясь на пространственной плотности мощности, и определения среднеквадратичной задержки, основываясь на профиле задержки мощности для каждого из множества местоположений в окружающей среде. Средство оценки центра звуковой сцены может конфигурироваться для определения позиции местоположения из множества местоположений в качестве центра звуковой сцены, которая имеет минимальную среднеквадратичную задержку из среднеквадратичных задержек множества местоположений.
В другом варианте осуществления средство оценки центра звуковой сцены может настраиваться для осуществления круговой интеграции для оценки центра звуковой сцены, причем средство оценки центра звуковой сцены может настраиваться для осуществления круговой интеграции с помощью свертки пространственной плотности мощности с кругом, например, с помощью применения формулы
в которой Г(x, y) - пространственная плотность мощности, и в которой C(r,о)(x, y) указывает круг для определения значения круговой интеграции для каждого из множества местоположений окружающей среды, когда окружающая среда является двумерной окружающей средой.
Альтернативно средство оценки центра звуковой сцены может настраиваться для осуществления круговой интеграции с помощью свертки пространственной плотности мощности со сферой, например, с помощью применения формулы
в которой Г(x, y, z) является пространственной плотностью мощности, и в которой C(r,о)(x, y, z) указывает сферу для определения значения круговой интеграции для каждого из множества местоположений окружающей среды, когда окружающая среда является трехмерной окружающей средой.
Кроме того, согласно варианту осуществления средство оценки центра звуковой сцены может настраиваться для определения максимального значения круговой интеграции для каждого из множества местоположений окружающей среды для оценки центра звуковой сцены.
В добавочном варианте осуществления средство расчета позиции микрофона может настраиваться для определения линии с самым широким интервалом из множества линий через центр звуковой сцены в окружающей среде. Каждая из множества линий через центр звуковой сцены может иметь интервал энергии, причем линия с самым широким интервалом может быть линией из множества линий через центр звуковой сцены, которая имеет наибольший интервал энергии.
Согласно варианту осуществления интервал энергии рассматриваемой линии из множества линий может указывать наибольшую длину сегмента на рассматриваемой линии так, чтобы первая точка сегмента, ограничивающая сегмент, и так, чтобы другая вторая точка сегмента, ограничивающая сегмент, обе имели значения мощности, указанные с помощью пространственной плотности мощности, которые могут быть больше или равны предопределенному значению мощности. Средство расчета позиции микрофона может настраиваться для определения позиции микрофона таким образом, что вторая линия, которая проходит через центр звуковой сцены и позицию микрофона, может быть ортогональной к линии с самым широким интервалом.
В варианте осуществления средство расчета позиции микрофона может конфигурироваться для применения сингулярного разложения к матрице, имеющей множество столбцов. Столбцы матрицы могут указывать позиции местоположений в окружающей среде относительно центра звуковой сцены. Кроме того, столбцы матрицы могут указывать только позиции местоположений, имеющие значения мощности, указываемые с помощью пространственной плотности мощности, которые больше предопределенного порогового значения, или столбцы матрицы могут указывать только позиции местоположений, имеющие значения мощности, указываемые с помощью пространственной плотности мощности, которые больше или равны предопределенному пороговому значению.
Согласно другому варианту осуществления средство оценки пространственной информации может содержать средство определения ориентации для определения ориентации микрофона, основываясь на пространственной плотности мощности. Средство определения ориентации может настраиваться для определения ориентации микрофона таким образом, чтобы микрофон был ориентирован к центру звуковой сцены. Средство определения ориентации может конфигурироваться для определения значения f(φ) интеграции для каждого из множества направлений φ с помощью применения формулы
при этом rmax задает максимальное расстояние от микрофона, и при этом средство определения ориентации выполнено с возможностью определения ориентации микрофона, основываясь на определенном значении f(φ) интеграции.
В другом варианте осуществления средство определения пространственной плотности мощности может настраиваться для определения пространственной плотности мощности для множества местоположений окружающей среды для частотно-временного элемента (k, n) с помощью применения формулы
когда окружающая среда является двумерной окружающей средой,
или с помощью применения формулы
когда окружающая среда является трехмерной окружающей средой,
причем k обозначает индекс частоты, и n обозначает индекс времени, причем x, y, z обозначает координаты одного из множества местоположений, причем poweri(k, n) обозначает значение мощности в i-м источнике звука для частотно-временного элемента (k, n), причем xESSi, yESSi, zESSi обозначают координаты i-го источника звука, причем γi является скалярным значением, которое может представлять индикатор того, насколько надежны оценки позиции каждого эффективного источника звука, и причем g является функцией, зависящей от x, y, z, xESSi yESSi, zESSi, k, n и γi.
Варианты осуществления настоящего изобретения объясняются со ссылкой на сопроводительные чертежи, на которых:
фиг. 1 показывает устройство для позиционирования микрофона согласно варианту осуществления,
фиг. 2 изображает устройство для позиционирования микрофона согласно другому варианту осуществления,
фиг. 3 показывает входы и выходы устройства для позиционирования микрофона согласно варианту осуществления,
фиг. 4a-4c показывают множество сценариев применения устройства для позиционирования микрофона,
фиг. 5 изображает средство 21 определения пространственной плотности мощности согласно варианту осуществления,
фиг. 6a показывает дельта-функции для создания функции g,
фиг. 6b изображает функции плотности для создания функции g,
фиг. 7 показывает средство оценки пространственной информации согласно варианту осуществления,
фиг. 8 показывает средство оценки пространственной информации согласно добавочному варианту осуществления,
фиг. 9 показывает средство 44 расчета позиции/ориентации микрофона согласно другому варианту осуществления, изображающему больше подробностей,
фиг. 10a-10c изображают оптимизацию, основанную на интервале спроецированной энергии согласно варианту осуществления,
фиг. 11 показывает средство оценки пространственной информации согласно другому варианту осуществления, причем средство оценки пространственной информации кроме того содержит средство определения ориентации,
фиг. 12 показывает устройство для генерации выходного аудиосигнала согласно варианту осуществления,
фиг. 13 показывает входы и выходы устройства и способа для генерации выходного аудиосигнала согласно варианту осуществления,
фиг. 14 показывает основную структуру устройства для генерации выходного аудиосигнала согласно варианту осуществления, которое содержит средство оценки позиции звуковых событий и модуль вычисления информации,
фиг. 15 показывает примерный сценарий, в котором реальные пространственные микрофоны изображены как однородные линейные массивы из 3 микрофонов каждый,
фиг. 16 изображает два пространственных микрофона в 3D для оценки направления прибытия в 3D пространстве,
фиг. 17 показывает геометрию, где изотропный точечный источник звука текущего частотно-временного элемента (k, n) расположен в позиции pIPLS(r,n),
фиг. 18 изображает модуль вычисления информации согласно варианту осуществления,
фиг. 19 изображает модуль вычисления информации согласно другому варианту осуществления,
фиг. 20 показывает два реальных пространственных микрофона, звуковое событие, для которого определено местоположение, и позицию виртуального пространственного микрофона,
фиг. 21 показывает, как получить направление прибытия относительно виртуального микрофона согласно варианту осуществления,
фиг. 22 изображает возможный способ получения DOA звука с точки зрения виртуального микрофона согласно варианту осуществления,
фиг. 23 показывает средство вычисления информации, содержащее средство вычисления рассеяния согласно варианту осуществления,
фиг. 24 изображает средство вычисления рассеяния согласно варианту осуществления,
фиг. 25 показывает сценарий, в котором оценка позиции звуковых событий невозможна,
фиг. 26 показывает два реальных пространственных микрофона, звуковое событие, для которого определено местоположение, и позицию виртуального микрофона, и
фиг. 27a-27c показывают сценарии, в которых два массива микрофонов принимают прямой звук, отраженный стенкой звук и рассеянный звук.
Фиг. 1 показывает устройство для позиционирования микрофона согласно варианту осуществления. Устройство содержит средство 10 определения пространственной плотности мощности и средство 20 оценки пространственной информации. Средство 10 определения пространственной плотности мощности выполнено с возможностью определения пространственной плотности spd мощности, которая указывает значения мощности для множества местоположений в окружающей среде, основываясь на информации ssi источника звука, которая указывает одно или более значений мощности и одно или более значений позиции одного или более эффективных источников звука (EES), расположенных в окружающей среде. Средство 20 оценки пространственной информации выполнено с возможностью оценки акустической пространственной информации aspi, основываясь на пространственной плотности мощности.
Фиг. 2 показывает устройство для позиционирования микрофона согласно другому варианту осуществления. Устройство содержит средство 21 определения пространственной плотности мощности для определения пространственной плотности мощности (SPD), также называют пространственным распределением мощности, которая указывает значения мощности для множества местоположений окружающей среды, основываясь на информации эффективного источника звука, которая указывает одно или более основных значений и значений позиции одного или более эффективных источников звука, распределенных в окружающей среде. Устройство кроме того содержит средство 22 оценки пространственной информации для оценки позиции и/или ориентации виртуального микрофона (VM), основываясь на пространственной плотности мощности.
Фиг. 3 показывает входы и выходы устройства для позиционирования микрофона согласно варианту осуществления. Входы 91, 92, …, 9N на устройство содержат мощность, например, абсолютное значение возведенного в квадрат давления звукового поля, и позицию, например, 2D или 3D декартовы координаты. Эффективные источники звука (ESS) описывают звуковую сцену (звуковое поле).
Эффективные источники звука могут, например, быть равны мгновенным точечным источникам звука (IPLS), как описано ниже для устройства для генерации выходного аудиосигнала виртуального микрофона в конфигурируемой виртуальной позиции.
На выходе возвращаются позиция и местоположение одного или более виртуальных микрофонов. В последующем термин «физический источник» используется для описания реального источника звуковой сцены, например собеседника, тогда как термин «эффективный источник звука» (ESS) (также называют «источник звука») используется для описания звукового события, которое активно в один временной или частотно-временной элемент, как также используется для IPLS, описанного ниже относительно устройства для генерации выходного аудиосигнала виртуального микрофона в конфигурируемой виртуальной позиции.
Кроме того, следует отметить, что термин «источник звука» охватывает и физический источник, и эффективный источник звука.
Входы устройства согласно варианту осуществления на фиг. 2, 91, 92, …, 9N содержат информацию относительно позиции и соответствующей мощности множества N эффективных источников звука, для которого определено местоположение в пределах момента времени или частотно-временного элемента, как описано ниже для устройства для генерации выходного аудиосигнала виртуального микрофона в конфигурируемой виртуальной позиции и как также описано в
(20) Giovanni Del Galdo, Oliver Thiergart, TobiasWeller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 11), Edinburgh, United Kingdom, May 2011.
Например, эта информация может содержаться на выходе 106 на фиг. 14 модуля вычисления информации устройства для генерации выходного аудиосигнала виртуального микрофона в конфигурируемой виртуальной позиции, который рассматривают ниже, для 1, 2, N различных элементов частоты, когда применяется сокращенное преобразование Фурье (STFT).
Относительно устройства для позиционирования микрофона различные рабочие режимы могут быть активными во время определенного интервала времени, каждый подразумевает различный сценарий для позиционирования и ориентирования одного или более виртуальных микрофонов. Устройство для позиционирования микрофона может использоваться для множества сценариев применения:
В первом сценарии применения N всенаправленных виртуальных микрофонов могут размещаться в звуковой сцене (см. фиг. 4a). Таким образом, в этом сценарии применения множество виртуальных микрофонов охватывает всю звуковую сцену.
Во втором сценарии применения один виртуальный микрофон позиционируется в акустическом центре звуковой сцены. Например, всенаправленные виртуальные микрофоны, кардиоидные виртуальные микрофоны или виртуальный пространственный микрофон (такой как микрофон B-формата) размещаются таким образом, что все участники фиксируются оптимально (фиг. 4b).
В третьем сценарии применения один пространственный микрофон размещен «вне» звуковой сцены. Например, виртуальный стереомикрофон размещают таким образом, что получается широкое пространственное изображение, как показывается на фиг. 4c.
В четвертом сценарии применения оценивается оптимальная ориентация виртуального микрофона, в то время как виртуальный микрофон расположен в фиксированной позиции (предопределенной позиции), например, позиция и направленность виртуального микрофона могут предварительно определяться, и только ориентация рассчитывается автоматически.
Нужно отметить, что все вышеупомянутые применения могут включать в себя возможность настройки во временной области. Например, позиция/ориентация виртуального высоконаправленного микрофона следует за одним из собеседников, когда данный собеседник перемещается в комнате.
На фиг. 2 и 3 дополнительная информация предоставлена с помощью показателя 13 значимости, который, например, представляет критерий надежности для оценки позиций ESS. Например, такой показатель может быть получен из средств оценки отклонений направления прибытия (используя два или более массивов микрофонов, которые объяснены), как объяснено ниже для устройства для генерации выходного аудиосигнала виртуального микрофона в конфигурируемой виртуальной позиции, или из параметра рассеяния, вычисляемого как в
(21) Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.
Данный показатель может выражаться или по отношению ко всем входам 91, …, 9N (например, постоянное значение показателя для всех входов может использоваться), или может определяться по-разному для каждого входа 91, …, 9N. Выходы 15, 16 устройства на фиг. 2 могут содержать позицию и/или ориентацию одного или более виртуальных микрофонов. В зависимости от применения могут генерироваться выходы (позиции и ориентации) для множества виртуальных микрофонов, каждый соответствует определенному виртуальному микрофону.
Фиг. 5 показывает средство 21 определения пространственной плотности мощности согласно варианту осуществления. Средство определения пространственной плотности мощности содержит основной процессор 31 пространственной плотности мощности и постпроцессор 32 пространственной плотности мощности. Средство 21 определения пространственной плотности мощности выполнено с возможностью определения (или скорее вычисления) измененной пространственной плотности мощности (SPD), обозначенной в последующем Г(x, y, z, k, n), которая выражает мощность, сосредоточенную в определенной точке, например (x, y, z) в пространстве для каждого частотно-временного элемента (k, n). SPD генерируется с помощью интеграции значения мощности в позициях эффективных источников 91, …, 9N звука, которые вводят в средство 21 определения пространственной плотности мощности.
Вычисление SPD для частотно-временного элемента (k, n) может выполняться согласно формуле
в которой (x, y, z) представляют координаты системы и xESSi, yESSi, zESSi - координаты эффективного источника звука i. Показатель 103 γi значимости представляют индикатор того, насколько надежны оценки позиции каждого эффективного источника звука. По умолчанию показатель значимости может быть равен 1. Следует отметить, что мощность и координаты хESSi, yESSi и zESSi соответствуют входу 9i на фиг. 3. Кроме того, нужно отметить, что для простоты записи расширение (k, n) не будет записываться в последующем. Однако последующие формулы все еще зависят от конкретного рассматриваемого частотно-временного элемента (k, n).
SPD, сгенерированная с помощью основного процессора 31 пространственной плотности мощности (например, на фиг. 5), может добавочно обрабатываться с помощью основного процессора 32 пространственной плотности мощности (постобработка SPD и модуль временной интеграции) и интегрироваться во времени, например, используя авторегрессивный фильтр. Чтобы быть более устойчивым против резко выделяющихся значений звуковой сцены (то есть вызванных с помощью неправильной оценки позиции), любой вид постобрабатывающего фильтра может применяться к SPD. Такой постобрабатывающий фильтр может, например, быть фильтром нижних частот или морфологическим (сужения, расширения) фильтром.
Когда вычисляют позицию и/или ориентацию одного или более виртуальных микрофонов, может использоваться необязательный параметр, который зависит от SPD. Этот параметр может относиться, например, к запрещенным и/или предпочтительным областям комнаты, где разместить виртуальные микрофоны (VM), или может относиться к SPD, выбирая конкретные диапазоны SPD, которые удовлетворяют некоторым предопределенным правилам.
Как можно заметить в формуле (1), g - функция показателя значимости γ (или скорее γi) в пространстве, который по умолчанию имеет значение, равное 1. Иначе g может использоваться для учета различных вкладов. Например, если у2 является дисперсией оценки позиции, тогда, например, σ2 можно устанавливать в .
Альтернативно может использоваться среднее рассеяние ψ, вычисленное в массивах микрофонов, что приводит к γ=1-ψ.
Таким образом γ может выбираться так, что он уменьшается для более ненадежных оценок и увеличивается для более надежных.
Множество возможностей существует для создания функции g. Два примера, особенно полезных практически:
В первой функции δ(x), δ(y) и δ(z) указывают дельта-функции (см. фиг. 6a, иллюстрирующую дельта-функцию). Во второй функции s=[x y z]T, µ=[µx µy µz]T - средний вектор, и ∑γ - матрица ковариации функции g Гауссова распределения (см. фиг. 6b, иллюстрирующую функции распределения). Матрица ковариации вычисляется с помощью использования следующей формулы:
которая зависит от выбора γ для сценария, где , имея в виду, что, например, для случая 1D:
Как можно заметить в формуле (3), функция g может описываться с помощью дистрибутивной функции вокруг позиций эффективного источника звука, заданных входами 91, …, 9N, где, например, показатель значимости является инверсией дисперсии Гауссова распределения. Если оценка позиции источника звука будет иметь высокую надежность, то соответствующее распределение будет скорее узким, тогда как более ненадежная оценка будет соответствовать высоким вариантам и будет поэтому широким распределением, см., например, фиг. 6b, показывающую 1D пример.
Фиг. 7 показывает средство 22 оценки пространственной информации согласно варианту осуществления. Средство оценки пространственной информации содержит средство 41 оценки центра звуковой сцены для оценки позиции центра звуковой сцены в окружающей среде. Кроме того, средство оценки пространственной информации содержит средство 42 расчета позиции микрофона для расчета позиции микрофона в качестве акустической пространственной информации, основываясь на позиции центра звуковой сцены.
Фиг. 8 показывает средство 22 оценки пространственной информации согласно добавочному варианту осуществления. Средство оценки пространственной информации содержит средство 44 расчета позиции виртуального микрофона, настроенное для расчета позиции виртуального микрофона и добавочно настроенное для определения ориентации виртуального микрофона. Средство 44 расчета позиции виртуального микрофона поэтому также упоминается как средство 44 расчета позиции/ориентации микрофона.
Средство 22 оценки пространственной информации на фиг. 8 использует в качестве входа ранее сгенерированную SPD 23. Оно возвращает в качестве выхода позицию 15 и ориентацию 16 одного или более виртуальных микрофонов в зависимости от целевого применения. Первый блок обработки, средство 41 оценки центра звуковой сцены, обеспечивает оценку центра звуковой сцены. Выход 43 блока 41, например, позиция центра звуковой сцены, затем обеспечивается в качестве входа ко второму блоку обработки, средству 44 расчета позиции/ориентации виртуального микрофона. Средство 44 расчета позиции/ориентации виртуального микрофона выполняет фактическую оценку окончательной позиции 15 и ориентации 16 одного или более виртуальных микрофонов в зависимости от целевого применения.
Средство 41 оценки центра звуковой сцены обеспечивает оценку центра звуковой сцены. Выход средства 41 оценки центра звуковой сцены затем обеспечивается в качестве входа на средство 44 расчета позиции/ориентации микрофона. Средство 44 расчета позиции/ориентации микрофона выполняет фактическую оценку окончательной позиции 15 и/или ориентации 16 одного или более виртуальных микрофонов согласно рабочему режиму, который характеризует целевое применение.
Варианты осуществления средства оценки центра звуковой сцены теперь объясняются более подробно. Для получения центра звуковой сцены существуют несколько возможных концепций.
Согласно первой концепции первого варианта осуществления центр звуковой сцены получают с помощью вычисления центра масс SPD Г(x, y, z). Значением Г(x, y, z) может быть s, интерпретируемое как существующая масса в точке (x, y, z) в пространстве.
Согласно второй концепции второго варианта осуществления должна быть найдена позиция в пространстве с минимальной дисперсией времени канала. Это достигается с помощью учета среднеквадратичного (RMS) разброса по задержке. Сначала для каждой точки в пространстве p=(x0, y0) вычисляется профиль задержки мощности (PDP) Ap(τ), основываясь на SPD Г(x, y, z), например, с помощью использования
где
Из Ap(τ) затем рассчитывается RMS задержки с помощью использования следующего уравнения:
где представляет среднюю задержку Ap(τ). Позиция, для которой средняя задержка TRMS,p является минимальной, будет представлять центр звуковой сцены.
Согласно третьей концепции третьего варианта осуществления, который может использоваться в качестве альтернативы для оценки центра звуковой сцены, предложена «круговая интеграция». Например, в 2D случае выполняется свертка SPD Г(x, y) с кругом C(r,o) согласно следующей формуле:
в которой r - радиус круга, и в которой o задает центр круга. Радиус r или может быть постоянным, или может изменяться в зависимости от значения мощности в точке (x, y). Например, высокая мощность в точке (x, y) может соответствовать большому радиусу, тогда как низкая мощность может соответствовать маленькому радиусу. Возможны также добавочные зависимости от мощности. Одним таким примером является свертка круга с двумерной функцией Гаусса перед ее использованием для создания функции g(x, y). Согласно такому варианту осуществления матрица ковариации двумерной функции Гаусса становится зависящей от мощности в позиции (x, y), то есть высокая мощность соответствует низкой дисперсии, тогда как низкая мощность соответствует высокой дисперсии.
Когда g(x, y) вычислена, центр звуковой сцены может определяться согласно следующей формуле:
В добавочных вариантах осуществления эта концепция расширена на 3D, используя 3D свертку Г(x, y, z) со сферой аналогично.
Фиг. 9 показывает средство 44 расчета позиции/ориентации микрофона согласно другому варианту осуществления, изображающему больше подробностей. Центр звуковой сцены 43 задают в качестве ввода в средство 44 расчета позиции/ориентации микрофона вместе с SPD 23. В средстве 44 расчета позиции/ориентации микрофона информация о центре звуковой сцены 43 может копироваться в зависимости от действия, требуемого целевым применением, на выход и использоваться непосредственно в качестве позиции виртуального микрофона, например, когда может применяться сценарий применения на фиг. 4b, который относится к сценарию с одним виртуальным микрофоном, позиционированным в акустическом центре звуковой сцены.
Альтернативно информация о центре звуковой сцены 43 может использоваться в качестве параметра изменения в средстве 44 расчета позиции/ориентации микрофона.
Различные концепции могут применяться для расчета позиции микрофона, например:
оптимизация, основанная на интервале спроецированной энергии,
оптимизация, основанная на анализе главных компонент.
В иллюстративных целях может приниматься, что позиция микрофона вычисляется согласно сценарию применения на фиг. 4c, относящегося к сценарию одного пространственного микрофона вне сцены. Однако объяснения одинаково могут применяться к любым другим сценариям применения.
Концепции для оценки позиции виртуальных микрофонов согласно вариантам осуществления, которые были ранее перечислены, будут теперь описаны более подробно в последующем.
Оптимизация, основанная на интервале спроецированной энергии, задает множество М расположенных на одинаковом расстоянии линий, которые проходят через центр звуковой сцены. Для каждой из этих линий, например в 2D сценарии, SPD Г(x,y) ортогонально проецируется на них и суммируется.
Фиг. 10a-10c показывают оптимизацию, основанную на интервале спроецированной энергии. На фиг. 10a функция Pproj спроецированной мощности вычисляется для каждой из линий l1, … li, … lM. Затем рассчитываются соответствующие интервалы функции, см. фиг. 10b. Например, интервал может быть задан как интервал -3 дБ, который эквивалентен расстоянию, для которого крайняя левая точка и крайняя правая точка сегмента расстояния соответствуют предопределенному уровню мощности, например, уровню мощности выше -3 дБ. Впоследствии идентифицируется линия с самым широким интервалом, и виртуальный микрофон размещается в ортогональном направлении к ней. Ориентация виртуального микрофона может устанавливаться таким образом, что она указывает на центр звуковой сцены, как объяснено в последующем разделе. С помощью такого подхода получают две возможные позиции виртуального микрофона (VM), так как VM может позиционироваться или в положительном, или в отрицательном ортогональном направлении.
Расстояние, на котором позиционируется VM, может вычисляться, например, основываясь на геометрических построениях вместе с углом раскрытия виртуального микрофона. Это показывается на фиг. 10c. Расстояние, на котором позиционируется VM, изменяется в зависимости от рабочего режима, определенного для целевого применения. Это подразумевает построение треугольника таким образом, что интервал i на фиг. 10c представляет одну сторону треугольника и центр масс COG является серединой стороны. С помощью проведения ортогональной линии через COG и определения ее в качестве средней линии угла a раскрытия VM находят третью вершину треугольника. Длина средней линии тогда дает расстояние между позицией VM и центром звуковой сцены.
Согласно другому варианту осуществления описанная концепция оптимизации, основанная на спроецированной энергии, может быть расширена на 3D. В этом случае M2 расположенных на одинаковом расстоянии плоскостей (в азимутальном направлении и в направлении вверх) задаются вместо М линий. Интервал в таком случае соответствует диаметру круга, который содержит наибольшую часть спроецированной энергии. Конечная позиция получается с помощью размещения VM на нормали к поверхности плоскости круга с наибольшим диаметром. Согласно варианту осуществления расстояние от центра звуковой сцены до позиции VM может вычисляться снова, также как в 2D случае, который использует геометрические построения и угол раскрытия, определенный рабочим режимом.
Согласно другому варианту осуществления используется оптимизация, основанная на анализе главных компонент. Оптимизация, основанная на обработке, аналогичной анализу главных компонент, использует непосредственно информацию, доступную из SPD. Сначала SPD Г(x, y, z) квантуют, и пороговый селективный фильтр применяют к квантованному набору данных. С помощью этого отбрасываются все точки, которые имеют уровни энергии, которые меньше определенного порогового значения. Впоследствии оставшиеся точки hi=[hx,i, hy,i, hz,i]T центрируются в середине (то есть центрированные в середине точки представляют координаты i-го эффективного источника минус координаты центра звуковой сцены) и затем реорганизуются в матрицу H данных следующим образом:
где N задает количество точек после сравнения с пороговым значением. Затем сингулярное разложение (SVD) применяется к H, так что она раскладывается на следующее произведение:
Первый столбец U представляет главный компонент, который имеет самую высокую изменчивость набора данных. Второй столбец U является ортогональным к первому и представляет направление, в котором хотят разместить VM. Интервал неявно задается с помощью первого сингулярного значения в матрице Σ. Зная интервал, а также направление, можно вычислять позицию и ориентацию VM, как описано в способе оптимизации, основываясь на интервале спроецированной энергии, как описано выше и объяснено со ссылкой на фиг. 10a-10c.
В другом варианте осуществления эти способы могут применяться к 2D задаче, которая является простой, поскольку просто нужно игнорировать/удалять компонент оси z из уравнений и построений.
Для других применений, таких как сценарий применения на фиг. 4a (множество виртуальных микрофонов, охватывающих всю звуковую сцену), может использоваться другая концепция, такая как итерационная схема оптимизации. На первом этапе идентифицируется позиция с максимальным значением SPD. С помощью этого определяется местоположение первого VM из общего количества N виртуальных микрофонов. После этого вся энергия, окружающая эту позицию (то есть до определенного расстояния), удаляется из SPD. Предыдущие этапы повторяются, пока все позиции N виртуальных микрофонов не будут найдены. В случае, когда N не определено, итерация выполняется до тех пор, когда максимальное значение SPD станет меньше определенного порогового значения.
Фиг. 11 показывает другой вариант осуществления, в котором средство 22 оценки пространственной информации кроме того содержит средство 45 определения ориентации. Средство 45 определения ориентации выполнено с возможностью определения (подходящей) ориентации 16 микрофона, основываясь на пространственной плотности 23 мощности.
В последующем будет описана оценка ориентации. Подходы оптимизации, основанные на интервале спроецированной энергии, а также на анализе главных компонент, вычисляют ориентацию виртуального микрофона 15 неявно, так как виртуальный микрофон, как предполагается, ориентирован к центру звуковой сцены.
Для некоторых других сценариев применения, однако, может быть подходящим для явного расчета ориентации, например, в сценарии применения, в котором оценивается оптимальная ориентация виртуального микрофона, причем виртуальный микрофон расположен в фиксированной позиции. В этом случае ориентация должна определяться таким образом, чтобы виртуальный микрофон принимал большую часть энергии в звуковой сцене.
Согласно варианту осуществления для определения ориентации виртуального микрофона сначала дискретизируют возможные направления φ, и выполняется интеграция по энергии на каждом из этих направлений. Получается следующая функция φ:
где rmax задано как максимальное расстояние от VM и управляет диаграммой направленности приема VM. Затем, окончательная ориентация ϕ VM вычисляется как:
где ωϕ(φ) является функцией взвешивания, основанной на входных характеристиках VM. Например, ωϕ(φ) может быть функцией, которая задает, как масштабируется энергия, исходящая из направления φ, при условии определенного направления ϕ просмотра и конкретной диаграммы направленности приема VM.
В последующем объяснено устройство для генерации выходного аудиосигнала для моделирования записи виртуального микрофона в конфигурируемой виртуальной позиции в окружающей среде. Устройство для позиционирования микрофона согласно одному из вышеописанных вариантов осуществления может использоваться для определения виртуальной позиции для устройства для генерации выходного аудиосигнала.
Фиг. 12 показывает устройство для генерации выходного аудиосигнала для моделирования записи виртуального микрофона в конфигурируемой виртуальной позиции posVmic в окружающей среде. Устройство содержит средство 110 оценки позиции звуковых событий и модуль 120 вычисления информации. Средство 110 оценки позиции звуковых событий принимает информацию di1 первого направления от первого реального пространственного микрофона и информацию di2 второго направления от второго реального пространственного микрофона. Средство 110 оценки позиции звуковых событий выполнено с возможностью оценки позиции ssp источника звука, указывающей позицию источника звука в окружающей среде, источник звука излучает звуковую волну, причем средство 110 оценки позиции звуковых событий выполнено с возможностью оценки позиции ssp источника звука, основываясь на информации di1 первого направления, обеспеченной с помощью первого реального пространственного микрофона, располагаемого в позиции pos1mic первого реального микрофона в окружающей среде, и основываясь на информации di2 второго направления, обеспеченной с помощью второго реального пространственного микрофона, располагаемого в позиции второго реального микрофона в окружающей среде. Модуль 120 вычисления информации выполнен с возможностью генерации выходного аудиосигнала, основываясь на первом записанном входном аудиосигнале is1, записанном с помощью первого реального пространственного микрофона, основываясь на позиции pos1mic первого реального микрофона и основываясь на виртуальной позиции posVmic виртуального микрофона. Модуль 120 вычисления информации содержит средство компенсации распространения, настроенное для генерации первого измененного аудиосигнала с помощью изменения первого записанного входного аудиосигнала is1 с помощью компенсации первой задержки или затухания амплитуды между прибытием звуковой волны, излучаемой звуковым источником в первом реальном пространственном микрофоне и прибытием звуковой волны в виртуальном микрофоне, корректируя значение амплитуды, значение величины или значение фазы первого записанного входного аудиосигнала is1 для получения выходного аудиосигнала.
Фиг. 13 показывает входы и выходы устройства и способ согласно варианту осуществления. Информация от двух или более реальных пространственных микрофонов 111, 112, …, 11N подается на устройство/обрабатывается с помощью способа. Эта информация содержит аудиосигналы, принятые с помощью реальных пространственных микрофонов, а также информацию направления от реальных пространственных микрофонов, например, оценки направления прибытия (DOA). Аудиосигналы и информация направления, такая как оценка направления прибытия, может выражаться в частотно-временной области. Если, например, 2D восстановление геометрии желательно и традиционная область STFT (сокращенного преобразования Фурье) выбрана для представления сигналов, то DOA может выражаться как углы азимута, зависящие от k и n, а именно - от индексов времени и частоты.
В вариантах осуществления определение местоположения звукового события в пространстве, а также конкретизация позиции виртуального микрофона может проводиться, основываясь на позициях и ориентациях реальных и виртуальных пространственных микрофонов в общей системе координат. Эта информация может быть представлена входами 121, …, 12N и входом 104 на фиг. 13. Вход 104 может добавочно определять характеристику виртуального пространственного микрофона, например, его позиции и диаграмму направленности приема, как будет обсуждаться в последующем. Если виртуальный пространственный микрофон содержит множество виртуальных датчиков, то можно рассматривать их позиции и соответствующие различные диаграммы направленности приема.
Выход устройства или соответствующего способа может быть, когда необходимо, одним или большим количеством звуковых сигналов 105, который, возможно, принят с помощью пространственного микрофона, определенным и размещенным, как определено с помощью 104. Кроме того, устройство (или скорее способ) может предоставлять в качестве выхода соответствующую дополнительную пространственную информацию 106, которая может оцениваться, используя виртуальный пространственный микрофон.
Фиг. 14 показывает устройство согласно варианту осуществления, которое содержит два основных процессора, средство 201 оценки позиции звуковых событий и модуль 202 вычисления информации. Средство 201 оценки позиции звуковых событий может выполнять геометрическое восстановление на основе DOA, содержащихся на входах 111, …, 11N, основываясь на знании позиции и ориентации реальных пространственных микрофонов, где DOA были вычислены. Выход средства 205 оценки позиции звуковых событий содержит оценки позиции (или в 2D, или 3D) источников звука, причем звуковые события происходят в течение каждого временного и частотного элемента. Второй блок 202 обработки - модуль вычисления информации. Согласно варианту осуществления на фиг. 14 второй блок 202 обработки вычисляет виртуальный сигнал микрофона и пространственную дополнительную информацию. Он поэтому также упоминается как блок 202 вычисления сигнала виртуального микрофона и дополнительной информации. Блок 202 вычисления сигнала виртуального микрофона и дополнительной информации использует позиции звуковых событий 205 для обработки аудиосигналов, содержащихся в 111, …, 11N, для вывода аудиосигнала 105 виртуального микрофона. Блок 202, если требуется, может также вычислять пространственную дополнительную информацию 106, соответствующую виртуальному пространственному микрофону. Приведенные ниже варианты осуществления показывают возможности, как блоки 201 и 202 могут работать.
В последующем оценка позиции средства оценки позиции звуковых событий согласно варианту осуществления описана более подробно.
В зависимости от размерности задачи (2D или 3D) и количества пространственных микрофонов возможно несколько решений для оценки позиции.
Если существуют два пространственных микрофона в 2D (самый простой возможный случай), то возможна простая триангуляция. Фиг. 15 показывает примерный сценарий, в котором реальные пространственные микрофоны изображены как однородные линейные массивы (ULA) из 3 микрофонов каждый. DOA, выраженные как углы азимута a1(k, n) и a2(k, n), вычисляется для частотно-временного элемента (k, n). Это достигается с помощью использования надлежащего средства оценки DOA, такого как ESPRIT,
(13) R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986.
или (основного) MUSIC, см.
(14) R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986,
для сигналов давления, преобразованных в частотно-временную область.
На фиг. 15 показываются два реальных пространственных микрофона, в данном случае два реальных пространственных массива 410, 420 микрофонов. Два предполагаемых DOA a1(k, n) и a2(k, n) представлены двумя линиями: первая линия 430 DOA представляет a1(k, n) и вторая линия 440 DOA представляет a2(k, n). Триангуляция возможна через простые геометрические построения, зная позицию и ориентацию каждого массива.
Триангуляция заканчивается неудачно, когда эти две линии 430, 440 точно параллельны. В реальных применениях, однако, это очень маловероятно. Однако не все результаты триангуляции соответствуют физической или допустимой позиции для звукового события в рассматриваемом пространстве. Например, предполагаемая позиция звукового события может быть слишком далеко или даже вне допустимого пространства, указывая, что, вероятно, DOA не соответствуют никакому звуковому событию, которое может физически интерпретироваться с помощью используемой модели. Такие результаты могут быть вызваны шумом в датчике или слишком сильным отражением комнаты. Поэтому, согласно варианту осуществления, такие нежелательные результаты указываются таким образом, что модуль 202 вычисления информации может обрабатывать их должным образом.
Фиг. 16 изображает сценарий, когда позиция звукового события оценивается в 3D пространстве. Используются надлежащие пространственные микрофоны, например, плоский или 3D массив микрофонов. На фиг. 16 показывается первый пространственный микрофон 510, например, первый 3D массив микрофонов, и второй пространственный микрофон 520, например, первый 3D массив микрофонов. DOA в 3D пространстве может, например, выражаться как азимут и высота. Единичные векторы 530, 540 могут использоваться для выражения DOA. Две линии 550, 560 проецируют согласно DOA. В 3D, даже с очень надежными оценками, эти две линии 550, 560, спроецированные согласно DOA, могут не пересекаться. Однако триангуляция может все равно выполняться, например, с помощью выбора средней точки наименьшего сегмента, соединяющего эти две линии.
Аналогично случаю 2D, триангуляция может заканчиваться неудачно или может приводить к практически невозможным результатам для определенных комбинаций направлений, что может затем также передаваться, например, к модулю 202 вычисления информации на фиг. 14.
Если существует больше двух пространственных микрофонов, то возможно несколько решений. Например, объясненная выше триангуляция может выполняться для всех пар реальных пространственных микрофонов (если N=3, 1 с 2, 1 с 3 и 2 с 3). Результирующие позиции могут затем усредняться (вдоль x и y и, если рассматривают 3D, z).
Альтернативно могут использоваться более сложные концепции. Например, могут применяться вероятностные подходы, как описано в
(15) J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No. 3 (Aug., 1982), pp. 548-553.
Согласно варианту осуществления звуковое поле может анализироваться в частотно-временной области, например, получаться через сокращенное преобразование Фурье (STFT), в котором k и n обозначают индекс частоты k и индекс времени n соответственно. Объединенное давление Pv(k, n) в произвольной позиции pv для определенных k и n моделируется как одна сферическая волна, излучаемая узкополосным изотропным точечным источником, например, с помощью использования формулы:
где PIPLS(k, n) является сигналом, излучаемым с помощью IPLS в его позиции pIPLS(k, n). Объединенный коэффициент γ(k, PIPLS, pv) выражает распространение от PIPLS(k, n) к pv, например, он вводит соответствующую фазу и модификацию величины. В данном случае может применяться предположение, что в каждом частотно-временном элементе только один IPLS активен. Однако множество узкополосных IPLS, расположенных в различных позициях, могут также быть активными в один момент времени.
Каждый IPLS моделирует или прямой звук, или отличающееся отражение комнаты. Его позиция pIPLS(k, n) может идеально соответствовать фактическому источнику звука, расположенному в комнате, или зеркальному изображению источника звука, расположенному снаружи, соответственно. Поэтому позиция pIPLS(k, n) может также указывать позицию звукового события.
Следует отметить, что термин «реальные источники звука» обозначает фактические источники звука, физически существующие в окружающей среде записи, такие как собеседники или музыкальные инструменты. Напротив, «источники звука» или «звуковые события» или «IPLS» относятся к эффективным источникам звука, которые являются активными в определенные моменты времени или в определенные частотно-временные элементы, причем источники звука могут, например, представлять реальные источники звука или источники зеркального изображения.
Фиг. 27a-27b показывает массивы микрофонов, определяющие местоположение источников звука. Источники звука, для которых определено местоположение, могут иметь различные физические интерпретации в зависимости от их природы. Когда массивы микрофонов принимают прямой звук, они могут иметь возможность определять местоположение позиции истинного источника звука (например, собеседников). Когда массивы микрофонов принимают отражения, они могут определять местоположение позиции источника зеркального изображения. Источники зеркального изображения - также источники звука.
Фиг. 27a показывает сценарий, где два массива 151 и 152 микрофонов принимают прямой звук из фактического источника звука (физически существующего источника звука) 153.
Фиг. 27b показывает сценарий, где два массива 161, 162 микрофонов принимают отраженный звук, причем звук был отражен стенкой. Из-за отражения массивы 161, 162 микрофонов определяют местоположения позиции, откуда звук, как кажется, приходит, в позиции источника 165 зеркального изображения, которая отличается от позиции динамика 163.
И фактический источник 153 звука на фиг. 27a и источник 165 зеркального изображения являются источниками звука.
Фиг. 27c показывает сценарий, где два массива 171, 172 микрофонов принимают рассеянный звук и не имеют возможности определять местоположение источника звука.
Хотя данная одноволновая модель является точной только для мягкоотражающих окружающих сред, при условии, что сигналы источника соответствуют раздельной ортогональности источников (WDO), то есть частотно-временное перекрытие является достаточно небольшим. Это обычно является истиной для речевых сигналов, см., например,
(12) S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.
Однако модель также обеспечивает хорошую оценку для других окружающих сред и поэтому также может применяться для этих окружающих сред.
В последующем объяснена оценка позиций pIPLS(k, n) согласно варианту осуществления. Позиция pIPLS(k, n) активного IPLS в определенном частотно-временном элементе и таким образом оценка звукового события в частотно-временном элементе оцениваются через триангуляцию на основе направления прибытия (DOA) звука, измеренного по меньшей мере в двух различных точках наблюдения.
Фиг. 17 показывает геометрию, где IPLS текущего частотно-временного слота (k, n) расположен в неизвестной позиции pIPLS(k, n). Для определения требуемой информации DOA используются два реальных пространственных микрофона, в данном случае - два массива микрофонов, которые имеют известную геометрию, позицию и ориентацию, которые размещены в позиции 610 и 620, соответственно. Векторы p1 и p2 указывают позиции 610, 620 соответственно. Ориентации массива определяются с помощью единичных векторов c1 и c2. DOA звука определяется в позициях 610 и 620 для каждого (k, n), используя алгоритм оценки DOA, например, в соответствии с анализом DirAC (см. (2), (3)). С помощью этого первый единичный вектор точки зрения и второй единичный вектор точки зрения относительно точки зрения массива микрофонов (оба не показаны на фиг. 17) могут обеспечиваться в качестве выхода анализа DirAC. Например, работая в 2D, первый единичный вектор точки зрения приводит к:
В данном случае γ1(k, n) представляет азимут DOA, оцененный в первом массиве микрофонов, как изображено на фиг. 17. Соответствующие DOA единичные векторы e1(k, n) и e2(k, n) по отношению к глобальной системе координат в начале координат могут вычисляться с помощью применения формулы:
где R - матрицы преобразования координат,
при работе в 2D и c1=[c1,x, c1,y]T. Для выполнения триангуляции векторы направления d1(k, n) и d2(k, n) могут рассчитываться как
где d1(k, n)=|| d1(k, n) || и d2(k, n)=||d2(k, n) || являются неизвестными расстояниями между IPLS и этими двумя массивами микрофонов. Следующее уравнение
может быть решено для d1(k, n). Наконец, позиция pIPLS (k, n) IPLS задается с помощью
В другом варианте осуществления уравнение (6) может быть решено для d2(k, n), и pIPLS(k, n) аналогично вычисляется, используя d2(k, n).
Уравнение (6) всегда обеспечивает решение при работе в 2D, если e1(k, n) и e2(k, n) непараллельны. Однако, используя больше двух массивов микрофонов или работая в 3D, решение не может быть получено, когда вектора d направлений не пересекаются. Согласно варианту осуществления, в этом случае вычисляется точка, которая является самой близкой ко всем векторам d направлений, и результат может использоваться в качестве позиции IPLS.
В варианте осуществления все точки наблюдения p1, p2... должны располагаться таким образом, что звук, излучаемый IPLS, относится к тому же самому временному блоку n. Это требование может просто выполняться, когда расстояние Δ между любыми двумя из точек наблюдения меньше, чем
где nFFT - длина окна STFT, 0≤R<1 определяет перекрытие между последовательными периодами времени и fs - частота осуществления выборки. Например, для STFT с 1024 точками при 48 кГц с 50%-ым перекрытием (R=0,5), максимальный интервал между массивами для выполнения вышеупомянутого требования является Δ=3,65 м.
В последующем модуль 202 вычисления информации, например модуль вычисления сигнала виртуального микрофона и дополнительной информации согласно варианту осуществления, описан более подробно.
Фиг. 18 показывает схематическое представление модуля 202 вычисления информации согласно варианту осуществления. Средство вычисления информации содержит средство 500 компенсации распространения, средство 510 объединения и блок 520 спектрального взвешивания. Модуль 202 вычисления информации принимает оценки ssp позиций источника звука, оцененные с помощью средства оценки позиции звуковых событий, один или более входных аудиосигналов, записанных с помощью одного или более реальных пространственных микрофонов, позицию posRealMic одного или более реальных пространственных микрофонов и виртуальную позицию posVmic виртуального микрофона. Он выводит выходной аудиосигнал os, представляющий аудиосигнал виртуального микрофона.
Фиг. 19 показывает модуль вычисления информации согласно другому варианту осуществления. Модуль вычисления информации на фиг. 19 содержит средство 500 компенсации распространения, средство 510 объединения и блок 520 спектрального взвешивания. Средство 500 компенсации распространения содержит модуль 501 вычисления параметров распространения и модуль 504 компенсации распространения. Средство 510 объединения содержит модуль 502 вычисления коэффициентов объединения и модуль 505 объединения. Блок 520 спектрального взвешивания содержит блок 503 вычисления спектральных весов, модуль 506 применения спектрального взвешивания и модуль 507 вычисления дополнительной пространственной информации.
Для вычисления аудиосигнала виртуального микрофона геометрическая информации, например позиция и ориентация реальных пространственных микрофонов 121, …, 12N, позиция, ориентация и характеристики виртуального пространственного микрофона 104 и оценки позиции звуковых событий 205, подается в модуль 202 вычисления информации, в частности, в модуль 501 вычисления параметров распространения средства 500 компенсации распространения, в модуль 502 вычисления коэффициентов объединения средства 510 объединения и в блок 503 вычисления спектральных весов блока 520 спектрального взвешивания. Модуль 501 вычисления параметров распространения, модуль 502 вычисления коэффициентов объединения и блок 503 вычисления спектральных весов вычисляют параметры, используемые при изменении аудиосигналов 111, …., 11N в модуле 504 компенсации распространения, модуле 505 объединения и модуле 506 применения спектрального взвешивания.
В модуле 202 вычисления информации аудиосигналы 111, …., 11N могут сначала изменяться для компенсации влияний, заданных с помощью различных длин распространения между позициями звуковых событий и реальными пространственными микрофонами. Сигналы могут затем объединяться для улучшения, например, отношения сигнал-шум (SNR). Наконец, результирующий сигнал может затем спектрально взвешиваться для учета диаграммы направленности направленного приема виртуального микрофона, а также любой зависящей от расстояния функции усиления. Эти три этапа обсуждаются более подробно ниже.
Компенсация распространения далее объясняется более подробно. В верхней части на фиг. 20 показываются два реальных пространственных микрофона (первый массив 910 микрофонов и второй массив 920 микрофонов), позиция звукового события 930, для которого определено местоположение, для частотно-временного элемента (k, n) и позиция виртуального пространственного микрофона 940.
Нижняя часть на фиг. 20 изображает временную ось. Предполагается, что звуковое событие излучается в момент времени t0 и затем распространяется к реальным и виртуальным пространственным микрофонам. Запаздывание прибытия, а также амплитуда, изменяются с расстоянием, так что чем дальше длина распространения, тем слабее амплитуда и дольше запаздывание прибытия.
Сигналы в двух реальных массивах можно сравнивать, только если относительная задержка Dt12 между ними является небольшой. Иначе один из этих двух сигналов должен выравниваться во временной области для компенсации относительной задержки Dt12 и, возможно, масштабироваться для компенсации различных затуханий.
Компенсация задержки между прибытием в виртуальном микрофоне и прибытием в реальных массивах микрофонов (в одном из реальных пространственных микрофонов) изменяет задержку независимо от определения местоположения звукового события, делая ее избыточной для большинства применений.
Возвращаясь к фиг. 19, модуль 501 вычисления параметров распространения выполнен с возможностью вычисления задержек, которые будут корректироваться для каждого реального пространственного микрофона и для каждого звукового события. Если необходимо, он также вычисляет коэффициенты усиления, которые будут рассматриваться для компенсации различных затуханий амплитуды.
Модуль 504 компенсации распространения выполнен с возможностью использования этой информации для изменения аудиосигналов соответствующим образом. Если сигналы должны сдвигаться на небольшую величину времени (по сравнению с окном времени банка фильтров), то достаточно простого чередования фаз. Если задержки больше, то необходимы более сложные воплощения.
Выходом модуля 504 компенсации распространения являются измененные аудиосигналы, выраженные в исходной частотно-временной области.
В последующем конкретная оценка компенсации распространения для виртуального микрофона согласно варианту осуществления будет описана со ссылкой на фиг. 17, которая среди прочего показывает позицию 610 первого реального пространственного микрофона и позицию 620 второго реального пространственного микрофона.
В варианте осуществления, который сейчас объясняется, предполагается, что доступен по меньшей мере первый записанный входной аудиосигнал, например, сигнал давления по меньшей мере одного из реальных пространственных микрофонов (например, массивов микрофонов), например, сигнал давления первого реального пространственного микрофона. Рассматриваемый микрофон будет именоваться в качестве эталонного микрофона, его позиция - в качестве эталонной позиции pref и его сигнал давления - в качестве эталонного сигнала давления Pref(k, n). Однако компенсация распространения может проводиться не только относительно только одного сигнала давления, но также и относительно сигналов давления множества или всех реальных пространственных микрофонов.
Зависимость между сигналом PIPLS(k, n) давления, излучаемым IPLS, и эталонным сигналом Pref(k, n) давления эталонного микрофона, расположенного в pref, может выражаться с помощью формулы (9):
В общем случае объединенный коэффициент γ(k, pa, pb) выражает чередование фаз и затухание амплитуды, введенное распространением сферической волны от ее начала координат в pa к pb. Однако практические тесты показали, что рассмотрение только затухания амплитуды в γ приводит к приемлемым впечатлениям от сигнала виртуального микрофона со значительно меньшим количеством искажений по сравнению также с рассмотрением чередования фаз.
Звуковая энергия, которая может измеряться в определенной точке в пространстве, зависит строго от расстояния r от источника звука, на фиг. 6 - от позиции pIPLS источника звука. Во многих ситуациях эта зависимость может моделироваться с достаточной точностью, используя известные физические принципы, например, затухание 1/r от звукового давления в удалении от точки источника. Когда расстояние эталонного микрофона, например, первого реального микрофона, от источника звука известно, и когда расстояние виртуального микрофона от источника звука также известно, тогда звуковая энергия в позиции виртуального микрофона может оцениваться из сигнала и энергии эталонного микрофона, например, первого реального пространственного микрофона. Это означает, что выходной сигнал виртуального микрофона может быть получен с помощью применения надлежащего усиления к эталонному сигналу давления.
Предполагая, что первый реальный пространственный микрофон является эталонным микрофоном, тогда pref=p1. На фиг. 17 виртуальный микрофон расположен в pv. Так как геометрия на фиг. 17 детально известна, расстояние d1(k, n)=||d1(k, n)|| между эталонным микрофоном (на фиг. 17: первым реальным пространственным микрофоном) и IPLS может легко определяться, а также расстояние s(k, n)=||s(k, n)|| между виртуальным микрофоном и IPLS, а именно
Звуковое давление Pv(k, n) в позиции виртуального микрофона вычисляется с помощью объединения формул (1) и (9), что приводит к
Как упомянуто выше, в некоторых вариантах осуществления коэффициенты γ могут учитывать только затухание амплитуды из-за распространения. Предполагая, например, что звуковое давление уменьшается с 1/r, тогда
Когда модель в формуле (1) сохраняется, например, когда присутствует только прямой звук, тогда формула (12) может точно восстанавливать информацию о величине. Однако в случае чистых рассеянных звуковых полей, например, когда предположения модели не выполняются, представленная методика приводит к неявному подавлению реверберации сигнала, когда отодвигают виртуальный микрофон от позиций массивов датчиков. Фактически, как обсуждается выше, в рассеянных звуковых полях ожидают, что большинство местоположений IPLS определяется около двух массивов датчиков. Таким образом, когда виртуальный микрофон отодвигают от этих позиций, вероятно, увеличивают расстояние s=||s|| на фиг. 17. Поэтому величина эталонного давления уменьшается, когда применяют взвешивание согласно формуле (11). Соответственно, когда перемещают виртуальный микрофон близко к фактическому источнику звука, частотно-временные элементы, соответствующие прямому звуку, будут усиливаться таким образом, что полный аудиосигнал будет восприниматься менее рассеянным. С помощью корректировки правила в формуле (12) можно управлять усилением прямого звука и подавлением рассеянного звука по желанию.
С помощью осуществления компенсации распространения на записанном входном аудиосигнале (например, сигнале давления) первого реального пространственного микрофона, получается первый измененный аудиосигнал.
В вариантах осуществления второй измененный аудиосигнал может получаться с помощью осуществления компенсации распространения на записанном втором входном аудиосигнале (втором сигнале давления) второго реального пространственного микрофона.
В других вариантах осуществления добавочные аудиосигналы могут быть получены с помощью осуществления компенсации распространения на записанных добавочных входных аудиосигналах (добавочных сигналах давления) добавочных реальных пространственных микрофонов.
Далее более подробно объяснено объединение в блоках 502 и 505 на фиг. 19 согласно варианту осуществления. Предполагается, что два или более аудиосигналов от множества различных реальных пространственных микрофонов изменяются для компенсации различных трактов распространения для получения двух или более измененных аудиосигналов. Когда аудиосигналы от различных реальных пространственных микрофонов изменены для компенсации различных трактов распространения, они могут объединяться для улучшения качества аудиосигнала. При этом, например, может увеличиваться SNR или может уменьшаться реверберация.
Возможные решения для объединения содержат:
- взвешенное усреднение, например, рассматривая SNR, или расстояние до виртуального микрофона, или рассеяние, которые оценены с помощью реальных пространственных микрофонов. Могут использоваться традиционные решения, например, объединение при максимальном отношении (MRC) или объединение сигналов равной мощности (EQC), или
- линейное объединение некоторых или всех измененных аудиосигналов для получения объединенного сигнала. Измененные аудиосигналы могут взвешиваться при линейном объединении для получения объединенного сигнала, или
- выбор, например, используется только один сигнал, например, зависящий от SNR, или расстояния, или рассеяния.
Задачей модуля 502, если используется, является вычисление параметров для объединения, которое выполняется в модуле 505.
Далее более подробно описано спектральное взвешивание согласно вариантам осуществления. Для этого ссылка сделана на блоки 503 и 506 на фиг. 19. На этом конечном этапе аудиосигнал, являющийся результатом объединения или компенсации распространения входных аудиосигналов, взвешивается в частотно-временной области согласно пространственным характеристикам виртуального пространственного микрофона, как определено входом 104 и/или согласно восстановленной геометрии (заданной в 205).
Для каждого частотно-временного элемента геометрическое восстановление предоставляет возможность легко получать DOA относительно виртуального микрофона, как показано на фиг. 21. Кроме того, расстояние между виртуальным микрофоном и позицией звукового события может также легко вычисляться.
Затем вычисляется вес для частотно-временного элемента, учитывая тип необходимого виртуального микрофона.
В случае направленных микрофонов спектральные веса могут вычисляться согласно предопределенной диаграмме направленности приема. Например, согласно варианту осуществления, кардиоидный микрофон может иметь диаграмму направленности приема, заданную с помощью функции g(тета),
где тета является углом между направлением наблюдения виртуального пространственного микрофона и DOA звука с точки зрения виртуального микрофона.
Другая возможность является функцией художественного (не физического) затухания. В конкретных применениях может быть необходимым подавлять звуковые события далеко от виртуального микрофона с коэффициентом, который больше коэффициента, характеризующего свободное распространение. С этой целью некоторые варианты осуществления вводят добавочную функцию взвешивания, которая зависит от расстояния между виртуальным микрофоном и звуковым событием. В варианте осуществления должны приниматься только звуковые события в пределах определенного расстояния (например, в метрах) от виртуального микрофона.
Относительно направленности виртуального микрофона произвольные диаграммы направленности могут применяться для виртуального микрофона. При этом можно, например, отделять источник от сложной звуковой сцены.
Так как DOA звука может вычисляться в позиции pv виртуального микрофона, а именно
где cv - единичный вектор, описывающий ориентацию виртуального микрофона, может реализовываться произвольная направленность для виртуального микрофона. Например, предполагая, что Pv(k, n) указывает сигнал объединения или измененный аудиосигнал с компенсацией распространения, тогда формула:
рассчитывает выход виртуального микрофона с кардиоидной направленностью. Диаграммы направленности, которые могут потенциально генерироваться таким образом, зависят от точности оценки позиции.
В вариантах осуществления один или более реальных непространственных микрофонов, например всенаправленный микрофон или направленный микрофон, такой как кардиоидный микрофон, размещаются в звуковой сцене в дополнение к реальным пространственным микрофонам для дальнейшего улучшения качества звука сигналов виртуального микрофона 105 на фиг. 8. Эти микрофоны не используются для сбора какой-либо геометрической информации, а вместо этого только для обеспечения более чистого аудиосигнала. Эти микрофоны могут размещаться ближе к источникам звука, чем пространственные микрофоны. В этом случае согласно варианту осуществления аудиосигналы реальных, непространственных микрофонов и их позиции просто подаются к модулю 504 компенсации распространения на фиг. 19 для обработки, вместо аудиосигналов реальных пространственных микрофонов. Компенсация распространения затем проводится для одного или более записанных аудиосигналов непространственных микрофонов относительно позиции одного или более непространственных микрофонов. С помощью этого вариант осуществления реализуется, используя добавочные непространственные микрофоны.
В добавочном варианте осуществления реализовано вычисление дополнительной пространственной информации виртуального микрофона. Для вычисления дополнительной пространственной информации 106 микрофона модуль 202 вычисления информации на фиг. 19 содержит модуль 507 вычисления дополнительной пространственной информации, который выполнен с возможностью приема в качестве ввода позиций 205 источников звука и позиций, ориентаций и характеристик 104 виртуального микрофона. В конкретных вариантах осуществления согласно дополнительной информации 106, которую необходимо вычислять, аудиосигнал виртуального микрофона 105 может также учитываться в качестве ввода к модулю 507 вычисления дополнительной пространственной информации.
Выход модуля 507 вычисления дополнительной пространственной информации является дополнительной информацией виртуального микрофона 106. Эта дополнительная информация может быть, например, DOA или рассеяние звука для каждого частотно-временного элемента (k, n) с точки зрения виртуального микрофона. Другая возможная дополнительная информация может, например, быть вектором Ia(k, n) интенсивности активного звука, который будет измерен в позиции виртуального микрофона. Далее будет описано, как эти параметры могут быть получены.
Согласно варианту осуществления реализована оценка DOA для виртуального пространственного микрофона. Модуль 120 вычисления информации выполнен с возможностью оценки направления прибытия в виртуальном микрофоне в качестве дополнительной пространственной информации, основываясь на векторе позиции виртуального микрофона и основываясь на векторе позиции звукового события, как показывается на фиг. 22.
Фиг. 22 изображает возможный способ получения DOA звука с точки зрения виртуального микрофона. Позиция звукового события, обеспеченная с помощью блока 205 на фиг. 19, может быть описана для каждого частотно-временного элемента (k, n) с помощью вектора позиции r(k, n) - вектора позиции звукового события. Точно так же позиция виртуального микрофона, обеспеченная в качестве входа 104 на фиг. 19, может описываться с помощью вектора позиции s(k, n) - вектора позиции виртуального микрофона. Направление наблюдения виртуального микрофона может описываться с помощью вектора v(k, n). DOA относительно виртуального микрофона задают с помощью a(k, n). Он представляет угол между v и трактом h(k, n) распространения звука. h(k, n) может вычисляться с помощью использования формулы:
Необходимое DOA a(k, n) может теперь вычисляться для каждого (k, n), например, через определение скалярного произведения h(k, n) и v(k, n), а именно
В другом варианте осуществления модуль 120 вычисления информации может настраиваться для оценки интенсивности активного звука в виртуальном микрофоне в качестве дополнительной пространственной информации, основываясь на векторе позиции виртуального микрофона и основываясь на векторе позиции звукового события, как показывается на фиг. 22.
Из DOA a(k, n), определенного выше, можно получать интенсивность Ia(k, n) активного звука в позиции виртуального микрофона. Для этого предполагается, что аудиосигнал 105 виртуального микрофона на фиг. 19 соответствует выходу всенаправленного микрофона, например, предполагая, что виртуальный микрофон является всенаправленным микрофоном. Кроме того, направление v наблюдения на фиг. 22, как предполагается, параллельно оси x системы координат. Поскольку вектор Ia(k, n) интенсивности необходимого активного звука описывает полезный поток энергии через позицию виртуального микрофона, Ia(k, n) может вычисляться, например, согласно формуле:
где []T обозначает транспонированный вектор, rho - плотность воздуха, и Pv(k, n) - звуковое давление, измеренное с помощью виртуального пространственного микрофона, например, выход 105 блока 506 на фиг. 19.
Если активный вектор интенсивности должен вычисляться, выраженный в общей системе координат, но все еще в позиции виртуального микрофона, то может применяться следующая формула:
Рассеяние звука выражает, насколько рассеянным является звуковое поле в заданном частотно-временном слоте (см., например, (2)). Рассеяние выражается с помощью значения ψ, причем 0≤ψ≤1. Рассеяние, равное 1, указывает, что вся энергия звукового поля является полностью рассеянной. Эта информация важна, например, при воспроизведении пространственного звука. Традиционно рассеяние вычисляется в определенной точке в пространстве, в которой размещен массив микрофонов.
Согласно варианту осуществления рассеяние может вычисляться в качестве добавочного параметра для дополнительной информации, сгенерированной для виртуального микрофона (VM), который может размещаться по желанию в произвольной позиции в звуковой сцене. С помощью этого устройство, которое также рассчитывает рассеяние помимо аудиосигнала в виртуальной позиции виртуального микрофона, может рассматриваться в качестве виртуального входа DirAC, поскольку можно создавать поток DirAC, а именно аудиосигнал, направление прибытия и рассеяние, для произвольной точки в звуковой сцене. Поток DirAC может в дальнейшем обрабатываться, сохраняться, передаваться и воспроизводиться на произвольной установке с множеством громкоговорителей. В этом случае слушатель воспринимает звуковую сцену, как если бы он или она находился в позиции, определенной с помощью виртуального микрофона, и смотрел в направлении, определенном с помощью его ориентации.
Фиг. 23 показывает средство вычисления информации согласно варианту осуществления, содержащее блок 801 вычисления рассеяния для вычисления рассеяния в виртуальном микрофоне. Блок 202 вычисления информации выполнен с возможностью приема входов 111-11N, которые в дополнение к входам на фиг. 14 также включают в себя рассеяние в реальных пространственных микрофонах. Пусть ψ(SM1)-ψ(SМN) обозначают эти значения. Эти добавочные входы подают к модулю 202 вычисления информации. Выходом 103 из блока 801 вычисления информации является параметр рассеяния, вычисленный в позиции виртуального микрофона.
Блок 801 вычисления рассеяния из варианта осуществления показывается на фиг. 24, изображающей больше подробностей. Согласно варианту осуществления оценивается энергия прямого и рассеянного звука в каждом из N пространственных микрофонов. Затем, используя информацию относительно позиций IPLS и информацию относительно позиций пространственных и виртуальных микрофонов, получают N оценок этих энергий в позиции виртуального микрофона. Наконец, оценки могут объединяться для улучшения точности оценки, и параметр рассеяния в виртуальном микрофоне может легко вычисляться.
Пусть - и - обозначают оценки энергий прямого и рассеянного звука для N пространственных микрофонов, вычисленные с помощью блока 810 анализа энергии. Если Pi является сигналом объединенного давления и ψi является рассеянием для i-го пространственного микрофона, тогда энергии могут, например, вычисляться согласно формулам:
Энергия рассеянного звука должна быть одинаковой во всех позициях, поэтому оценка энергии рассеянного звука в виртуальном микрофоне может вычисляться просто с помощью усреднения -, например, в блоке 820 объединения рассеяния, например, согласно формуле:
Более эффективное объединение оценок - может выполняться с помощью учета дисперсии средств оценки, например, с помощью учета SNR.
Энергия прямого звука зависит от расстояния до источника из-за распространения. Поэтому - может изменяться для учета этого. Это может выполняться, например, с помощью блока 830 коррекции распространения прямого звука. Например, если предполагается, что энергия поля прямого звука затухает на 1 на квадрат расстояния, тогда оценка для прямого звука в виртуальном микрофоне для i-го пространственного микрофона может рассчитываться согласно формуле:
Аналогично блоку 820 объединения рассеяния оценки энергии прямого звука, полученные в различных пространственных микрофонах, могут объединяться, например, с помощью блока 840 объединения прямого звука. Результатом является , например, оценка для энергии прямого звука в виртуальном микрофоне. Рассеяние в виртуальном микрофоне ψ(VМ) может вычисляться, например, с помощью подблока 850 расчета рассеяния, например, согласно формуле:
Как упомянуто выше, в некоторых случаях оценка позиции звуковых событий, выполненная с помощью средства оценки позиции звуковых событий, оказывается неправильной, например, в случае неправильной оценки направления прибытия. Фиг. 25 показывает такой сценарий. В этих случаях, независимо от параметров рассеяния, оцененных в другом пространственном микрофоне, и также принятых, как входы с 111 по 11N, рассеяние для виртуального микрофона 103 может устанавливаться в 1 (то есть полностью рассеянный), поскольку никакое пространственно когерентное воспроизведение невозможно.
Дополнительно можно рассматривать надежность оценок DOA в N пространственных микрофонах. Она может выражаться, например, в терминах дисперсии оценочной функции DOA или SNR. Такая информация может учитываться с помощью подблока 850 расчета рассеяния так, чтобы рассеяние VM 103 могло искусственно увеличиваться в случае, если оценки DOA ненадежны. Фактически в качестве следствия оценки 205 позиции также будут ненадежны.
Фиг. 26 показывает устройство 991 для генерации виртуального выходного сигнала согласно варианту осуществления. Устройство 991 для генерации виртуального выходного сигнала содержит устройство 992 для позиционирования микрофона согласно одному из вышеописанных вариантов осуществления, которое содержит средство 993 расчета позиции микрофона. Кроме того, устройство для генерации виртуального выходного сигнала содержит устройство 994 для генерации выходного аудиосигнала согласно одному из вышеописанных вариантов осуществления. Выходной сигнал, сгенерированный устройством 994 для генерации выходного аудиосигнала, является виртуальным выходным сигналом vos. Средство 992 расчета позиции микрофона устройства 991 для позиционирования микрофона выполнено с возможностью расчета позиции микрофона в качестве рассчитанной позиции cmp микрофона. Устройство 994 для генерации выходного аудиосигнала сконфигурировано для моделирования записи виртуального микрофона в рассчитанной позиции микрофона, рассчитанной с помощью устройства 992 для позиционирования микрофона. С помощью этого устройство 992 для позиционирования микрофона рассчитывает виртуальную позицию виртуального микрофона для устройства 994 для генерации выходного аудиосигнала.
Хотя некоторые аспекты описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствуют этапу способа или особенности этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или особенности соответствующего устройства.
Изобретенный анализируемый сигнал может храниться на цифровом носителе данных или может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, такая как Интернет.
В зависимости от конкретных требований воплощения варианты осуществления изобретения могут воплощаться в аппаратных средствах или в программном обеспечении. Воплощение может выполняться, используя цифровой носитель данных, например гибкий диск, DVD (цифровой универсальный диск), CD (компакт-диск), ПЗУ (постоянное запоминающее устройство), ППЗУ (программируемое ПЗУ), СПЗУ (стираемое программируемое ПЗУ), ЭСППЗУ (электрически стираемое программируемое ПЗУ) или флэш-память, на котором хранятся считываемые с помощью электроники управляющие сигналы, которые совместно работают (или могут совместно работать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ.
Некоторые варианты осуществления согласно изобретению содержат не являющийся временным носитель информации, имеющий считываемые с помощью электроники управляющие сигналы, которые могут совместно работать с программируемой компьютерной системой таким образом, что выполняется один из способов, описанных в данной работе.
В общем случае варианты осуществления настоящего изобретения могут воплощаться в качестве компьютерного программного продукта с кодом программы, код программы исполняется для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Код программы может, например, храниться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в данной работе, хранящуюся на машиночитаемом носителе.
Другими словами, вариантом осуществления изобретенного способа поэтому является компьютерная программа, имеющая код программы для выполнения одного из способов, описанных в данной работе, когда компьютерная программа выполняется на компьютере.
Добавочным вариантом осуществления изобретенных способов поэтому является носитель информации (или цифровой носитель данных, или считываемый компьютером носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в данной работе.
Добавочным вариантом осуществления изобретенного способа поэтому является поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в данной работе. Поток данных или последовательность сигналов могут, например, конфигурироваться для предоставления возможности перемещения через соединение передачи данных, например, через Интернет.
Добавочный вариант осуществления содержит средство обработки, например компьютер, или программируемое логическое устройство, сконфигурированный или настроенный для выполнения одного из способов, описанных в данной работе.
Добавочный вариант осуществления содержит компьютер, установленную на нем компьютерную программу для выполнения одного из способов, описанных в данной работе.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в данной работе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может совместно использоваться с микропроцессором для выполнения одного из способов, описанных в данной работе. В общем случае способы предпочтительно выполняются с помощью любого аппаратного устройства.
Вышеописанные варианты осуществления являются просто иллюстративными для принципов настоящего изобретения. Подразумевается, что модификации и разновидности структур и подробностей, описанных в данной работе, будут очевидны другим специалистам. Поэтому намерением является ограничение только с помощью объема пунктов нерассмотренного патента, а не конкретными подробностями, представленными посредством описания и объяснения вариантов осуществления в данной работе.
Ссылки
(1) Michael A. Gerzon. Ambisonics in multichannel broadcasting and video. J. Audio Eng. Soc, 33 (11): 859-871, 1985.
(2) V. Pulkki, "Directional audio coding in spatial sound reproduction and stereo upmixing," in Proceedings of the AES 28th International Conference, pp. 251-258, Pitea, Sweden, June 30-July 2, 2006.
(3) V. Pulkki, "Spatial sound reproduction with directional audio coding," J. Audio Eng. Soc, vol. 55, no. 6, pp. 503-516, June 2007.
(4) C. Fallen "Microphone Front-Ends for Spatial Audio Coders", in Proceedings of the AES 125th International Convention, San Francisco, Oct. 2008.
(5) M. Kallinger, H. Ochsenfeld, G. Del Galdo, F. Kiich, D. Mahne, R. Schultz-Amling. and O. Thiergart, "A spatial filtering approach for directional audio coding," in Audio Engineering Society Convention 126, Munich, Germany, May 2009.
(6) R. Schultz-Amling, F. Kiich, O. Thiergart, and M. Kallinger, "Acoustical zooming based on a parametric sound field representation," in Audio Engineering Society Convention 128, London UK, May 2010.
(7) J. Herre, C. Falch, D. Mahne, G. Del Galdo, M. Kallinger, and O. Thiergart, "Interactive teleconferencing combining spatial audio object coding and DirAC technology," in Audio Engineering Society Convention 128, London UK, May 2010.
(8) E. G. Williams, Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography, Academic Press, 1999.
(9) A. Kuntz and R. Rabenstein, "Limitations in the extrapolation of wave fields from circular measurements," in 15th European Signal Processing Conference (EUSIPCO 2007), 2007.
(10) A. Walther and C. Faller, "Linear simulation of spaced microphone arrays using b-format recordings," in Audio Engiineering Society Convention 128, London UK, May 2010.
(11) US61/287,596: An Apparatus and a Method for Converting a First Parametric Spatial Audio Signal into a Second Parametric Spatial Audio Signal.
(12) S. Rickard and Z. Yilmaz, "On the approximate W-disjoint orthogonality of speech," in Acoustics, Speech and Signal Processing, 2002. ICASSP 2002. IEEE International Conference on, April 2002, vol. 1.
(13) R. Roy, A. Paulraj, and T. Kailath, "Direction-of-arrival estimation by subspace rotation methods - ESPRIT," in IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Stanford, CA, USA, April 1986.
(14) R. Schmidt, "Multiple emitter location and signal parameter estimation," IEEE Transactions on Antennas and Propagation, vol. 34, no. 3, pp. 276-280, 1986.
(15) J. Michael Steele, "Optimal Triangulation of Random Samples in the Plane", The Annals of Probability, Vol. 10, No. 3 (Aug., 1982), pp. 548-553.
(16) F. J. Fahy, Sound Intensity, Essex: Elsevier Science
Publishers Ltd., 1989.
(17) R. Schultz-Amling, F. Kiich, M. Kallinger, G. Del Galdo, T. Ahonen and V. Pulkki, "Planar microphone array processing for the analysis and reproduction of spatial audio using directional audio coding," in Audio Engineering Society Convention 124, Amsterdam, The Netherlands, May 2008.
(18) M. Kallinger, F. Kuch, R. Schultz-Amling, G. Del Galdo, T. Ahonen and V. Pulkki, "Enhanced direction estimation using microphone arrays for directional audio coding;" in Hands-Free Speech Communication and Microphone Arrays, 2008. HSCMA 2008, May 2008, pp. 45-48.
(19) R. K. Furness, "Ambisonics - An overview," in AES 8th International Conference, April 1990, pp. 181-189.
(20) Giovanni Del Galdo, Oliver Thiergart, TobiasWeller, and E. A. P. Habets. Generating virtual microphone signals using geometrical information gathered by distributed arrays. In Third Joint Workshop on Hands-free Speech Communication and Microphone Arrays (HSCMA 11), Edinburgh, United Kingdom, May 2011.
(21) Ville Pulkki. Spatial sound reproduction with directional audio coding. J. Audio Eng. Soc, 55(6):503-516, June 2007.
Изобретение относится к обработке аудиосигналов. Заявлены устройство для позиционирования микрофона, устройство для генерации виртуального выходного сигнала, способ позиционирования микрофона, считываемый компьютером носитель для воплощения способа. Заявленное устройство для позиционирования микрофона содержит средство определения пространственной плотности мощности и средство оценки пространственной информации для оценки позиции микрофона, основываясь на пространственной плотности мощности, причем средство оценки пространственной информации содержит средство оценки центра звуковой сцены, причем средство оценки пространственной информации дополнительно содержит средство расчета позиции микрофона, в котором средство оценки пространственной информации содержит средство определения ориентации для определения ориентации микрофона, причем средство определения ориентации выполнено с возможностью определения ориентации микрофона, основываясь на пространственной плотности мощности. Техническим результатом является обеспечение более точного позиционирования микрофона. 4 н. и 7 з.п. ф-лы, 34 ил.
1. Устройство для позиционирования микрофона, содержащее:
средство (10; 21) определения пространственной плотности мощности для определения пространственной плотности мощности, указывающей значения мощности для множества местоположений окружающей среды, основываясь на информации источника звука, которая указывает одно или более значений мощности и одно или более значений позиции одного или более источников звука, расположенных в окружающей среде; и
средство (20; 22) оценки пространственной информации для оценки позиции микрофона, основываясь на пространственной плотности мощности,
в котором средство (20; 22) оценки пространственной информации содержит средство (41) оценки центра звуковой сцены для оценки позиции центра звуковой сцены в окружающей среде, и
в котором средство (20; 22) оценки пространственной информации дополнительно содержит средство (42; 44) расчета позиции микрофона для определения позиции микрофона, основываясь на позиции центра звуковой сцены,
в котором средство (20; 22) оценки пространственной информации содержит средство (45) определения ориентации для определения ориентации микрофона, причем средство (45) определения ориентации выполнено с возможностью определения ориентации микрофона, основываясь на пространственной плотности мощности,
в котором средство (10; 21) определения пространственной плотности мощности выполнено с возможностью определения пространственной плотности мощности с помощью применения формулы
для расчета значений Г(х, у, k, n) мощности для множества местоположений в окружающей среде для частотно-временного элемента (k, n), причем k обозначает индекс частоты, и n обозначает индекс времени, причем N обозначает количество источников звука, причем х, у обозначают координаты одного из множества местоположений, причем poweri (k, n) обозначает значение мощности в i-м источнике звука для частотно-временного элемента (k, n), причем xESSi, yESSi обозначают координаты i-го источника звука, причем γi является показателем значимости, отражающим насколько надежны оценки позиции каждого эффективного источника звука, и γi является скалярным значением, и причем g является функцией, зависящей от х, у, xESSi, yESSi, k, n и γi, когда окружающая среда является двумерной окружающей средой, или
в котором средство (10; 21) определения пространственной плотности мощности выполнено с возможностью определения пространственной плотности мощности с помощью применения формулы
для расчета значений Г(х, у, z, k, n) мощности для множества местоположений окружающей среды для частотно-временного элемента (k, n), причем k обозначает индекс частоты, и n обозначает индекс времени, причем N обозначает количество источников звука, причем х, у, z обозначают координаты одного из множества местоположений, причем poweri(k, n) обозначает значение мощности в i-м источнике звука для частотно-временного элемента (k, n), причем xESSi, yESSi, zESSi обозначают координаты i-го источника звука, причем γi является показателем значимости, отражающим насколько надежны оценки позиции каждого эффективного источника звука, и γi является скалярным значением, и причем g является функцией, зависящей от х, у, z, xESSi, yESSi, zESSi, k, n и γi, когда окружающая среда является трехмерной окружающей средой.
2. Устройство по п. 1, в котором средство (45) определения ориентации выполнено с возможностью определения ориентации микрофона таким образом, что микрофон ориентирован к центру звуковой сцены.
3. Устройство по п. 1, в котором средство (42; 44) расчета позиции микрофона выполнено с возможностью расчета позиции микрофона, причем микрофон является виртуальным пространственным микрофоном.
4. Устройство по п. 1, в котором средство (41) оценки центра звуковой сцены выполнено с возможностью расчета центра масс пространственной плотности мощности для оценки центра звуковой сцены.
5. Устройство по п. 1,
в котором средство (41) оценки центра звуковой сцены выполнено с возможностью определения профиля задержки мощности, основываясь на пространственной плотности мощности, и для определения среднеквадратичной задержки, основываясь на профиле задержки мощности для каждого из множества местоположений в окружающей среде, и
в котором средство (41) оценки центра звуковой сцены выполнено с возможностью определения местоположения, из множества местоположений в качестве центра звуковой сцены, которое имеет минимальную среднеквадратичную задержку из среднеквадратичных задержек множества местоположений.
6. Устройство по п. 1,
в котором средство (42; 44) расчета позиции микрофона выполнено с возможностью определения линии с самым широким интервалом из множества линий через центр звуковой сцены в окружающей среде,
в котором каждая из множества линий через центр звуковой сцены связывается с интервалом энергии, и
в котором линия с самым широким интервалом задана в качестве линии, из множества линий через центр звуковой сцены, имеющей наибольший интервал энергии,
в котором средство (42; 44) расчета позиции микрофона выполнено с возможностью определения позиции микрофона таким образом, что вторая линия, которая проходит через центр звуковой сцены и позицию микрофона, является ортогональной к линии с самым широким интервалом.
7. Устройство по п. 6, в котором интервал энергии рассматриваемой линии из множества линий указывает наибольший интервал сегмента на рассматриваемой линии так, что первая точка сегмента, ограничивающая сегмент, и так, что отличающаяся вторая точка сегмента, ограничивающая сегмент, обе имеют значение мощности, указанное с помощью пространственной плотности мощности, которое больше или равно предопределенному значению мощности.
8. Устройство по п. 1, в котором средство (42; 44) расчета позиции микрофона выполнено с возможностью применения сингулярного разложения к матрице, имеющей множество столбцов,
в котором столбцы матрицы указывают позиции местоположений в окружающей среде относительно центра звуковой сцены, и
в котором столбцы матрицы указывают только позиции местоположений, имеющие значения мощности, указываемые с помощью пространственной плотности мощности, которые больше предопределенного порогового значения, или столбцы матрицы указывают только позиции местоположений, имеющие значения мощности, указываемые с помощью пространственной плотности мощности, которые больше или равны предопределенному пороговому значению.
9. Устройство (991) для генерации виртуального выходного сигнала, содержащее:
устройство (992) для позиционирования микрофона по п. 1, в котором средство (993) расчета позиции микрофона устройства для позиционирования микрофона выполнено с возможностью расчета позиции микрофона в качестве рассчитанной позиции микрофона, и
устройство (994) для генерации выходного аудиосигнала в качестве виртуального выходного сигнала для моделирования записи виртуального микрофона в рассчитанной позиции микрофона, причем устройство для генерации выходного аудиосигнала содержит:
средство (110) оценки позиции звуковых событий для оценки позиции источника звука, указывающей позицию источника звука в окружающей среде, при этом источник звука излучает звуковую волну, причем средство (110) оценки позиции звуковых событий выполнено с возможностью оценки позиции источника звука, основываясь на информации первого направления, предоставленной первым реальным пространственным микрофоном, располагаемым в позиции первого реального микрофона в окружающей среде, и основываясь на информации второго направления, предоставленной вторым реальным пространственным микрофоном, располагаемым в позиции второго реального микрофона в окружающей среде; и
модуль (120) вычисления информации для генерации выходного аудиосигнала, основываясь на первом записанном входном аудиосигнале, записанном с помощью первого реального пространственного микрофона, основываясь на позиции первого реального микрофона и основываясь на рассчитанной позиции микрофона.
10. Способ позиционирования микрофона, содержащий этапы, на которых:
определяют пространственную плотность мощности, указывающую значения мощности для множества местоположений окружающей среды, основываясь на информации источника звука, которая указывает одно или более значений мощности и одно или более значений позиции одного или более источников звука, расположенных в окружающей среде, и
оценивают позицию микрофона, основываясь на пространственной плотности мощности, и
определяют ориентацию микрофона,
причем оценка позиции микрофона, основываясь на пространственной плотности мощности, выполняется с помощью оценки позиции центра звуковой сцены в окружающей среде и с помощью определения позиции микрофона, основываясь на позиции центра звуковой сцены,
причем средство (20; 22) оценки пространственной информации содержит средство (4 5) определения ориентации для определения ориентации микрофона, причем средство (45) определения ориентации выполнено с возможностью определения ориентации микрофона, основываясь на пространственной плотности мощности,
причем средство (10; 21) определения пространственной плотности мощности выполнено с возможностью определения пространственной плотности мощности с помощью применения формулы
для расчета значений Г(х, у, k, n) мощности для множества местоположений в окружающей среде для частотно-временного элемента (k, n), причем k обозначает индекс частоты, и n обозначает индекс времени, причем N обозначает количество источников звука, причем х, у обозначают координаты одного из множества местоположений, причем poweri(k, n) обозначает значение мощности в i-м источнике звука для частотно-временного элемента (k, n), причем xESSi, yESSi обозначают координаты i-го источника звука, причем γi является показателем значимости, отражающим насколько надежны оценки позиции каждого эффективного источника звука, и γi является скалярным значением, и причем g является функцией, зависящей от х, у, xESSi, yESSi, k, n и γi, когда окружающая среда является двумерной окружающей средой, или
причем средство (10; 21) определения пространственной плотности мощности выполнено с возможностью определения пространственной плотности мощности с помощью применения формулы
для расчета значений Г(х, у, z, k, n) мощности для множества местоположений окружающей среды для частотно-временного элемента (k, n), причем k обозначает индекс частоты, и n обозначает индекс времени, причем N обозначает количество источников звука, причем х, у, z обозначают координаты одного из множества местоположений, причем poweri(k, n) обозначает значение мощности в i-м источнике звука для частотно-временного элемента (k, n), причем xESSi, yESSi, zESSi обозначают координаты i-го источника звука, причем γi является показателем значимости, отражающим насколько надежны оценки позиции каждого эффективного источника звука, и γi является скалярным значением, и причем g является функцией, зависящей от х, у, z, xESSi, yESSi, zESSi, k, n и γi, когда окружающая среда является трехмерной окружающей средой.
11. Считываемый компьютером носитель, содержащий компьютерную программу для воплощения способа по п. 10, когда компьютерная программа выполняется в компьютере или процессоре.
US 2009129609 A1, 21.05.2009 | |||
US 2005281410 A1, 22.12.2005 | |||
WO 2011121004 A2, 06.10.2011 | |||
US 2009226005 A1, 10.09.2009 | |||
СПОСОБ И СИСТЕМА ДЛЯ ПРИЕМА ЗВУКА И УСТРОЙСТВО ДЛЯ ПРИЕМА И ВОСПРОИЗВЕДЕНИЯ ЗВУКА | 1992 |
|
RU2096928C1 |
Авторы
Даты
2016-07-10—Публикация
2012-11-29—Подача