ОЦЕНКА МЕСТОПОЛОЖЕНИЯ ИСТОЧНИКА ЗВУКА С ИСПОЛЬЗОВАНИЕМ ФИЛЬТРОВАНИЯ ЧАСТИЦ Российский патент 2014 года по МПК G01S3/803 

Описание патента на изобретение RU2511672C2

Область техники изобретения

Изобретение относится к оценке местоположения источника звука с использованием фильтрования частиц и в частности, но не исключительно, к оценке местоположения источника звука для мультимодального приложения аудиовизуальной связи.

Уровень техники изобретения

Обнаружение позиции местоположения источника звука важно для многих услуг и приложений. Например, в приложении аудиовизуальной телеконференции повышенные функциональные возможности могут быть достигнуты посредством обнаружения позиции говорящего, например посредством улучшения сигнала речи благодаря методам формирования диаграммы направленности, используя оцененную позицию говорящего для направления диаграммы. В качестве другого примера, видео может быть улучшено, например, посредством увеличения на оцененную позицию говорящего.

Соответственно, разработаны системы и алгоритмы для оценивания местоположения источника звука. В частности, предложено использовать методы фильтрования частиц для оценки и отслеживания позиции источника звука. Фильтрование частиц направленно на оценку значения переменной состояния, отражающей текущее состояние системы для последующих моментов времени. Например, фильтр частиц может пытаться оценить значение переменной состояния, представляющей позицию источника звука. Однако, вместо того, чтобы просто рассмотреть отдельное значение или оценку, фильтрование частиц рассматривает плотность вероятности для переменной состояния в каждый момент времени. Фильтрование частиц основано на последовательном подходе, в котором значение переменной состояния для заданного (выборного) момента времени определяется исходя из значения переменной состояния в предшествующий (выборный) момент времени. Поскольку переменная состояния в момент времени представлена ее функцией плотности вероятности (таким образом отражая неопределенность в знании/оценке значения переменной состояния), это в принципе влечет за собой определение функции плотности вероятности в момент времени из функции плотности вероятности в предшествующий момент времени.

Однако во многих сценариях это не является аналитически практично, осуществимо или даже возможно. Например, для нелинейных систем c негауссовским шумом не осуществимо вычисление функции плотности вероятности в заданный момент времени, основанное на функции плотности вероятности в предшествующий момент времени. Фильтрование частиц решает эту проблему посредством представления функции плотности вероятности в виде набора частиц, в котором каждая частица представляет возможное значение переменной состояния. Тогда функция плотности вероятности в заданный момент времени определяется посредством вычисления обновленного значения переменной состояния каждой частицы предшествующего момента времени, на основе известной функции обновления переменной состояния. Обновление частицы, кроме того, может добавлять шум в соответствии с подходящим шумовым профилем.

Кроме того, каждая частица имеет ассоциированный весовой коэффициент, который представляет степень правдоподобия для частицы. Весовой коэффициент частицы изменяется при обновлении от одного момента времени к следующему на основе измерения системы. Таким образом предполагается, что измеренное значение может быть оценено или вычислено из значения переменной состояния (например, посредством функции измерения). Эти отношения могут, в частности, включать в себя шумовой вклад в соответствии с известным (или предполагаемым) шумовым профилем. Соответственно, весовой коэффициент частицы может быть изменен как функция обновления. В частности, если сделанное фактическое измерение имеет относительно высокую результирующую вероятность из значения обновленной переменной состояния (как, оценено с использованием функции измерения), весовой коэффициент частицы увеличивается относительно предшествующего весового коэффициента. Или наоборот, если сделанное фактическое измерение имеет относительно низкую результирующую вероятность из значения обновленной переменной состояния, весовой коэффициент частицы уменьшается по отношению к предшествующему весовому коэффициенту.

Таким образом, как часть обновления частицы из одного момента времени к следующему, весовой коэффициент частиц изменяется, для отражения того, насколько вероятно данная частица приводит в результате к новому измерению. Таким образом, весовые коэффициенты постоянно обновляются для отражения правдоподобия того, что отдельная частица соответствует фактическому значению состояния, результирующему в измеренных значениях.

Таким образом, при фильтровании частиц каждая частица может быть рассмотрена в качестве дискретной выборкой функции плотности вероятности переменной состояния.

Весовые коэффициенты будут типично сходиться по направлению к функции плотности вероятности для переменной состояния. Однако подход фильтрования частиц зачастую может привести в результате к вырождению весовых коэффициентов так, что большое количество весовых коэффициентов в конечном итоге имеют очень малые значения, тогда как другие имеют большие значения. Другими словами, фильтрование частиц может привести в результате к информации, сконцентрированной в относительно низкой доле частиц. С целью устранения этой проблемы может быть выполнена повторная выборка, в которой генерируются новые выборки, которые предоставляют более равномерное распределение выборных частиц. Этот подход соответствует важности выборного подхода и будет приводить в результате ко многим частицам, сконцентрированным в областях, для которых функция плотности вероятности имеет относительно высокое значение, и меньше частиц находятся в областях, в которых функция плотности вероятности имеет меньшие значения.

В качестве конкретного примера, повторная выборка может быть выполнена посредством вычисления среднего весового коэффициента на частицу и после генерации нового набора частиц c назначением этого весового коэффициента для каждой частицы. Однако этот новый набор частиц будет распределяться для отражения предшествующих весовых коэффициентов частиц. В качестве конкретного примера, каждая частица может быть разделена на некоторое количество частиц с (приблизительно) одинаковым значением переменной состояния, с некоторым количеством новых выборок, заданных в качестве весового коэффициента частицы, разделенной посредством среднего весового коэффициента. Кроме того, это приведет в результате к большому количеству частиц, удаленных из набора частиц (и замененных посредством дублирующих частиц, для частиц с весовым коэффициентом выше среднего).

Таким образом, в любой заданный момент функция плотности вероятности для переменной состояния представляется комбинацией распределения частиц (т.е. важна выборка их значений переменной состояния) и их весовыми коэффициентами.

Отдельная оценка для значения переменной состояния может быть определена после посредством суммирования значений частицы с каждым значением, взвешенным посредством весового коэффициента частицы. Таким образом, переменная состояния оценивается из интегрирования (взвешенного суммирования) дискретной выборной функции плотности вероятности (с каждой выборкой соответствующей частице).

Дополнительные сведения о фильтровании частиц могут, например, быть найдены в M. Sanjeev Arulampalam et.al., “A Tutorial on Particle Filters for Online Nonlinear/Non-Gaussian Bayesian Tracking”, IEEE Transactions On Signal Processing, том. 50, № 2, Февраль 2002.

Однако проблемой с фильтрованием частиц является то, что достаточно точное обновление весовых коэффициентов частиц является критичным для получения достаточно надежных результатов. На самом деле, для местоположения источника звука адаптация весовых коэффициентов частицы и распределение в значительной степени зависят от подходящих измерений и измеряющих функций, которые точно отражают отношение между переменной состояния и реальным местоположением источника звука. Однако большинство применяющихся в настоящее время измеряющих методов и функций имеют тенденцию приводить к неоптимальным результатам.

Поэтому улучшенная оценка местоположения источника звука с использованием фильтрования частиц будет полезна и, в частности, будет полезен подход, позволяющий увеличить приспособляемость, снизить сложность, увеличить точность и/или улучшить производительность.

Сущность изобретения

Таким образом, изобретение направлено предпочтительно на подавление, смягчение или устранение одного или нескольких вышеперечисленных недостатков, по отдельности или в любой комбинации.

В соответствии с аспектом изобретения предусмотрен способ оценки местоположения источника звука для источника звука посредством фильтрования частиц, причем способ содержит итерирование этапа генерации набора частиц на момент времени, причем набор частиц представляет функцию плотности вероятности для переменной состояния, содержащей местоположение источника звука в момент времени; причем этап содержит для каждой частицы из набора частиц: генерацию значения состояния для частицы в момент времени, в ответ на значение состояния частицы в предшествующий момент времени, и генерацию весового коэффициента для частицы в момент времени, в ответ на весовой коэффициент частицы в предшествующий момент времени и измерение в момент времени; и генерацию оценки переменной состояния, содержащей оценку местоположения источника звука для первого момента времени, в ответ на комбинацию значений состояния для набора частиц в первый момент времени, причем вклад от каждой частицы из набора частиц зависит от весового коэффициента частицы; при этом этап генерации весового коэффициента для частицы в момент времени содержит определение весового коэффициента, в ответ на корреляцию между оцененными акустическими передаточными функциями от источника звука к, по меньшей мере, двум позициям записи звука для первого момента времени.

Изобретение может предоставить улучшенную оценку местоположения источника звука и в частности делает возможным подход эффективного и/или точного фильтрования частиц для оценки местоположения источника звука. Кроме того, может быть использован подход практической и низкой сложности. В частности, подход низкой сложности и/или низкой ресурсоемкости может быть реализован для оценки и объединения акустических данных или измерений в основанную на фильтровании частиц оценку местоположения источника звука.

Переменная состояния в частности может содержать одну или несколько переменных (такую как, например, набор координат), представляющих местоположение источника звука. Переменная состояния в некоторых вариантах осуществления может содержать другие переменные, не представляющие местоположение источника звука. Таким образом, переменная состояния может содержать множество индивидуальных переменных или параметров. Значение состояния может содержать множество индивидуальных параметров или переменных значений. Например, значение состояния может быть вектором, например, скалярных или комплексных значений.

Передаточные акустические функции в частности могут быть представлены посредством их импульсных откликов.

В соответствии с дополнительным признаком изобретения, этап генерации весового коэффициента содержит: определение весового коэффициента для частицы, в ответ на значение корреляции для задержки, соответствующей значению состояния частицы.

Это может предоставить улучшенную и/или облегченную оценку местоположения источника звука на основе фильтрования частиц. В частности, изобретение делает возможным улучшенное обновление весового коэффициента для фильтрования частиц. Корреляция может в частности предоставлять весьма выгодное отражение влияния измерения на вероятность частиц. Более того, изобретатели установили, что значение корреляции для задержки соответствующей позиции, представленной посредством значения состояния, может предоставить достоверное указание вероятности, что фактическая позиция источника звука согласуется с позицией, представленной посредством значения состояния.

В соответствии с дополнительным признаком изобретения весовой коэффициент имеет детерминированное отношение к значению корреляции.

Это может предоставить улучшенную и/или облегченную оценку местоположения источника звука на основе фильтрования частиц. В частности, изобретение делает возможным улучшенное обновление весового коэффициента для фильтрования частиц. Корреляция может в частности предоставлять весьма выгодное отражение влияния измерения на вероятность частиц. Более того, изобретатели установили, что значение корреляции для задержки соответствующей позиции, представленной посредством значения состояния, может предоставить достоверное указание вероятности, что фактическая позиция источника звука согласуется с позицией, представленной посредством значения состояния. В частности, изобретатели установили, что неопределенность и/или шум, связанные с измерением функции для обновления весового коэффициента, могут быть представлены посредством колебаний корреляции для различных задержек. Таким образом, шум и/или неопределенность могут быть представлены посредством корреляции без какого-либо другого шума или рассматриваемого стохастического вклада.

В соответствии с дополнительным признаком изобретения детерминированное отношение является нелинейным.

Признак может предоставить улучшенную оценку местоположения источника звука и может, в частности, привести в результате к улучшенному представлению шума и неопределенности в процессе измерения посредством корреляции. В частности, подход позволяет точное представление функции плотности вероятности для измерения функции посредством корреляции.

В соответствии с дополнительным признаком изобретения этап генерации весового коэффициента содержит использование корреляции в качестве указания функции псевдоправдоподобия для функции обновления весового коэффициента, относящейся к весовому коэффициенту для частицы в момент времени, в ответ на весовой коэффициент частицы в предшествующий момент времени.

Это может предоставить улучшенную и/или облегченную оценку местоположения источника звука на основе фильтрования частиц. В частности, изобретение делает возможным улучшенное обновление весового коэффициента для фильтрования частиц. Корреляция может, в частности, предоставить весьма выгодное отражение влияния измерения на вероятность частиц. Более того, изобретатели установили, что значение корреляции для задержки, соответствующей позиции, представленной посредством значения состояния, может предоставить достоверное указание вероятности что, фактическая позиция источника звука согласуется с позицией, представленной посредством значения состояния. В частности, изобретатели установили, что неопределенность и/или шум, связанные с измерением функции для обновления веса, могут быть представлены посредством колебаний корреляции для различных задержек. Таким образом, шум и/или неопределенность могут быть представлены посредством корреляции без какого-либо другого шума или рассматриваемого стохастического вклада.

В соответствии с дополнительным признаком изобретения позиция источника звука представлена двумерной позицией в двумерной плоскости.

Изобретение может предоставить эффективное и/или точное двумерное местоположение источника звука, которые могут быть, в частности, пригодны для многих приложений, включающих в себя, например, комбинированные аудио и визуальные приложения, такие как, например, телеконференция.

В соответствии с дополнительным признаком изобретения способ дополнительно содержит: прием, по меньшей мере, одного изображения с камеры, охватывающей окружение, включающего в себя источник звука и в котором двумерная позиция является позицией в, по меньшей мере, одном изображении.

Изобретение, в частности, может предоставить точную интеграцию оценки местоположения источника звука и приложений изображения, таких как видеоприложение. В частности, изобретение может предоставить особенно выгодную комбинацию аудио и визуальной обработки и может позволить, например, улучшенное местоположение источника звука в захваченном изображении.

Камера может быть расположена для захвата области, также покрытой посредством элементов записи звука в первой и второй позициях записи звука. Например, камера может быть расположена между двумя микрофонами в позициях записи звука.

В соответствии с дополнительным признаком изобретения этап генерации весового коэффициента содержит генерацию вклада первого весового коэффициента, в ответ на измерение области изображения для частицы, и генерацию вклада второго весового коэффициента, в ответ на корреляцию, и генерацию весового коэффициента в качестве комбинации первого весового коэффициента и второго весового коэффициента.

Изобретение может предоставить особенно выгодный подход для определения местоположения источника звука на основе подхода мультимодального фильтрования частиц.

В соответствии с дополнительным признаком изобретения способ дополнительно содержит: генерацию указания достоверности для вклада первого весового коэффициента, в ответ на корреляцию; и настройку вклада, для вклада первого весового коэффициента в комбинации относительно вклада второго весового коэффициента, в ответ на указание достоверности.

Изобретение может предоставить улучшенную оценку местоположения источника звука на основе подхода мультимодального фильтрования частиц и может, в частности, предоставить улучшенную интеграцию вкладов от области аудио и от видео/визуальной области.

В соответствии с дополнительным признаком изобретения этап выполнения формирования диаграммы направленности аудио, в направлении на позицию источника звука и оценку передаточных функций, в ответ на формирование диаграммы направленности аудио.

Это может предоставить особенно подходящий путь оценки подходящей акустической передаточной функции и может обеспечить улучшенную производительность и/или пониженную сложность.

В соответствии с дополнительным признаком изобретения этап генерации весового коэффициента содержит определение весового коэффициента, в ответ на вторую корреляцию между оцененными акустическими передаточными функциями из источника звука к одной из, по меньшей мере, двух позиций записи звука и оцененными акустическими передаточными функциями от источника звука к другой позиции записи звука для первого момента времени; причем другая позиция записи звука смещена относительно линии между, по меньшей мере, двух позиций записи звука.

Упомянутый признак может обеспечить улучшенную оценку местоположения источника звука и может, во многих вариантах осуществления, позволить улучшенное двумерное местоположение источника звука.

В соответствии с дополнительным признаком изобретения этап генерации весового коэффициента содержит: прием первого сигнала от элемента записи звука в первой позиции из, по меньшей мере, двух позиций записи звука; прием второго сигнала от элемента записи звука во второй позиции из, по меньшей мере, двух позиций записи звука; и оценка акустических передаточных функций в ответ на первый сигнал и второй сигнал.

Упомянутый признак может обеспечить улучшенную оценку местоположения источника звука.

В соответствии с дополнительным признаком изобретения этап генерации весового коэффициента содержит: фильтрацию первого сигнала в первом адаптивном фильтре для генерации первого фильтрованного сигнала; фильтрацию второго сигнала во втором адаптивном фильтре для генерации второго фильтрованного сигнала; суммирование первого и второго фильтрованного сигнала для генерации комбинированного направленного сигнала; и установку коэффициентов первого адаптивного фильтра и второго адаптивного фильтра для генерации комбинированного направленного сигнала такого, что оценка мощности для компонента источника звука комбинированного направленного сигнала является максимизированной; и оценку акустических передаточных функций, в ответ на коэффициенты первого адаптивного фильтра и второго адаптивного фильтра.

Признак может обеспечить улучшенную оценку местоположения источника звука и может, в частности, предоставить особенно выгодное определение подходящей корреляционной функции. Подход может, в частности, обеспечить низкую сложность, но при этом точное определение подходящей корреляционной функции для определения обновлений весового коэффициента для частиц.

В соответствии с дополнительным признаком изобретения этап генерации весового коэффициента содержит: фильтрацию комбинированного направленного сигнала в третьем адаптивном фильтре для генерации третьего фильтрованного сигнала, причем передаточной функции третьего адаптированного фильтра соответствует скомпенсированная по задержке по существу комплексно сопряженная передаточная функция первого адаптивного фильтра; определение разностного сигнала между первым сигналом и третьим фильтрованным сигналом; и адаптацию передаточной функции первого адаптивного фильтра для уменьшения разностного сигнала.

Признак может обеспечить улучшенную оценку местоположения источника звука и может, в частности, предоставить особенно выгодное определение подходящей корреляционной функции. Подход может в частности позволить низкую сложность, но при этом точное определение подходящей корреляционной функции, для определения обновлений весового коэффициента для частиц.

В соответствии с аспектом изобретения предусмотрено устройство для оценки местоположения источника звука для источника звука посредством фильтрования частиц, причем устройство содержит: средство для итерирования этапа генерации набора частиц на момент времени, причем набор частиц представляет функцию плотности вероятности для переменной состояния, содержащей местоположение источника звука в момент времени; причем этап содержит для каждой частицы из набора частиц: генерацию значения состояния для частицы в момент времени, в ответ на значение состояния частицы в предшествующий момент времени, и генерацию весового коэффициента для частицы в момент времени, в ответ на весовой коэффициент частицы в предшествующий момент времени и измерение в момент времени; и средство для генерации оценки переменной состояния, содержащие оценку местоположения источника звука для первого момента времени, в ответ на комбинацию значений состояния для набора частиц в первый момент времени; при этом этап генерации весового коэффициента для частицы в момент времени содержит определение весового коэффициента, в ответ на корреляцию между оцененными акустическими передаточными функциями от источника звука к, по меньшей мере, двум позициям записи звука для первого момента времени.

Эти и другие аспекты, признаки и преимущества изобретения будут очевидны и объяснены со ссылкой на вариант(ы) осуществления, описанный ниже.

Краткое описание чертежей

Варианты осуществления изобретения будут описаны, только в качестве примера, со ссылкой на чертежи, в которых:

Фиг. 1 является иллюстрацией примера системы телеконференции в соответствии с некоторыми вариантами осуществления изобретения;

Фиг. 2 является иллюстрацией примера изображения, захваченного посредством системы телеконференции, иллюстрированной на Фиг. 1;

Фиг. 3 является примером устройства телеконференции в соответствии с некоторыми вариантами осуществления изобретения;

Фиг. 4 является иллюстрацией примера способа оценки источника звука в соответствии с вариантами осуществления изобретения;

Фиг. 5 является иллюстрацией примера способа определения весовых коэффициентов в оценке источника звука в соответствии с некоторыми вариантами осуществления изобретения;

Фиг. 6 является иллюстрацией примера функции обновления весового коэффициента для оценки источника звука в соответствии с некоторыми вариантами осуществления изобретения;

Фиг. 7 является иллюстрацией примера весового коэффициента функции обновления для оценки источника звука в соответствии с некоторыми вариантами осуществления изобретения;

Фиг. 8 является иллюстрацией примера способа определения весовых коэффициентов в оценке источника звука в соответствии с некоторыми вариантами осуществления изобретения; и

Фиг. 9 является иллюстрацией примера устройства телеконференции в соответствии с некоторыми вариантами осуществления изобретения.

Подробное описание некоторых вариантов осуществления изобретения

Следующее описание сосредоточено на вариантах осуществления изобретения, применяемых для оценки местоположения источника звука для системы телеконференции, дополнительно принимающей входной видеосигнал. Однако следует учесть, что изобретение не ограничивается данным приложением, а может быть применено ко многим другим приложениям и системам.

Следующее описание будет особенно сосредоточено на системе телеконференции, такой как показана на Фиг. 1. Фиг. 1 иллюстрирует сценарий, в котором отдельный пользователь 101 принимает участие в сессии телеконференции, захваченной посредством устройства 103 телеконференции, использующем пару элементов записи звука (в виде микрофонов 105, 107) для захватывания аудио и камеру 109 для захватывания видео. Устройство 103 телеконференции связано с системой связи (не показано), тем самым позволяя пользователю принять участие в сессии телеконференции с удаленными пользователями. Приложение телеконференции может, в частности, быть приложением видеотелеконференции.

В системе устройство 103 телеконференции таким образом генерирует аудиовизуальный сигнал, содержащий и аудио, и видео, от сигналов, захваченных посредством микрофонов 105, 107 и камеры 109. Аудиовизуальный сигнал может быть потом сообщен удаленным пользователям через систему связи (не показано).

В примере микрофоны 105, 107 расположены в позициях записи звука, которые относительно близки друг к другу. Во многих вариантах осуществления расстояние может преимущественно быть менее одной десятой расстояния до источника звука (говорящего 101 в настоящем примере) и/или может быть меньше чем 51 см. Во многих сценариях это может позволить рассматривать аудио, захваченное посредством микрофонов, как плоские звуковые волны, которые могут облегчить и/или улучшить обработку, описанную в нижеследующем. В частности, это может облегчить и/или улучшить оценку источника звука.

В примере камера 109 располагается между двумя микрофонами 105, 107 и, в частности, установлена главным образом в середине между микрофонами 105, 107 и главным образом на оси, определенной двумя позициями записи звука.

В системе устройство 103 телеконференции приспособлено для оценки местоположения источника звука, которое в конкретном примере является местоположением говорящего 101. Таким образом, устройство 103 телеконференции будет направлено на обнаружение и отслеживание местоположения звука, берущее свое начало от говорящего. Более того, в данном примере местоположение источника звука обнаруживается в двумерной плоскости, т.е. выполняется оценка местоположения источника звука в двумерной, а не в трехмерной. В данном примере двумерная плоскость является плоскостью, которая может быть рассмотрена на соответствующей плоскости, определенной изображением, снятым камерой 109.

Фиг. 2 иллюстрирует пример изображения, которое может быть захвачено камерой 109. Изображение может, например, быть отдельным изображением/кадром видеосигнала. Позиция на изображении источника звука, созданная говорящим 101, может в данном случае быть задана в качестве позиции (x,y) изображения, в которой x представляет горизонтальную позицию изображения и y представляет вертикальную позицию.

Устройство 103 телеконференции Фиг. 1 направлено на определение местоположения на изображении (т.е. координат (x, y)) звукового источника/говорящего 101. Оцененное местоположение источника звука потом может быть использовано для оптимизации работы устройства 103 телеконференции и может, в частности, быть использовано для направления аудиодиаграмм или для увеличения на источник звука (например, говорящий 101).

Следует учесть, что в других вариантах осуществления другие местоположения источника звука могут быть оценены в соответствии с описанными принципами и подходами. Также следует учесть, что описанный подход может быть использован для определения местоположений источника звука с использованием других опорных структур и, в частности, что могут быть использованы другие двумерные или трехмерные ссылочные системы координат. Например, настоящая пространственная двумерная или трехмерная позиция может быть определена в других примерах. Устройство 103 телеконференции, в частности, использует способ фильтрования частиц для постоянной оценки и отслеживания позиции говорящего 101 на изображении. Фиг. 3 иллюстрирует элементы устройства 103 телеконференции более подробно. В частности, устройство 103 телеконференции содержит процессор 301 фильтрования частиц, который приспособлен к выполнению алгоритма фильтрования частиц. Процессор 301 фильтрования частиц связан с процессором 303 оценки позиции, который приспособлен к генерации оценки позиции говорящего на основе данных о частицах, принятых от процессора 301 фильтрования частиц.

Устройство 103 телеконференции, кроме того, содержит аудиопроцессор 305, который принимает сигналы от двух микрофонов 105, 107 и который связан с процессором 301 фильтрования частиц. Устройство 103 телеконференции также содержит видеопроцессор 307, который принимает сигналы от камеры 109 и который связан с процессором 301 фильтрования частиц. Фильтрование частиц, выполненное процессором 301 фильтрования частиц, основывается на аудиоизмерениях, выполненных микрофонами 105, 107, и дополнительно на видеоизмерениях, выполненных камерой 109.

Фиг. 4 иллюстрирует пример способа фильтрования частиц для определения местоположения источника звука. Способ, в частности, осуществляется устройством 103 телеконференции и используется для оценки изображения позиции говорящего 101.

Способ инициируется на этапе 401, в котором инициализируется алгоритм. В частности, набор частиц генерируется для переменной состояния. Переменная состояния представляет основное (корректное) состояние системы и в конкретном примере заключается в (корректном) изображении позиции говорящего (например, (x,y) координата). Однако вместо того чтобы поддерживать и отслеживать отдельное оцененное значение для переменной состояния (позиции), подход фильтрования частиц поддерживает количество N частиц, которые представляют дискретное представление функции распределения вероятностей для переменной состояния. Каждая частица имеет значение состояния, представляющее значение значения состояния, представленного посредством частицы (в конкретном случае значение состояния соответствует конкретной позиции на изображении). Кроме того, частица имеет ассоциированный весовой коэффициент, который указывает вклад, который индивидуальная частица будет вносить для определения отдельной оценки значения состояния на основе всех частиц. В особенности, значение состояния (в конкретном примере позиция на изображении) определяется посредством взвешенного суммирования значений состояния всех частиц. Функция плотности вероятности представлена распределением частиц (которые из-за повторной выборки могут быть сконцентрированы по направлению к областям с высокой вероятностью) вместе с индивидуальными весовыми коэффициентами каждой частицы.

На этапе 401 процессор 301 фильтрования частиц инициирует фильтрование частиц, выбирая набор N частиц для представления исходных частиц. Частицы выбираются в соответствии с подходящем распределением. Например, в некоторых вариантах осуществления исходные частицы могут быть выбраны на основе равномерного распределения, соответствующего тому, что нет доступной информации о фактической функции плотности распределения для переменной состояния. В других вариантах осуществления может быть использовано оцененное или ожидаемое распределение. Например, в конкретном примере, вполне вероятно, что говорящий 101 будет располагаться по направлению к центру изображения, и поэтому частицы могут быть выбраны в соответствии с распределением, которое имеет более высокую вероятность по направлению к центру изображения. Таким образом, рассеивание позиций частиц на изображении может быть сгенерировано с увеличенной концентрацией или плотностью по направлению к центру экрана. В конкретном примере, каждой частице задается одинаковый исходный номинальный весовой коэффициент (следует учесть, что в других вариантах осуществления, неравномерное распределение может быть частично или полностью представлено варьирующимися весовыми коэффициентами).

Таким образом, на этапе 401, процессор 301 фильтрования частиц приступает к генерации исходного набора частиц, который представляет функцию плотности вероятности для переменной состояния, которая включает в себя (или в конкретном примере состоит из) местоположение источника звука.

Потом процессор 301 фильтрования частиц приступает к итерационному развитию частиц посредством вычисления значений частицы и весовых коэффициентов для последующего (выборки) момента времени на основе значений в предшествующий (выборки) момент времени. В частности, предполагается, что функция обновления переменной состояния (по меньшей мере, приблизительно) известна:

,

где X представляет переменную состояния, T представляет текущий (выборки) момент времени, T-1 представляет предшествующий (выборки) момент времени и представляет шум. В конкретном примере можно предполагать, что говорящий не двигается и таким образом функция обновления переменой состояния может быть рассмотрена просто как:

,

где n имеет подходящее распределение, представляющее шум (например, соответствующий неопределенности движений говорящих 101). Шум может, в частности, быть негауссовским (например, он может представлять увеличенную вероятность того, что пользователь будет двигаться по направлению к центру изображения).

Таким образом, за этапом 401 следует этап 403, в котором каждое значение состояния каждой частицы определяется в зависимости от значений состояния в предшествующий момент времени.

В частности, процессор 301 фильтрования частиц может применять уравнение выше ко всем частицам для генерации обновленного набора частиц в текущий момент времени T.

За этапом 403 следует этап 405, в котором весовые коэффициенты являются обновленными для каждой из частиц, сгенерированной в обновленном наборе частиц. Весовой коэффициент частицы генерируется от весового коэффициента частицы в предшествующий момент времени плюс измерение, отражающее позицию говорящего. В частности, весовой коэффициент частицы зависит от правдоподобия того, что измерение может быть результатом системы, в которой переменная состояния имеет значение состояния частицы. Таким образом, обновленный весовой коэффициент для частицы может быть определен как:

,

где представляет шум и неопределенность, связанную с измерением.

Следует учесть, что в различных вариантах осуществления и приложениях могут быть использованы различные функции g измерения. Однако во многих сценариях уместно просто масштабировать весовой коэффициент предшествующего момента времени посредством вероятности так, чтобы измерение могло следовать из переменной состояния:

,

где представляет измерение в момент времени T.

В системе Фиг. 1 обновленный весовой коэффициент для частицы вычисляется как:

,

где может предоставить обоснованное предположение о вероятностном значении .

Данный подход будет описан подробно ниже.

Дальше может быть выполнено применение весовых коэффициентов к индивидуальным частицам, и нормализация весовых коэффициентов.

За этапом 405 в примере, следует этап 407, в котором вычисляется отдельное оцененное значение состояния. Таким образом, на основе частиц, которые представляют дискретную выборку функции плотности вероятности для переменной состояния, вычисляется отдельное оцененное значение переменной состояния. Таким образом, значения состояния частиц комбинируются для генерации отдельной оценки с вкладом от каждой частицы, будучи зависимым от весового коэффициента частицы.

В частности, отдельное изображение позиции для говорящего 101 генерируется оценочным процессором 303 как взвешенное суммирование изображения позиций частиц, взвешенных посредством весового коэффициента частиц. Таким образом, средняя оцененная позиция определяется дискретным интегрированием (суммированием) функции плотности вероятности для изображения позиции. Эта оценка местоположения источника звука потом может быть использована для оптимизации обработки устройства телеконференции.

При фильтровании частиц распределение частиц во многих случаях может иметь тенденцию к вырождению такую, что некоторые частицы имеют очень большие значения весового коэффициента, в то время как другие сводятся к очень маленьким значениям весового коэффициента. Таким образом, распределение частиц будет часто иметь тенденцию по направлению к распределению, в которой многие частицы предоставляют относительно мало информации основной функции распределения вероятности переменной состояния.

Соответственно, фильтрующий алгоритм используется процессором 301 фильтрования частиц, содержащим средство для повторной выборки частиц так, что распределение (и весовые коэффициенты) частиц изменяются для предоставления более высокой концентрации значимых частиц, но без изменения основного представления функции распределения вероятности.

Таким образом, за этапом 407 следует этап 409, в котором определяется, необходима ли повторная выборка. Если нет, способ переходит к этапу 413, в котором система переходит к выбору следующей выборки. Потом способ возвращается к этапу 403 и переходит к итерированию этапа фильтрования частиц для следующего выборного момента времени. Если необходима повторная выборка, способ переходит к этапу 415, в котором повторная выборка выполняется до перехода способа к этапам 413 и 403 для итерирования фильтрации для следующего выборного момента времени.

Следует учесть, что любой подходящий критерий для определения того, что необходима повторная выборка, может быть использован без ущерба для изобретения. Например, повторная выборка частиц может быть выполнена, если дисперсия весовых коэффициентов превышает заданный порог.

Также следует учесть, что различные подходы для повторной выборки будут известны специалисту и что подходящий способ может быть использован без ущерба для изобретения.

Например, в некоторых вариантах осуществления функция кумулятивного распределения вероятности может быть создана из функции распределения вероятности, представленной частицами. Подходящее количество N частиц потом может быть выбрано посредством использования функции кумулятивного распределения вероятности для преобразования из равномерного распределения в то, которое отражает функцию кумулятивного распределения вероятности и таким же образом функцию распределения вероятности.

Потом каждой результирующей частице может быть задан одинаковый весовой коэффициент так, что набор частиц сразу же после повторной выборки представляет функцию распределения вероятности переменной состояния посредством распределения частиц, а не их весовых коэффициентов.

В качестве другого примера повторная выборка может убрать все частицы ниже заданного порога и может разделить частицы с более высоким весовым коэффициентом на количество частиц, которое отражает весовой коэффициент. Например, частица, имеющая высокий весовой коэффициент, может быть разделена на M частиц с одинаковыми (или очень подобными) значениями состояния и весовым коэффициентом, равным предшествующему весовому коэффициенту, разделенному посредством M.

В упомянутом способе весовой коэффициент для частицы в момент времени определяется в ответ на корреляцию для первого момента времени между оцененными акустическими передаточными функциями от источника звука в, по меньшей мере, двух позициях записи звука, представленных двумя микрофонами 105, 107.

В частности, Фиг. 5 иллюстрирует этап 405 более подробно. Этап 405 инициирует этап 501, в котором определяется первая акустическая передаточная функция от говорящего 101 к позиции записи первого микрофона 105.

В упомянутом примере акустическая передаточная функция определяется из аудиосигнала, измеренного первым микрофоном 105, и в частности, акустическая передаточная функция оценивается на основе голосового сигнала от говорящего 101, который захватывается посредством первого микрофона 105. Передаточная функция в частности представляется посредством импульсного отклика акустического пути.

Следует учитывать, что может быть использован любой подходящий способ оценки текущей акустической передаточной функции. Например, в некоторых вариантах осуществления говорящий 101 может дополнительно говорить в микрофон, расположенный у рта говорящего (например, установленный на гарнитуру), и акустическая передаточная функция может быть оценена посредством сравнения аудиосигнала, записанного в этом микрофоне, и аудиосигнала, записанного первым микрофоном 105.

За этапом 501 следует этап 503, в котором определяется вторая акустическая передаточная функция от говорящего к позиции записи второго микрофона 107. Может быть использован такой же подход как для первой акустической передаточной функции.

Две передаточные функции соответственно представляют относительные отклонения в акустических путях от говорящего 101 к двум микрофонам 105, 107. В частности, каждая передаточная функция может содержать информацию, которая отражает относительную задержку, и таким образом длину пути, от говорящего 101 к каждому из микрофонов 105, 107. Таким образом, акустические передаточные функции зависят от местоположения говорящего 101.

За этапом 503 следует этап 505, в котором определяется корреляция между двумя акустическими передаточными функциями. В частности, корреляционная функция может быть определена как:

Таким образом, корреляционная функция указывает, насколько передаточные функции удовлетворяют заданное, относительное смещение задержки. Заданное смещение задержки соответствует смещению длины пути между путями от двух микрофонов 105, 107 к говорящему 101. В отсутствие какого-либо шума, отражений, ошибок оценки, ошибок дискретизации и т.д. корреляционная функция будет соответствовать отдельному импульсу Дирака. Однако в реальном сценарии источники шума, отражения, оценочные погрешности, интерференция, дискретизация и т.д. приводят к реальной корреляционной функции, которая распространяется существенно. Таким образом, изобретатели настоящего изобретения установили, что значение корреляции для заданной задержки может быть воспринято как указание правдоподобия того, что различие пути между путями от двух микрофонов 105, 107 до (преобладающего) источника звука соответствует этому относительному различию задержки. Более того, изобретатели установили, что обновление весового коэффициента для обновления фильтрования частиц может быть основано на этой воспринятой функции (псевдо) правдоподобия.

Таким образом, в системе Фиг. 1 корреляция между акустическими передаточными функциями используется для обновления весового коэффициента и, в частности, может быть использована для генерации значения, которое может быть рассмотрено для представления вероятностного значения . Таким образом, в системе акустические передаточные функции, сгенерированные в ответ на захваченные сигналы в двух позициях записи (т.е. два микрофона 105, 107), могут быть использованы в качестве измерения для обновления весового коэффициента, и в частности, корреляционная функция прямо или косвенно может быть использована в качестве функции псевдоправдоподобия для функции обновления весового коэффициента, которая устанавливает отношение весового коэффициента для частицы в заданный момент времени с весовым коэффициентом частицы в предшествующий момент времени.

В частности, для заданной позиции (x,y) на изображении соответствующие относительные смещения задержки между длинами пути от двух микрофонов 105, 107 легко могут быть определены, используя простую геометрию (предполагая, что говорящий на заданном расстоянии). Следует учесть, что предоставленное расстояние между двумя микрофонами 105, 107 является очень маленьким относительно расстояния до источника звука, причем звуковая волна, достигающая микрофонов, может быть воспринята в качестве главным образом плоской звуковой волны и вариация относительной задержки, зависящая от расстояния до говорящего 101, может быть проигнорирована. Другими словами, во многих вариантах осуществления расстояние до говорящего может быть проигнорировано и задержка может быть прямо определена для заданного изображения позиции. Таким образом, для заданного переменного значения, т.е. для заданного изображения позиции (x, y), может быть рассчитана соответствующая задержка. Значение (нормированной) корреляции для этой задержки может быть получено после. Затем предшествующий весовой коэффициент для частицы может, например, непосредственно масштабироваться посредством абсолютного значения для этого корреляционного значения, для генерации нового обновленного весового коэффициента. Таким образом, обновление будет отражать правдоподобие того, что измеренная корреляция между акустическими передаточными функциями согласуется с задержкой, соответствующей этой позиции изображения.

В конкретном примере, представленном на Фиг. 5, за этапом 505 следует этап 507, в котором функция измерения весового коэффициента определяется из корреляции. В частности, в некоторых вариантах осуществления масштабирование предшествующего весового коэффициента, соответствующего (дополнительно нормализованной) корреляционной функции, может быть использовано непосредственно в качестве функции измерения.

Однако в других вариантах осуществления детерминированная (т.е. нестохастическая) функция может быть применена к корреляционной функции. Например, нелинейная операция может быть применена к корреляционной функции. Нелинейная функция может, в частности, увеличить колебания в корреляционной функции и подходящие нелинейные функции могут, например, включать в себя:

,

где K обычно может быть выбрано в качестве 2, 3 или 4.

Такое нелинейное отношение обнаружено, чтобы предоставить функцию измерения, которая во многих вариантах осуществления предоставляет более точное приближение для подходящей функции измерения вероятности и таким образом обнаружено, чтобы предоставить улучшенную операцию и оценку местоположения источника звука.

Фиг. 6 иллюстрирует пример значения масштабирования для функции обновления весового коэффициента как функции отображения позиции. В конкретном примере, значению масштабирования соответствует значение корреляции для задержки, соответствующее изображению позиции.

Фиг. 7 иллюстрирует пример значения масштабирования для функции обновления весового коэффициента как функции отображения позиции в соответствии с примером Фиг. 6, но после применения нелинейной операции.

За этапом 507 следует этап 509, в котором определяется значение весового коэффициента для частицы. В частности, новый весовой коэффициент для частицы определяется из:

,

где является масштабированием функции измерения, определенной для задержки, соответствующей изображению позиции (x,y) частицы.

В ранее описанном примере использовалась отдельная корреляция от двух микрофонов 105, 107. Кроме того, предполагалось привести оси микрофонов 105, 107 в соответствии с осями X изображения и соответственно относительные задержки между соответствующими передаточными функциями являются (приблизительно) независимыми от позиции y. Таким образом, как показано на Фиг. 6 и 7, соответствующий коэффициент масштабирования является константой для различных позиций y, так как корреляционная функция совмещена с осями x и константой для осей y. Другими словами, корреляционная функция и соответственно функция обновления весового коэффициента являются одномерными.

Однако в других вариантах осуществления может быть включен третий микрофон, который может быть расположен вне осей первого и второго микрофонов 105, 107 (т.е. не на линии с ними). Например, третий микрофон может быть позиционирован на верхней части камеры. В этом случае, вторая корреляционная функция может быть определена для третьего микрофона и, например, первого микрофона 105. Потом функция обновления весового коэффициента может быть определена детерминировано с двух корреляционных функций. В частности, для заданного изображения позиции может быть определена соответствующая задержка между первым и вторым микрофонами 105, 107 и потом может быть вычислено корреляционное значение, соответствующее этой задержке, определенной из первой корреляционной функции. Во-вторых, для заданного изображения позиции может быть определена соответствующая задержка между первым и третьим микрофонами и может быть вычислено значение корреляции, соответствующее этой задержке, определенной из второй корреляции. Потом коэффициент масштабирования для частицы, представляющий эту позицию, может быть определен посредством комбинирования этих двух значений (например, просто посредством их перемножения).

В предшествующем примере весовые коэффициенты были обновлены исключительно на основе аудиоизмерения (представленного посредством корреляции). Однако в других вариантах осуществления, входной видеосигнал с камеры также рассматривается при обновлении функций весового коэффициента.

Фиг. 8 показывает пример этапа 405 для такого примера. В этом примере обновление весового коэффициента включает в себя выполняющиеся в первую очередь этапы 501-509 Фиг. 5 для того, чтобы определить аудиовесовой коэффициент, как описано ранее.

Однако в этом примере за этапом 509 следует этап 801, в котором видеовесовой коэффициент вычисляется на основе изображения, предоставленного камерой. Таким образом, на этапе 801 генерируется второй вклад весового коэффициента, который отражает правдоподобие того, что заданное изображение позиции частицы, вероятно, приводит к изображению, захваченному камерой. Таким образом, видеовесовой коэффициент определяется в ответ на измерения области изображения.

За этапом 801 следует этап 803, в котором аудиовесовой коэффициент и видеовесовой коэффициент комбинируются в отдельный весовой коэффициент для частицы.

Следует учесть, что определения аудиовесового коэффициента и видеовесового коэффициента могут быть выполнены параллельно.

В данном примере, комбинация включает в себя относительное взвешивание двух вкладов весового коэффициента. В частности, взвешивание может отражать указание достоверности для аудиовесового коэффициента, которое генерируется на основе значения корреляции. Например, чем больше корреляция напоминает импульс Дирака, тем больше достоверность может быть рассмотрена (как воздействие неопределенных или неизвестных эффектов, таких как интерференция, шум, и отражения, вероятно, будут менее значительны). В другом примере продолжительность импульсного отклика (например, определенного посредством заданного порога) может быть использована в качестве указания достоверности или может быть использовано отклонение корреляции. В этом примере взвешивание вклада аудио весового коэффициента будет увеличено для увеличенного значения достоверности.

В некоторых вариантах осуществления значение достоверности также может быть определено для видеовесового коэффициента и взвешивание двух вкладов весового коэффициента может зависеть от относительного весового коэффициента указаний достоверности.

В некоторых сценариях более низкая граница может быть применена к одному или обоим весовым коэффициентам. Например, комбинация весовых коэффициентов может быть вычислена на основе умножения двух вкладов весового коэффициента и введения, например, смещения для весовых коэффициентов может гарантировать то, что полученный весовой коэффициент может быть больше нуля, даже если один из вкладов весового коэффициента равен нулю. В качестве конкретного примера, комбинированный весовой коэффициент может быть вычислен как

Следует учесть, что любой подходящий способ может быть использован для оценки акустических передаточных функций.

Следует учесть, что для определения весового коэффициента может быть использован любой подходящий подход на основе измерения области изображения. Например, подходящий способ описан в Katja Nummiaro, Esther Koller-Meier, and Luc van Gool, “An Adaptive Color-Based Particle Filter”, Tech. Rep., Katholieke Universiteit Leuven and Swiss Federal Institute of Technology, September 2002.

В этом подходе, фрагмент изображения преобразуется в другое представление для того, чтобы снизить количество информации для обработки и/или увеличить надежность посредством извлечения необходимой информации. Примером такого представления является цветовая гистограмма. В этом пространстве цветовой гистограммы каждый фрагмент изображения представляется отдельной точкой (гистограмма это вектор от начала до этой точки). Это пространство дает возможность сравнения по величине требуемого фрагмента изображения (например, объекта который будет отслежен) с любым другим фрагментом изображения на основе их описаний цвета посредством вычисления расстояния между соответствующими точками в пространстве цветовой гистограммы. Существуют множество метрик расстояния, которые могут быть использованы, включающих в себя простое эвклидово расстояние. Другие метрики расстояния известны как расстояние Бхаттачария, в частности, являются удобными, т.к. их нормализованный вывод может быть использован для вычисления нормально распределенного весового коэффициента для фильтра частиц.

Во многих вариантах осуществления акустические передаточные функции могут быть оценены как часть акустического формирования диаграммы направленности. В частности, подход акустического формирования диаграммы направленности может быть использован для направления аудиодиаграммы по направлению к говорящему 101 (подразумевается, что имеет место преобладающий источник звука в окружении). Потом относительное фильтрование или взвешивание индивидуальных сигналов микрофона может быть использовано в качестве оценки акустических передаточных функций.

Следует учесть, что может быть использован любой подходящий алгоритм формирования диаграммы направленности. В конкретном примере акустические передаточные функции определяются посредством подхода формирования диаграммы направленности, иллюстрированного формирователем диаграммы направленности Фиг. 9.

Узел 900 формирования диаграммы Фиг. 9 принимает два входящих сигнала и обрабатывает их для генерации аудиодиаграммы направленности. Условно, входные сигналы принимаются с всенаправленных микрофонов 105, 107, но также могут быть предоставлены (по меньшей мере) двумя датчиками направленного звука.

В узле 900 формирования диаграммы первый входной сигнал подается на первый адаптивный фильтр 901, который генерирует первый фильтрованный сигнал. Второй входной сигнал подается на второй адаптивный фильтр 903, который генерирует второй фильтрованный сигнал. Потом первый и второй фильтрованные сигналы суммируются в узле 905 суммирования для генерации комбинированного направленного сигнала. Комбинированный направленный сигнал соответствует принятому аудиосигналу от звукового датчика, имеющего направленную чувствительность. В частности, посредством модификации коэффициентов фильтрования, первого и второго адаптивных фильтров 901, 903 направление аудиодиаграммы может быть направлено в нужном направлении.

Коэффициенты фильтрования обновляются так, что максимизируется оценка мощности для требуемого компонента источника звука комбинированного направленного сигнала. В этом примере, коэффициенты фильтрования обновляются, когда сигнал от требуемого источника звука (говорящего 101) является преобладающим, и поэтому требуемый компонент звука предположительно является преобладающим компонентом источника комбинированного направленного сигнала. Соответственно, коэффициенты фильтрования обновляются так, что максимизируется измерение мощности для полного комбинированного направленного сигнала. Например, подходящее измерение мощности может быть получено посредством возведения в квадрат (или взятия абсолютного значения) выборок комбинированного направленного сигнала и фильтрования результата с помощью подходящего фильтра нижних частот.

Адаптация коэффициентов фильтрования, кроме того, делается с ограничением, что суммарная энергия передаточных функций адаптивных фильтров 901, 903 поддерживается постоянной в предопределенных частотах.

В конкретном примере, коэффициенты 901, 903 фильтрования не адаптируются непосредственно. Взамен, узел 900, формирующий диаграмму, кроме того, содержит третий адаптивный фильтр 907 для фильтрования комбинированного направленного сигнала, для генерации третьего фильтрованного сигнала и четвертый адаптивный фильтр 909 для фильтрования комбинированного направленного сигнала, для генерации четвертого фильтрованного сигнала.

Третий фильтрованный сигнал подается на первый узел 911 вычитания, который генерирует первый разностный сигнал между третьим фильтрованным сигналом и первым входным сигналом (задержанным посредством задержки 913). Четвертый фильтрованный сигнал подается на второй узел 915 вычитания, который генерирует второй разностный сигнал между четвертым фильтрованным сигналом и вторым входным сигналом (задержанным посредством задержки 917).

В системе коэффициенты фильтрования адаптивных фильтров 907, 909 адаптируются в присутствии преобладающего сигнала от требуемого источника звука, такого, что разностные сигналы уменьшаются и, в частности, минимизируются. Подходящим алгоритмом для этого является хорошо известный Нормализованный Градиентный алгоритм. Периодично, например, после каждого блока данных N выборок обращенные во времени коэффициенты 907 копируются в фильтр 901 и обращенные во времени коэффициенты 909 копируются в фильтр 903. Поступая таким образом, мощность выходного сигнала z в присутствии преобладающего сигнала от требуемого источника звука максимизируется узлом 900 формирования диаграммы.

В частотной области, передаточная функция третьего адаптивного фильтра 907 соответствует комплексно-сопряженной передаточной функции первого адаптивного фильтра 901 и передаточная функция четвертого адаптивного фильтра 909 соответствует комплексно-сопряженной передаточной функции второго адаптивного фильтра 903.

Более детально, операция узла 900 формирования диаграммы может быть описана со ссылкой на сигнальную модель, которая использует величины частотной области, которые являются преобразованиями Фурье сигналов непрерывного времени. Подразумевается, что каждый из сигналов микрофона содержит компонент сигнала от требуемого компонента источника, компонента реверберирующего сигнала и шума.

В соответствии с упомянутой моделью, вектор сигналов микрофона

(где верхний индекс t обозначает транспозицию) задается посредством

,

где s(*)является требуемым сигналом источника, h(*) является вектором акустических импульсных откликов от источника к микрофонам, включающим в себя прямой звуковой путь и возможно некоторые ранние отражения, d(*) является реверберацией и n(*) является некоррелированным шумом, имеющим равное отклонение на каждом из микрофонов. Предполагая, что требуемый сигнал, реверберация и шум являются взаимно некоррелированными, причем входная кроссмощность спектральной плотности задается посредством

,

где , и являются отклонениями сигнала источника, реверберации, и шума соответственно, I(*) является единичной матрицей, причем верхний индекс h обозначает комплексно-сопряженную транспозицию и * обозначает комплексное сопряжение.

Реверберация моделируется как диффузное (сферически изотропное) звуковое поле.

Несмотря на то, что это упрощенная теоретическая модель, было доказано, что она является ценной моделью во многих приложениях и полезна для предоставления понимания в операции и производительности алгоритма, использованного в узле 900 формирования диаграммы.

Для всенаправленных микрофонов матрица когерентности реверберации задается посредством

,

где d является расстоянием между микрофонами и c является скоростью звука.

Используя описанную сигнальную модель, комбинированный направленный выходной сигнал z узла 900 формирования диаграммы задается посредством операции фильтрации и суммы над сигналами микрофона:

.

Во временной области коэффициенты фильтрования для первого и второго адаптивных фильтров 901, 903 являются, в частности, копиями, обращенными во времени коэффициентов фильтрования третьего и четвертого адаптивных фильтров 907, 909 соответственно. Таким образом, в частотной области коэффициенты фильтрования для первого и второго адаптивных фильтров 901, 903 являются комплексно-сопряженными версиями коэффициентов фильтрования третьего и четвертого адаптивных фильтров 907, 909 соответственно.

Как правило, задержка будет представлена в целях гарантии причинности обработки сигнала и соответственно третий и четвертый адаптивные фильтры 907, 909 в этом примере скомпенсированы по фазе для того, чтобы принять во внимание эту задержку. Также, входные сигналы задерживаются в задержках 913, 917 до генерации разностных сигналов. Задержка * задержек 913, 917, как правило, равна длине адаптивных фильтров 901, 903, 907, 909.

Может быть показано, что адаптивный узел 900 формирования диаграммы Фиг. 9 максимизирует мощность комбинированного направленного выходного сигнала z, при ограничении, что суммарная мощность передаточных фильтрующих функций равна единице для всех частот, что может быть выражено математически как Таким образом, посредством установки коэффициентов фильтрования для минимизации разностных сигналов x1, x2 максимизируется мощность комбинированного направленного сигнала z, тем самым предоставляя адаптацию аудиодиаграммы по направлению к преобладающему аудиосигналу.

Используя сигнальную модель и применяя ограничение, комбинированный направленный выходной сигнал z задается посредством:

Только для требуемого источника (т.е. в отсутствии реверберации и шума), оптимальные коэффициенты задаются посредством:

,

где является произвольным членом, пропускающим все частоты.

Это выражение показывает, что оптимальные коэффициенты фильтрования равны сопряженным передаточным функциям требуемого источника для каждого из микрофонов (без учета общей неизвестной амплитуды и фазового коэффициента). В связи с ограниченной длиной фильтра практических фильтров на практике узел формирования диаграммы будет только оценивать первую часть временной области импульсных откликов (обычно, упомянутая часть включает в себя направленное поле и возможность некоторых ранних отражений).

Соответственно, коэффициенты фильтрования предоставляют очень выгодную оценку акустических передаточных функций и в этом конкретном примере первая акустическая передаточная функция соответственно определяется, как имеющая импульсный отклик, соответствующий коэффициентам фильтрования первого адаптивного фильтра 901, и вторая акустическая передаточная функция соответственно определяется, как имеющая импульсный отклик, соответствующий коэффициентам фильтрования второго адаптивного фильтра 903. Таким образом, корреляционная функция преимущественно определяется как корреляция между коэффициентами фильтрования первого адаптивного фильтра 901 и второго адаптивного фильтра 903.

Следует учесть для ясности, что описание выше описывает варианты осуществления изобретения со ссылкой на различные функциональные узлы и процессоры. Однако будет очевидно, что любое подходящее распределение функциональности между различными функциональными узлами или процессорами может быть использовано без преуменьшения изобретения. Например, функциональность, проиллюстрированная для выполнения посредством раздельных процессоров или контроллеров, может быть выполнена посредством таких же процессоров и контроллеров. Следовательно, ссылки на конкретные функциональные узлы, должны быть рассмотрены только в качестве ссылки на подходящее средство для предоставления описанной функциональности вместо того, чтобы свидетельствовать о строгой логической или физической структуре или организации.

Изобретение может быть реализовано в любой подходящей форме, включающей в себя аппаратное обеспечение, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Изобретение дополнительно может быть реализовано, по меньшей мере частично, как компьютерное программное обеспечение, работающее на одном или нескольких процессорах обработки данных и/или цифровых сигнальных процессорах. Элементы и компоненты варианта осуществления изобретения могут быть физически, функционально и логически реализованы любым подходящим образом. В действительности функциональность может быть реализована в отдельном узле, во множестве узлов или как часть других функциональных узлов. Как таковое, изобретение может быть реализовано в отдельном узле или может быть физически и функционально распределено между различными узлами или процессорами.

Несмотря на то, что настоящее изобретение описано в связи с некоторыми вариантами осуществления, оно не предназначено для ограничения конкретными формами, изложенными здесь. Скорее объем настоящего изобретения ограничивается только посредством приложенной формулы изобретения. Дополнительно, несмотря на то, что признак может возникнуть для описания в связи с частными вариантами осуществления, специалист в данной области техники распознает, что различные признаки описанных вариантов осуществлений могут быть скомбинированы в соответствии с изобретением. В формуле изобретения термин «содержит» не исключает присутствия других элементов или этапов.

Кроме того, несмотря на индивидуальное перечисление, множество средств, элементов или этапов способа может быть реализовано посредством, например, отдельного узла или процессора. Дополнительно, несмотря на то, что индивидуальные признаки могут быть включены в различные пункты формулы изобретения, они, возможно, могут быть преимущественно скомбинированы, и причем включение в различные пункты формулы изобретения не означает, что комбинация признаков не выполнима и/или не полезна. Также включение признака в одну категорию пунктов формулы изобретения не означает ограничение для этой категории, а указывает, что признак в равной степени применим к другим категориям пунктов формулы изобретения, по мере необходимости. Более того, порядок признаков в пунктах формулы изобретения не означает какой бы то ни было конкретный порядок, в котором признаки должны работать и, в частности, порядок отдельных этапов в пункте формулы изобретения на способ не означает, что этапы должны быть выполнены в этом порядке. Скорее этапы могут быть выполнены в любом подходящем порядке. В дополнение, отдельные ссылки не исключают множественности. Таким образом, ссылки на единственность, “первый”, “второй” и т.д. не устраняют возможности множественности. Позиционные обозначения в пунктах формулы изобретения предоставлены только в качестве уточняющего примера и в любом случае не должны рассматриваться как ограничивающие объем формулы изобретения.

Похожие патенты RU2511672C2

название год авторы номер документа
УПРАВЛЕНИЕ АКУСТИЧЕСКОЙ ЭХОКОМПЕНСАЦИЕЙ ДЛЯ РАСПРЕДЕЛЕННЫХ АУДИОУСТРОЙСТВ 2020
  • Дикинс, Гленн Н.
  • Хайнес, Кристофер Грэхэм
  • Гунаван, Дэвид
  • Картрайт, Ричард Дж.
  • Сифелдт, Алан Дж.
  • Артеага, Даниэль
  • Томас, Марк Р. П.
  • Ландо, Джошуа Б.
RU2818982C2
ОПРЕДЕЛЕНИЕ МЕСТОПОЛОЖЕНИЯ АУДИОИСТОЧНИКА 2011
  • Дерккс Рене Мартинус Мария
RU2565338C2
УСТРОЙСТВО ГОЛОСОВОЙ СВЯЗИ, СПОСОБ ГОЛОСОВОЙ СВЯЗИ И ПРОГРАММА 2018
  • Кобаяси, Кадзунори
RU2744518C1
ТРАНСКОДИРОВЩИК АУДИО ФОРМАТА 2010
  • Тиергарт Оливер
  • Фалх Корнелиа
  • Кюх Фабиан
  • Дел Галдо Джиованни
  • Херре Юрген
  • Каллингер Маркус
RU2519295C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ЗАХВАТА АУДИОИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ ФОРМИРОВАНИЯ ДИАГРАММЫ НАПРАВЛЕННОСТИ 2017
  • Янсе, Корнелис, Питер
  • Блемендаль, Брайан, Бранд, Антониус, Йоханнес
  • Кехихян, Патрик
  • Янссен, Рик, Йозеф, Мартинус
RU2760097C2
АДАПТИВНОЕ УЛУЧШЕНИЕ АУДИО ДЛЯ РАСПОЗНАВАНИЯ МНОГОКАНАЛЬНОЙ РЕЧИ 2016
  • Ли, Бо
  • Вайсс, Рон Дж.
  • Баккьяни, Михил А.У.
  • Сайнат, Тара Н.
  • Уилсон, Кевин Уилльям
RU2698153C1
МНОГОКАНАЛЬНОЕ АКУСТИЧЕСКОЕ ЭХОПОДАВЛЕНИЕ 2010
  • Трики Махди
  • Янсе Корнелис Питер
RU2546717C2
СПОСОБ И УСТРОЙСТВО ДЛЯ АУДИООБРАБОТКИ 2014
  • Кехихян Патрик
  • Янсе Корнелис Питер
RU2664717C2
ОБНАРУЖЕНИЕ ЭХОСИГНАЛА 2006
  • Трумп Тену
  • Эрикссон Андерс
RU2427077C2
СПОСОБ КОНТАКТНО-РАЗНОСТНОЙ АКУСТИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ 2011
  • Дворянкин Сергей Владимирович
  • Голубинский Андрей Николаевич
RU2451346C1

Иллюстрации к изобретению RU 2 511 672 C2

Реферат патента 2014 года ОЦЕНКА МЕСТОПОЛОЖЕНИЯ ИСТОЧНИКА ЗВУКА С ИСПОЛЬЗОВАНИЕМ ФИЛЬТРОВАНИЯ ЧАСТИЦ

Использование: изобретение относится к оценке местоположения источника звука с использованием фильтрования частиц, в частности к оценке местоположения источника звука для мультимодального приложения аудиовизуальной связи. Сущность: местоположение источника звука оценивается посредством фильтрования частиц, при котором частицы представляют функцию плотности вероятности для переменной состояния, содержащей местоположение источника звука. Способ включает в себя определение весового коэффициента для частицы, в ответ на корреляцию между оцененными акустическими передаточными функциями от источника звука к, по меньшей мере, двум позициям записи звука. Функция обновления весового коэффициента, в частности, может быть определена детерминированно из корреляции, и таким образом корреляция может быть использована в качестве функции псевдоправдоподобия для измерения функции фильтрования частиц. Акустические передаточные функции могут быть определены из формирования диаграммы направленности аудио по направлению к источнику звука. Аудиовесовой коэффициент может быть комбинирован с видеовесовым коэффициентом для генерации подхода мультимодального фильтрования частиц. Технический результат: увеличение приспособляемости, снижение сложности оценки местоположения источника звука с одновременным увеличением точности и улучшением производительности. 2 н. и 13 з.п. ф-лы, 9 ил.

Формула изобретения RU 2 511 672 C2

1. Способ оценки местоположения источника звука для источника звука посредством фильтрования частиц, причем способ содержит:
итерирование этапа генерации набора частиц на момент времени, причем набор частиц представляет функцию плотности вероятности для переменной состояния, содержащей местоположение источника звука в момент времени; причем этап содержит для каждой частицы из набора частиц:
генерацию (403) значения состояния для частицы в момент времени, в ответ на значение состояния частицы в предшествующий момент времени, и
генерацию (405) весового коэффициента для частицы в момент времени, в ответ на весовой коэффициент частицы в предшествующий момент времени и измерение в момент времени;
и генерацию (407) оценки переменной состояния, содержащей оценку местоположения источника звука для первого момента времени, в ответ на комбинацию значений состояния для набора частиц в первый момент времени, причем вклад от каждой частицы из набора частиц зависит от весового коэффициента частицы; при этом
этап генерации (405) весового коэффициента для частицы в момент времени содержит определение весового коэффициента, в ответ на корреляцию между оцененными акустическими передаточными функциями от источника звука к, по меньшей мере, двум позициям записи звука для первого момента времени.

2. Способ по п.1, в котором этап (405) генерации весового коэффициента содержит:
определение весового коэффициента для частицы, в ответ на значение корреляции для задержки, соответствующей значению состояния частицы.

3. Способ по п.2, в котором весовой коэффициент имеет детерминированное отношение к значению корреляции.

4. Способ по п.3, в котором детерминированное отношение является нелинейным.

5. Способ по п.1, в котором этап (405) генерации весового коэффициента содержит использование корреляции в качестве указания функции псевдоправдоподобия для функции обновления весового коэффициента, относящейся к весовому коэффициенту для частицы в момент времени, в ответ на весовой коэффициент частицы в предшествующий момент времени.

6. Способ по п.1, в котором позиция источника звука представлена двумерной позицией в двумерной плоскости.

7. Способ по п.6, дополнительно содержащий:
прием, по меньшей мере, одного изображения с камеры, охватывающей окружение, включающее в себя источник звука, и
причем двумерная позиция является позицией в, по меньшей мере, одном изображении.

8. Способ по п.7, в котором этап (405) генерации весового коэффициента содержит генерацию вклада первого весового коэффициента, в ответ на измерение области изображения для частицы, и генерацию вклада второго весового коэффициента, в ответ на корреляцию, и генерацию весового коэффициента в качестве комбинации первого весового коэффициента и второго весового коэффициента.

9. Способ по п.8, дополнительно содержащий:
генерацию указания достоверности для вклада первого весового коэффициента, в ответ на корреляцию; и
настройку вклада для вклада первого весового коэффициента в комбинации относительно вклада второго весового коэффициента, в ответ на указание достоверности.

10. Способ по п.1, дополнительно содержащий этап выполнения формирования диаграммы направленности аудио в направлении на позицию источника звука и оценки передаточных функций, в ответ на формирование диаграммы направленности аудио.

11. Способ по п.1, в котором этап (405) генерации весового коэффициента содержит определение весового коэффициента, в ответ на вторую корреляцию между оцененными акустическими передаточными функциями из источника звука к одной из, по меньшей мере, двух позиций записи звука и оцененными акустическими передаточными функциями от источника звука к другой позиции записи звука для первого момента времени; причем другая позиция записи звука смещена относительно линии между, по меньшей мере, двумя позициями записи звука.

12. Способ по п.1, в котором этап (405) генерации весового коэффициента содержит:
прием первого сигнала от элемента записи звука в первой позиции из, по меньшей мере, двух позиций записи звука;
прием второго сигнала от элемента записи звука во второй позиции из, по меньшей мере, двух позиций записи звука; и
оценку акустических передаточных функций в ответ на первый сигнал и второй сигнал.

13. Способ по п.1, в котором этап (405) генерации весового коэффициента содержит:
фильтрацию первого сигнала в первом адаптивном фильтре (901) для генерации первого фильтрованного сигнала;
фильтрацию второго сигнала во втором адаптивном фильтре (903) для генерации второго фильтрованного сигнала;
суммирование первого и второго фильтрованного сигнала для генерации комбинированного направленного сигнала; и
установку коэффициентов первого адаптивного фильтра (901) и второго адаптивного фильтра (903) для генерации комбинированного направленного сигнала такого, что оценка мощности для компонента источника звука комбинированного направленного сигнала является максимизированной; и
оценку акустических передаточных функций, в ответ на коэффициенты первого адаптивного фильтра (901) и второго адаптивного фильтра (903).

14. Способ по п.13, в котором этап (405) генерации весового коэффициента содержит:
фильтрацию комбинированного направленного сигнала в третьем адаптивном фильтре (907) для генерации третьего фильтрованного сигнала, причем передаточной функции третьего адаптированного фильтра (907) соответствует скомпенсированная по задержке по существу комплексно-сопряженная передаточная функция первого адаптивного фильтра (901);
определение разностного сигнала между первым сигналом и третьим фильтрованным сигналом; и
адаптацию передаточной функции первого адаптивного фильтра (901) для уменьшения разностного сигнала.

15. Устройство для оценки местоположения источника звука для источника звука посредством фильтрования частиц, причем устройство содержит:
средство (301) для итерирования этапа генерации набора частиц на момент времени, причем набор частиц представляет функцию плотности вероятности для переменной состояния, содержащей местоположение источника звука в момент времени; причем этап содержит для каждой частицы из набора частиц:
генерацию (403) значения состояния для частицы в момент времени, в ответ на значение состояния частицы в предшествующий момент времени, и
генерацию (405) весового коэффициента для частицы в момент времени, в ответ на весовой коэффициент частицы в предшествующий момент времени и измерение в момент времени;
и средство (303) для генерации оценки переменной состояния, содержащее оценку местоположения источника звука для первого момента времени, в ответ на комбинацию значений состояния для набора частиц в первый момент времени; при этом
этап (405) генерации весового коэффициента для частицы в момент времени содержит определение весового коэффициента, в ответ на корреляцию между оцененными акустическими передаточными функциями от источника звука к, по меньшей мере, двум позициям записи звука для первого момента времени.

Документы, цитированные в отчете о поиске Патент 2014 года RU2511672C2

US 7249001 B2, 24.07.2007
US2004220769 A1, 04.11.2004
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок 1923
  • Григорьев П.Н.
SU2008A1
EP 1992959 A2, 19.11.2008
Способ и приспособление для нагревания хлебопекарных камер 1923
  • Иссерлис И.Л.
SU2003A1

RU 2 511 672 C2

Авторы

Ли Вей П.

Сарраук Баха Э.

Ван Стейвенберг Леон К. А.

Янсе Корнелис П.

Даты

2014-04-10Публикация

2009-12-11Подача