ОБЛАСТЬ ТЕХНИКИ
Изобретение относится к захвату аудиоинформации с использованием формирования диаграммы направленности и, в частности, но не исключительно, к захвату речи с использованием формирования диаграммы направленности.
УРОВЕНЬ ТЕХНИКИ
Захват аудиоинформации и, в частности, речи приобретал все большую важность в прошлые десятилетия. Действительно, захват речи стал чрезвычайно важной задачей для множества приложений, включающих в себя телекоммуникацию, организацию телеконференций, игры, пользовательские аудиоинтерфейсы и т.д. Однако проблема во многих сценариях и приложениях состоит в том, что желаемый источник речи обычно является не единственным источником звука в окружающей среде. Напротив, в типичных звуковых средах имеется много других источников звука/шума, которые захватываются микрофоном. Одна из критических проблем, стоящих перед приложениями для захвата речи, состоит в том, как наилучшим образом извлечь речь в шумной окружающей среде. Чтобы решить эту проблему было предложено много разных подходов для шумоподавления.
Действительно, например, исследования систем речевой связи, оставляющих руки свободными, являются темой, которая привлекала большой интерес в течение многих десятилетий. Первые доступные коммерческие системы были сосредоточены на профессиональных системах организации (видео) конференций в средах с низким фоновым шумом и малым временем реверберации. Было обнаружено, что особенно эффективным подходом для идентификации и извлечения желаемых источников звука, например, желаемого говорящего, является использование формирования диаграммы направленности на основе сигналов от массива микрофонов. Первоначально часто использовались массивы микрофонов с фокусированным фиксированным лепестком диаграммы направленности, но позже стало более популярным использование адаптивных лепестков диаграммы направленности.
В конце 1990-х годов начали внедряться системы для мобильных телефонов, оставляющие руки свободными. Они были предназначены для использования во многих разных средах, в том числе в помещениях с реверберацией и с (более) высоким уровнем фонового шума. Такие звуковые среды представляют в значительной степени более сложные проблемы и, в частности, могут усложнить или ухудшить адаптацию сформированного лепестка диаграммы направленности.
Первоначально исследования по захвату аудиоинформации для таких окружающих сред были сосредоточены на эхо-компенсации и позже на шумоподавлении. Пример системы захвата аудиоинформации на основе формирования диаграммы направленности проиллюстрирован на фиг. 1. В примере массив из множества микрофонов 101 присоединен к формирователю 103 диаграммы направленности, который генерирует сигнал источника звука z(n) и один или несколько опорных сигналов фонового шума x(n).
Массив 101 микрофонов 101 в некоторых вариантах осуществления может содержать только два микрофона, но обычно будет содержать большее количество.
Формирователь 103 диаграммы направленности, в частности, может представлять собой адаптивный формирователь диаграммы направленности, в котором лепесток диаграммы направленности может быть направлен к источнику речи с использованием подходящего алгоритма адаптации.
Например, документы US 7 146 012 и US 7 602 926 раскрывают примеры адаптивных формирователей диаграммы направленности, которые сосредотачиваются на речи, но также обеспечивают опорный сигнал, который (почти) не содержит речи.
В качестве альтернативы документ US2014/278394 раскрывает лепестки диаграммы направленности, которыми можно управлять и которые можно модифицировать в зависимости от различных параметров, включающих в себя результаты распознавания речи. Все параметры, используемые для управления и модификации лепестков диаграммы направленности, основаны на выходных сигналах или выведены из выходных сигналов лепестков диаграммы направленности.
Формирователь диаграммы направленности создает улучшенный выходной сигнал z(n) посредством когерентного добавления желаемой части сигналов микрофона посредством фильтрации принятых сигналов в прямых согласующих фильтрах и добавления отфильтрованных выходов. Кроме того, выходной сигнал фильтруется в обратных адаптивных фильтрах, имеющих характеристики фильтра, сопряженные с прямыми фильтрами (в частотной области соответствующие инвертированным по времени импульсным характеристикам во временной области). Сигналы ошибок генерируются как разность между входными сигналами и выходами обратных адаптивных фильтров, и коэффициенты фильтров адаптированы к минимизации сигналов ошибок, тем самым приводя к тому, что лепесток диаграммы направленности аудио направляется на доминирующий сигнал. Сгенерированные сигналы ошибок x(n) могут рассматриваться как опорные сигналы фонового шума, которые особенно подходят для выполнения дополнительного шумоподавления на улучшенном выходном сигнале z(n).
Первичный сигнал z(n) и опорный сигнал x(n) обычно оба загрязнены шумом. В случае, если шум в обоих сигналах является когерентным (например, когда существует интерферирующий точечный источник шума), адаптивный фильтр 105 может использоваться для сокращения когерентного шума.
С этой целью опорный сигнал фонового шума x(n) присоединяется ко входу адаптивного фильтра 105, и выход вычитается из сигнала звукового источника z(n), чтобы генерировать компенсированный сигнал r(n). Адаптивный фильтр 105 выполнен с возможностью минимизировать мощность компенсированного сигнала r(n), обычно когда желаемый источник звука не активен (например, когда отсутствует речь), и это приводит к подавлению когерентного шума.
Компенсированный сигнал подается на постпроцессор 107, который выполняет шумоподавление на компенсированном сигнале r(n) на основе опорного сигнала фонового шума x(n). В частности, постпроцессор 107 преобразовывает компенсированный сигнал r(n) и опорный сигнал фонового шума x(n) в частотную область с использованием оконного преобразования Фурье. Затем для каждого элемента разрешения по частоте он модифицирует амплитуду R(ω), вычитая масштабированную версию амплитудного спектра X(ω). Полученный в результате комплексный спектр преобразовывается обратно во временную область, чтобы получить выходной сигнал q(n), в котором был подавлен шум. Эта методика спектрального вычитания была впервые описана в литературе S.F. Boll, ʺSuppression of Acoustic Noise in Speech using Spectral Subtraction,ʺ IEEE Trans. Acoustics, Speech and Signal Processing, vol. 27, pp. 113-120, Apr. 1979.
Хотя система на фиг. 1 во многих сценариях обеспечивает очень эффективную работу и эффективные рабочие характеристики, она не является оптимальной во всех сценариях. Действительно, хотя многие традиционные системы, в том числе в примере на фиг. 1, обеспечивают очень хорошие рабочие характеристики, когда желаемый источник звука/говорящий находится в радиусе реверберации массива микрофонов, т.е. для приложений, в которых энергия прямой волны желаемого источника звука (предпочтительно значительно) сильнее, чем энергия отражений желаемого источника звука, они, как правило, обеспечивают менее оптимальные результаты, когда дело обстоит иным образом. В типичных окружающих условиях было обнаружено, что говорящий обычно должен находиться в 1-1,5 метрах от массива микрофонов.
Однако имеется насущная потребность в решениях, приложениях и системах аудиосвязи, оставляющих руки свободными, когда пользователь может находиться на более дальних расстояниях от массива микрофонов. Например, это желательно для многих систем и приложения связи и голосового управления. Системы, обеспечивающие улучшение речи включающие в себя устранение реверберации и шумоподавление для таких ситуаций, находятся в области, называемой "супер-системы, оставляющие руки свободными".
Более конкретно, когда дело касается дополнительного рассеянного шума, и желаемый говорящий находится вне радиуса реверберации, могут возникнуть следующие проблемы.
- Формирователь диаграммы направленности может часто иметь проблемы при различении эхо желаемой речи и рассеянного фонового шума, что приводит к искажению речи.
- Адаптивный формирователь диаграммы направленности может медленнее выполнять схождение к желаемому говорящему. В течение времени, когда адаптивный лепесток диаграммы направленности еще не сошелся, будет иметься утечка речи в опорном сигнале, что приводит к искажению речи в случае, если этот опорный сигнал используется для нестационарного шумоподавления и компенсации. Проблема увеличивается, когда имеются другие желаемые источники, которые говорят друг за другом.
Решение для более медленно сходящихся адаптивных фильтров (вследствие фонового шума) состоит в том, чтобы добавить к ним несколько фиксированных лепестков диаграммы направленности, нацеленных в разных направлениях, как проиллюстрировано на фиг. 2. Однако этот подход особенно развит для сценариев, в которых желаемый источник звука присутствует в радиусе реверберации. Он может быть менее эффективным для источников звука вне радиуса реверберации и может часто приводить к ненадежным решениям в таких случаях, преимущественно если существует также акустический рассеянный фоновый шум.
Это может понимать следующим образом: в случае, если желаемый источник звука находится вне радиуса реверберации, энергия прямого звукового поля является малой по сравнению с энергией рассеянного звукового поля, созданного из отражений. Отношение прямого звукового поля к рассеянному звуковому полю будет далее ухудшаться, если также будет иметься рассеянный фоновый шум. Энергии разных лепестков диаграммы направленности будут приблизительно одинаковыми, и, соответственно это не обеспечивает подходящий параметр для управления формирователями диаграммы направленности. По той же самой причине система на основе измерения направления на источник излучения (DOA; Direction Of Arrival) не будет надежной: вследствие низкой энергии прямой волны взаимная корреляция сигналов не даст острый отдельный пик и приведет к большим ошибкам. Создание более надежных детекторов часто не будет приводить к каким-либо обнаружениям желаемого источника звука, что приводит к не сфокусированным лепесткам диаграммы направленности. Типичным результатом является речевая утечка в фоновом шуме, и возникнет серьезное искажение, если это будет предпринято для сокращения шума в первичном сигнале на основе сигнала фонового шума.
Следовательно, будет эффективен улучшенный подход захвата аудиоинформации и, в частности, подход, обеспечивающий сокращенную сложность, увеличенную гибкость, облегченную реализацию, сокращенные затраты, улучшенный захват аудиоинформации, улучшенную пригодность для захвата аудиоинформации вне радиуса реверберации, сокращенную чувствительность к шуму, улучшенный захват речи и/или улучшенные рабочие характеристики.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
В соответствии с этим изобретение преследует цель предпочтительно смягчить, облегчить или устранить один или более из вышеупомянутых недостатков отдельно или в любой комбинации.
В соответствии с аспектом изобретения обеспечено устройство для захвата аудиоинформации, устройство содержит: массив микрофонов; первый формирователь диаграммы направленности, присоединенный к массиву микрофонов и выполненный с возможностью генерировать первый выходной аудиосигнал со сформированной диаграммой направленности; множество ограниченных формирователей диаграммы направленности, присоединенных к массиву микрофонов, и каждый из которых выполнен с возможностью генерировать выходной аудиосигнал со сформированной ограниченной диаграммой направленности; первый адаптер для адаптации параметров диаграммы направленности первого формирователя диаграммы направленности; второй адаптер для адаптации параметров ограниченной диаграммы направленности для множества ограниченных формирователей диаграммы направленности; процессор разности для определения меры различия для по меньшей мере одного из множества ограниченных формирователей диаграммы направленности, причем мера различия указывает различие между лепестками диаграммы направленности, сформированными первым формирователем диаграммы направленности и упомянутым по меньшей мере одним из множества ограниченных формирователей диаграммы направленности; причем второй адаптер выполнен с возможностью адаптировать параметры ограниченной диаграммы направленности с тем ограничением, что адаптируются параметры ограниченной диаграммы направленности только для тех ограниченных формирователей диаграммы направленности из множества ограниченных формирователей диаграммы направленности, для которых определена мера различия, соответствующая критерию сходства.
Изобретение может обеспечить улучшенный захват аудиоинформации во многих вариантах осуществления. В частности, могут часто достигаться улучшенные рабочие характеристики в реверберирующих окружающих средах и/или для источников звука. Подход, в частности, может обеспечить улучшенный захват речи во многих сложных звуковых средах. Во многих вариантах осуществления подход может обеспечить надежное и точное формирование лепестка диаграммы направленности, в то же время обеспечивая быструю адаптацию к новым желаемым источникам звука. Подход может обеспечить устройство захвата аудиоинформации, имеющее уменьшенную чувствительность, например, к шуму, реверберации и отражениям. В частности, может часто достигаться улучшенный захват источников звука, находящихся вне радиуса реверберации.
В некоторых вариантах осуществления выходной аудиосигнал от устройства захвата аудиоинформации может быть сгенерирован в ответ на первый выходной аудиосигнал со сформированной диаграммой направленности и/или выходной аудиосигнал со сформированной ограниченной диаграммой направленности. В некоторых вариантах осуществления выходной аудиосигнал может быть сгенерирован как комбинация выходного аудиосигнала со сформированной ограниченной диаграммой направленности, и, в частности, может использоваться выборочная комбинация, например, выбирающая единственный выходной аудиосигнал со сформированной ограниченной диаграммой направленности.
Мера различия может отражать разность между сформированными лепестками диаграмм направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности, для которого мера различия сгенерирована, например, измерена как разность между направлениями лепестков диаграммы направленности. Во многих вариантах осуществления мера различия может указывать различия между выходными аудиосигналами со сформированной диаграммой направленности от первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности. В некоторых вариантах осуществления мера различия может указывать различия между фильтрами диаграммы направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности. Мера различия может представлять собой меру расстояния, например, меру, определенную как расстояние между векторами коэффициентов фильтров диаграммы направленности первого формирователя диаграммы направленности и ограниченного формирователя диаграммы направленности.
Очевидно, что мера сходства может быть эквивалентна мере различия в том, что мера сходства, предоставляющая информацию, относящуюся к сходству между двумя признаками, по своей природе также предоставляет информацию, относящуюся к различию между ними, и наоборот.
Критерий сходства, например, может содержать требование, чтобы мера различия указывала различие ниже заданной меры, например, может требоваться, чтобы мера различия, имеющая увеличивающиеся значения для растущего различия, была ниже порога.
Ограниченные формирователи диаграммы направленности ограничены тем, что адаптация подвергнута ограничению и выполняется только тогда, когда мера различия соответствует критерию сходства. Напротив, первый формирователь диаграммы направленности не подвергается этому требованию. В частности, адаптация первого формирователя диаграммы направленности может быть независима от любого из ограниченных формирователей диаграммы направленности и, в частности, может быть независима от формирования этих лепестков диаграммы направленности.
Ограничение адаптации, требующее, чтобы мера различия, например, была ниже порога, может рассматриваться как соответствующее адаптации только для тех ограниченных формирователей диаграммы направленности, которые в настоящее время формируют лепестки диаграммы направленности, соответствующие источникам звука в области, близкой к источнику звука, к которому в настоящее время адаптируется первый формирователь диаграммы направленности.
Адаптация формирователей диаграммы направленности может выполняться посредством адаптации параметров фильтров диаграммы направленности формирователей диаграммы направленности, например, в частности, посредством адаптации коэффициентов фильтра. Адаптация может преследовать цель оптимизировать (максимизировать или минимизировать) заданный параметр адаптации, например, максимизация уровня выходного сигнала, когда обнаружен источник звука, или его минимизация, когда обнаружен только шум. Адаптация может преследовать цель модифицировать фильтры диаграммы направленности, чтобы оптимизировать измеренный параметр.
В соответствии с опциональным признаком изобретения устройство дополнительно содержит детектор источника звука для обнаружения точечных источников звука во вторых выходных аудиосигналах со сформированной диаграммой направленности; и второй адаптер выполнен с возможностью адаптировать параметры ограниченной диаграммы направленности только для тех ограниченных формирователей диаграммы направленности, для которых присутствие точечного источника звука обнаружено в выходном аудиосигнале со сформированной ограниченной диаграммой направленности.
Это может дополнительно улучшить рабочие характеристики и, например, может обеспечить более надежные рабочие характеристики, приводящие к улучшенному захвату аудиоинформации. Могут использоваться разные критерии для обнаружения точечного источника звука в разных вариантах осуществления. Точечный источник звука, в частности, может являться коррелированным источником звука для микрофонов из массива микрофонов. Точечный источник звука, например, может считаться обнаруженным, если корреляция между сигналами микрофонов из массива микрофонов (например, после фильтрации фильтрами диаграммы направленности ограниченного формирователя диаграммы направленности) превышает заданный порог.
В соответствии с опциональным признаком изобретения детектор источника звука дополнительно выполнен с возможностью обнаруживать точечные источники звука в первом выходном аудиосигнале со сформированной диаграммой направленности; и устройство дополнительно содержит контроллер, выполненный с возможностью устанавливать параметры ограниченной диаграммы направленности для первого ограниченного формирователя диаграммы направленности в ответ на параметры диаграммы направленности первого формирователя диаграммы направленности, если точечный источник звука обнаружен в первом выходном аудиосигнале со сформированной диаграммой направленности, но не в каких-либо выходных аудиосигналах со сформированной ограниченной диаграммой направленности.
Это может дополнительно улучшить рабочие характеристики и, например, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации для нового желаемого точечного источника звука. Во многих вариантах осуществления и сценариях это может позволить более быстрое или более надежное обнаружение новых источников звука.
В соответствии с опциональным признаком изобретения контроллер выполнен с возможностью устанавливать параметры ограниченной диаграммы направленности для первого ограниченного формирователя диаграммы направленности в ответ на параметры диаграммы направленности первого формирователя диаграммы направленности, только если мера различия для первого ограниченного формирователя диаграммы направленности превышает порог.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации.
В соответствии с опциональным признаком изобретения детектор источника звука дополнительно выполнен с возможностью обнаруживать источники звука в первом выходном аудиосигнале со сформированной диаграммой направленности; и устройство дополнительно содержит контроллер, выполненный с возможностью устанавливать параметры ограниченной диаграммы направленности для первого ограниченного формирователя диаграммы направленности в ответ на параметры диаграммы направленности первого формирователя диаграммы направленности, если точечный источник звука обнаружен в первом выходном аудиосигнале со сформированной диаграммой направленности и во втором выходном аудиосигнале со сформированной диаграммой направленности от первого ограниченного формирователя диаграммы направленности, и для первого ограниченного формирователя диаграммы направленности была определена мера различия, которая превышает порог.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации.
В соответствии с опциональным признаком изобретения множество ограниченных формирователей диаграммы направленности является активным подмножеством ограниченных формирователей диаграммы направленности, выбранных из пула ограниченных формирователей диаграммы направленности, и контроллер выполнен с возможностью увеличивать количество активных ограниченных формирователей диаграммы направленности, чтобы включить в них первый ограниченный формирователь диаграммы направленности посредством инициализации ограниченного формирователя диаграммы направленности из пула ограниченных формирователей диаграммы направленности с использованием параметров диаграммы направленности первого формирователя диаграммы направленности.
Это может дополнительно улучшить рабочие характеристики и/или облегчить реализацию и/или функциональность. Это может сократить вычислительные требования к ресурсам во многих сценариях.
В соответствии с опциональным признаком изобретения второй адаптер дополнительно выполнен с возможностью адаптировать только параметры ограниченной диаграммы направленности для первого ограниченного формирователя диаграммы направленности, если удовлетворяется критерий, содержащий по меньшей мере одно требование, выбранное из группы: требование, чтобы уровень второго выходного аудиосигнала со сформированной диаграммой направленности от первого ограниченного формирователя диаграммы направленности был выше, чем у любого другого второго выходного аудиосигнала со сформированной диаграммой направленности; требование, чтобы уровень точечного источника звука во втором выходном аудиосигнале со сформированной диаграммой направленности от первого ограниченного формирователя диаграммы направленности был выше, чем какой-либо точечный источник звука в любом другом втором выходном аудиосигнале со сформированной диаграммой направленности; требование, чтобы отношение сигнала к шуму для второго выходного аудиосигнала со сформированной диаграммой направленности от первого ограниченного формирователя диаграммы направленности превышало порог; и требование, чтобы второй выходной аудиосигнал со сформированной диаграммой направленности от первого ограниченного формирователя диаграммы направленности содержал речевую составляющую.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации.
В соответствии с опциональным признаком изобретения процессор разности выполнен с возможностью определять меру различия для первого ограниченного формирователя диаграммы направленности, чтобы отразить по меньшей мере одну разность из группы: разность между первым набором параметров и ограниченным набором параметров для первого ограниченного формирователя диаграммы направленности; и разность между первым выходным аудиосигналом со сформированной диаграммой направленности и выходным аудиосигналом со сформированной ограниченной диаграммой направленности от первого ограниченного формирователя диаграммы направленности.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации.
В соответствии с опциональным признаком изобретения скорость адаптации для первого формирователя диаграммы направленности выше, чем для множества ограниченных формирователей диаграммы направленности.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики адаптации. В частности, это может позволить рабочим характеристикам системы в целом обеспечивать и точную, и надежную адаптацию к текущему аудиосценарию, в то же время обеспечивая быструю адаптацию к изменениям в нем (например, когда появляется новый источник звука).
В соответствии с опциональным признаком изобретения первый формирователь диаграммы направленности и множество ограниченных формирователей диаграммы направленности представляют собой формирователи диаграммы направленности с фильтрацией и комбинацией.
Формирователи диаграммы направленности с фильтрацией и комбинацией, в частности, могут содержать фильтры диаграммы направленности в форме фильтров с конечной импульсной характеристикой (КИХ; FIR), имеющих множество коэффициентов.
В соответствии с опциональным признаком изобретения первый формирователь диаграммы направленности является формирователем диаграммы направленности с фильтрацией и комбинацией, содержащим первое множество фильтров диаграммы направленности, каждый из которых имеет первые адаптивные импульсные характеристики, и второй формирователь диаграммы направленности, являющийся ограниченным формирователем диаграммы направленности из множества ограниченных формирователей диаграммы направленности, является формирователем диаграммы направленности с фильтрацией и комбинацией, содержащим второе множество фильтров диаграммы направленности, каждый из которых имеет вторую адаптивную импульсную характеристику; и процессор разности выполнен с возможностью определять меру различия между лепестками диаграммы направленности первого формирователя диаграммы направленности и второго формирователя диаграммы направленности в ответ на сравнение первых адаптивных импульсных характеристик со вторыми адаптивными импульсными характеристиками.
Во многих сценариях и приложениях подход может обеспечить улучшенный показатель различия/сходства между лепестками диаграммы направленности, сформированными двумя формирователями диаграммы направленности. В частности, улучшенная мера различия может часто обеспечиваться в сценариях, в которых прямая волна от источников звука, к которым адаптируются формирователи диаграммы направленности, не является доминирующей. Могут часто достигаться улучшенные рабочие характеристики для сценариев, содержащих высокую степень рассеянного шума, реверберирующих сигналов и/или поздних отражений.
Подход может сократить чувствительность свойств аудиосигналов (либо выходного аудиосигнала со сформированной диаграммой направленности, либо сигналов микрофонов) и соответственно может быть менее чувствительным, например, к шуму. Во многих сценариях мера различия может быть сгенерирована быстрее, и, например, в некоторых сценариях мгновенно. В частности, мера различия может быть сгенерирована на основе текущих параметров фильтра без какого-либо усреднения.
Формирователи диаграммы направленности с фильтрацией и комбинацией могут содержать фильтр диаграммы направленности для каждого микрофона и блок комбинации для объединения выходов фильтров диаграммы направленности, чтобы сгенерирована выходной аудиосигнал со сформированной диаграммой направленности. Блок комбинации, в частности, может представлять собой блок суммирования, и формирователи диаграммы направленности с фильтрацией и комбинацией могут представлять собой формирователи диаграммы направленности с фильтрацией и суммированием.
Формирователи диаграммы направленности являются адаптивными формирователями диаграммы направленности и могут содержать функциональность адаптации для адаптации адаптивных импульсных характеристик (и тем самым адаптации эффективной направленности массива микрофонов).
Мера различия эквивалентна мере сходства.
Формирователи диаграммы направленности с фильтрацией и комбинацией, в частности, могут содержать фильтры диаграммы направленности в форме фильтров с конечной импульсной характеристикой (КИХ; FIR), имеющих множество коэффициентов.
В некоторых вариантах осуществления процессор разности выполнен с возможностью определять для каждого микрофона из массива микрофонов корреляцию между первой и второй адаптивными импульсными характеристиками для микрофона и определять меру различия в ответ на комбинацию корреляций для каждого микрофона из массива микрофонов.
Это может обеспечить особенно эффективную меру различия, не требуя чрезмерной сложности.
В некоторых вариантах осуществления процессор разности выполнен с возможностью определять представления в частотной области первых адаптивных импульсных характеристик и вторых адаптивных импульсных характеристик; и определять меру различия в ответ на представления в частотной области первых адаптивных импульсных характеристик и вторых адаптивных импульсных характеристик.
Это может дополнительно улучшить рабочие характеристики и/или облегчить функциональность. Во многих вариантах осуществления это может облегчить определение меры различия. В некоторых вариантах осуществления адаптивные импульсные характеристики могут быть обеспечены в частотной области, и представления в частотной области могут быть легко доступными. Однако в большинстве вариантов осуществления адаптивные импульсные характеристики могут быть обеспечены во временной области, например, посредством коэффициентов КИХ-фильтра, и процессор разности может быть выполнен с возможностью применять, например, дискретное преобразование Фурье (DFT) к импульсным характеристикам временной области, чтобы сгенерировать частотные представления.
В некоторых вариантах осуществления процессор разности выполнен с возможностью определять частотные меры различия для частот представлений в частотной области; и определять меру различия в ответ на частотные меры различия для частот представлений в частотной области; процессор разности выполнен с возможностью определять частотную меру различия для первой частоты и первого микрофона из массива микрофонов в ответ на первый коэффициент в частотной области и второй коэффициент в частотной области, первый коэффициент в частотной области является коэффициентом в частотной области для первой частоты для первой адаптивной импульсной характеристики для первого микрофона, и второй коэффициент в частотной области является коэффициентом в частотной области для первой частоты для второй адаптивной импульсной характеристики для первого микрофона; и процессор разности дополнительно выполнен с возможностью определять частотную меру различия для первой частоты в ответ на комбинацию частотных мер различия для множества микрофонов из массива микрофонов.
Это может обеспечить особенно эффективную меру различия, которая, в частности, может обеспечить точный показатель различия между лепестками диаграммы направленности.
Обозначая первую и вторую частотные составляющие для частоты ω и микрофона m как и соответственно, частотная мера различия для частоты ω и микрофона m может быть определена как:
(Комбинированная) частотная мера различия для частоты ω для множества микрофонов из массива микрофонов может быть определена посредством комбинации значений для разных микрофонов. Например, для простого суммирования по M микрофонам:
Полная мера различия тогда может быть определена посредством комбинации индивидуальных частотных меры различия. Например, может быть применена зависящая от частоты комбинация:
где - подходящая частотная функция взвешивания.
В некоторых вариантах осуществления процессор разности выполнен с возможностью определять частотную меру различия для первой частоты и первого микрофона в ответ на умножение первого коэффициента в частотной области и сопряжения второго коэффициента в частотной области.
Это может обеспечить особенно эффективную меру различия, которая, в частности, может обеспечить точный показатель различия между лепестками диаграммы направленности. В некоторых вариантах осуществления частотная мера различия для частоты ω и микрофона m может быть определена как:
В некоторых вариантах осуществления процессор разности выполнен с возможностью определять частотную меру различия для первой частоты в ответ на действительную часть комбинации частотных мер различия для первой частоты для множества микрофонов массива микрофонов.
Это может обеспечить особенно эффективную меру различия, которая, в частности, может обеспечить точный показатель различия между лепестками диаграммы направленности.
В некоторых вариантах осуществления процессор разности выполнен с возможностью определять частотную меру различия для первой частоты в ответ на норму комбинации частотных мер различия для первой частоты для множества микрофонов из массива микрофонов.
Это может обеспечить особенно эффективную меру различия, которая, в частности, может обеспечить точный показатель различия между лепестками диаграммы направленности. Норма, в частности, может являться нормой L1.
В некоторых вариантах осуществления процессор разности выполнен с возможностью определять частотную меру различия для первой частоты в ответ на по меньшей мере одну из действительной части и нормы комбинации частотных мер различия для первой частоты для множества микрофонов из массива микрофонов относительно суммы функции нормы L2 для суммы первых коэффициентов в частотной области и функции нормы L2 для суммы вторых коэффициентов в частотной области для множества микрофонов из массива микрофонов.
Это может обеспечить особенно эффективную меру различия, которая, в частности, может обеспечить точный показатель различия между лепестками диаграммы направленности. Монотонные функции, в частности, могут являться квадратными функциями.
В некоторых вариантах осуществления процессор разности выполнен с возможностью определять частотную меру различия для первой частоты в ответ на норму комбинации частотных мер различия для первой частоты для множества микрофонов из массива микрофонов относительно произведения функции нормы L2 для суммы первых коэффициентов в частотной области и функции нормы L2 для суммы вторых коэффициентов в частотной области для множества микрофонов из массива микрофонов.
Это может обеспечить особенно эффективную меру различия, которая, в частности, может обеспечить точный показатель различия между лепестками диаграммы направленности. Монотонные функции, в частности, могут являться функцией абсолютного значения.
В некоторых вариантах осуществления процессор разности выполнен с возможностью определять меру различия как выборочную по частоте взвешенную сумму частотных мер различия.
Это может обеспечить особенно эффективную меру различия, которая, в частности, может обеспечить точный показатель различия между лепестками диаграммы направленности. В частности, это может обеспечить акцент на особенно значимых для восприятия частот, например, акцент на речевых частотах.
В некоторых вариантах осуществления первое множество фильтров диаграммы направленности и второе множество фильтров диаграммы направленности являются фильтрами с конечными импульсными характеристиками, имеющими множество коэффициентов.
Это может обеспечить эффективную функциональность и реализацию во многих вариантах осуществления.
В соответствии с опциональным признаком изобретения устройство содержит: формирователь диаграммы направленности фонового шума, выполненный с возможностью генерировать выходной аудиосигнал со сформированной диаграммой направленности и по меньшей мере один сигнал фонового шума, формирователь диаграммы направленности фонового шума является одним из первого формирователя диаграммы направленности и множества ограниченных формирователей диаграммы направленности; первый преобразователь для генерирования первого сигнала в частотной области на основе частотного преобразования выходного аудиосигнала со сформированной диаграммой направленности, причем первый сигнал в частотной области представлен значениями частотно-временных фрагментов; второй преобразователь для генерирования второго сигнала в частотной области на основе частотного преобразования по меньшей мере одного сигнала фонового шума, причем второй сигнал в частотной области представлен значениями частотно-временных фрагментов; процессор разности, выполненный с возможностью генерировать меры различия частотно-временного фрагмента, причем мера различия частотно-временного фрагмента для первой частоты указывает разность между первой монотонной функцией нормы значения частотно-временного фрагмента первого сигнала в частотной области для первой частоты и второй монотонной функцией нормы значения частотно-временного фрагмента второго сигнала в частотной области для первой частоты; блок оценки точечного источника звука для генерирования оценки точечного источника звука, указывающей, содержит ли выходной аудиосигнал со сформированной диаграммой направленности точечный источник звука, блок оценки точечного источника звука выполнен с возможностью генерировать оценку точечного источника звука в ответ на комбинированное значение разности для мер различия частотно-временного фрагмента для частот, находящихся выше порога частоты.
Во многих сценариях и приложениях подход может обеспечить улучшенную оценку/обнаружение точечного источника звука. В частности, улучшенная оценка может часто обеспечиваться в сценариях, в которых прямая волна от источников звука, к которым адаптируются формирователи диаграммы направленности, не является доминирующей. Могут часто достигаться улучшенные рабочие характеристики для сценариев, содержащих высокую степень рассеянного шума, реверберирующих сигналов и/или поздних отражений. Также часто может быть достигнуто улучшенное обнаружение для точечного источника звука на далеких расстояниях и, в частности, вне радиуса реверберации.
Формирователь диаграммы направленности может быть адаптивным формирователем диаграммы направленности, содержащим функциональность адаптации для адаптации адаптивных импульсных характеристик фильтров диаграммы направленности (и тем самым адаптации эффективной направленности массива микрофонов).
Первая и вторая монотонные функции обычно обе могут являться монотонно возрастающими функциями, но в некоторых вариантах осуществления обе могут являться монотонно убывающими функциями.
Нормы обычно могут представлять собой нормы L1 или L2, т.е., в частности, нормы могут соответствовать мере магнитуды или мощности для значений частотно-временных фрагментов.
Частотно-временной фрагмент, в частности, может соответствовать одному элементу дискретизации частотного преобразования в одном временном сегменте/кадре. В частности, первый и второй преобразователи могут использовать обработку блока, чтобы преобразовать последовательные сегменты первого и второго сигналов. Частотно-временной фрагмент может соответствовать набору элементов дискретизации преобразования (обычно одному) в одном сегменте/кадре.
По меньшей мере один формирователь диаграммы направленности может содержать два формирователя диаграммы направленности, причем один из них генерирует выходной аудиосигнал со сформированной диаграммой направленности, и другой генерирует сигнал фонового шума. Эти два формирователя диаграммы направленности могут быть присоединены к разным и потенциально отделенным наборам микрофонов из массива микрофонов. Действительно, в некоторых вариантах осуществления массив микрофонов может содержать два отдельных подмассива, присоединенных к разным формирователям диаграммы направленности. Подмассивы (и, возможно, формирователи диаграммы направленности) могут находиться в разных позициях, потенциально удаленных друг от друга. В частности, подмассивы (и, возможно, формирователи диаграммы направленности) могут находиться в разных устройствах.
В некоторых вариантах осуществления изобретения только подмножество множества микрофонов в массиве может быть присоединено к формирователю диаграммы направленности.
В некоторых вариантах осуществления блок оценки точечного источника звука выполнен с возможностью обнаруживать присутствие точечного источника звука в выходном аудиосигнале со сформированной диаграммой направленности в ответ на комбинированное значение разности, превышающее порог.
Подход может обычно обеспечивать улучшенное обнаружение точечного источника звука для формирователей диаграммы направленности, и особенно для обнаружения точечных источников звука вне радиуса реверберации, когда прямая волна не является доминирующей.
В некоторых вариантах осуществления порог частоты составляет не ниже 500 Гц.
Это может дополнительно улучшить рабочие характеристики и, например, во многих вариантах осуществления и сценариях может гарантировать, что между значениями выходного аудиосигнала со сформированной диаграммой направленности и значениями опорного сигнала фонового шума, используемыми при определении оценки точечного источника звука, достигнута достаточная или улучшенная декорреляция. В некоторых вариантах осуществления порог частоты преимущественно составляет не ниже 1 кГц, 1,5 кГц, 2 кГц, 3 кГц или даже 4 кГц.
В некоторых вариантах осуществления процессор разности выполнен с возможностью генерировать оценку когерентности шума, указывающую корреляцию между амплитудой выходного аудиосигнала со сформированной диаграммой направленности и амплитудой по меньшей мере одного сигнала фонового шума; и по меньшей мере одна из первой монотонной функции и второй монотонной функции зависит от оценки когерентности шума.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенные рабочие характеристики для массивов микрофонов с меньшими расстояниями между микрофонами.
Оценка когерентности шума, в частности, может представлять собой оценку корреляции между амплитудами выходного аудиосигнала со сформированной диаграммой направленности и амплитудами опорного сигнала фонового шума, когда нет активного точечного источника звука (например, в течение периодов времени без речи, т.е. когда источник речи не активен). Оценка когерентности шума в некоторых вариантах осуществления может быть определена на основе выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала фонового шума и/или первого и второго сигналов в частотной области. В некоторых вариантах осуществления оценка когерентности шума может быть сгенерирована на основе отдельного процесса калибровки или измерения.
В некоторых вариантах осуществления процессор разности выполнен с возможностью масштабировать норму значения частотно-временного фрагмента первого сигнала в частотной области для первой частоты относительно нормы значения частотно-временного фрагмента второго сигнала в частотной области для первой частоты в ответ на оценку когерентности шума.
Это может дополнительно улучшить рабочие характеристики и, в частности, во многих вариантах осуществления может обеспечить улучшенную точность оценки точечного источника звука. Это может дополнительно позволить реализацию с низкой сложностью.
В некоторых вариантах осуществления процессор разности выполнен с возможностью генерировать меру различия частотно-временного фрагмента для времени в течение времени tk на частоте ωl в значительной степени как:
где - значение частотно-временного фрагмента для выходного аудиосигнала со сформированной диаграммой направленности во время tk на частоте ωl; - значением частотно-временного фрагмента для по меньшей мере одного сигнала фонового шума во время tk на частоте ωl ; - оценка когерентности шума во время tk на частоте ωl; и - конструктивный параметр.
Это может обеспечить эффективную оценку точечного источника звука во многих сценариях и вариантах осуществления.
В некоторых вариантах осуществления процессор разности выполнен с возможностью фильтровать по меньшей мере одно из значений частотно-временных фрагментов выходного аудиосигнала со сформированной диаграммой направленности и значений частотно-временных фрагментов по меньшей мере одного сигнала фонового шума.
Это может обеспечить улучшенную оценку точечного источника звука. Фильтрация может представлять собой низкочастотную фильтрацию, такую как, например, усреднение.
В некоторых вариантах осуществления фильтрация выполняется и в направлении частоты, и в направлении времени.
Это может обеспечить улучшенную оценку точечного источника звука. Процессор разности может быть выполнен с возможностью фильтровать значения частотно-временных фрагментов по множеству частотно-временных фрагментов, фильтрация включает в себя частотно-временные фрагменты, отличающиеся и по времени, и по частоте.
В соответствии с аспектом изобретения обеспечен способ захвата аудиоинформации; способ содержит этапы, на которых: первый формирователь диаграммы направленности, присоединенный к массиву микрофонов, генерирует первый выходной аудиосигнал со сформированной диаграммой направленности; множество ограниченных формирователей диаграммы направленности, присоединенных к массиву микрофонов, генерируют выходной аудиосигнал со сформированной ограниченной диаграммой направленности; адаптируют параметры диаграммы направленности первого формирователя диаграммы направленности; адаптируют параметры ограниченной диаграммы направленности для множества ограниченных формирователей диаграммы направленности; определяют меру различия для по меньшей мере одного из множества ограниченных формирователей диаграммы направленности, причем мера различия указывает различие между лепестками диаграммы направленности, сформированными первым формирователем диаграммы направленности и упомянутым по меньшей мере одним из множества ограниченных формирователей диаграммы направленности;
причем адаптация параметров ограниченной диаграммы направленности содержит адаптацию параметров ограниченной диаграммы направленности с тем ограничением, что параметры ограниченной диаграммы направленности адаптируются только для тех ограниченных формирователей диаграммы направленности из множества ограниченных формирователей (309, 311) диаграммы направленности, для которых была определена мера различия, которая соответствует критерию сходства.
Эти и другие аспекты, признаки и преимущества изобретения будут очевидны и разъяснены со ссылкой на описанный далее вариант (варианты) осуществления.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Варианты осуществления изобретения будут описаны только в качестве примера со ссылкой на чертежи.
Фиг. 1 иллюстрирует пример элементов системы захвата аудиоинформации с формированием диаграммы направленности;
Фиг. 2 иллюстрирует пример множества лепестков диаграммы направленности, сгенерированных системой захвата аудиоинформации;
Фиг. 3 иллюстрирует пример элементов устройства захвата аудиоинформации в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 4 иллюстрирует пример элементов устройства захвата аудиоинформации в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 5 иллюстрирует пример элементов устройства захвата аудиоинформации в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 6 иллюстрирует пример блок-схемы последовательности этапов для подхода адаптации ограниченных формирователей диаграммы направленности устройства захвата аудиоинформации в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 7 иллюстрирует пример элементов устройства захвата аудиоинформации в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 8 иллюстрирует пример элементов формирователя диаграммы направленности с фильтрацией и суммированием;
Фиг. 9 иллюстрирует пример элементов устройства захвата аудиоинформации в соответствии с некоторыми вариантами осуществления изобретения;
Фиг. 10 иллюстрирует пример преобразователя частотной области; и
Фиг. 11 иллюстрирует пример элементов процессора разности для устройства захвата аудиоинформации в соответствии с некоторыми вариантами осуществления изобретения;
ПОДРОБНОЕ ОПИСАНИЕ НЕКОТОРЫХ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Следующее описание сосредоточено на вариантах осуществления изобретения, применимого к аудиосистеме для захвата речи на основе формирования диаграммы направленности, но очевидно, что подход применим ко многим другим системам и сценариям для захвата аудиоинформации.
Фиг. 3 иллюстрирует пример элементов устройства захвата аудиоинформации в соответствии с некоторыми вариантами осуществления изобретения.
Устройство захвата аудиоинформации содержит массив 301 микрофонов, который содержит множество микрофонов, размещенных для захвата аудиоинформации в окружающей среде. В примере массив 301 микрофонов присоединен к опциональному эхо-компенсатору 303, который может компенсировать эхо, происходящее из акустических источников (для которых доступен опорный сигнал), которые линейно соотносятся с эхом в сигнале (сигналах) микрофона. Этим источником, например, может являться громкоговоритель. Может быть применен адаптивный фильтр с опорным сигналом в качестве входной информации и с выходом, вычитаемым из сигнала микрофона, чтобы создать сигнал с эхо-компенсацией. Это может быть повторено для каждого отдельного микрофона.
Очевидно, что эхо-компенсатор 303 является опциональным и просто может быть опущен во многих вариантах осуществления.
Массив 301 микрофонов присоединен к первому формирователю 305 диаграммы направленности, обычно либо непосредственно, либо через эхо-компенсатор 303 (а также, возможно, через усилители, цифро-аналоговые преобразователи и т.д., как будет известно специалисту в области техники).
Первый формирователь 305 диаграммы направленности выполнен с возможностью комбинировать сигналы от массива 301 микрофонов, в результате чего генерируется эффективная направленная аудиочувствительность массива 301 микрофонов. Первый формирователь 305 диаграммы направленности, таким образом, генерирует выходной сигнал, называемый первым выходным аудиосигналом со сформированной диаграммой направленности, который соответствует выборочному захвату аудиоинформации в окружающей среде. Первый формирователь 305 диаграммы направленности является адаптивным формирователем диаграммы направленности, и направленностью можно управлять, устанавливая параметры операции настройки диаграммы направленности, называемые первыми параметрами диаграммы направленности, первого формирователя 305 диаграммы направленности.
Первый формирователь 305 диаграммы направленности присоединен к первому адаптеру 307, который выполнен с возможностью адаптировать первые параметры диаграммы направленности. Таким образом, первый адаптер 307 выполнен с возможностью адаптировать параметры первого формирователя 305 диаграммы направленности? в результате чего можно управлять лепестком диаграммы направленности.
Кроме того, устройство захвата аудиоинформации содержит множество ограниченных формирователей 309, 311 диаграммы направленности, каждый из которых выполнен с возможностью комбинировать сигналы от массива 301 микрофонов, в результате чего генерируется эффективная направленная аудиочувствительность массива 301 микрофонов. Каждый из ограниченных формирователей 309, 311 диаграммы направленности, таким образом, выполнен с возможностью генерировать выходной аудиосигнал, называемый выходным аудиосигналом со сформированной ограниченной диаграммой направленности, который соответствует выборочному захвату аудиоинформации в окружающей среде. Аналогично первому формирователю 305 диаграммы направленности ограниченные формирователи 309, 311 диаграммы направленности являются адаптивными формирователями диаграммы направленности, причем направленностью каждого ограниченного формирователя 309, 311 диаграммы направленности можно управлять, устанавливая параметры, называемые параметрами ограниченной диаграммы направленности, ограниченных формирователей 309, 311 диаграммы направленности.
Устройство захвата аудиоинформации соответственно содержит второй адаптер 313, который выполнен с возможностью адаптировать параметры ограниченной диаграммы направленности множества ограниченных формирователей диаграммы направленности, тем самым выполняя адаптацию лепестков диаграмм направленности, сформированных ими.
И первый формирователь 305 диаграммы направленности, и ограниченные формирователи 309, 311 диаграммы направленности соответственно являются адаптивными формирователями диаграммы направленности, для которых фактический сформированный лепесток диаграммы направленности может быть динамически адаптирован. В частности, формирователи 305, 309, 311 диаграммы направленности представляют собой формирователи диаграммы направленности с фильтрацией и комбинацией (или, в частности, в большинстве вариантов осуществления, с фильтрацией и суммированием). Фильтр диаграммы направленности может быть применен к каждому из сигналов микрофонов, и фильтрованные выходы могут быть объединены, как правило, посредством простого сложения вместе.
В большинстве вариантов осуществления каждый из фильтров диаграммы направленности имеет импульсную характеристику во временной области, которая не является простым импульсом Дирака (соответствующим простой задержке и, таким образом, усилению и смещению фазы в частотной области), а имеет импульсную характеристику, которая обычно простирается по временному интервалу не менее чем на 2, 5, 10 или даже 30 мс.
Импульсная характеристика часто может быть реализована фильтрами диаграммы направленности, представляющими собой КИХ-фильтры (FIR; фильтры с конечной импульсной характеристикой) с множеством коэффициентов. Первый и второй адаптеры 307, 313 в таких вариантах осуществления могут адаптировать формирование диаграммы направленности посредством адаптации коэффициентов фильтра. Во многих вариантах осуществления КИХ-фильтры могут иметь коэффициенты, соответствующие фиксированным временным смещениям (обычно временным смещениям отсчетов), и адаптеры 307, 313 выполнены с возможностью адаптировать значения коэффициентов. В других вариантах осуществления фильтры диаграммы направленности, как правило, могут иметь в значительной степени меньше коэффициентов (например, только два или три), но синхронизация которых (также) является адаптируемой.
Особое преимущество фильтров диаграммы направленности, имеющих расширенные импульсные характеристики, в отличие от простой переменной задержки (или простой регулировки усиления/фазы в частотной области), состоит в том, что они позволяют адаптировать формирователи 305, 309, 311 диаграммы направленности не только к наиболее сильной составляющей сигнала, обычно относящейся к прямой волне. Они также позволяют адаптировать формирователи 305, 309, 311 диаграммы направленности к включению дополнительных путей прохождения сигнала, обычно соответствующих отражениям. В соответствии с этим подход допускает улучшение рабочих характеристик в большинстве реальных окружающих сред и, в частности, допускает улучшение рабочих характеристик в отражающих и/или реверберирующих окружающих средах и/или для источников звука, находящихся дальше от массива 301 микрофонов.
Очевидно, что в разных вариантах осуществления могут использоваться разные алгоритмы адаптации, и что специалисту будут известны разные параметры оптимизации. Например, адаптеры 307, 313 могут адаптировать параметры диаграммы направленности, чтобы максимизировать значение выходного сигнала формирователя диаграммы направленности. В качестве конкретного примера рассмотрим формирователь диаграммы направленности, в котором принятые сигналы микрофона фильтруются с помощью прямых согласующих фильтров, и в котором отфильтрованные выходы складываются. Выходной сигнал фильтруется обратными адаптивными фильтрами, имеющими характеристики фильтра, сопряженные с прямыми фильтрами (в частотной области соответствующие инвертированным по времени импульсным характеристикам во временной области). Сигналы ошибок генерируются как разность между входными сигналами и выходами обратных адаптивных фильтров, и коэффициенты фильтров адаптируются для минимизации сигналов ошибок, тем самым давая в результате максимальную выходную мощность. Более подробная информация о таком подходе может быть найдена в документах US 7 146 012 and US7602926.
Следует отметить, что такие подходы, как подходы в документах US 7 146 012 and US7602926, основаны на адаптации, базирующейся и на сигнале звукового источника z(n), и на сигнале (сигналах) фонового шума x(n) от формирователей диаграммы направленности, и очевидно, такой же подход может использоваться для системы на фиг. 3.
Первый формирователь 305 диаграммы направленности и ограниченные формирователи 309, 311 диаграммы направленности, в частности, могут представлять собой формирователи диаграммы направленности, соответствующие проиллюстрированному на фиг. 1 и раскрытому в документах US 7 146 012 and US7602926.
Во многих вариантах осуществления структура и реализации первого формирователя 305 диаграммы направленности и ограниченных формирователей 309, 311 диаграммы направленности могут быть одинаковыми, например, фильтры диаграммы направленности могут иметь идентичные структуры КИХ-фильтра с одинаковым количеством коэффициентов и т.д.
Однако функциональность и параметры первого формирователя 305 диаграммы направленности и ограниченных формирователей 309, 311 диаграммы направленности будут отличаться, и, в частности, ограниченные формирователи 309, 311 диаграммы направленности некоторым образом ограничены, а первый формирователь 305 диаграммы направленности не ограничен. В частности, адаптация ограниченных формирователей 309, 311 диаграммы направленности будет отличаться от адаптации первого формирователя 305 диаграммы направленности и, в частности, подвергнется некоторым ограничениям.
В частности, ограниченные формирователи 309, 311 диаграммы направленности подвергаются ограничению в том, что адаптация (обновление параметров фильтра диаграммы направленности) ограничена ситуациями с соответствием критерию, тогда как первому формирователю 305 диаграммы направленности будет разрешено адаптироваться, даже когда нет соответствия такому критерию. Действительно, во многих вариантах осуществления первому адаптеру 307 может быть всегда разрешено адаптировать фильтр диаграммы направленности без ограничения какими-либо свойствами аудиоинформации, захваченной первым формирователем 305 диаграммы направленности (или любым из ограниченных формирователей 309, 311 диаграммы направленности).
Критерий адаптации ограниченных формирователей 309, 311 диаграммы направленности будет описан более подробно позже.
Во многих вариантах осуществления скорость адаптации для первого формирователя 305 диаграммы направленности выше, чем для ограниченных формирователей 309, 311 диаграммы направленности. Таким образом, во многих вариантах осуществления первый адаптер 307 может быть выполнен с возможностью выполнять адаптацию к изменениям быстрее, чем второй адаптер 313, и, таким образом, первый формирователь 305 диаграммы направленности может быть обновлен быстрее, чем ограниченные формирователи 309, 311 диаграммы направленности. Например, это может быть достигнуто посредством низкочастотной фильтрации с максимизированным или минимизированным значением (например, уровня сигнала выходного сигнала или магнитуды сигнала ошибки) с более высокой частотой среза для первого формирователя 305 диаграммы направленности, чем для ограниченных формирователей 309, 311 диаграммы направленности. В качестве другого примера максимальное изменение для обновления параметров диаграммы направленности (в частности, коэффициентов фильтра диаграммы направленности) может быть выше для первого формирователя 305 диаграммы направленности, чем для ограниченных формирователей 309, 311 диаграммы направленности.
В соответствии с этим в системе множество сфокусированных (с ограниченной адаптацией) формирователей диаграммы направленности, которые адаптируются медленно, и только когда имеется соответствие заданному критерию, дополнено автономным быстрее адаптирующимся формирователем диаграммы направленности, который не подвергается этому ограничению. Более медленные и сфокусированные формирователи диаграммы направленности обычно будут обеспечивать более медленную, но более точную и надежную адаптацию к заданной аудиосреде, чем автономный формирователь диаграммы направленности, который, однако, обычно будет способен быстро адаптироваться по большему интервалу параметров.
В системе на фиг. 3 эти формирователи диаграммы направленности используются совместно с синергетическим эффектом, чтобы обеспечить улучшенные рабочие характеристики, как будет описано более подробно позже.
Первый формирователь 305 диаграммы направленности и ограниченные формирователи 309, 311 диаграммы направленности присоединены к выходному процессору 315, который принимает выходные аудиосигналы со сформированной диаграммой направленности от формирователей 305, 309, 311 диаграммы направленности. Конкретная выходная информация, сгенерированная устройством захвата аудиоинформации, будет зависеть от конкретных предпочтений и требований индивидуального варианта осуществления. Действительно, в некоторых вариантах осуществления выходная информация устройства захвата аудиоинформации может просто состоять из выходных аудиосигналов из формирователей 305, 309, 311 диаграммы направленности.
Во многих вариантах осуществления выходной сигнал выходного процессора 315 генерируется как комбинация выходных аудиосигналов от формирователей 305, 309, 311 диаграммы направленности. Действительно, в некоторых вариантах осуществления может быть выполнена простая выборочная комбинация, например, выбор выходных аудиосигналов, для которых отношение сигнал-шум или просто уровень сигнала являются наиболее высокими.
Таким образом, выбор выходной информации и пост-обработка выходного процессора 315 могут быть специализированными и/или разными в разных реализациях/вариантах осуществления. Например, может быть обеспечена выходная информация всех возможных сфокусированных лепестков диаграммы направленности, выбор может быть сделан на основе критерия, определенного пользователем (например, выбирается наиболее громкий говорящий) и т.д.
Для приложения голосового управления, например, все выходы могут быть переадресованы устройству распознавания голосового инициирования, которое выполнено с возможностью обнаруживать конкретное слово или фразу, чтобы инициализировать голосовое управление. В таком примере выходной аудиосигнал, в котором обнаружены инициирующее слово или фраза, может быть использован вслед за инициирующей фразой устройством голосового распознавания, чтобы обнаружить конкретные команды.
Для приложений связи, например, может быть выгодно выбирать выходной аудиосигнал, который является наиболее сильным, и, например, для которого было обнаружено присутствие конкретного точечного источника звука.
В некоторых вариантах осуществления поcтобработка, такая как шумоподавление на фиг. 1, может быть применена выходным процессором 315 к выходу устройства захвата аудиоинформации. Это может улучшить рабочие характеристики, например, для голосовой связи. В такую пост-обработку могут быть включены нелинейные операции, хотя, например, для некоторых устройств распознавания речи может быть более полезно ограничить обработку включением только линейной обработки.
В системе на фиг. 3 использован эффективный подход для захвата аудиоинформации на основе синергетического взаимодействия и взаимосвязи между первым формирователем 305 диаграммы направленности и ограниченными формирователями 309, 311 диаграммы направленности.
С этой целью устройство захвата аудиоинформации содержит процессор 317 разности, который выполнен с возможностью определять меру различия между одним или более ограниченными формирователями 309, 311 диаграммы направленности и первым формирователем 305 диаграммы направленности. Мера различия указывает различие между лепестками диаграмм направленности, сформированными соответственно первым формирователем 305 диаграммы направленности и ограниченным формирователем 309, 311 диаграммы направленности. Таким образом, мера различия для первого ограниченного формирователя 309 диаграммы направленности может указывать различие между лепестками диаграммы направленности, которые сформированы первым формирователем 305 диаграммы направленности и первым ограниченным формирователем 309 диаграммы направленности. Таким образом, мера различия может указывать, насколько близко эти два формирователя 305, 309 диаграммы направленности адаптированы к одному и тому же источнику звука.
В разных вариантах осуществления и приложениях могут использоваться разные меры различия.
В некоторых вариантах осуществления мера различия может быть определена на основе сгенерированного выходного аудиосигнала со сформированной диаграммой направленности от разных формирователей 305, 309, 311 диаграммы направленности. В качестве примера простая мера различия может быть сгенерирована просто посредством измерения уровней сигнала выхода первого формирователя 305 диаграммы направленности и первого ограниченного формирователя 309 диаграммы направленности и сравнения их друг с другом. Чем ближе уровни сигналов друг к другу, тем ниже мера различия (обычно, мера различия также увеличивается как функция фактического уровня сигнала, например, первого формирователя 305 диаграммы направленности).
Более подходящая мера различия во многих вариантах осуществления может быть сгенерирована посредством определения корреляции между выходным аудиосигналом со сформированной диаграммой направленности от первого формирователя 305 диаграммы направленности и первого ограниченного формирователя 309 диаграммы направленности. Чем выше значение корреляции, тем ниже мера различия.
В качестве альтернативы или дополнительно мера различия может быть определена на основе сравнения параметров диаграммы направленности первого формирователя 305 диаграммы направленности и первого ограниченного формирователя 309 диаграммы направленности. Например, коэффициенты фильтра диаграммы направленности первого формирователя 305 диаграммы направленности и фильтра диаграммы направленности первого ограниченного формирователя 309 диаграммы направленности для заданного микрофона могут быть представлены двумя векторами. Затем может быть вычислена магнитуда вектора разности этих двух векторов. Процесс может быть повторен для всех микрофонов, и комбинированная или средняя магнитуда может быть определена и использоваться в качестве меры расстояния. Таким образом, сгенерированная мера различия отражает, насколько отличаются коэффициенты фильтров диаграммы направленности для первого формирователя 305 диаграммы направленности и первого ограниченного формирователя 309 диаграммы направленности, и это используется в качестве меры различия для лепестков диаграмм направленности.
Таким образом, в системе на фиг. 3 генерируется мера различия, отражающая различие между параметрами диаграммы направленности первого формирователя 305 диаграммы направленности и первого ограниченного формирователя 309 диаграммы направленности и/или различия между их выходными аудиосигналами со сформированной диаграммой направленности.
Очевидно, что генерирование, определение и/или использование меры различия непосредственно эквивалентно генерированию, определению и/или использованию меры сходства. Действительно, одна мера обычно может считаться монотонно убывающей функцией другой, и, таким образом, мера различия является также мерой сходства (и наоборот), и обычно одна мера просто указывает увеличение различий посредством увеличения значений, и другая делает это посредством уменьшения значений.
Процессор 317 разности присоединен ко второму адаптеру 313 и обеспечивает ему меру различия. Второй адаптер 313 выполнен с возможностью адаптировать ограниченные формирователи 309, 311 диаграммы направленности в ответ на меру различия. В частности, второй адаптер 313 выполнен с возможностью адаптировать параметры ограниченной диаграммы направленности только для ограниченных формирователей диаграммы направленности, для которых было определено, что мера различия соответствует критерию сходства. Таким образом, если мера различия не была определена для заданных ограниченных формирователей 309, 311 диаграммы направленности, или если определенная мера различия для заданного ограниченного формирователя 309, 311 диаграммы направленности указывает, что лепестки диаграммы направленности первого формирователя 305 диаграммы направленности и заданного ограниченного формирователя 309, 311 диаграммы направленности не являются достаточно сходными, тогда адаптация не выполняется.
Таким образом, в устройстве захвата аудиоинформации на фиг. 3 ограниченные формирователи 309, 311 диаграммы направленности ограничены при адаптации лепестков диаграммы направленности. В частности, они ограничены выполнением адаптации, только если текущий лепесток диаграммы направленности, сформированный ограниченным формирователем 309, 311 диаграммы направленности, является близким к лепестку диаграммы направленности, который формирует автономный первый формирователь 305 диаграммы направленности, т.е., индивидуальный ограниченный формирователь 309, 311 диаграммы направленности адаптируется, только если первый формирователь 305 диаграммы направленности в настоящее время адаптируется достаточно близко к индивидуальному ограниченному формирователю 309, 311 диаграммы направленности.
В результате этого адаптацией ограниченных формирователей 309, 311 диаграммы направленности управляет функциональность первого формирователя 305 диаграммы направленности, и фактически лепесток диаграммы направленности, сформированный первым формирователем 305 диаграммы направленности, управляет тем, какой из ограниченных формирователей 309, 311 диаграммы направленности оптимизируется/адаптируется. Этот подход, в частности, может привести к тому, что ограниченные формирователи 309, 311 диаграммы направленности, как правило, адаптируются только тогда, когда желаемый источник звука близок к текущей адаптации ограниченного формирователя 309, 311 диаграммы направленности.
Было обнаружено, что подход требования сходства между лепестками диаграммы направленности, чтобы разрешить адаптацию, на практике приводит к значительному улучшению рабочих характеристик, когда желаемый источник звука, в данном случае желаемый говорящий, находится вне радиуса реверберации. Действительно, было обнаружено, что это обеспечивает очень желательные рабочие характеристики, в частности, для слабых источников звука в реверберирующих окружающих средах с не доминирующей составляющей аудиоинформации прямой волны.
Во многих вариантах осуществления ограничение адаптации может подвергнуться дополнительным требованиям.
Например, во многих вариантах осуществления адаптация может требовать, чтобы отношение сигнал-шум для выходного аудиосигнала со сформированной диаграммой направленности превышало порог. Таким образом, адаптация для индивидуального ограниченного формирователя 309, 311 диаграммы направленности может быть ограничена сценариями, в которых они достаточным образом адаптированы, и сигнал, на котором основана адаптация, отражает желаемый аудиосигнал.
Очевидно, что в различных вариантах осуществления могут использоваться разные подходы для определения отношения сигнал-шум. Например, минимальный уровень шумов сигналов микрофонов может быть определен посредством отслеживания минимума сглаженной оценки мощности, и для каждого кадра или временного интервала мгновенная мощность сравнивается с этим минимумом. В качестве другого примера минимальный уровень шумов выхода формирователя диаграммы направленности может быть определен и сравнен с мгновенной выходной мощностью выхода со сформированной диаграммой направленности.
В некоторых вариантах осуществления адаптация ограниченного формирователя 309, 311 диаграммы направленности ограничена тем, когда речевая составляющая была обнаружена на выходе ограниченного формирователя 309, 311 диаграммы направленности. Это обеспечит улучшенные рабочие характеристики для приложений захвата речи. Очевидно, что может использоваться любой подходящий алгоритм или подход для обнаружения речи в аудиосигнале. В частности, может быть применен описанный ранее подход детектора 307.
Очевидно, что системы на фиг. 3-5 обычно функционируют с использованием обработки кадров или блоков. Таким образом, определены последовательные временные интервалы или кадры, и описанная обработка может быть выполнена в каждом временном интервале. Например, сигналы микрофона могут быть разделены на интервалы времени обработки, и для каждого интервала времени обработки формирователи 305, 309, 311 диаграммы направленности могут генерировать выходной аудиосигнал со сформированной диаграммой направленности для временного интервала, определять меру различия, выбирать ограниченные формирователи 309, 311 диаграммы направленности и обновлять/адаптировать этот ограниченный формирователь 309, 311 диаграммы направленности и т.д. Интервалы времени обработки во многих вариантах осуществления преимущественно имеют продолжительность между 5 мс и 50 мс.
Очевидно, что в некоторых вариантах осуществления разные интервалы времени обработки могут использоваться для разных аспектов и функций устройства захвата аудиоинформации. Например, мера различия и выбор ограниченного формирователя 309, 311 диаграммы направленности для адаптации могут выполняться на более низкой частоте, чем, например, интервал времени обработки для формирования диаграммы направленности.
Во многих вариантах осуществления адаптация может находиться в зависимости от обнаружения точечных источников звука в выходных аудиосигналах со сформированной диаграммой направленности. В соответствии с этим во многих вариантах осуществления устройство захвата аудиоинформации может дополнительно содержать детектор 401 источника звука, как проиллюстрировано на фиг. 4.
Детектор 401 источника звука, в частности, во многих вариантах осуществления может быть выполнен с возможностью обнаруживать точечные источники звука во вторых выходных аудиосигналах со сформированной диаграммой направленности, и, соответственно, детектор 401 источника звука присоединен к ограниченным формирователям 309, 311 диаграммы направленности и принимает от них выходные аудиосигналы со сформированной диаграммой направленности.
Точечный источник звука в акустике представляет собой звук, который происходит из точки в пространстве. Очевидно, что детектор 401 источника звука может использовать разные алгоритмы или критерии оценки (обнаружения), присутствует ли точечный источник звука в выходном аудиосигнале со сформированной диаграммой направленности от заданного ограниченного формирователя 309, 311 диаграммы направленности, и что специалист в области техники знаком с такими различными подходами.
В частности, подход может быть основан на идентифицирующих характеристиках единственного или доминирующего точечного источника, захваченного микрофонами массива 301 микрофонов. Единственный или доминирующий точечный источник, например, может быть обнаружен посредством просмотра корреляции между сигналами на микрофонах. Если имеется высокая корреляция, тогда доминирующий точечный источник считается присутствующим. Если корреляция низкая, тогда считается, что доминирующего точечного источника нет, а захваченные сигналы происходят из многих не коррелированных источников. Таким образом, во многих вариантах осуществления точечный источник звука может считаться пространственно коррелированным источником звука, причем пространственная корреляция отражается посредством корреляции сигналов микрофонов.
В данном случае корреляция определяется после фильтрации посредством фильтров диаграммы направленности. В частности, может быть определена корреляция выходной информации фильтров диаграммы направленности ограниченных формирователей 309, 311 диаграммы направленности, и если она превышает заданный порог, считается, что точечный источник звука был обнаружен.
В других вариантах осуществления точечный источник может быть обнаружен посредством оценки содержания выходных аудиосигналов со сформированной диаграммой направленности. Например, детектор 401 источника звука может проанализировать выходные аудиосигналы со сформированной диаграммой направленности, и если в выходном аудиосигнале со сформированной диаграммой направленности обнаружена речевая составляющая достаточной силы, это может считаться соответствующим точечному источнику звука, и, таким образом, обнаружение сильной речевой составляющей может считаться обнаружением точечного источника звука.
Результат обнаружения передается от детектора 401 источника звука второму адаптеру 313, который выполнен с возможностью в ответ на это выполнять адаптацию. В частности, второй адаптер 313 может быть выполнен с возможностью адаптировать только те ограниченные формирователи 309, 311 диаграммы направленности, для которых детектор 401 источника звука указывает, что был обнаружен точечный источник звука.
Таким образом устройство захвата аудиоинформации выполнено с возможностью ограничивать адаптацию ограниченных формирователей 309, 311 диаграммы направленности таким образом, что адаптируются только те ограниченные формирователи 309, 311 диаграммы направленности, в которых в сформированном лепестке диаграммы направленности присутствует точечный источник звука, и сформированный лепесток диаграммы направленности находится близко к лепестку, сформированному первым формирователем 305 диаграммы направленности. Таким образом, адаптация обычно ограничивается теми ограниченными формирователями 309, 311 диаграммы направленности, которые уже находятся близко к (желаемому) точечному источнику звука. Подход допускает очень надежное и точное формирование диаграммы направленности, которое выполняется чрезвычайно хорошо в окружающих средах, в которых желаемый источник звука может находиться вне радиуса реверберации. Кроме того, посредством функционирования и выборочного обновления множества ограниченных формирователей 309, 311 диаграммы направленности эта надежность и точность могут быть дополнены относительно быстрым временем реакции, позволяющим быструю адаптацию системы в целом к быстро перемещающимся или недавно появившимся источникам звука.
Во многих вариантах осуществления устройство захвата аудиоинформации может быть выполнено с возможностью адаптировать только один ограниченный формирователь 309, 311 диаграммы направленности за один раз. Таким образом, второй адаптер 313 в каждом временном интервале адаптации может выбирать один из ограниченных формирователей 309, 311 диаграммы направленности и адаптировать только его, обновляя параметры диаграммы направленности.
Выбор отдельного ограниченного формирователя 309, 311 диаграммы направленности будет обычно наступать автоматически при выборе ограниченного формирователя 309, 311 диаграммы направленности для адаптации, только если текущий сформированный лепесток диаграммы направленности находится близко к сформированному первым формирователем 305 диаграммы направленности, и если в лепестке диаграммы направленности обнаружен точечный источник звука.
Однако в некоторых вариантах осуществления для множества ограниченных формирователей 309, 311 диаграммы направленности может быть возможно одновременное соответствие критериям. Например, если точечный источник звука помещен близко к областям, покрытым двумя разными ограниченными формирователями 309, 311 диаграммы направленности (или, например, он находится в зоне наложения областей), точечный источник звука может быть обнаружен в обоих лепестках диаграммы направленности, и они оба могут быть адаптированы, чтобы находиться близко друг к другу, посредством их адаптации к точечному источнику звука.
Таким образом, в таких вариантах осуществления второй адаптер 313 может выбрать один из ограниченных формирователей 309, 311 диаграммы направленности, соответствующих этим двум критериям, и адаптировать только его. Это снизит риск, что два лепестка диаграммы направленности адаптируются к одному и тому же точечному источнику звука, и тем самым снизит риск вмешательства их работы друг в друга.
Действительно, адаптация ограниченных формирователей 309, 311 диаграммы направленности при ограничении, что соответствующая мера различия должна быть достаточным образом низкой, и выбор только одного ограниченного формирователя 309, 311 диаграммы направленности для адаптации (например, в каждом интервале времени обработки/кадре) приведет к адаптации, которая дифференцирована между разными ограниченными формирователями 309, 311 диаграммы направленности. Это будет, как правило, приводить к адаптации ограниченных формирователей 309, 311 диаграммы направленности для покрытия разных областей наиболее близкими ограниченными формирователями 309, 311 диаграммы направленности, которые автоматически выбираются для адаптации/следования за источником звука, обнаруженным первым формирователем 305 диаграммы направленности. Однако в отличие, например, от подхода на фиг. 2 области не являются фиксированными и предопределенными, а генерируются динамически и автоматически.
Также следует отметить, что области могут зависеть от формирования диаграммы направленности для множества путей и обычно не ограничиваются угловым направлением областей прибытия. Например, области могут быть дифференцированы на основе расстояния до массива микрофонов. Таким образом, термин "область" может относиться к позициям в пространстве, в котором источник звука приведет к адаптации, отвечающей требованию сходства для меры различия. Таким образом, это включает в себя рассмотрение не только прямой волны, но также и, например, отражений, если они рассматриваются в параметрах диаграммы направленности и, в частности, определяются и на основе пространственного, и на основе временного аспекта (и, в частности, зависят от полных импульсных характеристик фильтров диаграммы направленности).
Выбор единственного ограниченного формирователя 309, 311 диаграммы направленности, в частности, может быть выполнен в ответ на уровень захваченного звука. Например, детектор 401 источника звука может определить уровень звука каждого из выходных аудиосигналов со сформированной диаграммой направленности от ограниченных формирователей 309, 311 диаграммы направленности, которые соответствуют критериям, и он может выбрать ограниченный формирователь 309, 311 диаграммы направленности, дающий в результате наиболее высокий уровень. В некоторых вариантах осуществления детектор 401 источника звука может выбрать ограниченный формирователь 309, 311 диаграммы направленности, для которого точечный источник звука, обнаруженный в выходном аудиосигнале со сформированной диаграммой направленности, имеет наиболее высокое значение. Например, детектор 401 источника звука может обнаружить речевую составляющую в выходных аудиосигналах со сформированной диаграммой направленности от двух ограниченных формирователей 309, 311 диаграммы направленности и перейти к выбору того, который имеет наиболее высокий уровень речевой составляющей.
В подходе, таким образом, выполняется очень выборочная адаптация ограниченных формирователей 309, 311 диаграммы направленности, приводящая к тому, что они адаптируются при заданных обстоятельствах. Это обеспечивает очень надежное формирование диаграммы направленности ограниченными формирователями 309, 311 диаграммы направленности, что дает в результате улучшенный захват желаемого источника звука. Однако во многих сценариях ограничения при формировании диаграммы направленности также могут привести к более медленной адаптируемости и, действительно, многих ситуациях привести к тому, что новые источники звука (например, новые говорящие) не обнаруживаются, или адаптация к ним происходит очень медленно.
Фиг. 5 иллюстрирует устройство захвата аудиоинформации, показанное на фиг. 4, но с добавлением контроллера 501 формирователя диаграммы направленности, который присоединен ко второму адаптеру 313 и детектору 401 источника звука. Контроллер 501 формирователя диаграммы направленности выполнен с возможностью инициализировать ограниченный формирователь 309, 311 диаграммы направленности в определенных ситуациях. В частности, контроллер 501 формирователя диаграммы направленности может инициализировать ограниченный формирователь 309, 311 диаграммы направленности в ответ на первый формирователь 305 диаграммы направленности и, в частности, может инициализировать один из ограниченных формирователей 309, 311 диаграммы направленности для формирования лепестка диаграммы направленности, соответствующего лепестку первого формирователя 305 диаграммы направленности.
Контроллер 501 формирователя диаграммы направленности специальным образом устанавливает параметры диаграммы направленности одного из ограниченных формирователей 309, 311 диаграммы направленности в ответ на параметры диаграммы направленности первого формирователя 305 диаграммы направленности, далее называемые первыми параметрами диаграммы направленности. В некоторых вариантах осуществления фильтры ограниченных формирователей 309, 311 диаграммы направленности и первого формирователя 305 диаграммы направленности могут быть идентичными, например, они могут иметь одинаковую архитектуру. В качестве конкретного примера, фильтры и ограниченных формирователей 309, 311 диаграммы направленности, и первого формирователь 305 диаграммы направленности могут являться КИХ-фильтрами с одинаковой длиной (т.е., с заданным количеством коэффициентов), и текущие адаптированные значения коэффициентов из фильтров первого формирователя 305 диаграммы направленности могут быть просто скопированы в ограниченный формирователь 309, 311 диаграммы направленности, т.е., коэффициенты ограниченного формирователя 309, 311 диаграммы направленности могут быть установлены равными значениям первого формирователя 305 диаграммы направленности. Таким образом, ограниченный формирователь 309, 311 диаграммы направленности будет инициализирован с такими же свойствами лепестка диаграммы направленности, к которым в настоящее время адаптирован первый формирователь 305 диаграммы направленности.
В некоторых вариантах осуществления настройка фильтров ограниченного формирователя 309, 311 диаграммы направленности может быть определена на основе параметров фильтра первого формирователя 305 диаграммы направленности, но вместо их непосредственного использования они могут быть адаптированы до их применения. Например, в некоторых вариантах осуществления, коэффициенты КИХ-фильтров могут быть модифицированы для инициализации лепестка диаграммы направленности ограниченного формирователя 309, 311 диаграммы направленности, чтобы он был более широкими, чем лепесток диаграммы направленности первого формирователя 305 диаграммы направленности (но, например, был бы сформирован в том же самом направлении).
Контроллер 501 формирователя диаграммы направленности во многих вариантах осуществления, соответственно, при некоторых обстоятельствах может инициализировать один из ограниченных формирователей 309, 311 диаграммы направленности с начальным лепестком диаграммы направленности, соответствующим лепестку первого формирователя 305 диаграммы направленности. Затем система может перейти к обработке ограниченный формирователь 309, 311 диаграммы направленности, как описано ранее, и, в частности, может перейти к адаптации ограниченного формирователя 309, 311 диаграммы направленности, когда он соответствует ранее описанным критериям.
Критерии инициализации ограниченного формирователя 309, 311 диаграммы направленности могут отличаться в разных вариантах осуществления.
Во многих вариантах осуществления контроллер 501 формирователя диаграммы направленности может быть выполнен с возможностью инициализировать ограниченный формирователь 309, 311 диаграммы направленности, если в первом выходном аудиосигнале со сформированной диаграммой направленности обнаружено присутствие точечного источника звука, но не обнаружено в каком-либо из выходных аудиосигналов со сформированной ограниченной диаграммой направленности.
Таким образом, детектор 401 источника звука может определить, присутствует ли точечный источник звука в каком-либо из выходных аудиосигналов со сформированной диаграммой направленности либо от ограниченных формирователей 309, 311 диаграммы направленности, либо от первого формирователя 305 диаграммы направленности. Результаты обнаружения/оценки для каждого выходного аудиосигнала со сформированной диаграммой направленности могут быть переадресованы контроллеру 501 формирователя диаграммы направленности, который может оценить их. Если точечный источник звука обнаружен только для первого формирователя 305 диаграммы направленности, но не для какого-либо из ограниченных формирователей 309, 311 диаграммы направленности, это может отражать ситуацию, в которой точечный источник звука, такой как говорящий, присутствует и обнаружен первым формирователем 305 диаграммы направленности, но ни один из ограниченных формирователей 309, 311 диаграммы направленности не обнаружил точечный источник звука или не адаптирован к точечному источнику звука. В этом случае ограниченные формирователи 309, 311 диаграммы направленности никогда не могут (или могут только очень медленно) адаптироваться к точечному источнику звука. Таким образом, один из ограниченных формирователей 309, 311 диаграммы направленности инициализируется для формирования лепестка диаграммы направленности, соответствующего точечному источнику звука. Впоследствии этот лепесток диаграммы направленности, вероятно, будет находиться достаточно близко к точечному источнику звука, и он будет (обычно медленно, но надежно) адаптироваться к этому новому точечному источнику звука.
Таким образом, подход может комбинировать и обеспечить преимущественные эффекты как быстрого первого формирователя 305 диаграммы направленности, так и надежных ограниченных формирователей 309, 311 диаграммы направленности.
В некоторых вариантах осуществления контроллер 501 формирователя диаграммы направленности может быть выполнен с возможностью инициализировать ограниченный формирователь 309, 311 диаграммы направленности, только если мера различия для ограниченного формирователя 309, 311 диаграммы направленности превышает порог. В частности, если наиболее низкая определенная мера различия для ограниченных формирователей 309, 311 диаграммы направленности ниже порога, инициализация не выполняется. В такой ситуации может быть возможно, что адаптация ограниченного формирователя 309, 311 диаграммы направленности ближе к желаемой ситуации, тогда как менее надежная адаптация первого формирователя 305 диаграммы направленности является менее точной и может адаптироваться, чтобы быть ближе к первому формирователю 305 диаграммы направленности. Таким образом, в таких сценариях, когда мера различия является достаточно низкой, может являться преимущественным позволить системе пытаться адаптироваться автоматически.
В некоторых вариантах осуществления контроллер 501 формирователя диаграммы направленности, в частности, может быть выполнен с возможностью инициализировать ограниченный формирователь 309, 311 диаграммы направленности, когда точечный источник звука обнаружен и для первого формирователя 305 диаграммы направленности, и для одного из ограниченных формирователей 309, 311 диаграммы направленности, но мера различия для них не соответствует критерию сходства. В частности, контроллер 501 формирователя диаграммы направленности может быть выполнен с возможностью устанавливать параметры диаграммы направленности для первого ограниченного формирователя 309, 311 диаграммы направленности в ответ на параметры диаграммы направленности первого формирователя 305 диаграммы направленности, если точечный источник звука обнаружен и в выходном аудиосигнале со сформированной диаграммой направленности от первого формирователя 305 диаграммы направленности, и в выходном аудиосигнале со сформированной диаграммой направленности от ограниченного формирователя 309, 311 диаграммы направленности, и мера различия превышает порог.
Такой сценарий может отражать ситуацию, в которой ограниченный формирователь 309, 311 диаграммы направленности, возможно, адаптировался и захватил точечный источник звука, который, однако, отличается от точечного источника звука, захваченного первым формирователем 305 диаграммы направленности. Таким образом, это может, в частности, отражать, что ограниченный формирователь 309, 311 диаграммы направленности, возможно, захватил "неправильный" точечный источник звука. В соответствии с этим ограниченный формирователь 309, 311 диаграммы направленности может быть повторно инициализирован, чтобы сформировать лепесток диаграммы направленности по направлению к желаемому точечному источнику звука.
В некоторых вариантах осуществления количество ограниченных формирователей 309, 311 диаграммы направленности, которые являются активными, может различаться. Например, устройство захвата аудиоинформации может содержать функциональность для формирования потенциально относительно высокого количества ограниченных формирователей 309, 311 диаграммы направленности. Например, оно может реализовать, например, одновременно до восьми ограниченных формирователей 309, 311 диаграммы направленности. Однако, например, чтобы сократить потребление энергии и вычислительную нагрузку, в оно и то же время могут быть активными не все из них.
Таким образом, в некоторых вариантах осуществления активный набор ограниченных формирователей 309, 311 диаграммы направленности выбирается из большего пула формирователей диаграммы направленности. В частности, это может быть сделано, когда ограниченный формирователь 309, 311 диаграммы направленности инициализируется. Таким образом, в обеспеченных выше примерах инициализация ограниченного формирователя 309, 311 диаграммы направленности (например, если точечный источник звука не обнаружен в ни в каком активном ограниченном формирователе 309, 311 диаграммы направленности) может быть достигнута посредством инициализации неактивного ограниченного формирователя 309, 311 диаграммы направленности из пула, и тем самым увеличивается количество активных ограниченных формирователей 309, 311 диаграммы направленности.
Если все ограниченные формирователи 309, 311 диаграммы направленности в пуле в настоящее время активны, инициализация ограниченного формирователя 309, 311 диаграммы направленности может быть выполнена посредством инициализации в настоящее время активного ограниченного формирователя 309, 311 диаграммы направленности. Ограниченный формирователь 309, 311 диаграммы направленности, который будет инициализирован, может быть выбран в соответствии с любым подходящим критерием. Например, могут выбраны ограниченные формирователи 309, 311 диаграммы направленности, имеющие наибольшую меру различия или наиболее низкий уровень сигнала.
В некоторых вариантах осуществления ограниченный формирователь 309, 311 диаграммы направленности может быть деактивирован в ответ на соответствии подходящему критерию. Например, ограниченные формирователи 309, 311 диаграммы направленности могут быть деактивированы, если мера различия превышает заданный порог.
Заданный подход для управления адаптацией и настроек ограниченных формирователей 309, 311 диаграммы направленности в соответствии со многими описанными выше примерами проиллюстрирован блок-схемой последовательности этапов на фиг. 6.
Способ начинается на этапе 601 посредством инициализации следующего интервала времени обработки (например, ожидания начала следующего интервала времени обработки, сбора набора отсчетов для интервала времени обработки и т.д.).
За этапом 601 следует этап 603, на котором определяется, имеется ли точечный источник звука, обнаруженный в каком-либо из лепестков диаграммы направленности ограниченных формирователей 309, 311 диаграммы направленности.
Если это так, способ переходит на этап 605, на котором определяется, соответствует ли мера различия критерию сходства, и, в частности, находится ли мера различия ниже порога.
Если это так, способ переходит на этап 607, на котором ограниченный формирователь 309, 311 диаграммы направленности, в котором был обнаружен точечный источник звука (или который имеет наибольший уровень сигнала в случае, если точечный источник звука был обнаружен более чем в одном ограниченном формирователе 309, 311 диаграммы направленности), адаптируется, т.е., обновляются параметры (фильтра) диаграммы направленности.
Если это не так, способ переходит на этап 609, на котором инициализируется ограниченный формирователь 309, 311 диаграммы направленности, параметры диаграммы направленности ограниченного формирователя 309, 311 диаграммы направленности устанавливаются в зависимости от параметров диаграммы направленности первого формирователя 305 диаграммы направленности. Инициализируемый ограниченный формирователь 309, 311 диаграммы направленности может являться новым ограниченным формирователем 309, 311 диаграммы направленности (т.е., формирователем диаграммы направленности из пула неактивных формирователей диаграммы направленности) или может являться уже активным ограниченным формирователем 309, 311 диаграммы направленности, для которого обеспечиваются новые параметры диаграммы направленности.
После любого из этапов 607 и 609 способ возвращается на этапе 601 и ожидает следующего интервала времени обработки.
Если на этапе 603 обнаружено, что точечный источник звука не обнаружен в выходном аудиосигнале со сформированной диаграммой направленности любого из ограниченных формирователей 309, 311 диаграммы направленности, способ переходит на этап 611, на котором определяется, обнаружен ли точечный источник звука в первом формирователе 305 диаграммы направленности, т.е., соответствует ли текущий сценарий захвату точечного источника звука первым формирователем 305 диаграммы направленности, но ни одним из ограниченных формирователей 309, 311 диаграммы направленности.
Если это не так, точечный источник звука не был обнаружен вообще, и способ возвращается на этап 601, чтобы ожидать следующего интервала времени обработки.
Иначе способ переходит на этап 613, на котором определяется, соответствует ли мера различия критерию сходства, и, в частности, находится ли мера различия ниже порога (который может быть таким же или другим порогом/критерием относительно используемого на этапе 605).
Если это так, способ переходит на этап 615, на котором адаптируется ограниченный формирователь 309, 311 диаграммы направленности, для которого мера различия ниже порога (или если более чем один ограниченный формирователь 309, 311 диаграммы направленности соответствует критерию, может быть выбрана, например, наиболее низкая мера различия).
Иначе способ переходит на этап 617, на котором инициализируется ограниченный формирователь 309, 311 диаграммы направленности, параметры диаграммы направленности ограниченного формирователя 309, 311 диаграммы направленности устанавливаются в зависимости от параметров диаграммы направленности первого формирователя 305 диаграммы направленности. Инициализируемый ограниченный формирователь 309, 311 диаграммы направленности может являться новым ограниченным формирователем 309, 311 диаграммы направленности (т.е., формирователем диаграммы направленности из пула неактивных формирователей диаграммы направленности) или может являться уже активным ограниченным формирователем 309, 311 диаграммы направленности, для которого обеспечиваются новые параметры диаграммы направленности.
После любого из этапов 615 и 617 способ возвращается на этап 601 и ожидает следующего интервала времени обработки.
Описанный подход устройства захвата аудиоинформации на фиг. 3, может обеспечить эффективные рабочие характеристики во многих сценариях и, в частности, может, как правило, позволять устройству захвата аудиоинформации динамически формировать сфокусированные, надежные и точные лепестки диаграммы направленности для захвата источников звука. Лепестки диаграммы направленности будут, как правило, адаптированы для покрытия разных областей, и подход может, например, автоматически выбирать и адаптировать наиболее близкий ограниченный формирователь 309, 311 диаграммы направленности.
Таким образом, в отличие от подхода, например, на фиг. 2, нет необходимости непосредственно накладывать какие-либо заданные ограничения на направления лепестков диаграммы направленности или на коэффициенты фильтра. Вместо этого отдельные области могут автоматически генерироваться/формироваться посредством разрешения ограниченным формирователям 309, 311 диаграммы направленности адаптироваться (при определенных условиях), только когда существует единственный доминирующий источник звука, и когда он является достаточно близким к лепестку диаграммы направленности ограниченного формирователя 309, 311 диаграммы направленности. Это может, в частности, быть определено посредством рассмотрения коэффициентов фильтра, которые принимают во внимание и прямую волну, и (первые) отражения.
Следует отметить, что использование фильтров с расширенной импульсной характеристикой (в противоположность использованию простых фильтров задержки, т.е., фильтров с единственным коэффициентом) также учитывает, что отражения прибывают через некоторое (заданное) время после прямой волны. В соответствии с этим лепесток диаграммы направленности определяется не только пространственными характеристиками (от каких направлений прибывают прямая волна и отражения), но также определяются временными характеристиками (в какое время после прямой волны прибывают отражения). Таким образом, ссылки на лепестки диаграммы направленности не ограничены лишь пространственными соображениями, но также отражают временную составляющую фильтров диаграммы направленности. Аналогичным образом, ссылки на области включают в себя и чисто пространственные, и временные эффекты фильтров диаграммы направленности.
Таким образом, можно полагать, что подход формирует области, которые определены различием меры расстояния между автономным лепестком диаграммы направленности первого формирователя 305 диаграммы направленности и лепестком диаграммы направленности ограниченного формирователя 309, 311 диаграммы направленности. Например, предположим, что ограниченный формирователь 309, 311 диаграммы направленности имеет лепесток диаграммы направленности, сфокусированный на источнике (с помощью и пространственных, и временных характеристик). Предположим, что источник молчит, и новый источник становится активным, и первый формирователь 305 диаграммы направленности адаптируется, чтобы сфокусироваться на нем. Тогда каждый источник с такими пространственно-временными характеристиками, для которых расстояние между лепестком диаграммы направленности первого формирователя 305 диаграммы направленности и лепестком диаграммы направленности ограниченного формирователя 309, 311 диаграммы направленности не превышает порог, может считаться находящимся в области ограниченного формирователя 309, 311 диаграммы направленности. Таким образом, можно полагать, что ограничение на первый ограниченный формирователь диаграммы направленности переводит на ограничение в пространстве.
Критерий расстояния для адаптации ограниченного формирователя диаграммы направленности вместе с подходом инициализации лепестков диаграммы направленности (например, копирование коэффициентов фильтра диаграммы направленности) обычно обеспечивает, что ограниченные формирователи 309, 311 диаграммы направленности формируют лепестки диаграммы направленности в разных областях.
Подход обычно приводит к автоматическому формированию областей, отражающих присутствие источников звука в окружающей среде, а не к предопределенной фиксированной системе, как на фиг. 2. Этот гибкий подход позволяет системе быть основанной на пространственно-временных характеристиках, например, вызванных отражениями, которые было бы очень трудно и сложно включить в предопределенную и фиксированную систему (поскольку эти характеристики зависят от многих параметров, таких как размер, форма и характеристики реверберации помещения, и т.д.).
Далее со ссылкой на фиг. 6 будет описан конкретный подход для определения мер различия, который для краткости и ясности иллюстрирует массив микрофонов 301, первый формирователь 305 диаграммы направленности, второй формирователь 309 диаграммы направленности, который является одним из ограниченных формирователей 309 диаграммы направленности, и процессор 317 разности. Выходной сигнал первого формирователя 305 диаграммы направленности будет упоминаться как первый выходной аудиосигнал со сформированной диаграммой направленности, и выходной сигнал второго формирователя диаграммы направленности 309 будет упоминаться как второй выходной аудиосигнал со сформированной диаграммой направленности.
Первый и второй формирователи 303, 305 диаграммы направленности соответственно являются адаптивными формирователями диаграммы направленности, причем направленностью можно управлять посредством адаптации параметров функциональности диаграммы направленности.
В частности, формирователи 305, 309 диаграммы направленности представляют собой формирователи диаграммы направленности с фильтрацией и комбинацией (или, в частности, в большинстве вариантов осуществления, с фильтрацией и суммированием). Фильтр диаграммы направленности может быть применен к каждому из сигналов микрофонов, и фильтрованные выходы могут быть объединены, как правило, посредством простого сложения вместе.
В большинстве вариантов осуществления каждый из фильтров диаграммы направленности имеет импульсную характеристику во временной области, которая не является простым импульсом Дирака (соответствующим простой задержке и, таким образом, усилению и смещению фазы в частотной области), а имеет импульсную характеристику, которая обычно простирается по временному интервалу не менее чем на 2, 5, 10 или даже 30 мс.
Импульсные характеристики часто могут быть реализованы фильтрами диаграммы направленности, представляющими собой КИХ-фильтры (FIR; фильтры с конечной импульсной характеристикой) с множеством коэффициентов. Формирователи 305, 309 диаграммы направленности в таких вариантах осуществления адаптируют формирование диаграммы направленности посредством адаптации коэффициентов фильтра. Во многих вариантах осуществления КИХ-фильтры могут иметь коэффициенты, соответствующие фиксированным временным смещениям (обычно временным смещениям отсчетов) с адаптацией, достигаемой посредством адаптации значений коэффициентов. В других вариантах осуществления фильтры диаграммы направленности, как правило, могут иметь в значительной степени меньше коэффициентов (например, только два или три), но синхронизация которых (также) является адаптируемой.
Особое преимущество фильтров диаграммы направленности, имеющих расширенные импульсные характеристики, в отличие от простой переменной задержки (или простой регулировки усиления/фазы в частотной области), состоит в том, что они позволяют адаптировать формирователи 305, 309 диаграммы направленности не только к наиболее сильной составляющей сигнала, обычно относящейся к прямой волне. Они также позволяют адаптировать формирователь 305, 309 диаграммы направленности к включению дополнительных путей прохождения сигнала, обычно соответствующих отражениям. В соответствии с этим подход допускает улучшение рабочих характеристик в большинстве реальных окружающих сред и, в частности, допускает улучшение рабочих характеристик в отражающих и/или реверберирующих окружающих средах и/или для источников звука, находящихся дальше от массива 301 микрофонов.
Формирователи 305, 309 диаграммы направленности, в частности, представляют собой формирователи диаграммы направленности с фильтрацией и комбинацией (и, в частности, с фильтрацией и суммированием). Фиг. 8 иллюстрирует упрощенный пример формирователя диаграммы направленности с фильтрацией и суммированием на основе массива микрофонов, содержащего только два микрофона 801. В примере каждый микрофон 801 присоединен к фильтру 803, 805 диаграммы направленности, выходные сигналы которого суммируются посредством сумматора 808, чтобы сгенерировать выходной аудиосигнал со сформированной диаграммой направленности. Фильтры 803, 805 диаграммы направленности имеют импульсные характеристики f1 и f2, которые выполнены с возможностью формировать лепесток диаграммы направленности в заданном направлении. Очевидно, что обычно массив микрофонов будет содержать более двух микрофонов, и что принцип, показанный на фиг. 8, легко распространяется на большее количество микрофонов посредством добавления фильтра диаграммы направленности для каждого микрофона.
Первый и второй формирователи 303, 305 диаграммы направленности могут включать в себя такую архитектуру с фильтрацией и суммированием для формирования диаграммы направленности (как, например, в формирователях диаграммы направленности в документах US 7 146 012 и US 7 602 926). Очевидно, что во многих вариантах осуществления массив 301 микрофонов может, однако, содержать более двух микрофонов. Кроме того, очевидно, что формирователи 305, 309 диаграммы направленности включают в себя функциональность для адаптации фильтров диаграммы направленности, как описано ранее. Кроме того, в конкретном примере формирователи 305, 309 диаграммы направленности генерируют не только выходной аудиосигнал со сформированной диаграммой направленности, но также и опорный сигнал фонового шума.
В традиционных подходах для сравнения формирователей диаграммы направленности и лепестков диаграммы направленности оценивается сходство между лепестками диаграммы направленности посредством сравнения сгенерированных выходных аудиосигналов. Например, взаимная корреляция между выходными аудиосигналами может быть сгенерирована со сходством, указываемым посредством магнитуды корреляции. В некоторых системах DoA может быть определен посредством взаимной корреляции аудиосигналов для пары микрофонов и определения DoA в ответ на хронирование пика.
В системе на фиг. 7 мера различия не просто определяется на основе свойства или сравнения аудиосигналов - либо выходных аудиосигналов со сформированной диаграммой направленности от формирователей диаграммы направленности, либо входных сигналов микрофона - но вместо этого процессор 317 разности устройства захвата аудиоинформации на фиг. 7 выполнен с возможностью определять меру различия в ответ на сравнение импульсных характеристик фильтров диаграммы направленности первого и второго формирователей 305, 309 диаграммы направленности.
В системе на фиг. 7 параметры фильтров диаграммы направленности для первого формирователя 305 диаграммы направленности сравниваются с параметрами фильтров диаграммы направленности второго формирователя 309 диаграммы направленности. Затем может быть определена мера различия, чтобы отразить, насколько близки эти параметры друг к другу. В частности, для каждого микрофона соответствующие фильтры диаграммы направленности первого формирователя 305 диаграммы направленности и второго формирователя 309 диаграммы направленности сравниваются друг с другом, чтобы сгенерировать промежуточную меру различия. Промежуточные меры различия затем комбинируются в одну меру различия, представляющую собой выход из процессора 317 разности.
Сравниваемыми параметрами диаграммы направленности обычно являются коэффициенты фильтров. В частности, фильтры диаграммы направленности могут являться КИХ-фильтрами, определяющими импульсную характеристику временной области посредством набора коэффициентов КИХ-фильтра. Процессор 317 разности может быть выполнен с возможностью сравнивать соответствующие фильтры первого формирователя 305 диаграммы направленности и второго формирователя 309 диаграммы направленности посредством определения корреляции между фильтрами. Значение корреляции может быть определено как максимальная корреляция (т.е., значение корреляции для временного смещения, максимизирующего корреляцию).
Процессор 317 разности может затем скомбинировать все эти индивидуальные значения корреляции в единственную меру различия, например, просто посредством их совместного суммирования. В других вариантах осуществления может быть выполнена взвешенная комбинация, например, посредством более высокого нагружения больших коэффициентов, чем малых коэффициентов.
Очевидно, что такая мера различия будет иметь увеличивающееся значение для увеличивающейся корреляции фильтров, и, таким образом, более высокое значение будет указывать увеличенное сходство лепестков диаграммы направленности, а не увеличенное различие. Однако в вариантах осуществления, в которых желательно, чтобы мера различия увеличивалась для увеличения различия, к комбинированной корреляции может быть просто применена монотонно убывающая функция.
Определение меры различия на основе сравнения импульсных характеристик фильтров диаграммы направленности, а не на основе аудиосигналов (выходных аудиосигналов со сформированной диаграммой направленности или сигналов микрофонов) обеспечивает значительные преимущества во многих системах и приложениях. В частности, подход обычно обеспечивает очень улучшенные рабочие характеристики и действительно подходит для применения в реверберирующих аудиосредах и для источников звука на далеких расстояниях, в том числе, в частности, для источников звука вне радиуса реверберации. Действительно, это обеспечивает очень улучшенные рабочие характеристики в сценариях, в которых прямая волна от источника звука не является доминирующей, а наоборот, в которых над прямой волной и, возможно, ранними отражениями доминирует, например, рассеянное звуковое поле. В частности, в таких сценариях оценка различия на основе аудиосигнала в большой степени подвергнется пространственным и временным характеристикам звукового поля, тогда как подход на основе фильтра допускает более прямую оценку лепестков диаграммы направленности на основе параметров фильтра, которые не только отражают прямую звуковую волну, но и выполнены с возможностью отражать прямую звуковую волну и ранние отражения (вследствие импульсных характеристик, имеющих расширенную продолжительность, чтобы учесть эти отражения).
Действительно, хотя традиционный DoA и метрики корреляции аудиосигналов для оценки сходства двух формирователей диаграммы направленности основаны на безэховых окружающих средах и, соответственно, хорошо работают в окружающих средах, в которых желаемые пользователи находятся близко к микрофонам (в радиусе реверберации), в результате чего энергия рассеянного звукового поля доминирует, подход на фиг. 7 не основан на таких предположениях и обеспечивает отличную оценку даже в присутствии многих отражений и/или существенного рассеянного акустического шума.
Другие преимущества включают в себя то, что мера различия может быть определена немедленно на основе текущих параметров диаграммы направленности и, в частности, на основе текущих коэффициентов фильтра. В большинстве вариантов осуществления нет необходимости в каком-либо усреднении параметров, вместо этого скорость адаптации адаптивных формирователей диаграммы направленности определяет поведение отслеживания.
Имеющим преимущество аспект состоит в том, что сравнение и мера различия могут быть основаны на импульсных характеристиках, которые имеют расширенную продолжительность. Это позволяет, чтобы мера различия отражала не просто задержку прямой волны или угловое направление лепестка диаграммы направленности, а позволяет, чтобы значительная часть или действительно все из оценочных акустических импульсов помещения были приняты во внимание. Таким образом, мера различия основана не просто на подпространстве, возбужденном сигналами микрофонов, как в традиционных подходах.
В некоторых вариантах осуществления мера различия, в частности, может быть выполнена с возможностью сравнивать импульсные характеристики в частотной области, а не во временной области. В частности, процессор 317 разности может быть выполнен с возможностью преобразовывать адаптивные импульсные характеристики фильтров первого формирователя 305 диаграммы направленности в частотную область. Аналогичным образом, процессор 317 разности может быть выполнен с возможностью преобразовывать адаптивные импульсные характеристики фильтров второго формирователя 309 диаграммы направленности в частотную область. Преобразование, в частности, может быть выполнено, например, посредством применения быстрого преобразования Фурье (FFT) к импульсным характеристикам фильтров диаграммы направленности и первого формирователя 305 диаграммы направленности, и второго формирователя 309 диаграммы направленности.
Процессор 317 разности, соответственно, может для каждого фильтра первого формирователя 305 диаграммы направленности и второго формирователя 309 диаграммы направленности генерировать набор коэффициентов в частотной области. Затем он может перейти к определению меры различия на основе частотного представления. Например, для каждого микрофона из массива 301 микрофонов процессор 317 разности может сравнить коэффициенты в частотной области обоих фильтров диаграммы направленности. В качестве простого примера он может просто определить магнитуду вектора разности, вычисленного как разность между векторами коэффициентов в частотной области для обоих фильтров. Тогда мера различия может быть определена посредством комбинации промежуточных мер различия, сгенерированных для индивидуальных частот.
Далее будут описаны некоторые конкретные и очень эффективные подходы для определения меры различия. Подходы основаны на сравнении адаптивных импульсных характеристик в частотной области. В подходе процессор 317 разности выполнен с возможностью определять частотные меры различия для частот представлений в частотной области. В частности, частотная мера различия может быть определена для каждой частоты в частотном представлении. Выходная мера различия затем генерируется из этих индивидуальных частотных мер различия.
Частотная мера различия, в частности, может быть сгенерирована для каждого коэффициента частотного фильтра каждой пары фильтров диаграммы направленности, где пара фильтров представляет фильтры соответственно первого формирователя 305 диаграммы направленности и второго формирователя 309 диаграммы направленности для одного и того же микрофона. Частотная мера различия для этой пары частотных коэффициентов генерируется как функция этих двух коэффициентов. Действительно, в некоторых вариантах осуществления частотная мера различия для пары коэффициентов может быть определена как абсолютная разность между коэффициентами.
Однако для действительнозначных коэффициентов во временной области (т.е., для действительнозначной импульсной характеристики), частотные коэффициенты обычно будут являться комплексными значениями, и во многих приложениях особенно эффективная частотная мера различия для пары коэффициентов определяется в ответ на умножение первого коэффициента в частотной области и комплексного сопряжения второго коэффициента в частотной области (т.е., в ответ на умножение комплексного коэффициента одного фильтра и комплексного сопряжения для комплексного коэффициента другого фильтра из пары).
Таким образом, для каждого элемента разрешения по частоте представлений в частотной области импульсных характеристик фильтров диаграммы направленности частотная мера различия может быть сгенерирована для каждого микрофона/пары фильтров. Комбинированная частотная мера различия для частоты тогда может быть сгенерирована посредством комбинации их специфических для микрофона частотных мер различия для всех микрофонов, например, посредством их простого суммирования.
Более подробно формирователи 305, 309 диаграммы направленности могут содержать коэффициенты фильтра в частотной области для каждого микрофона и для каждой частоты представления в частотной области.
Для первого формирователя 305 диаграммы направленности эти коэффициенты могут быть обозначены как , и для второго формирователя 309 диаграммы направленности они могут быть обозначены как , где M - количество микрофонов.
Полный набор коэффициентов фильтра в частотной области диаграммы направленности для некоторой частоты и для всех микрофонов для первого формирователя 305 диаграммы направленности и второго формирователя 309 диаграммы направленности могут быть соответственно обозначены как и .
В этом случае частотная мера различия для данной частоты может быть определена как:
Умножая комплекснозначные коэффициенты фильтра, которые принадлежат одним и тем же микрофонам, мы получаем для каждой частоты первую форму меры расстояния, таким образом
где представляет комплексное сопряжение. Это может использоваться в качестве меры различия для частоты ω для микрофона m. Комбинированная частотная мера различия для всех микрофонов может быть сгенерирована как их сумма, т.е.,
Если два фильтра не соотносятся, т.е., адаптированное состояние фильтров и, таким образом, сформированные лепестки диаграммы направленности очень отличаются, ожидается, что эта сумма будет близка к нулю, и, таким образом, частотная мера различия близка к нулю. Однако, если коэффициенты фильтра являются сходными, получается большое положительное значение. Если коэффициенты фильтра имеют противоположный знак, то получается большое отрицательное значение. Таким образом, сгенерированная частотная мера различия указывает сходство фильтров диаграммы направленности для этой частоты.
Умножение двух комплексных коэффициентов (включая сопряжение) приводит к комплексному значению, и во многих вариантах осуществления может быть желательно преобразовать его в скалярную величину.
В частности, во многих вариантах осуществления частотная мера различия для данной частоты определяется в ответ на действительную часть комбинации частотных мер различия для разных микрофонов для этой частоты.
В частности, комбинированная частотная мера различия может быть определена как:
В этой мере мера сходства на основе Re(S) приводит к максимальному значению, достигаемому, когда коэффициенты фильтра являются одинаковыми, тогда как минимальное значение достигается, когда коэффициенты фильтра являются одинаковыми, но имеют противоположные знаки.
Другой подход состоит в том, чтобы определить комбинированную частотную меру различия для данной частоты в ответ на норму комбинации частотных мер различия для микрофонов. Норма обычно может успешно представлять собой норму L1 или норму L2.
Например:
В некоторых вариантах осуществления комбинированная частотная мера различия для всех микрофонов из массива 301 микрофонов, таким образом, определяется как амплитуда или абсолютное значение суммы комплекснозначных частотных мер различия для индивидуальных микрофонов.
Во многих вариантах осуществления может быть полезно нормализовать меры различия. Например, может быть полезно нормализовать меру различия таким образом, чтобы она попадала в интервал [0; 1].
В некоторых вариантах осуществления описанные выше меры различия могут быть нормализованы, будучи определенными в ответ на сумму монотонной функции нормы суммы коэффициентов в частотной области для первого формирователя 305 диаграммы направленности и монотонной функции нормы для суммы коэффициентов в частотной области для второго формирователя 309 диаграммы направленности, где суммы берутся по микрофонам. Норма может успешно представлять собой норму L2, и монотонная функция может успешно представлять собой квадратную функцию.
Таким образом, меры различия могут быть нормализованы относительно следующего значения:
Комбинация с описанным выше первым подходом приводит к комбинированным частотным мерам различия, заданным как:
где введено смещение ½, в результате чего для частотная мера различия имеет значение 1, и для частотная мера различия имеет значение 0. Таким образом, генерируется мера различия между 0 и 1, причем увеличение значения указывает сокращение разности. Очевидно, если желательно увеличение значения для увеличения разности, это может быть просто достигнуто посредством определения:
Аналогичным образом, для второго подхода может быть определена следующая частотная мера различия:
и снова в результате частотная мера различия попадает в интервал [0; 1].
В качестве другого примера в некоторых вариантах осуществления нормализации может быть основана на умножении норм и, в частности, норм L2 индивидуального суммирования коэффициентов в частотной области:
Это может, в частности, во многих приложениях обеспечивать очень эффективные рабочие характеристики для последнего примера меры различия (т.е., на основе нормы L1 для коэффициентов). В частности, может использоваться следующая частотная мера различия:
Конкретные частотные меры различия соответственно могут быть определены как:
где - внутреннее произведение, и - норма .
Процессор 317 разности может тогда сгенерировать меру различия на основе частотных мер различия, комбинируя их в единственную меру различия, указывающую, насколько сходны лепестки диаграмм направленности первого формирователя 305 диаграммы направленности и второго формирователя 309 диаграммы направленности.
В частности, мера различия может быть определена как выборочная по частоте взвешенная сумма частотных мер различия. Выборочный по частоте подход, в частности, может быть полезен для применения подходящего частотного окна, позволяющего, например, акцентировать заданные частотные диапазоны, например, диапазон звуковых частот или основные речевые частотные интервалы. Например, (взвешенное) усреднение может быть применено для генерирования надежной широкополосной частотной меры различия.
В частности, мера различия может быть определена как:
где - подходящая функция взвешивания.
В качестве примера функция взвешивания может быть разработана таким образом, чтобы принимать во внимание, что речь главным образом активна в некоторых частотных полосах, и/или что массивы микрофонов, как правило, имеют низкую направленность для относительно низких частот.
Очевидно, что хотя приведенные выше уравнения представлены в непрерывной частотной области, они могут быть без затруднений переведены в дискретную частотную область.
Например, фильтры в дискретной временной области могут быть сначала преобразованы в фильтры в дискретной частотной области посредством применения дискретного преобразования Фурье, т.е., для мы можем вычислить:
где представляет характеристику фильтра в дискретной временной области для -ого формирователя диаграммы направленности для -ого микрофона, - длина фильтров во временной области, представляет фильтр в дискретной частотной области для -ого формирователя диаграммы направленности для -ого микрофона, и - длина фильтров диаграммы направленности в частотной области, обычно выбранная как (часто то же самое количество, как для коэффициентов во временной области, хотя это не обязательно имеет место. Например, для количества коэффициентов во временной области, отличающегося от 2N, может использоваться заполнение нулями, чтобы облегчить преобразование в частотную область (например, с использованием FFT)).
Эквивалентами в дискретной частотной области для векторов и являются векторы и , которые получены посредством сбора в вектор коэффициентов фильтра в частотной области для индекса частоты для всех микрофонов.
Далее, например, вычисление меры сходства может быть выполнено следующим образом:
и
где представляет комплексное спряжение.
Наконец, широкополосная частотная мера сходства , основанная на функции взвешивания , может быть вычислена следующим образом:
Выбор функции взвешивании как приводит к широкополосной частотной мере сходства, которая ограничена между 0 и 1, и она одинаково нагружает все частоты.
Альтернативные функции взвешивания могут фокусироваться на заданном частотном диапазоне (например, поскольку он с большой вероятностью содержит речь). В таком случае функция взвешивания, которая приводит к мере сходства, ограниченной между 0 и 1, например, может быть выбрана как:
где и - индексы частоты, соответствующие границам желаемого частотного диапазона.
Выведенная мера различия обеспечивает особенно эффективные рабочие характеристики с разными качествами, которые могут быть желательными в разных вариантах осуществления. В частности, определенные значения могут быть чувствительны к разным свойствам различия лепестков диаграммы направленности, и в зависимости от предпочтений индивидуального варианта осуществления могут являться предпочтительными разные меры.
Действительно, мера различия/сходства может рассматриваться для измерения разностей фазы, ослабления и направления между формирователями диаграммы направленности, в то время как принимает во внимание только разности направления и усиление. Наконец, мера различия принимает во внимание только разности направления и игнорирует разности ослабления и фазы.
Эти разности относятся к структуре формирователей диаграммы направленности. В частности, предположим, что коэффициенты фильтра формирователя диаграммы направленности совместно используют общий (зависящий от частоты) коэффициент по всем микрофонам, который мы обозначаем как . В этом случае коэффициенты фильтра формирователя диаграммы направленности могут быть разложены следующим образом:
В коротких обозначениях мы имеем . Затем мы рассматриваем две версии общего коэффициента .
В первом случае мы предполагаем, что общий коэффициент состоит только из (зависящего от частоты) смещения фазы, т.е., , также известный как всепропускающий фильтр. Во втором случае мы предполагаем, что общий коэффициент имеет произвольное усиление и смещение фазы для каждой частоты. Три представленные меры сходства по-разному имеют дело с этими общими коэффициентами.
- чувствительна к общим разностям амплитуды и фазы между формирователями диаграммы направленности.
- чувствительна к общим разностям амплитуды между формирователями диаграммы направленности
- не чувствительна к общему коэффициенту
Это можно увидеть из следующих примеров.
Пример 1:
В этом примере мы рассматриваем сценарий с , и - произвольная фаза для каждой частоты, т.е., всепропускающий фильтр.
Это приводит к следующим результатам для мер сходства.
Пример 2:
В этом примере мы рассматриваем сценарий с , и - произвольное усиление и фаза для каждой частоты. Это приводит к следующим результатам для мер сходства:
Во многих практических вариантах осуществления может быть общее усиление и разность фаз между формирователями диаграммы направленности, и, соответственно, мера различия во многих вариантах осуществления может обеспечивать особенно привлекательную меру.
Далее описывается конкретный подход для определения оценки точечного источника звука, который, в частности, может использоваться детектором 401 точечного источника звука, чтобы обнаружить точечный источник звука в выходном аудиосигнале со сформированной диаграммой направленности от формирователя диаграммы направленности. Пример будет описан со ссылкой на первый формирователь 305 диаграммы направленности, но очевидно, что он в равной степени может быть применен к любому из ограниченных формирователей 309, 311 диаграммы направленности.
Пример будет описан со ссылкой на фиг. 9 и основан на формирователе 305 диаграммы направленности, генерирующем и выходной аудиосигнал со сформированной диаграммой направленности, и сигнал фонового шума, как описано ранее.
Формирователь 305 диаграммы направленности выполнен с возможностью генерировать и выходной аудиосигнал со сформированной диаграммой направленности, и опорный сигнал фонового шума.
Формирователь 305 диаграммы направленности может быть выполнен с возможностью адаптировать формирование диаграммы направленности для захвата желаемого источника звука и его представления в выходном аудиосигнале со сформированной диаграммой направленности. Он также может генерировать опорный сигнал фонового шума, чтобы обеспечить оценку оставшейся захваченной аудиоинформации, т.е., он указывает на шум, который был бы захвачен в отсутствие желаемого источника звука.
В примере, когда формирователь 305 диаграммы направленности является формирователем диаграммы направленности, раскрытым в документах US 7 146 012 и US 7 602 926, фоновый шум может быть сгенерирован, как описано ранее, например, непосредственно с использованием сигнала ошибки. Однако очевидно, что в других вариантах осуществления могут использоваться другие подходы. Например, в некоторых вариантах осуществления фоновый шум может быть сгенерирован как сигнал микрофона от (например, всенаправленного) микрофона минус сгенерированный выходной аудиосигнал со сформированной диаграммой направленности, или даже сам сигнал микрофона в случае, если этот микрофон фонового шума находится далеко от других микрофонов и не содержит желаемой речи. В качестве другого примера формирователь 305 диаграммы направленности может быть выполнен с возможностью формировать второй лепесток диаграммы направленности, имеющий нулевое значение в направлении максимума лепестка диаграммы направленности, генерирующего выходной аудиосигнал со сформированной диаграммой направленности, и фоновый шум может быть сгенерирован как аудиоинформация, захваченная этим дополняющим лепестком диаграммы направленности.
В некоторых вариантах осуществления формирователь 305 диаграммы направленности может содержать два субформирователя диаграммы направленности, которые индивидуально могут формировать разные лепестки диаграммы направленности. В таком примере один из субформирователей диаграммы направленности может быть выполнен с возможностью генерировать выходной аудиосигнал со сформированной диаграммой направленности, тогда как другой субформирователь диаграммы направленности может быть выполнен с возможностью генерировать сигнал фонового шума. Например, первый субформирователь диаграммы направленности может быть выполнен с возможностью максимизировать выходной сигнал, что приводит к захвату доминирующего источника, тогда как второй субформирователь диаграммы направленности может быть выполнен с возможностью минимизировать уровень на выходе, что тем самым обычно приводит к генерированию нулевого значения в направлении к доминирующему источнику. Таким образом, последний сигнал со сформированной диаграммой направленности может использоваться в качестве фонового шума.
В некоторых вариантах осуществления два субформирователя диаграммы направленности могут быть присоединены и использовать разные микрофоны из массива 301 микрофонов. Таким образом, в некоторых вариантах осуществления массив 301 микрофонов может быть образован посредством двух (или более) подмассивов микрофонов, каждый из которых присоединен к индивидуальному субформирователю диаграммы направленности, и выполнен с возможностью индивидуально формировать лепесток диаграммы направленности. Действительно, в некоторых вариантах осуществления подмассивы могут даже быть помещены удаленно друг от друга и могут захватывать аудиосреду из разных позиций. Таким образом, выходной аудиосигнал со сформированной диаграммой направленности может быть сгенерирован из подмассива микрофонов в одной позиции, тогда как сигнал фонового шума сгенерирован из подмассива микрофонов в другой позиции (и обычно в другом устройстве).
В некоторых вариантах осуществления поcтобработка, такая как шумоподавление на фиг. 1, может быть применена выходным процессором 306 к выходу устройства захвата аудиоинформации. Это может улучшить рабочие характеристики, например, для голосовой связи. В такую пост-обработку могут быть включены нелинейные операции, хотя, например, для некоторых устройств распознавания речи может быть более полезно ограничить обработку включением только линейной обработки.
Во многих вариантах осуществления может быть желательно оценить, присутствует ли точечный источник звука в выходном аудиосигнале со сформированной диаграммой направленности, сгенерированном формирователем 305 диаграммы направленности, т.е., может быть желательно оценить, адаптирован ли формирователь 305 диаграммы направленности к источнику звука, в результате чего выходной аудиосигнал со сформированной диаграммой направленности содержит точечный источник звука.
Точечный источник звука в акустике может считаться источником звука, который исходит из точки в пространстве. Во многих приложениях желательно обнаружить и захватить точечный источник звука, например, говорящего человека. В некоторых сценариях такой точечный источник звука может являться доминирующим источником звука в акустической окружающей среде, но в других вариантах осуществления это может не иметь место, т.е., над желаемым точечным источником звука может доминировать, например, рассеянный фоновый шум.
Точечный источник звука имеет такое свойство, что звук прямой волны будет, как правило, прибывать в разные микрофоны с сильной корреляцией, и действительно обычно один и тот же сигнал будет захвачен с задержкой (линейная фазовая вариация в частотной области), соответствующей разностям в длине пути. Таким образом, при учете корреляции между сигналами, захваченными микрофонами, высокая корреляция указывает доминирующий точечный источник, тогда как низкая корреляция указывает, что захваченная аудиоинформация принята от многих не коррелированных источников. Действительно, точечный источник звука в аудиосреде можно рассматривать как источник, для которого прямая составляющая сигнала приводит к высокой корреляции для сигналов микрофонов, и действительно точечный источник звука может считаться соответствующим пространственно коррелированному источнику звука.
Однако, хотя может быть возможно преследовать цель обнаружить присутствие точечного источника звука посредством определения корреляции для сигналов микрофонов, это, как правило, является неточным и не обеспечивает оптимальные рабочие характеристики. Например, если точечный источник звука (и действительно составляющая прямой волны) не будет доминирующим, обнаружение, как правило, будет неточным. Таким образом, подход не является подходящим, например, для точечных источников звука, которые находятся далеко от массива микрофонов (в частности, вне радиуса реверберации), или когда, например, имеется высокий уровень рассеянного шума. Кроме того, такой подход просто указывает, присутствует ли точечный источник звука, но не отражает того, адаптирован ли формирователь диаграммы направленности к этому точечному источнику звука.
Устройство захвата аудиоинформации на фиг. 9 содержит детектор 401 точечного источника звука, который выполнен с возможностью генерировать оценку точечного источника звука, указывающую, содержит ли выходной аудиосигнал со сформированной диаграммой направленности точечный источник звука или нет. Детектор 401 точечного источника звука не определяет корреляции для сигналов микрофонов, а вместо этого определяет оценку точечного источника звука на основе выходного аудиосигнала со сформированной диаграммой направленности и сигнала фонового шума, сгенерированных формирователем 305 диаграммы направленности.
Детектор 401 точечного источника звука содержит первый преобразователь 901, выполненный с возможностью генерировать первый сигнал в частотной области посредством применения частотного преобразования к выходному аудиосигналу со сформированной диаграммой направленности. В частности, выходной аудиосигнал со сформированной диаграммой направленности разделяется на временные сегменты/интервалы. Каждый временной сегмент/интервал содержит группу отсчетов, которые преобразовываются, например, посредством преобразования FFT в группу отсчетов в частотной области. Таким образом, причем первый сигнал в частотной области представлен отсчетами в частотной области, где каждый отсчет в частотной области соответствует заданному временному интервалу (соответствующему кадру обработки) и заданному частотному интервалу. Каждый такой частотный интервал и временной интервал обычно находятся в области, известной как частотно-временной фрагмент. Таким образом, причем первый сигнал в частотной области представлен значением для каждого из множества частотно-временных фрагментов, т.е., значениями частотно-временных фрагментов.
Детектор 401 точечного источника звука дополнительно содержит второй преобразователь 903, который принимает сигнал фонового шума. Второй преобразователь 903 выполнен с возможностью генерировать второй сигнал в частотной области посредством применения частотного преобразования к опорному сигналу фонового шума. В частности, опорный сигнал фонового шума разделяется на временные сегменты/интервалы. Каждый временной сегмент/интервал содержит группу отсчетов, которые преобразовываются, например, посредством преобразования FFT в группу отсчетов в частотной области. Таким образом, причем второй сигнал в частотной области представлен значением для каждого из множества частотно-временных фрагментов, т.е., значениями частотно-временных фрагментов.
Фиг. 10 иллюстрирует конкретный пример функциональных элементов возможных реализаций первого и второго элементов 901, 903 преобразования. В примере последовательно-параллельный конвертер генерирует накладывающиеся блоки (кадры) из 2B отсчетов, которые затем обрабатываются с помощью оконной функции Хеннинга и преобразовываются в частотную область посредством быстрого преобразования Фурье (FFT).
Выходной аудиосигнал со сформированной диаграммой направленности и сигнал фонового шума далее упоминаются как z(n) и x(n) соответственно, и первый и второй сигналы в частотной области упоминаются как векторы и (каждый вектор содержит все значения частотного фрагмента M для данного временного сегмента/кадра обработки/преобразования).
При использовании предполагается, что z(n) содержит шум и речь, тогда как предполагается, что x(n) идеально содержит только шум. Кроме того, предполагается, что шумовые составляющие z(n) и x(n) не коррелированы (Предполагается, что составляющие не коррелированы во времени. Однако предполагается, что обычно имеется отношение между средними амплитудами, и это отношение может быть представлено термином когерентности, как будет описано позже). Такие предположения, как правило, являются пригодными в некоторых сценариях; и, в частности, во многих вариантах осуществления формирователь 305 диаграммы направленности может содержать, как в примере на фиг. 1, адаптивный фильтр, который ослабляет или удаляет шум в выходном аудиосигнале со сформированной диаграммой направленности, который коррелируется с опорным сигналом фонового шума.
После преобразования в частотную область действительные и мнимые составляющие частотно-временных значений, как предполагается, подчинены Гауссовскому распределению. Это предположение обычно является точным, например, для сценариев с шумом, происходящим из рассеянных звуковых полей, для шума датчика и для многих других источников шума, испытываемого во многих практических сценариях.
Первый преобразователь 901 и второй преобразователь 903 присоединены к процессору 905 разности, который выполнен с возможностью генерировать меру различия частотно-временного фрагмента для индивидуальных частотных фрагментов. В частности, он генерирует меру различия для текущего кадра для каждого элемента разрешения по частоте, полученного в результате преобразований FFT. Мера различия генерируется из соответствующих значений частотно-временных фрагментов выходного аудиосигнала со сформированной диаграммой направленности и опорных сигналов фонового шума, т.е., первого и второго сигналов в частотной области.
В частности мера различия для данного частотно-временного фрагмента генерируется, чтобы отразить разность между первой монотонной функцией нормы значения частотно-временного фрагмента первого сигнала в частотной области (т.е. выходного аудиосигнала со сформированной диаграммой направленности) и второй монотонной функцией нормы значения частотно-временного фрагмента второго сигнала в частотной области (опорный сигнал фонового шума). Первые и вторые монотонные функции могут быть тем же самым или могут отличаться.
Нормы обычно могут представлять собой норму L1 или норму L2. В большинстве вариантов осуществления, эта мера различия частотно-временного фрагмента может быть определена как мера различия, отражающая разность между монотонной функцией магнитуды или мощности значения первого сигнала в частотной области и монотонной функцией магнитуды или мощности значения второго сигнала в частотной области.
Монотонные функции обычно могут обе являться монотонно возрастающими, но в некоторых вариантах осуществления могут обе являться монотонно убывающими.
Очевидно, что в разных вариантах осуществления могут использоваться разные меры различия. Например, в некоторых вариантах осуществления мера различия может быть определена просто посредством вычитания результатов первой и второй функций друг из друга. В других вариантах осуществления они могут быть разделены друг на друга, чтобы сгенерировать отношение, указывающее различие, и т.д.
Процессор 905 разности соответствующим образом генерирует меру различия частотно-временного фрагмента для каждого частотно-временного фрагмента, и мера различия указывает относительный уровень соответственно выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала фонового шума на этой частоте.
Процессор 905 разности присоединен к блоку 907 оценки точечного источника звука, который генерирует оценку точечного источника звука в ответ на комбинированное значение разности для мер различия частотно-временного фрагмента для частот, находящихся выше порога частоты. Таким образом, блок 907 оценки точечного источника звука генерирует оценку точечного источника звука посредством комбинации мер различия фрагмента частоты для частот выше заданной частоте. Комбинация, в частности, может представлять собой суммирование или, например, взвешенную комбинацию, которая включает в себя частотно зависимое взвешивание всех мер различия частотно-временных фрагментов выше заданной пороговой частоты.
Тем самым оценка точечного источника звука генерируется для отражения относительной специфической для частоты разности между уровнями выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала фонового шума на данной частоте. Пороговая частота обычно может составлять более 500 Гц.
Авторы изобретения установили, что такая мера обеспечивает верный признак того, содержится ли точечный источник звука в выходном аудиосигнале наступает со сформированной диаграммой направленности. Действительно, они установили, что специфическое для частоты сравнение вместе с ограничением на более высокие частоты на практике обеспечивает улучшенный показатель присутствия точечного источника звука. Кроме того, они установили, что оценка подходит для применения в акустических средах и сценариях, в которых традиционные подходы не обеспечивают точные результаты. В частности, описанный подход может обеспечить эффективное и точное обнаружение точечных источников звука даже для не доминирующих точечных источников звука, которые находятся далеко от массива 301 микрофонов (и вне радиуса реверберации), и в присутствии сильного рассеянного шума.
Во многих вариантах осуществления блок 907 оценки точечного источника звука может быть выполнен с возможностью генерировать оценку точечного источника звука, чтобы просто указать, был ли обнаружен точечный источник звука или нет. В частности, блок 907 оценки точечного источника звука может быть выполнен с возможностью указывать, что в выходном аудиосигнале со сформированной диаграммой направленности было обнаружено присутствие точечного источника звука с комбинированным значением разности, превышающим порог. Таким образом, если сгенерированное комбинированное значение разности указывает, что разность выше заданного порога, тогда считается, что в выходном аудиосигнале со сформированной диаграммой направленности был обнаружен точечный источник звука. Если комбинированное значение разности ниже порога, то считается, что в выходном аудиосигнале со сформированной диаграммой направленности не был обнаружен точечный источник звука.
Таким образом, описанный подход может обеспечить обнаружение с низкой сложностью, включает ли в себя сгенерированный выходной аудиосигнал со сформированной диаграммой направленности точечный источник или нет.
Очевидно, что такое обнаружение может использоваться для многих разных приложений и сценариев и действительно может использоваться многими различными методами.
Например, как упомянуто ранее, оценка/обнаружение точечного источника звука может использоваться выходным процессором 306 при адаптации выходного аудиосигнала. В качестве простого примера, выходной сигнал может быть приглушен, если точечный источник звука не обнаружен в выходном аудиосигнале со сформированной диаграммой направленности. В качестве другого примера работа выходного процессора 306 может быть адаптирована в ответ на оценку точечного источника звука. Например, шумоподавление может быть адаптировано зависимости от вероятности присутствия точечного источника звука.
В некоторых вариантах осуществления оценка точечного источника звука может быть просто обеспечена как выходной сигнал вместе с выходным аудиосигналом. Например, в системе захвата речи точечный источник звука может считаться оценкой присутствия речи, и это может быть обеспечено вместе с аудиосигналом. Устройство распознавания речи может обеспечиваться выходным аудиосигналом, и, например, может быть выполнено с возможностью выполнять распознавание речи, чтобы обнаружить голосовые команды. Устройство распознавания речи может быть выполнено с возможностью выполнять распознавание речи, только когда оценка точечного источника звука указывает, что присутствует источник речи.
Далее будет описан конкретный пример очень эффективного определения оценки точечного источника звука.
В примере формирователь 305 диаграммы направленности может, как описано ранее, адаптироваться для фокусировки на желаемом источнике звука, и, в частности, фокусировки на источнике речи. Он может обеспечить выходной аудиосигнал со сформированной диаграммой направленности, который сфокусирован на источнике, а также сигнал фонового шума, который указывает аудиоинформацию из других источников. Выходной аудиосигнал со сформированной диаграммой направленности обозначен как z(n), и сигнал фонового шума - как x(n). И z(n), и x(n) обычно могут быть загрязнены шумом, например, в частности, рассеянным шумом. Хотя следующее описание сосредоточено на обнаружении речи, очевидно, что оно относится к точечным источникам звука в целом.
Пусть Z(tk, ωl) - (комплексный) первый сигнал в частотной области, соответствующий выходному аудиосигналу со сформированной диаграммой направленности. Этот сигнал состоит из желаемого речевого сигнала Zs(tk, ωl) и сигнала шума Zn(tk,ωl):
Если бы амплитуда была известна, было бы возможно вывести переменную d следующим образом:
что представляет речевую амплитуду .
Второй сигнал в частотной области, т.е., представление в частотной области сигнала фонового шума x(n), может быть обозначен как .
Можно предполагать, что zn(n) and x(n) имеют равные дисперсии, поскольку они оба представляют рассеянный шум и получены посредством сложения (zn) или вычитания (xn) сигналов с равными дисперсиями, из этого следует, что действительные и мнимые части и также имеют равные дисперсии. Таким образом, в приведенном выше уравнении можно заменить на .
В случае, когда речь отсутствует (и, таким образом, ), это приводит к:
где и будут иметь распределение Рэлея, поскольку действительные и мнимые части имеют Гауссовские распределения и независимы.
Математическое ожидание разности двух стохастических переменных равно разности математических ожиданий, и, таким образом, значение математического ожидания приведенной выше меры различия частотно-временного фрагмента будет равно нулю:
Дисперсия разности двух стохастических сигналов равна сумме отдельных дисперсий, и таким образом:
Теперь дисперсия может быть сокращена посредством усреднения и по L независимым значениям в плоскости , что дает
Сглаживание (низкочастотная фильтрация) не изменяет математическое ожидание, таким образом, мы имеем:
Дисперсия разности двух стохастических сигналов равна сумме отдельных дисперсий, и таким образом:
Таким образом, усреднение сокращает дисперсию шума.
Таким образом, среднее значение разности частотно-временных фрагментов, измеренное при отсутствии речи, равно нулю. Однако в присутствии речи среднее значение увеличится. В частности, усреднение по L значениям речевой составляющей будет иметь намного меньший эффект, поскольку все элементы будут положительными и
Таким образом, когда речь присутствует, среднее значение приведенной выше меры различия частотно-временного фрагмента будет больше нуля:
Мера различия частотно-временного фрагмента может быть модифицирована посредством применения конструктивного параметра в форме коэффициента повторного вычитания , который больше 1:
В этом случае среднее значение будет меньше нуля, когда речь будет отсутствовать. Однако коэффициент повторного вычитания может быть выбран таким образом, что среднее значение в присутствии речи будет, как правило, больше нуля.
Чтобы сгенерировать оценку точечного источника звука, меры различия частотно-временных фрагментов для множества частотно-временных фрагментов могут быть комбинированы, например, посредством простого суммирования. Кроме того, комбинация может быть выполнена с возможностью включать в себя только частотно-временные фрагменты для частот, которые выше первого порога, и, возможно, только для частотно-временных фрагментов, которые ниже второго порога.
В частности, оценка точечного источника звука может быть сгенерирована как:
Эта оценка точечного источника звука может указывать количество энергии в выходном аудиосигнале со сформированной диаграммой направленности от желаемого источника речи относительно величины энергии в сигнале фонового шума. Таким образом, это может обеспечить эффективную меру для различения речи и рассеянного шума. В частности, может считаться, что обнаружено наличие источника речи, только если является положительным. Если является отрицательным, считается, что желаемый источник речи не найден.
Следует понимать, что определенная оценка точечного источника звука не только указывает на то, присутствует ли в окружающей среде захвата точечный источник звука или, в частности, источник речи, но, в частности, обеспечивает показатель того, действительно ли он присутствует в выходном аудиосигнале со сформированной диаграммой направленности, т.е., также обеспечивает показатель относительно того, был ли формирователь 305 диаграммы направленности адаптирован к этому источнику.
Действительно, если формирователь 305 диаграммы направленности не полностью сфокусирован на желаемом говорящем, часть речевого сигнала будет присутствовать в сигнале фонового шума x(n). Для адаптивных формирователей диаграммы направленности в документах US 7 146 012 и US 7 602 926 возможно показать, что сумма энергий желаемого источника в сигналах микрофона равна сумме энергий в выходном аудиосигнале со сформированной диаграммой направленности и энергий в сигнале (сигналах) фонового шума. В случае, если лепесток диаграммы направленности не полностью сфокусирован, энергия в выходном аудиосигнале со сформированной диаграммой направленности уменьшится, и энергия в фоновом шуме (шумах) увеличится. Это приведет к значительно более низкому значению для по сравнению с формирователем диаграммы направленности, который полностью фокусирован. Таким образом, может быть реализован надежный дискриминатор.
Очевидно, что хотя приведенное выше описание иллюстрирует предпосылки и преимущества этого подхода системы на фиг. 9, много вариаций и модификаций может быть применено без отступления от подхода.
Очевидно, в других вариантах осуществления могут использоваться другие функции и подходы для определения меры различия, отражающей, например, разность между магнитудами выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала фонового шума. Действительно, использование других норм или применение других функций к нормам могут обеспечить другим оценкам другие свойства, но могут по-прежнему давать в результате меры различия, которые указывают лежащие в основе различия между выходным аудиосигналом со сформированной диаграммой направленности и опорным сигналом фонового шума в заданном частотно-временном фрагменте.
Таким образом, хотя описанные ранее конкретные подходы могут обеспечить эффективные рабочие характеристики во многих вариантах осуществления, в других вариантах осуществления может использоваться много других функций и подходов в зависимости от конкретных характеристик приложения.
В более общем случае мера различия может быть вычислена как:
где f1(x) и f2(x) могут быть выбраны как любые монотонные функции, удовлетворяющие конкретным предпочтениям и требованиям индивидуального варианта осуществления. Обычно функции f1(x) и f2(x) f1 (x) будут монотонно возрастающими или убывающими функциями. Также очевидно, что вместо простого использования магнитуды могут использоваться другие нормы (например, норма L2.
Мера различия частотно-временного фрагмента в приведенном выше примере указывает разность между первой монотонной функцией f1(x) магнитуды (или другой нормы) значения частотно-временного фрагмента первого сигнала в частотной области и второй монотонной функцией f2(x) магнитуды (или другой нормы) значения частотно-временного фрагмента второго сигнала в частотной области. В некоторых вариантах осуществления первая и вторая монотонные функции могут быть разными функциями. Однако в большинстве вариантов осуществления обе функции будут равны.
Кроме того, одна или обе из функций f1(x) и f2(x) могут зависеть от различных других параметров и мер, таких как, например, общий усредненный уровень мощности сигналов микрофонов, частота и т.д.
Во многих вариантах осуществления одна или обе из функций f1(x) и f2(x) могут зависеть от значений сигналов для других частотных фрагментов, например, посредством усреднения одного или более из , , , , или по другим фрагментам в частотном и/или временном измерении (т.е., усреднения значений для переменных индексов k и/или l). Во многих вариантах осуществления может быть выполнено усреднение по соседнему окружению, простирающемуся и во временном, и в частотном измерениях. Конкретные примеры, основанные на приведенных ранее конкретных уравнениях меры различия, будут описаны позже, но очевидно, что соответствующие подходы также могут быть применены к другим алгоритмам или функциям, определяющим меру различия.
Примеры возможных функций для определения меры различия включают в себя, например:
где α и β - конструктивные параметры, и обычно α=β, как, например, в:
;
где - подходящая функцией взвешивания, используемая для обеспечения желаемых спектральных характеристик меры различия и оценки точечного источника звука.
Очевидно, что эти функции являются лишь иллюстративными, и что может быть предусмотрено много других уравнений и алгоритмов для вычисления меры расстояния.
В приведенных выше уравнениях коэффициент представляет коэффициент, который введен, чтобы сместить меру различия к отрицательным значениям. Очевидно, что хотя конкретные примеры вводят это смещение посредством простого масштабного коэффициента, применяемого к частотно-временному фрагменту опорного сигнала фонового шума, возможны многие другие подходы.
Действительно, может использоваться любой подходящий способ разместить первую и вторую функции f1(x) и f2(x), чтобы обеспечить смещение к отрицательным значениям. Смещение представляет собой, в частности, как в предыдущих примерах, уклон, который генерирует ожидаемые значения меры различия, которые являются отрицательными, если речь отсутствует. Действительно, если и выходной аудиосигнал со сформированной диаграммой направленности, и опорный сигнал фонового шума будут содержать только случайный шум (например, значения отсчетов могут быть симметрично и беспорядочно распределены вокруг значения математического ожидания), ожидаемое значение меры различия будет отрицательным, а не нулевым. В предыдущем конкретном примере это было достигнуто посредством коэффициента повторного вычитания , который привел к отрицательным значениям, когда нет речь отсутствует.
Пример детектора 407 точечного источника звука на основе описанных соображений обеспечен на фиг. 11. В примере выходной аудиосигнал со сформированной диаграммой направленности и опорный сигнал фонового шума обеспечиваются первому преобразователю 901 и второму преобразователю 903, которые генерируют соответствующие первый и второй сигналы в частотной области.
Сигналы в частотной области генерируются, например, посредством вычисления оконного преобразования Фурье (STFT), например, накладывающихся обработанных с помощью оконной функции Хеннинга блоков сигнала во временной области. Преобразование STFT является в целом функцией и времени, и частоты и выражается двумя аргументами tk и ωl, где tk=kB является дискретным временем, и где k - индекс кадра, B - смещение кадра, и ωl=l ω0 является (дискретной) частотой, где l - индекс частоты, и ω0 обозначает элементарный шаг по частоте.
После этого преобразования в частотной области тем самым обеспечиваются сигналы в частотной области, представленные векторами и соответственно длины.
Преобразование в частотной области в конкретном примере подается на блоки 1101, 1103 магнитуды, которые определяют и выдают магнитуды двух сигналов, т.е., они генерируют значения
и .
В других вариантах осуществления могут использоваться другие нормы, и обработка может включать в себя применение монотонных функций.
Блоки 1101, 1103 магнитуды присоединены к низкочастотному фильтру 1105, который может сглаживать значения магнитуды. Фильтрация/сглаживание может выполняться во временной области, в частотной области, или часто предпочтительно в обеих из них, т.е. фильтрация может простираться и во временном, и в частотном измерениях.
Сигналы/векторы , и с отфильтрованной магнитудой будет также упоминаться как и .
Фильтр 1105 присоединен к процессору 905 разности, который выполнен с возможностью определять меру различия частотно-временного фрагмента. В качестве конкретного примера процессор 905 разности может генерировать меры различия частотно-временного фрагмента как:
Конструктивный параметр обычно может находиться в диапазоне 1... 2.
Процессор 905 разности присоединен к блоку 907 оценки точечного источника звука, которому подаются меры различия частотно-временных фрагментов, и который в ответ продолжает определять оценку точечного источника звука посредством их комбинации.
В частности, сумма мер различия частотно-временных фрагментов для значений частоты между и может быть определена как:
В некоторых вариантах осуществления это значение может являться выходом из детектора 401 точечного источника звука. В других вариантах осуществления определенное значение может быть сравнено с порогом и использоваться, чтобы генерировать, например, двоичное значение, указывающее, считается ли точечный источник звука обнаруженным или нет. В частности, значение e(tk) может быть сравнено с нулевым порогом, т.е., если значение отрицательное, то считается, что точечный источник звука не был обнаружено, и если положительное, то считается, что точечный источник звука был обнаружено в выходном аудиосигнале со сформированной диаграммой направленности.
В примере детектор 401 точечного источника звука включает в себя низкочастотную фильтрацию/усреднение для значений частотно-временных фрагментов магнитуды выходного аудиосигнала со сформированной диаграммой направленности и для значений частотно-временных фрагментов магнитуды опорного сигнала фонового шума.
Сглаживание, в частности, может быть выполнено посредством выполнения усреднения по соседним значениям. Например, следующая низкочастотная фильтрация может быть применена к первому сигналу в частотной области:
* W(m, n),
где (при N=1) W - матрица размером 3*3 с весовыми коэффициентами 1/9. Очевидно, что в других вариантах осуществления безусловно могут использоваться другие значения N, и, аналогичным образом, могут использоваться разные временные интервалы. Действительно, размер, по которому выполняется фильтрация/сглаживание, может изменяться, например, в зависимости от частоты (например, большее ядро применяется для более высоких частот, чем для более низких частот).
Действительно, очевидно, что фильтрация может быть достигнута посредством применения ядра, имеющего подходящее расширение и в направлении времени (количество рассматриваемых соседних временных кадров), и в направлении частоты (количество рассматриваемых соседних элементов разрешения по частоте), и действительно, что размер ядра, таким образом, может быть различным, например, для разных частот или для разных свойств сигнала.
Кроме того, разные ядра, представленные как W(m,n) в приведенном выше уравнении, могут быть различными, и это аналогичным образом могут быть динамические вариации, например, для разных частот или в ответ на свойства сигнала.
Фильтрация не только сокращает шум и тем самым обеспечивает более точную оценку, но и, в частности, увеличивает дифференциацию между речью и шумом. Действительно, фильтрация окажет в значительной степени более высокое влияние на шум, чем на точечный источник звука, что приводит к большей разности, генерируемой для мер различия частотно-временного фрагмента.
Корреляция между выходным аудиосигналом со сформированной диаграммой направленности и сигналом (сигналами) фонового шума для формирователей диаграммы направленности, таких как формирователь диаграммы направленности на фиг. 1, как было обнаружено, сокращается при увеличении частот. В соответствии с этим оценка точечного источника звука генерируется в ответ только на те меры различия частотно-временных фрагментов для частот, которые выше порога. Это приводит к увеличенной декорреляции и, соответственно, к большей разности между выходным аудиосигналом со сформированной диаграммой направленности и опорным сигналом фонового шума, когда присутствует речь. Это приводит к более точному обнаружению точечных источников звука в выходном аудиосигнале со сформированной диаграммой направленности.
Во многих вариантах осуществления были обнаружены эффективные рабочие характеристики посредством ограничения оценки точечного источника звука, чтобы она была основана на мере различия частотно-временного фрагмента только для частот не ниже 500 Гц, или в некоторых вариантах осуществления преимущественно не ниже 1 кГц или даже 2 кГц.
Однако в некоторых приложениях или сценариях значительная корреляция между выходным аудиосигналом со сформированной диаграммой направленности и опорным сигналом фонового шума может оставаться даже для относительно высоких звуковых частот, и в некоторых сценариях для всего диапазона звуковых частот.
Действительно, в идеальном сферически изотропном рассеянном шумовом поле выходной аудиосигнал со сформированной диаграммой направленности и опорный сигнал фонового шума будут частично коррелированы с тем последствием, что ожидаемые значения и не будут равны, и, таким образом, не может без затруднений быть заменено на .
Это может быть понятно при рассмотрении характеристик идеального сферически изотропного рассеянного шумового поля. Когда два микрофона помещены в такое поле на расстоянии d друг от друга и имеют сигналы микрофонов и соответственно, мы имеем:
и
с волновым числом (c - скорость звука), и дисперсия действительной и мнимой частей и , которые имеют Гауссовские распределения.
Предположим, что формирователь диаграммы направленности является простым формирователем диаграммы направленности с задержкой и суммированием с 2 микрофонами и формирует поперечный лепесток диаграммы направленности (т.е., задержки являются нулевыми).
Мы можем написать:
и для опорного сигнала фонового шума:
Для ожидаемых значений в предположении, что присутствует только шум, мы имеем:
= 4+4
= 4 (1+).
Аналогичным образом, для мы имеем:
Таким образом, для низких частот и не будет равны.
В некоторых вариантах осуществления детектор 401 точечного источника звука может быть выполнен с возможностью компенсировать такую корреляцию. В частности, детектор 401 точечного источника звука может быть выполнен с возможностью определять оценку когерентности шума , которая указывает корреляцию между амплитудой опорного сигнала фонового шума и амплитудой шумовой составляющей выходного аудиосигнала со сформированной диаграммой направленности. Определение мер различия частотно-временных фрагментов тогда может являться функцией этой оценки когерентности.
Действительно, во многих вариантах осуществления детектор 401 точечного источника звука может быть выполнен с возможностью определять когерентность для выходного аудиосигнала со сформированной диаграммой направленности и опорного сигнала фонового шума из формирователя диаграммы направленности на основе отношения между ожидаемыми амплитудами:
где - оператор математического ожидания. Термин когерентности является показателем средней корреляции между амплитудами шумовой составляющей в выходном аудиосигнале со сформированной диаграммой направленности и амплитудами опорного сигнала фонового шума.
Поскольку не зависит от мгновенной аудиоинформации в микрофонах, но вместо этого зависит от пространственных характеристик шумового звукового поля, изменение как функция времени намного меньше, чем изменения во времени Zr и Xn.
В результате может быть оценено относительно точно посредством усреднения и по времени в периоды, когда речь отсутствует. Подход для выполнения этого раскрыт в документе US 7 602 926, который конкретно описывает способ, в котором обнаружение речи не является необходимым для определения .
Очевидно, что для определения оценки когерентности шума может использоваться любой подходящий подход. Например, может быть выполнена калибровка, при которой диктору предписывают не говорить при сравнении первого и второго сигналов в частотной области и при оценке корреляции шума для каждого частотно-временного фрагмента, просто определяемого как среднее отношение значений частотно-временных фрагментов первого сигнала в частотной области и второго сигнала в частотной области. Для идеального сферически изотропного рассеянного шумового поля функция когерентности также может быть аналитически определена в соответствии с описанным выше подходом.
На основе этой оценки может быть заменено на , а не просто на . Это может привести к мерам различия частотно-временных фрагментов, заданным как:
Таким образом, предыдущую меру различия частотно-временного фрагмента можно считать конкретным примером упомянутой выше меры различия с функцией когерентности, установленной равной постоянному значению 1.
Использование функции когерентности может позволить использовать подход на более низких частотах, в том числе на частотах, на которых существует относительно сильная корреляция между выходным аудиосигналом со сформированной диаграммой направленности и опорным сигналом фонового шума.
Очевидно, что подход во многих вариантах осуществления может еще более предпочтительно дополнительно включать в себя адаптивный компенсатор, который выполнен с возможностью устранять составляющую сигнала выходного аудиосигнала со сформированной диаграммой направленности, которая коррелирована по меньшей мере с одним опорным сигналом фонового шума. Например, аналогично примеру на фиг. 1 адаптивный фильтр может иметь опорный сигнал фонового шума в качестве входа и с выходом, вычитаемым из выходного аудиосигнала со сформированной диаграммой направленности. Адаптивный фильтр, например, может быть выполнен с возможностью минимизировать уровень полученного в результате сигнала в течение временных интервалов, в которых не присутствует речь.
Очевидно, что приведенное выше описание для ясности описало варианты осуществления изобретения в отношении различных функциональных схем, блоков и процессоров. Однако очевидно, что любое подходящее распределение функциональности между различными функциональными схемами, блоками или процессорами может использоваться без отступления от изобретения. Например, функциональность, иллюстрированная как выполняемая отдельными процессорами или контроллерами, может быть выполнена одним и тем же процессором или контроллерами. Следовательно, ссылки на конкретные функциональные блоки или схемы предназначены только для того, чтобы они рассматривались как ссылки на подходящие средства для обеспечения описанной функциональности, а не являлись показателем строгой логической или физической структуры или организации.
Изобретение может быть реализовано в любой подходящей форме, в том числе в виде аппаратных средств, программного обеспечения, программируемого оборудования или любой их комбинации. Изобретение в некоторых случаях может быть реализовано по меньшей мере частично как программное обеспечение, работающее на одном или более процессорах и/или процессорах цифровых сигналов. Элементы и компоненты варианта осуществления изобретения могут быть физически, функционально и логически реализованы любым подходящим способом. Действительно, функциональность может быть реализована в единственном блоке, во множестве блоков или как часть других функциональных блоков. Таким образом, изобретение может быть реализовано в единственном блоке или может быть физически и функционально распределено между различными блоками, схемами и процессорами.
Хотя настоящее изобретение было описано в связи с некоторыми вариантами осуществления, не предусматривается, чтобы оно было ограничено конкретной изложенной здесь формой. Объем настоящего изобретения ограничен только сопровождающей формулой изобретения. Дополнительно, хотя может показаться, что отличительные признаки описаны в связи с конкретными вариантами осуществления, специалист в области техники поймет, что различные отличительные признаки описанных вариантов осуществления могут сочетаться в соответствии с изобретением. В формуле изобретения термин "содержит" не исключает присутствие других элементов или этапов.
Кроме того, хотя множество средств, элементов, схем или этапов способов перечисляются индивидуально, они могут быть реализованы, например, посредством единственной схемы, блока или процессора. Дополнительно, хотя отдельные отличительные признаки могут быть включены в разные пункты формулы изобретения, они могут быть успешно объединены, и включение в разные пункты формулы изобретения не подразумевает, что комбинация отличительных признаков не выполнима и/или не успешна. Кроме того, включение отличительного признака в одну категорию пунктов формулы изобретения не подразумевает ограничение для этой категории, а скорее указывает, что отличительный признак при необходимости одинаково применим к другим категориям пунктов формулы изобретения. Кроме того, порядок отличительных признаков в пунктах формулы изобретения не подразумевает какого-либо заданного порядка, в котором должны разрабатываться отличительные признаки, и, в частности, порядок отдельных этапов в пункте формулы изобретения, описывающем способ, не подразумевает, что этапы должны быть выполнены в этом порядке. Вместо этого этапы могут быть выполнены в любом подходящем порядке. Кроме того, упоминания в единственном числе не исключают множество. Таким образом, единственное число, "первый", "второй" и т.д. не предотвращают множество. Знаки для ссылок в пунктах формулы изобретения обеспечены просто в качестве разъяснительного примера, который не должен рассматриваться как какое-либо ограничение объема формулы изобретения.
название | год | авторы | номер документа |
---|---|---|---|
ЗАХВАТ АУДИО С ИСПОЛЬЗОВАНИЕМ ФОРМИРОВАНИЯ ДИАГРАММЫ НАПРАВЛЕННОСТИ | 2018 |
|
RU2751760C2 |
ЗВУКОЗАПИСЬ С ИСПОЛЬЗОВАНИЕМ ФОРМИРОВАНИЯ ДИАГРАММЫ НАПРАВЛЕННОСТИ | 2017 |
|
RU2759715C2 |
ЗВУКОЗАПИСЬ С ИСПОЛЬЗОВАНИЕМ ФОРМИРОВАНИЯ ДИАГРАММЫ НАПРАВЛЕННОСТИ | 2017 |
|
RU2758192C2 |
СИСТЕМА И СПОСОБ ДЛЯ ФОРМИРОВАНИЯ ЛУЧА С ИСПОЛЬЗОВАНИЕМ МИКРОФОННОЙ РЕШЕТКИ | 2005 |
|
RU2369042C2 |
АУДИОСИСТЕМА И СПОСОБ ОПЕРИРОВАНИЯ ЕЮ | 2012 |
|
RU2595943C2 |
УСТРОЙСТВО, СОДЕРЖАЩЕЕ МНОЖЕСТВО АУДИОДАТЧИКОВ, И СПОСОБ ЕГО ЭКСПЛУАТАЦИИ | 2011 |
|
RU2605522C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ СОВМЕЩЕНИЯ ПОТОКОВ ПРОСТРАНСТВЕННОГО АУДИОКОДИРОВАНИЯ НА ОСНОВЕ ГЕОМЕТРИИ | 2012 |
|
RU2609102C2 |
СИСТЕМА И СПОСОБ ДЛЯ ГЕНЕРАЦИИ АУДИОСИГНАЛА | 2011 |
|
RU2595636C2 |
ЭЛЕКТРОННЫЙ АДАПТЕР ДЛЯ СЕЛЕКТИВНОЙ МОДИФИКАЦИИ АУДИО- ИЛИ ВИДЕОДАННЫХ ДЛЯ ИСПОЛЬЗОВАНИЯ С ВЫХОДНЫМ УСТРОЙСТВОМ | 2011 |
|
RU2534958C2 |
ТРАНСКОДИРОВЩИК АУДИО ФОРМАТА | 2010 |
|
RU2519295C2 |
Изобретение относится к акустике. Устройство для приема аудиоинформации содержит: массив микрофонов, один формирователь диаграммы направленности, множество ограниченных формирователей диаграммы направленности, первый адаптер для адаптации параметров диаграммы направленности первого формирователя диаграммы направленности, второй адаптер для адаптации параметров ограниченной диаграммы направленности для множества ограниченных формирователей диаграммы направленности, процессор разности для вычисления разности между ограниченными диаграммами направленности. Второй адаптер выполнен с возможностью адаптировать параметры ограниченной диаграммы направленности с тем ограничением, что параметры ограниченной диаграммы направленности адаптируются только для тех ограниченных формирователей диаграммы направленности из множества ограниченных формирователей диаграммы направленности, для которых была определена мера различия, соответствующая критерию сходства, и причем процессор разности выполнен с возможностью определять меру различия для первого ограниченного формирователя диаграммы направленности как разность между первым набором параметров и ограниченным набором параметров для первого ограниченного формирователя диаграммы направленности. Технический результат – повышение качества звука. 2 н. и 11 з.п. ф-лы, 11 ил.
1. Устройство для захвата аудиоинформации, устройство содержит:
массив (301) микрофонов;
первый формирователь (305) диаграммы направленности, присоединенный к массиву (301) микрофонов и выполненный с возможностью генерировать первый выходной аудиосигнал со сформированной диаграммой направленности;
множество ограниченных формирователей (309, 311) диаграммы направленности, присоединенных к массиву (301) микрофонов и каждый из которых выполнен с возможностью генерировать выходной аудиосигнал со сформированной ограниченной диаграммой направленности;
первый адаптер (307) для адаптации параметров диаграммы направленности первого формирователя (305) диаграммы направленности;
второй адаптер (313) для адаптации параметров ограниченной диаграммы направленности для множества ограниченных формирователей (309, 311) диаграммы направленности;
процессор (317) разности для определения меры различия для по меньшей мере одного из множества ограниченных формирователей (309, 311) диаграммы направленности, причем мера различия указывает различие между лепестками диаграммы направленности, сформированными первым формирователем (305) диаграммы направленности и упомянутым по меньшей мере одним из множества ограниченных формирователей (309, 311) диаграммы направленности;
причем второй адаптер (313) выполнен с возможностью адаптировать параметры ограниченной диаграммы направленности с тем ограничением, что параметры ограниченной диаграммы направленности адаптируются только для тех ограниченных формирователей диаграммы направленности из множества ограниченных формирователей (309, 311) диаграммы направленности, для которых была определена мера различия, соответствующая критерию сходства, и
причем процессор (317) разности выполнен с возможностью определять меру различия для первого ограниченного формирователя (309) диаграммы направленности как разность между первым набором параметров и ограниченным набором параметров для первого ограниченного формирователя (309) диаграммы направленности.
2. Устройство по п. 1, дополнительно содержащее детектор (401) источника звука для обнаружения точечных источников звука во вторых выходных аудиосигналах со сформированной диаграммой направленности и в котором второй адаптер (313) выполнен с возможностью адаптировать параметры ограниченной диаграммы направленности только для тех ограниченных формирователей диаграммы направленности, для которых в выходном аудиосигнале со сформированной ограниченной диаграммой направленности обнаружено присутствие точечного источника звука.
3. Устройство по п. 2, в котором детектор (401) источника звука дополнительно выполнен с возможностью обнаруживать точечные источники звука в первом выходном аудиосигнале со сформированной диаграммой направленности; и устройство дополнительно содержит контроллер (501), выполненный с возможностью устанавливать параметры ограниченной диаграммы направленности для первого ограниченного формирователя (309) диаграммы направленности в ответ на параметры диаграммы направленности первого формирователя (305) диаграммы направленности, если точечный источник звука обнаружен в первом выходном аудиосигнале со сформированной диаграммой направленности, но не в каких-либо выходных аудиосигналах со сформированной ограниченной диаграммой направленности.
4. Устройство по п. 3, в котором контроллер (501) выполнен с возможностью устанавливать параметры ограниченной диаграммы направленности для первого ограниченного формирователя (309) диаграммы направленности в ответ на параметры диаграммы направленности первого формирователя (305) диаграммы направленности, только если мера различия для первого ограниченного формирователя (309) диаграммы направленности превышает порог.
5. Устройство по п. 2, или 3, или 4, в котором детектор (401) источника звука дополнительно выполнен с возможностью обнаруживать источники звука в первом выходном аудиосигнале со сформированной диаграммой направленности; и устройство дополнительно содержит контроллер (501), выполненный с возможностью устанавливать параметры ограниченной диаграммы направленности для первого ограниченного формирователя (309) диаграммы направленности в ответ на параметры диаграммы направленности первого формирователя (305) диаграммы направленности, если точечный источник звука обнаружен в первом выходном аудиосигнале со сформированной диаграммой направленности и во втором выходном аудиосигнале со сформированной диаграммой направленности от первого ограниченного формирователя (309) диаграммы направленности и для первого ограниченного формирователя (309) диаграммы направленности была определена мера различия, которая превышает порог.
6. Устройство по п. 5, в котором множество ограниченных формирователей (309, 311) диаграммы направленности является активным подмножеством ограниченных формирователей диаграммы направленности, выбранным из пула ограниченных формирователей диаграммы направленности, и контроллер (401) выполнен с возможностью увеличивать количество активных ограниченных формирователей диаграммы направленности, чтобы включить в них первый ограниченный формирователь (309) диаграммы направленности, посредством инициализации ограниченного формирователя диаграммы направленности из пула ограниченных формирователей диаграммы направленности с использованием параметров диаграммы направленности первого формирователя (305) диаграммы направленности.
7. Устройство по любому предшествующему пункту, в котором второй адаптер (313) дополнительно выполнен с возможностью адаптировать только параметры ограниченной диаграммы направленности для первого ограниченного формирователя (309) диаграммы направленности, если удовлетворяется критерий, содержащий по меньшей мере одно требование, выбранное из группы:
- требование, чтобы уровень второго выходного аудиосигнала со сформированной диаграммой направленности от первого ограниченного формирователя (309) диаграммы направленности был выше, чем у любого другого второго выходного аудиосигнала со сформированной диаграммой направленности;
- требование, чтобы уровень точечного источника звука во втором выходном аудиосигнале со сформированной диаграммой направленности от первого ограниченного формирователя (309) диаграммы направленности был выше, чем какой-либо точечный источник звука в любом другом втором выходном аудиосигнале со сформированной диаграммой направленности;
- требование, чтобы отношение сигнала к шуму для второго выходного аудиосигнала со сформированной диаграммой направленности от первого ограниченного формирователя (309) диаграммы направленности превышало порог; и
- требование, чтобы второй выходной аудиосигнал со сформированной диаграммой направленности от первого ограниченного формирователя (309) диаграммы направленности содержал речевую составляющую.
8. Устройство по любому предшествующему пункту, в котором скорость адаптации для первого формирователя (305) диаграммы направленности выше, чем для множества ограниченных формирователей (309, 311) диаграммы направленности.
9. Устройство по п. 1, в котором первый формирователь (305) диаграммы направленности и множество ограниченных формирователей (309, 311) диаграммы направленности представляют собой формирователи диаграммы направленности с фильтрацией и комбинацией.
10. Устройство по любому предшествующему пункту, в котором первый формирователь (305) диаграммы направленности является формирователем диаграммы направленности с фильтрацией и комбинацией, содержащим первое множество фильтров диаграммы направленности, каждый из которых имеет первые адаптивные импульсные характеристики, и второй формирователь диаграммы направленности, являющийся ограниченным формирователем диаграммы направленности из множества ограниченных формирователей диаграммы направленности, является формирователем диаграммы направленности с фильтрацией и комбинацией, содержащим второе множество фильтров диаграммы направленности, каждый из которых имеет вторую адаптивную импульсную характеристику; и процессор (317) разности выполнен с возможностью определять меру различия между лепестками диаграммы направленности первого формирователя (303) диаграммы направленности и второго формирователя (305) диаграммы направленности в ответ на сравнение первых адаптивных импульсных характеристик со вторыми адаптивными импульсными характеристиками.
11. Устройство по п. 1, содержащее:
формирователь (305) диаграммы направленности фонового шума, выполненный с возможностью генерировать выходной аудиосигнал со сформированной диаграммой направленности и по меньшей мере один сигнал фонового шума, формирователь диаграммы направленности фонового шума является одним из первого формирователя (305) диаграммы направленности и множества ограниченных формирователей (309, 311) диаграммы направленности;
первый преобразователь (901) для генерирования первого сигнала в частотной области на основе частотного преобразования выходного аудиосигнала со сформированной диаграммой направленности, причем первый сигнал в частотной области представлен значениями частотно-временных фрагментов;
второй преобразователь (903) для генерирования второго сигнала в частотной области на основе частотного преобразования по меньшей мере одного сигнала фонового шума, причем второй сигнал в частотной области представлен значениями частотно-временных фрагментов;
процессор (905) разности, выполненный с возможностью генерировать меры различия частотно-временного фрагмента, причем мера различия частотно-временного фрагмента для первой частоты указывает разность между первой монотонной функцией нормы значения частотно-временного фрагмента первого сигнала в частотной области для первой частоты и второй монотонной функцией нормы значения частотно-временного фрагмента второго сигнала в частотной области для первой частоты;
блок (907) оценки точечного источника звука для генерирования оценки точечного источника звука, указывающей, содержит ли выходной аудиосигнал со сформированной диаграммой направленности точечный источник звука, блок (907) оценки точечного источника звука выполнен с возможностью генерировать оценку точечного источника звука в ответ на комбинированное значение разности для мер различия частотно-временного фрагмента для частот, находящихся выше порога частоты.
12. Устройство захвата аудиоинформации по п. 11, в котором блок (907) оценки точечного источника звука выполнен с возможностью обнаруживать присутствие точечного источника звука в выходном аудиосигнале со сформированной диаграммой направленности в ответ на комбинированное значение разности, превышающее порог.
13. Способ захвата аудиоинформации; причем способ содержит этапы, на которых:
первый формирователь (305) диаграммы направленности, присоединенный к массиву (301) микрофонов, генерирует первый выходной аудиосигнал со сформированной диаграммой направленности;
множество ограниченных формирователей (309, 311) диаграммы направленности, присоединенных к массиву (301) микрофонов, генерируют выходной аудиосигнал со сформированной ограниченной диаграммой направленности;
адаптируют параметры диаграммы направленности первого формирователя (305) диаграммы направленности;
адаптируют параметры ограниченной диаграммы направленности для множества ограниченных формирователей (309, 311) диаграммы направленности;
определяют меру различия для по меньшей мере одного из множества ограниченных формирователей (309, 311) диаграммы направленности, причем мера различия указывает различие между лепестками диаграммы направленности, сформированными первым формирователем (305) диаграммы направленности и упомянутым по меньшей мере одним из множества ограниченных формирователей (309, 311) диаграммы направленности;
причем адаптация параметров ограниченной диаграммы направленности содержит адаптацию параметров ограниченной диаграммы направленности с тем ограничением, что параметры ограниченной диаграммы направленности адаптируются только для тех ограниченных формирователей диаграммы направленности из множества ограниченных формирователей (309, 311) диаграммы направленности, для которых была определена мера различия, которая соответствует критерию сходства, и
причем процессор (317) разности выполнен с возможностью определять меру различия для первого ограниченного формирователя (309) диаграммы направленности как разность между первым набором параметров и ограниченным набором параметров для первого ограниченного формирователя (309) диаграммы направленности.
US 9414159 B2, 09.08.2016 | |||
DE 602006019872 D1, 10.03.2011 | |||
EP 2974367 A1, 20.01.2016 | |||
WO 2015139938 A2, 24.09.2015 | |||
WO 2013169621 A1, 14.11.2013 | |||
WO 1999027522 A2, 03.06.1999 | |||
US 7602926 B2, 13.10.2009. |
Авторы
Даты
2021-11-22—Публикация
2017-12-28—Подача