УРОВЕНЬ ТЕХНИКИ
[0001] Подавление акустического эха (AEC) является проблемой устранения, из сигнала, захваченного микрофоном, сигналов, излучаемых громкоговорителями, которые размещены вблизи микрофона. AEC является важным аспектом двусторонней связи, включающей в себя системы телеконференции, громкоговорящие телефоны и т.п. Сценарий стандартной проблемы включает в себя один громкоговоритель и один микрофон, и традиционным решением является обучение адаптивного фильтра для устранения признаков обратной связи с громкоговорителем. Вследствие важности проблемы, повышение скорости сходимости, обнаружение состояния сходимости, уменьшение вычислительной сложности и т.д. представляют собой области, где продолжает успешно развиваться исследование.
[0002] Недавно приобрел значение второй сценарий, а именно, управление голосом для домашних и автомобильных развлекательных систем. Эти системы обычно имеют многоканальное звуковоспроизведение, например, стерео или 5.1-канальные системы окружающего звука, работающие при довольно высоких уровнях воспроизведения. Пользователь (т.е. требуемый источник звука) может находиться в нескольких метрах от микрофона, и уровни шума могут быть значительными.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0003] Нижеследующее представляет упрощенное изложение сущности изобретения, чтобы предоставить основное понимание некоторых аспектов, описанных в данном документе. Этот раздел «Сущность изобретения» не является исчерпывающим обзором заявленного изобретения. Этот раздел «Сущность изобретения» не предназначен ни для определения ключевых или критических элементов заявленного изобретения, ни для определения объема заявленного изобретения. Исключительной целью данного раздела «Сущность изобретения» является представление некоторых концепций заявленного изобретения в упрощенном виде в качестве вводной части для более подробного описания, которое представлено ниже.
[0004] Вариант осуществления обеспечивает способ оценки импульсной характеристики помещения между аудиоисточником и массивом микрофонов. Способ включает в себя прием аудиосигналов микрофоном из массива микрофонов, причем аудиосигналы соответствуют каждому из микрофонов. Способ также включает в себя определение импульсной характеристики помещения в подпространстве, которое совместимо с геометрией массива микрофонов, основываясь на принимаемых аудиосигналах.
[0005] Другой вариант осуществления обеспечивает способ оценки импульсной характеристики помещения между аудиоисточником и массивом микрофонов. Способ включает в себя прием аудиосигналов микрофоном из массива микрофонов, причем аудиосигналы соответствуют каждому из микрофонов. Способ также включает в себя определение набора сигналов от одиночного источника, поскольку сигналы от одиночного источника попадают на все микрофоны массива микрофонов одновременно, при этом каждый из сигналов от одиночного источника соответствует разному расположению одиночного реального или виртуального источника. Кроме того, способ включает в себя нахождение аппроксимации принимаемого аудиосигнала в виде взвешенной комбинации набора сигналов от одиночного источника. Способ включает в себя оценку импульсной характеристики помещения от аудиоисточника до каждого микрофона из массива микрофонов, причем импульсная характеристика соответствует взвешенной комбинации. Способ завершается подавлением акустического эхо в принимаемом аудиосигнале, используя импульсную характеристику.
[0006] Другой вариант осуществления обеспечивает систему для реализации подавления акустического эха звуковой обратной связи, испытываемой при размещении аудиоисточника и массива микрофонов. Система включает в себя процессор для исполнения исполняемого процессором исполняемого кода, массив микрофонов и запоминающее устройство, которое запоминает исполняемый процессором код. Когда исполняемый процессором код исполняется системным процессором и вызывает прием процессором аудиосигналов микрофоном из массива микрофонов, аудиосигналы соответствуют каждому из микрофонов. Процессор выполнен с возможностью определения набора сигналов от одиночного источника, поскольку сигналы от одиночного источника попадают на все микрофоны из массива микрофонов одновременно, при этом каждый из сигналов от одиночного источника соответствует разному расположению одиночного реального или виртуального источника. Вызывается нахождение процессором аппроксимации принимаемого аудиосигнала в виде взвешенной комбинации набора сигналов от одиночного источника. Процессор выполнен с возможностью оценки импульсной характеристики помещения от аудиоисточника до каждого микрофона из массива микрофонов, причем импульсная характеристика соответствует взвешенной комбинации. Наконец, вызывается подавление процессором акустического эха в принимаемом аудиосигнале, используя импульсную характеристику.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0007] Последующее подробное описание может быть более понятно с ссылкой на прилагаемые чертежи, которые содержат конкретные примеры многочисленных признаков раскрытого изобретения.
[0008] Фиг.1 представляет собой схематическое изображение помещения, где отражения звукового сигнала моделируются как виртуальные мнимые источники.
[0009] Фиг.2 представляет собой блок-схему примера вычислительного устройства, которое может быть использовано для AEC, используя обработку сигналов разреженного массива.
[0010] Фиг.3 представляет модель системы конфигурации массива микрофонов и громкоговорителя.
[0011] Фиг.4 представляет собой схематическое изображение звуковых сигналов, поступающих на плоский, одномерный (1-d) массив.
[0012] Фиг.5 представляет собой блок-схему последовательности операций примерного способа приема аудиосигналов и оценки импульсной характеристики.
[0013] Фиг.6 представляет собой блок-схему последовательности операций примерного способа подавления акустического эха, используя обработку сигналов разреженного массива.
[0014] Фиг.7 представляет собой блок-схему, изображающую материальные, считываемые компьютером запоминающие среды (носители), которые могут хранить инструкции для подавления акустического эха, используя обработку сигналов разреженного массива.
ПОДРОБНОЕ ОПИСАНИЕ
[0015] Рассматривается проблема подавления акустического эха в реверберационном окружении с массивом микрофонов и одним или несколькими громкоговорителями. Подавление эха требует обучения импульсной характеристики от нескольких громкоговорителей к каждому микрофону в массиве микрофонов. Это обычно выполнялось отдельно на каждом микрофоне для каждого громкоговорителя. Однако сигналы, поступающие на массив, совместно используют общую структуру, которая может быть использована для улучшения оценок импульсной характеристики.
[0016] Варианты осуществления, представленные в данном документе, предназначены для оценки исходной передаточной функции помещения (RTF), основанной на калибровочном сигнале. Методики, описанные в данном документе, могут быть расширены на более сложную проблему адаптивных AEC-фильтров, однако, самые последние развернутые массивы микрофонов используют калибровочный сигнал для инициализации фильтров и, впоследствии, для адаптации поднабора коэффициентов фильтра. Настоящие варианты осуществления относятся, но не ограничиваются ей, к более значимой проблеме исходной оценки RTF. Разреженность RTF общеизвестна и использовалась при подавлении эха. См. J. Benesty, et al. “Adaptive algorithms for the identification of sparse impulse responses”, Selected methods for acoustic echo and noise control, vol.5, p.p.125-153, 2006. Также было рассмотрено взаимодействие между лучеобразованием (или пространственной фильтрацией) и подавлением эха. См. W. Herbordt, et al. “Joint optimization of acoustic echo cancellation and adaptive beamforming”, Topics in acoustic echo and noise control, p.p.19-50, 2006. Однако в тех случаях оценка фильтра подавления эха сама не использует преимущество информации массива. Прежние методы вычисляют каждый AEC-фильтр отдельно и не используют структуру массива, как подробно описывается в текущем раскрытии.
[0017] В качестве вступительной части, некоторые из фигур описывают концепции в контексте одного или нескольких конструктивных компонентов, упоминаемых как функциональные возможности, модули, признаки, элементы и т.д. Различные компоненты, показанные на фигурах, могут быть реализованы любым образом, например, посредством программных средств, аппаратных средств (например, дискретных логических компонентов и т.д.), программно-аппаратных средств и т.п., или любой комбинацией этих реализаций. В некоторых вариантах осуществления различные компоненты могут отражать использование соответствующих компонентов в реальных реализации. В других вариантах осуществления любой единственный компонент, изображенный на фигурах, может быть реализован несколькими фактическими компонентами. Изображение любых двух или более отдельных компонентов на фигурах может отражать разные функции, выполняемые единственным фактическим компонентом.
[0018] Другие фигуры описывают концепции в виде блок-схемы последовательности операций. В этом виде некоторые операции описываются как составляющие отдельные блоки, выполняемые в некотором порядке. Такие реализации являются примерными и неограничивающими. Некоторые блоки, описанные в данном документе, могут быть сгруппированы вместе и могут выполняться в одной операции, некоторые блоки могут быть разбиты на множественные составляющие блоки, и некоторые блоки могут выполняться в порядке, который отличается от порядка, который изображен в данном документе, включая параллельное выполнение блоков. Блоки, показанные на блок-схеме последовательности операций, могут быть реализованы посредством программных средств, аппаратных средств, программно-аппаратных средств, ручной обработки и т.п., или любой комбинацией этих реализаций. Как используется в данном документе, аппаратные средства могут включать в себя компьютерные системы, дискретные логические компоненты, такие как специализированные интегральные схемы (ASIC), и т.п., а также любые их комбинации.
[0019] Что касается терминологии, фраза «выполненный с возможностью» охватывает в любом случае, что любой вид конструктивного компонента может быть выполнен для выполнения определенной операции. Конструктивный компонент может быть выполнен с возможностью выполнения операции, используя программные средства, аппаратные средства, программно-аппаратные средства и т.п., или любую их комбинацию.
[0020] Термин «логика» охватывает любую функциональную возможность для выполнения задачи. Например, каждая операция, изображенная на блок-схемах последовательности операций, соответствует логике для выполнения этой операции. Операция может выполняться с использованием программных средств, аппаратных средств, программно-аппаратных средств и т.д., или любой их комбинации.
[0021] Как используется в данном документе, термины «компонент», «система», «клиент» и т.п. предназначены для ссылки на относящийся к компьютеру объект, или аппаратный, или программный (например, при исполнении) и/или программно-аппаратный, или их комбинацию. Например, компонентом может быть процесс, выполняющийся на процессоре, объект, исполняемый файл, программа, функция, библиотека, подпрограмма и/или компьютер или комбинация программных и аппаратных средств. В качестве иллюстрации, как приложение, выполняющееся на сервере, так и сервер могут быть компонентом. Один или несколько компонентов могут находиться в процессе, и компонент может быть локализован на одном компьютере и/или распределен между двумя и более компьютерами.
[0022] Кроме того, заявленное изобретение может быть реализовано как способ, устройство или промышленное изделие, используя стандартные технологии программирования и/или проектирования для создания программных, аппаратных, программно-аппаратных средств или любую их комбинацию, для управления компьютером на реализацию описанного изобретения. Термин «промышленное изделие», как он используется в данном документе, как предполагается, охватывает компьютерную программу, доступную с любого материального считываемого компьютером устройства или сред.
[0023] Считываемые компьютером запоминающие среды могут включать в себя, но не ограничиваются ими, магнитные запоминающие устройства (например, жесткий диск, дискета и магнитные полоски в том числе), оптические диски (например, компакт-диск (CD) и цифровой многофункциональный диск (DVD) в том числе), смарт-карты и устройства флэш-памяти (например, флэш-накопитель в виде карточки, палочки и ключа в том числе). В противоположность этому, считываемые компьютером среды, как правило, (т.е. не запоминающие среды) могут дополнительно включать в себя среды передачи данных, такие как среды передачи для беспроводных сигналов и т.п.
[0024] Варианты осуществления методик, описанных в данном документе, относятся, но не ограничиваются ими, к оценке передаточной функции помещения. Настоящие варианты осуществления рассматривают включение информации о массиве в оценку фильтров подавления эха для достижения требуемого результата подавления акустического эха.
[0025] Фиг.1 представляет собой схематическое изображение помещения 100, где отражения 110 звукового сигнала моделируются как виртуальные мнимые источники 108. Громкоговоритель 102 излучает звуковые волны 104 по всем направлениям, которые реверберируют в помещении 100, отражаясь от стен и других поверхностей перед приемом на массиве 106 микрофонов. Каждое отражение 110 соответствует мнимому источнику 108, который используется в примерах, описанных в данном документе, для моделирования акустики в помещении 100. Принимаемый сигнал на массиве 106 микрофонов представляет собой наложение сигнала, принимаемого по нескольким путям между громкоговорителем 102, передающим сигнал, и приемником на массиве 106 микрофонов.
[0026] Вариант осуществления текущей методики включает в себя алгоритм, который использует структуру 106 массива микрофонов, а также разреженность отражений 110, поступающих на массив, чтобы сформировать оценки импульсной характеристики между каждым громкоговорителем 102 и микрофоном 106. Алгоритм показан для улучшения рабочих характеристик касательно алгоритма согласованного фильтра как по синтетическим, так и по реальным данным. Вариант осуществления использует известную геометрию массива микрофонов для улучшения оценки передаточной функции помещения (RTF) на каждом микрофоне. Это достигается использованием регулярности, которая присутствует в RTF, благодаря тому факту, что все микрофоны находятся в одном и том же помещении, приемом сигналов от одних и тех же громкоговорителей и отражением от одних и тех же препятствий. Хотя изобретатели предполагают, что геометрия массива микрофонов известна, следует отметить, что нет необходимости, чтобы геометрия массивов 106 микрофонов была известна перед сбором сигналов, описанных в данном документе. Другими словами, необязательно знать конфигурацию массива заранее, так как она может быть оценена с использованием принимаемых сигналов. Специалист, знакомый с этой областью техники, знает, как использовать корреляцию и многочисленные принимаемые сигналы для оценки геометрии массива.
[0027] Фиг.2 представляет собой блок-схему примера вычислительного устройства 200, которое может использоваться для AEC, используя обработку сигналов разреженного массива. Вычислительной системой 200 может быть, например, Xbox Kinect®, используемый вместе с платформой Xbox 360® или Xbox One® компании Microsoft®, или подобные устройства захвата аудио. В некоторых вариантах осуществления вычислительным устройством 200 может быть настольный компьютер, например, используемый обозревателем для обеспечения обратной связи. В другом варианте осуществления вычислительная система 200 может быть встроена в дисплей приборной панели и пользовательский интерфейс во многих более новых автомобилях. Вычислительная система 200 может включать в себя процессор 202, который предназначен для исполнения хранимых инструкций, а также устройство 204 памяти, которое хранит инструкции, которые являются исполняемыми процессором 202. Процессором 202 может быть процессор с одним ядром, многоядерный процессор, вычислительный кластер или любое количество других конфигураций. Устройство 204 памяти может включать в себя оперативное запоминающее устройство (RAM) (например, статическое RAM (SRAM), динамическое RAM (DRAM), бесконденсаторное RAM, SONOS (структура кремний-оксид-нитрид-оксид-поликремний), усовершенствованное динамическое RAM (EDRAM), динамическое RAM с увеличенным временем доступности данных (EDO RAM), RAM с удвоенной скоростью обмена (DDR RAM), RAM на основе фазовых переходов (PRAM) и т.п.), постоянное запоминающее устройство (ROM) (например, масочное ROM, программируемое ROM (PROM), стираемое программируемое ROM (EPROM), электрически стираемое программируемое ROM (EEPROM) и т.д.), флэш-память или любые другие подходящие системы памяти. Инструкции, которые исполняются процессором 202, могут использоваться для подавления акустического эха, используя обработку сигналов, основанную на разреженно представленных массивах.
[0028] Процессор 202 может быть соединен посредством системной шины 206 (например, проприетарной шины, шины межсоединений периферийных компонентов (PCI), архитектуры шины промышленного стандарта (ISA), PCI-Express, HyperTransport®, NuBus и т.д.) с интерфейсом 208 устройств ввода/вывода (I/O), предназначенным для подключения вычислительной системы 200 к одному или нескольким устройствам 210 I/O. Устройства 210 I/O могут включать в себя, например, камеру, устройство ввода распознавания жестов, клавиатуру, указательное устройство, устройство распознавания речи и сетевой интерфейс в том числе. Указательное устройство может включать в себя сенсорную панель или сенсорный экран в том числе. В настоящем раскрытии важным устройством I/O является массив 106 микрофонов, который подключается к вычислительной системе 200. Устройства 210 I/O могут представлять собой встроенные компоненты вычислительной системы 200, или могут быть устройствами, которые подключаются внешне к вычислительной системе 200.
[0029] Процессор 202 также может быть связан по системной шине 206 с интерфейсом 212 устройства отображения, предназначенным для подключения вычислительной системы 200 к устройству 214 отображения. Устройство 214 отображения может включать в себя экран отображения, который представляет собой встроенный компонент вычислительной системы 200. Устройство 214 отображения также может включать в себя монитор компьютера, телевизор или проектор в том числе, который подключается внешне к вычислительной системе 200.
[0030] Запоминающее устройство 216 может быть соединено с процессором 202 по шине 206. Запоминающее устройство 216 может включать в себя накопитель на жестком диске, твердотельный накопитель, оптический накопитель, USB-флэш-накопитель, массив накопителей или любую их комбинацию. Запоминающее устройство 216 может включать в себя несколько модулей, выполненный с возможностью реализации подавления акустического эха, используя обработку сигналов разреженного массива, описанную в данном документе. Например, запоминающее устройство 216 может включать в себя модуль 218 подготовки сигнала, выполненный с возможностью подготовки принимаемых сигналов 110 на всех микрофонах массива 106 микрофонов в один большой вектор.
[0031] Запоминающее устройство 216 дополнительно может включать в себя модуль 220 базисного вектора для вычисления базисного вектора, который включает расстояние до источника от массива 106 микрофонов и угол принимаемого сигнала к нему. Для каждого возможного угла и каждого возможного времени задержки, которое может быть вычислено как расстояние, базисный вектор может определяться как сигнал громкоговорителя, если бы он поступал под конкретным углом и с конкретной задержкой к центру массива, суммированный для каждого микрофона массива микрофонов 106. В одном варианте осуществления все возможные углы и задержки дискретизируются и подаются на разреженный решатель до того, как может быть сгенерирована импульсная характеристика, которая подавляет акустическое эхо, испытываемое на массиве 106 микрофонов. Таким образом, принимаемый сигнал становится взвешенной комбинацией нескольких базисных векторов (нескольких, так как возможное количество углов и задержек значительно больше, чем количество углов и задержек, фактически принимаемых на массиве 106 микрофонов).
[0032] Также в запоминающее устройство 106 может быть включен модуль 222 разреженного решателя. Так как существует миллионы углов и задержек, и так как каждый из них необходимо представить базисным вектором, общий размер базисной матрицы является огромным. Каждое возможное расположение должно быть представлено, являются ли эти сигналы, представленные базисным вектором, реальными или виртуальными. Посредством процедуры выпуклой оптимизации модуль 222 разреженного решателя использует взвешенные базисные векторы и определяет весовые коэффициенты минимального значения, которое удовлетворяет конкретной ошибке восстановления. Процедурой оптимизации, например, может быть устранение шума выбором базиса (BPDN), общеизвестный способ для решения проблемы приближенного представления ограничений на разреженность. Разреженный решатель также может включать в себя такие решатели, как решатель SPGL, решатель Matlab™ для регуляризованного метода наименьших квадратов 1-нормы большой размерности, который основывается на операциях матрица-вектор.
[0033] Модуль 224 импульсной характеристики также может быть включен в запоминающее устройство 216. Модуль 224 импульсной характеристики выполнен с возможностью использования весовых коэффициентов базиса, определенных модулем 222 разреженного решателя, и оценки импульсной характеристики от громкоговорителя 102 к каждому микрофону из массива микрофонов 106. Импульсная характеристика может оцениваться с использованием базисного вектора, который соответствует базисному вектору, который вычисляется модулем 220 базисного вектора. Соответствующая базисная матрица также может быть сконфигурирована модулем 224 импульсной характеристики, и вектор из этой базисной матрицы может содержать оценки импульсной характеристики, накопленные в порядке каждого микрофона в массиве микрофонов 106. Запоминающее устройство 216 может, кроме того, включать в себя модуль 226 подавления эха, который использует оценки импульсной характеристики для подавления акустического эха, принимаемого на массиве микрофонов 106. Модуль 226 подавления эха фильтрует принимаемые сигналы на каждом микрофоне и решает проблему AEC.
[0034] Следует понимать, что предполагается, что блок-схема на фиг.2 не указывает, что вычислительная система 200 должна включать в себя все компоненты, показанные на фиг.2. Скорее, вычислительная система 200 может включать в себя меньшее количество компонентов или дополнительные компоненты, не показанные на фиг.2, например, дополнительные приложения, дополнительные модули, дополнительные устройства памяти, дополнительные сетевые интерфейсы (не показаны) и т.п. Кроме того, вычислительная система 200 не ограничивается показанными модулями, так как могут быть реализованы любые комбинации кода, используемого для реализации этих функций.
[0035] Фиг.3 представляет модель системы конфигурации массива микрофонов и громкоговорителя. Во время фазы калибровки обучающий сигнал l(t) воспроизводится на громкоговорителе 302. Изобретатели используют представление дискретного времени и используют n в качестве их временного индекса. Изобретатели, таким образом, обозначают версию дискретного времени l(t) как l[n]. Примерный вариант осуществления использует многочисленные громкоговорители, и эта процедура, возможно, должна повторяться отдельно для каждого громкоговорителя. RTF от громкоговорителя 302 к k-ому микрофону 304 обозначается как hk[n] 306 и, предполагается, что она не изменяется во времени, но адаптация может быть выполнена для отслеживания изменяющихся во времени свойств. Таким образом, сигнал, принимаемый микрофоном k 304, указывается уравнением (1):
(1)
В уравнении (1) m представляет собой фиктивную переменную, используемую для вычисления суммирования, dk[n] представляет собой требуемый сигнал, n представляет собой традиционное представление для временного индекса, и vk[n] представляет собой мешающий шум. Отметьте, что предполагается, что dk[n] равно нулю во время фазы калибровки. Если RTF hk[n] 306 были известны, эхо может просто вычитаться из принимаемого сигнала. Вместо этого, фильтры подавления являются аппроксимациями, которые вычисляются, и которые используются для (частичного) устранения эха из xk[n] вычислением выходного сигнала yk[n], определяемого посредством:
yk[n] = (2)
В уравнении (2) подобные переменные представляют собой те же переменные, которые определены в уравнении (1).
[0036] Когда присутствует только один микрофон и один громкоговоритель, оценка с минимальной среднеквадратической ошибкой RTF известна как «согласованный фильтр», который может быть вычислен как:
(3)
В уравнении (3) ] ссылается на превращенную в белый шум версию l[n], и ссылается на xk[n] после того, как он будет отфильтрован этим же фильтром, используемым для превращения в белый шум сигнала громкоговорителя l[n]. Статистическая процедура превращения в белый шум полезно преобразует данные, так что они имеют единичную ковариационную матрицу, в которой все отсчеты являются статистически независимыми. Фильтр подавления по уравнению (3) представляет собой основное вычисление, по сравнению с которым сравнивается текущий метод подавления эха. Кроме того, оценка каждой RTF, полученной на оценивателе 308 посредством применения многочисленных микрофонов в массиве микрофонов, может быть лучше, чем вышеупомянутый оптимум.
[0037] Фиг.4 представляет собой схематическое изображение звуковых сигналов, поступающих на плоский массив 400. По любому одному пути сигнал имеет задержку распространения до центра массива, которая зависит от длины пути, и (возможно зависимого от частоты) коэффициента усиления, который зависит от характера рассматриваемых отражений 110. Предполагая, что отражение 110 поступает на массив 106 в виде плоской волны, структура принимаемого сигнала вдоль конкретного пути указывается на фиг.4. Для упрощения представления, изобретатели предполагают линейный массив микрофонов и что микрофоны выровнены по оси z, как на фиг.4, и расположены в позициях (z1, z2, … zk) 106. Для плоской волны, падающей на линейный массив 106, если непрерывный временной сигнал в начале координат 402 равен s(t), тогда сигнал на микрофоне, расположенном в zk, равен s(t–т(zk, θ)), где т(zk, θ)=–zk cos(θ)/c, и c представляет собой скорость звука. Другими словами, сигнал, создаваемый на каждом микрофоне 106 плоской волной, является одинаковым за исключением задержки (т), которая зависит только от геометрии массива и направления прихода (θ) 404.
Каждое отражение 110 может соответствовать виртуальному мнимому источнику 108, как указано на фиг.1. В уравнении (4) ниже предполагается сначала, что размеры массива 106 достаточно малы, что формы волны могут аппроксимироваться как плоские, далее предполагается, что каждый отражатель имеет плавное замирание, и, наконец предполагается, что P количество источников (действительных или мнимых) является достаточным для обеспечения аппроксимации поступающего сигнала. Затем при этих предположениях, сигнал, принимаемый на микрофоне k массива микрофонов 106, может быть записан как:
(4)
В уравнении (4) Tp и представляют собой, соответственно, задержку и затухание, испытываемые формой волны p (включая потери на распространение и направленности микрофона и громкоговорителя). Кроме того, c представляет собой скорость звука, включает в себя как фактический шум , так и, возможно, любые немоделируемые составляющие сигнала, и представляет собой угол, образованный сигналом, поступающим по p-ому пути, и осью массива. Ts представляет собой интервал выборки, и zk представляет собой позицию k-го микрофона по оси z, как определено выше. Набор сигналов от одиночного источника может определяться как сигналы от одиночного источника, которые попадают на все микрофоны массива микрофонов одновременно, причем каждый из сигналов от одиночного источника соответствует разному расположению одиночного реального или виртуального источника.
[0038] В уравнение (4) и на фиг.4 предполагается, что массив микрофонов 106 является равномерным и линейно выровненным. Однако эта конфигурация обеспечивает только пример и не требуется реализовывать текущее раскрытие. Действительно, обычно не является необходимым, чтобы массив был линейным. Кроме того, уравнение (4) неявно предполагало, что коэффициент усиления является частотно-независимым, что также не требуется, но предполагается при реализации методов, описанных в данном документе.
[0039] Фиг.5 представляет собой блок-схему последовательности операций примерного способа приема аудиосигналов и оценки импульсной характеристики. Способ 500 начинается в блоке 502, когда аудиосигнал воспроизводится на одном или нескольких громкоговорителях, и соответствующий сигнал принимается на микрофоне из массива микрофонов, возможно загрязненный окружающим шумом. Способ включает в себя этап в блоке 504, где оценивается семейство сигналов, которые могут, возможно, поступать на микрофоны в результате звука, воспроизводимого в громкоговорителе. Способ также включает в себя определение в блоке 506 импульсной характеристики помещения в подпространстве, которое совместимо с геометрией массива микрофонов, основываясь на принимаемых аудиосигналах.
[0040] Блок-схема последовательности операций на фиг.5, как предполагается, не указывает, что этапы способа 500 должны исполняться в каком-либо конкретном порядке, или что все этапы способа 500 должны быть включены в каждом случае. Кроме того, любое количество дополнительных этапов может быть включено в способ 500 в зависимости от конкретного применения.
[0041] Фиг.6 представляет собой блок-схему последовательности операций примера способа 500 для реализации подавления акустического эха, используя обработку сигналов разреженного массива. Способ может быть реализован вычислительным устройством 200, описанным в отношении фиг.2. Способ 600 начинается в блоке 602, где аудиосигналы принимаются на массиве микрофонов. Принимаемые сигналы затем подготавливаются в блоке 604 и представляются как единственный, большой математический вектор. В блоке 606 определяется, что базисный вектор включает в себя сигнал, посылаемый громкоговорителем под многочисленными углами слышимости и с временными задержками, которые соответствуют многим виртуальным источникам. Виртуальные источники или мнимые источники могут быть представлениями большого количества возможных отражений сигнала, которые могут реверберировать в помещении до того, как они будут приняты на массиве микрофонов. Не все из возможных векторов будут проанализированы таким образом, и может предписываться взвешенное построение для обеспечения более легко вычисляемого набора данных.
[0042] Способ, таким образом, продолжается в блоке 608, где принимаемые аудиосигналы, или виртуальные или реальные, интерпретируются как взвешенная функция комбинации нескольких базисных векторов. Базисные векторы и соответствующие весовые коэффициенты могут быть оптимизированы так, чтобы получить в результате наилучшее представление наблюдаемого вектора в некотором требуемом эхо-пространстве. Оптимизация может моделироваться посредством следующего:
(5)
[0043] В уравнении представляет собой вычисленный наилучший весовой вектор (т.е. вектор, который минимизирует выражение в (5)), B представляет собой большую матрицу, описывающую требуемое эхо-пространство и образованную составлением всех индивидуальных базисных векторов; x представляет собой наблюдаемый вектор; и σ представляет собой разрешенную ошибку восстановления. В примерном варианте осуществления σ устанавливается на значение, которое несколько больше среднеквадратического отклонения немоделируемых составляющих. Более конкретно, хотя любое значение σ создает результаты, в данном примере σ устанавливается на σ=βσυ для некоторых β>1, где συ представляет собой среднеквадратическое отклонение шума, и β представляет собой положительное целое число. В другом варианте осуществления β может быть установлено на 1,5.
[0044] Из-за большого количества данных, которые могут представлять звуковые сигналы, вероятно, что матрица B является огромной, и вероятно, что составляет переопределенный базис пространства сигналов. Таким образом, становится необходимым найти эффективные пути решения (5), а также нахождения эффективных путей обработки переопределенности. Это может быть сделано наложением ограничения на разреженность (вставленное в метрику нормы-1, указанную в (5)), и использованием разреженного решателя. Это позволяет сохранять данные в B и выполнять более легкое обращение к ним. В блоке 610 разреженный решатель используется для определения весовых коэффициентов, которые удовлетворяют конкретной ошибке восстановления. Как указано, эта ошибка восстановления идеально может быть немного больше среднеквадратического отклонения немоделируемых составляющих. Ошибкой восстановления, например, может быть число, близкое к ошибке моделирования плюс шум. Процедура очистки также может быть реализована для дополнительного улучшения рабочих характеристик. Очистка повторно вычисляет все коэффициенты wθ,t, найденные в (5) отличными от нуля (или выше некоторого порога), посредством минимизирования значения . Причем представляет собой базисный вектор, соответствующий отражению, поступающему под углом θ с задержкой t, и wθ,t представляет собой весовой коэффициент, связанный с этим базисным вектором (и который был найден отличным от нуля в (5)).
[0045] В блоке 612 импульсная характеристика оценивается от громкоговорителя к каждому микрофону массива микрофонов. Импульсная характеристика соответствует оценке для акустического эха, генерируемого громкоговорителем, и эффективно используется для подавления такого эха, когда оно принимается на массиве микрофонов. Оценка импульсной характеристики может вычисляться, например, в виде следующего вектора:
(6)
В блоке 614 вектор оценки импульсной характеристики по уравнению (6) может использоваться для подавления акустического эха из представления аудиосигналов, принимаемых на всех микрофонах массива микрофонов.
[0046] Блок-схема последовательности операций на фиг.6, как предполагается, не указывает, что этапы способа 600 должны исполняться в каком-либо конкретном порядке, или что все этапы способа 600 должны быть включены в любой случай. Кроме того, любое количество дополнительных этапов может быть включено в способ 600 в зависимости от конкретного применения.
[0047] Фиг.7 представляет собой блок-схему, изображающую материальные, считываемые компьютером запоминающие среды 700, которые могут быть использованы для исполнения AEC, используя обработку сигналов разреженного массива. К материальным, считываемым компьютером запоминающим средам 700 может выполняться обращение процессором 702 по компьютерной шине 704. Кроме того, материальные, считываемые компьютером запоминающие среды 700 могут включать в себя код, предписывающий процессору 702 выполнение этапов методов, описанных в данном документе.
[0048] Материальные, считываемые компьютером запоминающие среды 700 могут включать в себя код 706, выполненный с возможностью предписания процессору 702 приема и обработку аудиосигналов, поступающих на массив микрофонов. Кроме того, материальные, считываемые компьютером запоминающие среды 700 могут включать в себя код 708, выполненный с возможностью предписания процессору 702 содействия выполнению подготовки вектора. Например, код может инструктировать процессор 702 на определение одного единственного большого вектора возможных представлений принимаемого аудиосигнала. Другой блок кода 710 может инструктировать процессор на определение базисного вектора, который может представлять собой комбинацию сигналов виртуального и действительного источника. Блок кода 712 затем может инструктировать процессор 702 на создание взвешенной функции по значениям базисного вектора, чтобы уменьшить количество представительных данных до более управляемого размера. Материальные, считываемые компьютером запоминающие среды 700 также могут включать в себя код 714 для инструктирования процессора 702 на реализацию метода разреженного решателя для наложения ограничения на разреженность на все еще очень большое количество данных, определенных взвешенным базисным вектором. Блок кода в позиции 716 затем может предписывать процессору 702 вычисление оценок импульсной характеристики на каждом микрофоне массива микрофонов. Оценки импульсной характеристики затем могут использоваться посредством блока кода 718 для подавления акустического эха, который обычно генерируется в аудиосистемах, имеющих микрофоны, которые регистрируют задержанные отраженные аудиосигналы.
[0049] Следует понимать, что любое количество дополнительных программных компонентов, не показанных на фиг.7, может быть включено в материальные, считываемые компьютером запоминающие среды 700 в зависимости от конкретного применения. Хотя изобретение было описано на языке, характерном для конструктивных признаков и/или способов, следует понимать, что объем изобретения, определяемый прилагаемой формулой изобретения, необязательно ограничивается конкретными конструктивными признаками или способами, описанными выше. Скорее, конкретные конструктивные признаки и способы, описанные выше, раскрыты в качестве примерных форм реализации формулы изобретения.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ И УСТРОЙСТВО ОЦЕНКИ АУДИОПОМЕХИ | 2013 |
|
RU2651616C2 |
УСТРОЙСТВО ПОДАВЛЕНИЯ АКУСТИЧЕСКОГО ЭХА И ФРОНТАЛЬНОЕ УСТРОЙСТВО КОНФЕРЕНЦСВЯЗИ | 2009 |
|
RU2520359C2 |
АУДИОСИСТЕМА И СПОСОБ ОПЕРИРОВАНИЯ ЕЮ | 2012 |
|
RU2595943C2 |
ТРАНСКОДИРОВЩИК АУДИО ФОРМАТА | 2010 |
|
RU2519295C2 |
ОЦЕНКА НАПРАВЛЕНИЯ ПРИХОДА СИГНАЛА С ИСПОЛЬЗОВАНИЕМ АУДИОСИГНАЛОВ С ВОДЯНЫМИ ЗНАКАМИ И МАССИВА МИКРОФОНОВ | 2012 |
|
RU2575535C2 |
СИСТЕМА, УСТРОЙСТВО И СПОСОБ ДЛЯ СОВМЕСТИМОГО ВОСПРОИЗВЕДЕНИЯ АКУСТИЧЕСКОЙ СЦЕНЫ НА ОСНОВЕ АДАПТИВНЫХ ФУНКЦИЙ | 2015 |
|
RU2663343C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ ПОДАВЛЕНИЯ МНОГОКАНАЛЬНЫХ ВЗАИМНЫХ ПОМЕХ | 2018 |
|
RU2735131C1 |
УСТРОЙСТВО И СПОСОБ ДЛЯ ОБЕСПЕЧЕНИЯ ИНДИВИДУАЛЬНЫХ ЗВУКОВЫХ ЗОН | 2017 |
|
RU2713858C1 |
УСТРОЙСТВО И СПОСОБ ГЕНЕРАЦИИ ВЫХОДНЫХ СИГНАЛОВ НА ОСНОВАНИИ СИГНАЛА АУДИОИСТОЧНИКА, СИСТЕМА ВОСПРОИЗВЕДЕНИЯ ЗВУКА И СИГНАЛ ГРОМКОГОВОРИТЕЛЯ | 2015 |
|
RU2686026C2 |
УПРАВЛЕНИЕ АКУСТИЧЕСКОЙ ЭХОКОМПЕНСАЦИЕЙ ДЛЯ РАСПРЕДЕЛЕННЫХ АУДИОУСТРОЙСТВ | 2020 |
|
RU2818982C2 |
Изобретение относится к акустической метрологии. Способ оценки импульсной характеристики помещения между аудиоисточником и массивом микрофонов состоит из нескольких этапов. Сначала принимают сигналы, оценивают геометрические размеры массива микрофонов, оценивают импульсную характеристику помещения. Для оценки характеристики помещения используется базисный вектор вида
Здесь l(t) - функция непрерывной во времени версии сигнала аудиоисточника; Lx обозначает длительность принимаемого калибровочного сигнала на каждом микрофоне; Ts - интервал выборки; T - задержка распространения от источника до центра массива микрофонов; т - функция zk и θ, где zk - отдельный микрофон массива микрофонов и θ - угол прихода принимаемого сигнала. Технический результат – повышение точности оценки характеристик помещения. 3 н. и 18 з.п. ф-лы, 7 ил.
1. Способ оценки импульсной характеристики помещения между аудиоисточником и массивом микрофонов, содержащий этапы, на которых:
принимают аудиосигналы на микрофоне массива микрофонов, причем аудиосигналы соответствуют каждому из микрофонов;
оценивают геометрию массива микрофонов; и
определяют импульсную характеристику помещения в подпространстве на основе оцененной геометрии массива микрофонов и принимаемых аудиосигналов, при этом принимаемые аудиосигналы должны моделироваться на основе базисного вектора, содержащего интервал выборки, задержку распространения от источника до центра массива микрофонов, отдельный микрофон из массива микрофонов и угол прихода принимаемых аудиосигналов.
2. Способ по п.1, содержащий этап, на котором задают набор сигналов от одиночного источника, поскольку сигналы от одиночного источника попадают на все микрофоны массива микрофонов одновременно, причем каждый из сигналов от одиночного источника соответствует разному расположению реального или виртуального источника.
3. Способ по п.1, содержащий использование импульсной характеристики помещения для инициализации подавления акустического эха.
4. Способ по п.1, содержащий этап, на котором создают аппроксимацию принимаемых аудиосигналов в виде взвешенной комбинации набора сигналов от одиночного источника.
5. Способ по п.4, содержащий этап, на котором используют разреженный решатель для определения весового коэффициента, который удовлетворяет ошибке восстановления.
6. Способ по п.5, в котором весовой коэффициент оптимизируется с использованием методов выпуклой оптимизации.
7. Способ по п.5, в котором ошибка восстановления соответствует ошибке моделирования плюс шум.
8. Способ по п.1, содержащий этап, на котором вычисляют импульсную характеристику в подпространстве, которое совместимо с геометрией массива микрофонов.
9. Способ по п.1, в котором принимаемые аудиосигналы представлены базисными векторами; при этом базисные векторы сконфигурированы для представления реальных или виртуальных мнимых сигналов, которые бы принимались массивом микрофонов от источника без затухания.
10. Способ по п.1, в котором структура принимаемого аудиосигнала моделируется следующим базисным вектором:
,
где l(t) - функция непрерывной во времени версии сигнала аудиоисточника; Lx обозначает длительность принимаемого калибровочного сигнала на каждом микрофоне; Ts - интервал выборки; T - задержка распространения от источника до центра массива микрофонов; т - функция zk и θ, где zk - отдельный микрофон массива микрофонов и θ - угол прихода принимаемого сигнала.
11. Способ по п.1, в котором импульсная характеристика оценивается с использованием методик, которые основываются на алгоритме быстрого преобразования Фурье.
12. Способ по п.1, в котором импульсная характеристика моделируется следующим вектором:
,
где Ts - интервал выборки; T - задержка распространения от источника до центра массива микрофонов; N обозначает длину канала; т - функция zk и θ, где zk - отдельный микрофон массива микрофонов и θ - угол прихода принимаемого сигнала.
13. Способ по п.7, в которой принимаемые аудиосигналы представлены базисными векторами; при этом базисные векторы сконфигурированы для представления реальных или виртуальных мнимых сигналов, которые бы принимались массивом микрофонов от источника без затухания, причем базисные векторы комбинируются для формирования матрицы, которая должна быть решена на основе ограничения на разреженность.
14. Способ оценки импульсной характеристики помещения между аудиоисточником и массивом микрофонов, содержащий этапы, на которых:
принимают аудиосигналы на микрофоне массива микрофонов, причем аудиосигналы соответствуют каждому из микрофонов;
оценивают геометрию массива микрофонов;
задают набор сигналов от одиночного источника, причем сигналы от одиночного источника должны попадать на все микрофоны массива микрофонов одновременно, при этом каждый из сигналов от источника соответствует разному расположению реального или виртуального источника;
находят аппроксимацию принимаемых аудиосигналов в виде взвешенной комбинации набора сигналов от одиночного источника;
оценивают импульсную характеристику помещения от аудиоисточника к каждому из микрофонов массива микрофонов, причем импульсная характеристика соответствует упомянутой взвешенной комбинации и импульсная характеристика помещения основывается, по меньшей мере, на геометрии массива микрофонов и базисном векторе, содержащем интервал выборки, задержку распространения от источника до центра массива микрофонов, отдельный микрофон из массива микрофонов и угол прихода принимаемых аудиосигналов; и
подавляют акустическое эхо от принимаемого аудиосигнала, используя импульсную характеристику.
15. Способ по п.14, в котором структура принимаемого аудиосигнала моделируется следующим базисным вектором:
,
где l(t) - функция непрерывной во времени версии сигнала аудиоисточника; Lx обозначает длительность принимаемого калибровочного сигнала на каждом микрофоне; Ts - интервал выборки; T - задержка распространения от источника до центра массива микрофонов; т - функция zk и θ, где zk - отдельный микрофон массива микрофонов и θ - угол прихода принимаемого сигнала.
16. Способ по п.14, в котором импульсная характеристика моделируется следующим вектором:
,
где Ts - интервал выборки; T - задержка распространения от источника до центра массива микрофонов; N обозначает длину канала; т - функция zk и θ, где zk - отдельный микрофон массива микрофонов и θ - угол прихода принимаемого сигнала.
17. Система для реализации подавления акустического эха звуковой обратной связи, испытываемой в расстановке аудиоисточника и массива микрофонов, содержащая:
процессор для исполнения исполняемого процессором кода;
массив микрофонов; и
запоминающее устройство, которое хранит исполняемый процессором код, при этом исполняемый процессором код при его исполнении процессором предписывает процессору:
принимать аудиосигналы на микрофоне массива микрофонов, причем аудиосигналы соответствуют каждому из микрофонов,
оценивать геометрию массива микрофонов,
задавать набор сигналов от одиночного источника, поскольку сигналы от одиночного источника попадают на все микрофоны массива микрофонов одновременно, при этом каждый из сигналов от одиночного источника соответствует разному расположению реального или виртуального источника,
находить аппроксимацию принимаемых аудиосигналов в виде взвешенной комбинации набора сигналов от одиночного источника,
оценивать импульсную характеристику помещения от аудиоисточника к каждому из микрофонов массива микрофонов, причем импульсная характеристика соответствует упомянутой взвешенной комбинации и импульсная характеристика помещения должна основываться, по меньшей мере, на геометрии массива микрофонов и базисном векторе, содержащем интервал выборки, задержку распространения от источника до центра массива микрофонов, отдельный микрофон из массива микрофонов и угол прихода принимаемых аудиосигналов; и
подавлять акустическое эхо от принимаемого аудиосигнала, используя импульсную характеристику.
18. Система по п.17, в которой взвешенная комбинация набора сигналов от одиночного источника оптимизируется с использованием методов выпуклой оптимизации.
19. Система по п.17, в которой импульсная характеристика оценивается с использованием методик, которые основываются на алгоритме быстрого преобразования Фурье.
20. Система по п.17, в которой структура принимаемого аудиосигнала моделируется следующим базисным вектором:
,
где l(t) - функция непрерывной во времени версии сигнала аудиоисточника; Lx обозначает длительность принимаемого калибровочного сигнала на каждом микрофоне; Ts - интервал выборки; T - задержка распространения от источника до центра массива микрофонов; т - функция zk и θ, где zk - отдельный микрофон массива микрофонов и θ - угол прихода принимаемого сигнала.
21. Система по п.17, в которой импульсная характеристика моделируется следующим вектором:
,
где Ts - интервал выборки; T - задержка распространения от источника до центра массива микрофонов; N обозначает длину канала; т - функция zk и θ, где zk - отдельный микрофон массива микрофонов и θ - угол прихода принимаемого сигнала.
US 2010272274 A1, 28.10.2010 | |||
US 2010278351 A1, 04.11.2010 | |||
US 2011311064 A1, 22.12.2011 | |||
EP 719028 A2, 26.06.1996 | |||
Benesty J | |||
et al | |||
Adaptive Algorithms for the Identification of Sparse Impulse Responses // Topics in Acoustic Echo and Noise Control | |||
Signals and Communication Technology | |||
Springer, Berlin, Heidelberg, 2006 | |||
HERBORDT W | |||
ET AL., "Joint optimization of acoustic echo cancellation and adaptive beamforming", TOPICS IN ACOUSTIC ECHO AND NOISE CONTROL, (2006), pages 19 - 50 | |||
T | |||
Машина для изготовления проволочных гвоздей | 1922 |
|
SU39A1 |
No.00CH37187) 12-15 Dec | |||
ЩИТОВОЙ ДЛЯ ВОДОЕМОВ ЗАТВОР | 1922 |
|
SU2000A1 |
US 6404886 B1, 11.06.2002 | |||
СИСТЕМА И СПОСОБ ДЛЯ ФОРМИРОВАНИЯ ЛУЧА С ИСПОЛЬЗОВАНИЕМ МИКРОФОННОЙ РЕШЕТКИ | 2005 |
|
RU2369042C2 |
US 20110317522 A1, 29.12.2011. |
Авторы
Даты
2019-04-16—Публикация
2014-11-28—Подача