Уровень техники
1. Область техники, к которой относится изобретение
Настоящее изобретение относится к системам и способам обработки многочисленных акустических сигналов и, в частности, к разделению акустических сигналов посредством фильтрации.
2. Введение
Часто обнаружение и реагирование на информационный сигнал в среде с высоким уровнем шума затруднено. При связи, где пользователи часто разговаривают в средах с высоким уровнем шума, желательно отделять речевые сигналы пользователя от фонового шума. Фоновый шум может включать в себя многочисленные шумовые сигналы, создаваемые общей окружающей средой, сигналы, создаваемые фоновыми разговорами других людей, а также отражениями и реверберацией, создаваемыми от каждого из сигналов.
В средах с высоким уровнем шума связь по восходящей линии связи может представлять собой серьезную проблему. Большинство решений данной проблемы с шумом работают только с некоторыми типами шума, таким как стационарный шум, или создают значительные искажения звука, которые могут быть такими же раздражающими для пользователя, как и шумовой сигнал. Все существующие решения имеют недостатки, касающиеся определения расположения источника шума и типа шума, который пытаются подавить.
Задачей данного изобретения является обеспечение средства, которое подавляет все источники шума, независимо от их временных характеристик, расположения или перемещения.
Сущность изобретения
Система, способ и устройство для отделения речевого сигнала от акустической среды с высоким уровнем шума. Процесс отделения может включать в себя фильтрацию источника, которая может быть направленной фильтрацией (формированием луча), слепое разделение источников и подавление шума по методу спектрального вычитания с двумя входами. Входные каналы могут включать в себя два ненаправленных микрофона, выходные сигналы которых обрабатываются с использованием фильтрации по фазовой задержке для формирования форм лучей речи и шума. Кроме того, форма луча может корректироваться по частоте. Операция формирования луча генерирует один канал, который, в основном, представляет собой только шум, и другой канал, который представляет собой комбинацию шума и речи. Алгоритм слепого разделения источников дополняет пространственное разделение статистическими методами. Шумовой сигнал и речевой сигнал затем используются для установления характеристик процесса на шумоподавителе по методу спектрального вычитания с двумя входами (DINS) для эффективного уменьшения или устранения составляющей шума. Таким образом, шум эффективно удаляется из комбинированного сигнала для генерирования речевого сигнала хорошего качества.
Краткий перечень чертежей
Чтобы описать то, как могут быть получены вышеупомянутые и другие преимущества и признаки изобретения, более конкретное описание изобретения, кратко описанного выше, представляется посредством ссылки на его конкретные варианты осуществления, которые изображены на прилагаемых чертежах. Понимая, что эти чертежи изображают только типовые варианты осуществления изобретения и поэтому не должны рассматриваться ограничивающими его объем, изобретение описывается ниже и объясняется с дополнительной специфичностью и подробностями посредством использования прилагаемых чертежей, на которых:
фиг.1 представляет собой вид в перспективе формирователя луча, применяющего фронтальный гиперкардиоидный направленный фильтр для формирования форм луча шума и речи от двух ненаправленных микрофонов;
фиг.2 представляет собой вид в перспективе формирователя луча, применяющего фронтальный гиперкардиоидный направленный фильтр и тыльный кардиоидный направленный фильтр для формирования форм луча шума и речи от двух ненаправленных микрофонов;
фиг.3 представляет собой блок-схему робастного шумоподавителя по методу спектрального вычитания с двумя входами (RDINS) согласно возможному варианту осуществления изобретения;
фиг.4 представляет собой блок-схему фильтра слепого разделения источников (BSS) и шумоподавителя по методу спектрального вычитания с двумя входами (DINS) согласно возможному варианту осуществления изобретения;
фиг.5 представляет собой блок-схему фильтра слепого разделения источников (BSS) и шумоподавителя по методу спектрального вычитания с двумя входами (DINS), который обходит речевой выходной сигнал BSS согласно возможному варианту осуществления изобретения;
фиг.6 представляет собой блок-схему последовательности операций способа оценки статического шума согласно возможному варианту осуществления изобретения;
фиг.7 представляет собой блок-схему последовательности операций способа оценки непрерывного шума согласно возможному варианту осуществления изобретения;
фиг.8 представляет собой блок-схему последовательности операций способа для робастного шумоподавителя по методу спектрального вычитания с двумя входами (RDINS) согласно возможному варианту осуществления изобретения.
Подробное описание изобретения
Дополнительные признаки и преимущества изобретения излагаются в нижеследующем описании и, частично, очевидны из описания или могут быть изучены при практическом осуществлении изобретения. Признаки и преимущества изобретения могут быть реализованы и получены посредством инструментальных средств и комбинаций, конкретно указанных в прилагаемой формуле изобретения. Эти и другие признаки настоящего изобретения станут более очевидными из последующего описания и прилагаемой формулы изобретения или могут быть изучены при практическом осуществлении изобретения, изложенного в данном документе.
Различные варианты осуществления изобретения подробно описаны ниже. Хотя описаны конкретные реализации, необходимо понимать, что это сделано только для целей иллюстрации. Специалист в данной области техники оценит, что могут использоваться другие компоненты и конфигурации без отступления от сущности и объема изобретения.
Изобретение содержит многочисленные варианты осуществления, такие как способ и устройство и другие варианты осуществления, которые относятся к базовым принципам изобретения.
Фиг.1 иллюстрирует примерную схему формирователя 100 луча для формирования форм луча шума и речи от двух ненаправленных микрофонов согласно возможному варианту осуществления изобретения. Два микрофона 110 разнесены друг от друга. Каждый микрофон может принимать прямой или непрямой входной сигнал и может выводить сигнал. Два микрофона 110 являются ненаправленными, так что они принимают звук почти равномерно со всех направлений относительно микрофона. Микрофоны 110 могут принимать акустические сигналы или энергию, представляющие смеси звуков речи и шума, и эти входные сигналы могут преобразовываться в первый сигнал 140, которым преимущественно является речь, и второй сигнал 150, имеющий речь и шум. Хотя это не показано, микрофоны могут включать в себя внутренний или внешний аналого-цифровой преобразователь. Сигналы от микрофонов 110 могут масштабироваться или преобразовываться между временной и частотной областями посредством использования одной или нескольких функций преобразования. Формирование луча может компенсировать разные времена распространения разных сигналов, принимаемых микрофонами 110. Как показано на фиг.1, выходные сигналы микрофонов обрабатываются с использованием фильтрации источников или направленной фильтрации 120, чтобы корректировать частотную характеристику сигналов от микрофонов 110. Формирователь 100 луча применяет фронтальный гиперкардиоидный направленный фильтр 130 для дополнительной фильтрации сигналов от микрофонов 110. В одном варианте осуществления направленный фильтр имеет значения амплитудной и фазовой задержки, которые изменяются с частотой, формируя идеальную форму луча по всем частотам. Эти значения могут отличаться от идеальных значений, которые бы требовались микрофонам, размещенным в свободном пространстве. Разность учитывает геометрию физического помещения, в котором размещены микрофоны. В данном способе разность моментов времени между сигналами из-за пространственной разности микрофонов 110 используется для улучшения сигнала. Более конкретно, вероятно, что один из микрофонов 110 будет ближе к источнику речи (говорящему), тогда как другой микрофон может генерировать сигнал, который является относительно ослабленным. Фиг.2 иллюстрирует примерную схему формирователя 200 луча для формирования форм 240 луча шума 250 и речи от двух ненаправленных микрофонов согласно возможному варианту осуществления изобретения. Формирователь 200 луча добавляет тыльный кардиоидный направленный фильтр 260 для дополнительной фильтрации сигналов от микрофонов 110.
Ненаправленные микрофоны 110 принимают звуковые сигналы приблизительно в равной степени с любого направления вокруг микрофона. Воспринимающая диаграмма (не показана) показывает мощность принимаемого сигнала с приблизительно равной амплитудой со всех направлений вокруг микрофона. Таким образом, электрический выходной сигнал с микрофона является одинаковым независимо от того, с какого направления звук достигает микрофона.
Воспринимающая диаграмма направленности фронтального гиперкардиоида 230 обеспечивает более узкий угол первичной чувствительности по сравнению с кардиоидной диаграммой направленности. Кроме того, гиперкардиоидная диаграмма направленности имеет две точки минимальной чувствительности, расположенные приблизительно на +-140 градусов от фронтального направления. Как таковая, гиперкардиоидная диаграмма направленности подавляет звук, принимаемый как с боковых сторон, так и с тыльной стороны микрофона. Поэтому гиперкардиоидные диаграммы направленности наилучшим образом подходят для выделения инструментов и вокалистов как от окружения помещения, так и друг от друга.
Воспринимающая диаграмма направленности в виде обращенной к тылу кардиоиды или тыльной кардиоиды 260 (не показана) является направленной, обеспечивающей полную чувствительность, когда источник звука находится с тыльной стороны пары микрофонов. Звук, принимаемый с боковых сторон пары микрофонов, имеет примерно половинный выходной сигнал, и звук, появляющийся впереди пары микрофонов, по существу, ослабляется. Эта тыльная кардиоидная диаграмма направленности создается так, что нуль виртуального микрофона направлен на требуемый источник речи (на говорящего).
Во всех случаях лучи образуются посредством фильтрации одного ненаправленного микрофона фильтром по фазовой задержке, выходной сигнал которого затем суммируется с сигналом другого ненаправленного микрофона, устанавливая расположение нулей, и затем корректирующим фильтром для коррекции частотной характеристики результирующего сигнала. Отдельные фильтры, содержащие соответствующую зависимую от частоты задержку, используются для создания кардиоидной 260 и гиперкардиоидной 230 характеристик. Альтернативно, лучи могут создаваться созданием сначала лучей с обращенной по фронту и в тыл кардиоидой, используя вышеупомянутый процесс, суммированием кардиоидного сигнала для создания виртуального ненаправленного сигнала и взятием разности сигналов для создания двунаправленного или дипольного фильтра. Виртуальные ненаправленные и дипольные сигналы объединяются с использованием уравнения 1 для получения гиперкардиоидной характеристики.
Гиперкардиоидный=0,25*(ненаправленный+3*дипольный) Уравнение 1
Альтернативный вариант осуществления использует капсюли одноэлементного гиперкардиоидного и кардиоидного микрофона с фиксированной направленностью. Это устраняет необходимость этапа формирования луча при обработке сигнала, но ограничивает адаптируемость системы тем, что изменение формы луча с одного пользовательского режима в устройстве на другое будет более трудным, и действительно ненаправленный сигнал не будет доступен для другой обработки в устройстве. В данном варианте осуществления фильтром источника может быть или частотно корректирующий фильтр, или простой фильтр с полосой пропускания, которая уменьшает внеполосный шум, такой как фильтр верхних частот, фильтр нижних частот для защиты от наложения спектров или полосовой фильтр.
Фиг.3 иллюстрирует примерную схему робастного шумоподавителя по методу спектрального вычитания с двумя входами (RDINS) согласно возможному варианту осуществления изобретения. Сигнал 240 оценки речи и сигнал 250 оценки шума подаются в качестве входных сигналов на RDINS 305 для использования разности спектральных характеристик речи и шума для подавления составляющей шума речевого сигнала 140. Алгоритм для RDINS 305 лучше объясняется со ссылкой на способы 600-800.
Фиг.4 иллюстрирует примерную схему системы 400 подавления шума, которая использует фильтр слепого разделения источников (BSS) и шумоподавитель по методу спектрального вычитания с двумя входами (DINS) для обработки форм лучей речи 140 и шума 150. Формы лучей шума и речи были скорректированы по частотной характеристике. Фильтр 410 слепого разделения источников (BSS) удаляет оставшийся речевой сигнал из шумового сигнала. Фильтр 410 BSS может создавать только очищенный шумовой сигнал 420 или очищенные шумовой и речевой сигналы (420, 430). BSS может представлять собой односекционный фильтр BSS, имеющий два входа (речь и шум) и требуемое количество выходов. Двухсекционный фильтр BSS будет иметь две ступени BSS, каскадно включенные или соединенные вместе с требуемым количеством выходов. Фильтр слепого разделения источников разделяет сигналы смешанных источников, которые, предположительно, являются статистически независимыми друг от друга. Фильтр 410 слепого разделения источников применяет матрицу разложения смеси весовых коэффициентов на смешанные сигналы посредством умножения матрицы на смешанные сигналы для получения разделенных сигналов. Весовым коэффициентам в матрице назначаются начальные значения, и они подстраиваются, чтобы минимизировать информационную избыточность. Эта подстройка повторяется до тех пор, пока информационная избыточность выходных сигналов 420, 430 не будет уменьшена до минимума. Так как этот метод не требует информации об источнике каждого сигнала, он упоминается как слепое разделение источников. Фильтр 410 BSS статистически удаляет речь из шума, чтобы получить шумовой сигнал 420 с ослабленной речью. Блок 440 DINS использует шумовой сигнал 420 с ослабленной речью для удаления шума из речи 430, чтобы получить речевой сигнал 460, который, по существу, свободен от шума. Блок 440 DINS и фильтр 410 BSS могут быть интегрированы в виде одного блока 450 или могут быть разделены в виде дискретных компонентов.
Речевой сигнал 140, обеспечиваемый обработанными сигналами от микрофонов 110, подаются в качестве входного сигнала на фильтр 410 слепого разделения источников, в котором обработанный речевой сигнал 430 и шумовой сигнал 420 выводятся на DINS 440, причем обработанный речевой сигнал 430 состоит полностью или, по меньшей мере в основном, из голоса пользователя, который был отделен от окружающего звука (шума) под действием алгоритма слепого разделения источников, осуществляемого в фильтре 410 BSS. Такая обработка сигнала BSS использует тот факт, что звуковые смеси, воспринимаемые микрофоном, ориентированным по направлению к среде, и микрофоном, ориентированным к говорящему, состоят из разных смесей окружающего звука и голоса пользователя, которые являются разными в отношении отношения амплитуд этих вкладов или источников двух сигналов и в отношении разности фаз этих вкладов двух сигналов в смеси.
Блок 440 DINS дополнительно улучшает обработанный речевой сигнал 430 и шумовой сигнал 420, шумовой сигнал 420 используется в качестве оценки шума блока 440 DINS. Результирующая оценка 420 шума должна содержать сильно ослабленный речевой сигнал, так как остатки требуемого речевого 460 сигнала будут неблагоприятными для процедуры улучшения речи и, таким образом, понизят качество выходного сигнала.
Фиг.5 иллюстрирует примерную схему системы 500 подавления шума, которая использует фильтр слепого разделения источников (BSS) и шумоподавитель по методу спектрального вычитания с двумя входами (DINS) для обработки форм лучей речи 140 и шума 150. Оценка шума блока 440 DINS представляет собой все же обработанный шумовой сигнал от фильтра 410 BSS. Речевой сигнал 430, однако, не обрабатывается фильтром 410 BSS.
Фиг.6-8 представляют собой примерные блок-схемы последовательности операций, иллюстрирующие некоторые из основных этапов для определения оценок статического шума для способа робастного шумоподавителя по методу спектрального вычитания с двумя входами (RDINS) согласно возможному варианту осуществления раскрытия.
Когда BSS не используется, выходной сигнал направленной фильтрации (240, 250) может подаваться непосредственно на шумоподавитель с двойным каналом (DINS), к сожалению, обращенная в тыл кардиоидная диаграмма 260 направленности размещает только частичный нуль на требуемого говорящего, что приводит только к подавлению 3 дБ - 6 дБ требуемого говорящего в оценке шума. Для блока 440 DINS самого по себе эта величина просачивания речи вызывает неприемлемые искажения речи после того, как она будет обработана. RDINS представляет собой версию DINS, разработанную так, чтобы она была более робастной к этому просачиванию речи в оценке 250 шума. Эта робастность достигается использованием двух отдельных оценок шума; одна представляет собой оценку непрерывного шума от направленной фильтрации, и другая представляет собой оценку статического шума, которая также может использоваться в шумоподавителе с одним каналом.
Способ 600 использует луч 240 речи. Оценка непрерывной речи получается из луча 240 речи, оценка получается в течение как речевых интервалов, так и свободных от речи интервалов. Уровень энергии оценки речи вычисляется на этапе 610. На этапе 620 детектор активности речи используется для обнаружения свободных от речи интервалов в оценке речи для каждого кадра. На этапе 630 сглаженная оценка статического шума формируется из свободных от речи интервалов в оценке речи. Эта оценка статического шума не содержит речи, так как она является фиксированной в течение требуемой вводимой речи; однако это означает, что оценка шума не захватывает изменений в течение нестационарного шума. На этапе 640 вычисляется энергия оценки статического шума. На этапе 650 статическое отношение сигнала к шуму вычисляется из энергии непрерывного речевого сигнала 615 и энергии оценки статического шума. Этапы 620-650 повторяются для каждой подполосы.
Способ 700 использует оценку 250 непрерывного шума. На этапе 710 оценка непрерывного шума получается из луча 250 шума, оценка получается в течение как речевых интервалов, так и свободных от речи интервалов. Эта оценка 250 непрерывного шума содержит просачивание речи от требуемого говорящего из-за несовершенного нуля. На этапе 720 вычисляется энергия для оценки шума для подполосы. На этапе 730 вычисляется непрерывное отношение сигнала к шуму для подполосы.
Способ 800 использует вычисленное отношение сигнала к шуму оценки непрерывного шума и вычисленное отношение сигнала к шуму оценки статического шума для определения подавления шума для использования. На этапе 810, если непрерывный SNR (отношение сигнала к шуму) больше первого порога, управление передается на этап 820, где подавление устанавливается равным непрерывному SNR. Если на этапе 810 непрерывный SNR не больше первого порога, управление передается на действие 830. В действии 830, если непрерывный SNR меньше второго порога, управление передается на этап 840, где подавление устанавливается на статический SNR. Если непрерывное SNR не меньше второго порога, тогда управление передается на этап 850, где используется подавитель средневзвешенного шума. Средневзвешенное представляет собой среднее статического и непрерывного SNR. Для подполос с меньшим SNR (нет речи/слабая речь относительно шума) оценка непрерывного шума используется для определения величины подавления, так что она является эффективной в течение нестационарного шума. Для подполос с более высоким SNR (сильная речь относительно шума), когда просачивание преобладает в оценке непрерывного шума, используется оценка статического шума для определения величины подавления для предотвращения просачивания речи, вызывающего переподавление и искажение речи. Во время среднего SNR подполосы объединяют две оценки для получения мягкого перехода переключения между вышеупомянутыми двумя случаями. На этапе 860 вычисляется коэффициент усиления канала. На этапе 870 коэффициент усиления канала применяется к оценке речи. Этапы повторяются для каждой подполосы. Коэффициенты усиления канала затем применяются таким же образом, что и для DINS, так что каналы, которые имеют высокое SNR, пропускаются, тогда как каналы с низким SNR ослабляются. В данной реализации форма волны речи восстанавливается добавлением с перекрытием оконного быстрого обратного преобразования Фурье (IFFT).
На практике устройство двусторонней связи может содержать многочисленные варианты осуществления данного изобретения, которые переключаются в зависимости от режима использования. Например, операция формирования луча, описанная на фиг.1, может объединяться с этапом BSS и DINS, описанным на фиг.4, для случая использования с близким говорящим или в индивидуальном режиме, тогда как в режиме без поднятия трубки или громкой связи формирователь луча на фиг.2 может объединяться с RDINS по фиг.3. Переключение между этими режимами работы может запускаться одной или несколькими реализациями, известными в технике. В качестве примера, а не ограничения, способ переключения может выполняться посредством логического решения, основанного на близости, на магнитном или электрическом переключателе, или любым эквивалентным способом, не описанным в данном документе.
Варианты осуществления в пределах объема настоящего изобретения также могут включать в себя компьютерно-читаемый носитель для переноса или содержания исполняемых компьютером инструкций или структур данных, хранимых на нем. Такой компьютерно-читаемый носитель может быть любым доступным носителем, к которому может обращаться компьютер общего назначения или специального назначения. В качестве примера, а не ограничения, такой компьютерно-читаемый носитель может содержать оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), электрически стираемое программируемое постоянное запоминающее устройство (EEPROM), компакт-диск или другое запоминающее устройство на оптическом диске, запоминающее устройство на магнитном диске или другие магнитные запоминающие устройства, или любой другой носитель, который может использоваться для переноса или хранения требуемого средства программного кода в виде исполняемых компьютером инструкций или структур данных. Когда информация переносится или предоставляется по сети или по другому соединению связи (или проводному, или беспроводному, или их комбинации) на компьютер, компьютер надлежащим образом рассматривает соединение в качестве считываемой компьютером среды. Таким образом, любое такое соединение правильно называется компьютерно-читаемым носителем. Комбинации вышеупомянутого также должны быть включены в объем понятия компьютерно-читаемый носитель.
Исполняемые компьютером инструкции, например, включают в себя инструкции и данные, которые вызывают выполнение компьютером общего назначения, компьютером специального назначения или устройством обработки специального назначения некоторой функции или группы функций. Исполняемые компьютером инструкции также включают в себя программные модули, которые исполняются компьютерами в автономной или сетевой средах. Как правило, программные модули включают в себя подпрограммы, программы, объекты, компоненты и структуры данных и т.д., которые выполняют конкретные задачи или реализуют конкретные типы абстрактных данных. Исполняемые компьютером инструкции, ассоциированные структуры данных и программные модули представляют примеры средства программного кода для исполнения этапов способов, описанных в данном документе. Конкретная последовательность таких исполняемых инструкций или ассоциированных структур данных представляет примеры соответствующих действий для реализации функций, описанных в таких этапах.
Хотя вышеупомянутое описание может содержать конкретные подробности, они не должны каким бы то ни было образом толковаться как ограничивающие формулу изобретения. Другие конфигурации описанных вариантов осуществления изобретения являются частью объема данного изобретения. Например, принципы изобретения могут быть применены к каждому индивидуальному пользователю, где каждый пользователь может индивидуально развертывать такую систему. Это позволяет каждому пользователю использовать преимущества изобретения, даже если любому одному из большого количества возможных применений не требуется функциональная возможность, описанная в данном документе. Другими словами, могут существовать многочисленные экземпляры способа и устройств по фиг.1-8, каждый из которых обрабатывает содержимое различными возможными путями. Необязательно, чтобы была одна система, используемая всеми конечными пользователями. Следовательно, прилагаемая формула изобретения и ее законные эквиваленты должны только определять изобретение, а не любые конкретные приведенные примеры.
название | год | авторы | номер документа |
---|---|---|---|
ПОВЫШЕНИЕ РАЗБОРЧИВОСТИ РЕЧИ С ИСПОЛЬЗОВАНИЕМ НЕСКОЛЬКИХ МИКРОФОНОВ НА НЕСКОЛЬКИХ УСТРОЙСТВАХ | 2009 |
|
RU2456701C2 |
СРЕДСТВО ОБНАРУЖЕНИЯ ГОЛОСОВОЙ АКТИВНОСТИ С ИСПОЛЬЗОВАНИЕМ НЕСКОЛЬКИХ МИКРОФОНОВ | 2008 |
|
RU2450368C2 |
ИНТЕЛЛЕКТУАЛЬНАЯ ГРАДИЕНТНАЯ СИСТЕМА ШУМОПОДАВЛЕНИЯ | 2008 |
|
RU2461081C2 |
ВЫДЕЛЕНИЕ СИГНАЛА ВСЛЕПУЮ | 2006 |
|
RU2417460C2 |
Микрофонная маска | 1987 |
|
SU1418925A1 |
СПОСОБ УЛУЧШЕНИЯ КАЧЕСТВА РЕЧИ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2005 |
|
RU2391778C2 |
УЛУЧШЕНИЕ СИГНАЛА ВЕКТОРА БЛИЖНЕГО ПОЛЯ | 2007 |
|
RU2434262C2 |
СПОСОБ ПОСТРОЕНИЯ ЭЛЕКТРОННОЙ ГОРТАНИ | 2006 |
|
RU2318475C1 |
НИЗКОЧАСТОТНОЕ УСТРОЙСТВО ГРОМКОГОВОРИТЕЛЯ С КОНФИГУРИРУЕМОЙ НАПРАВЛЕННОСТЬЮ | 2003 |
|
RU2323550C2 |
СПОСОБ (ВАРИАНТЫ) ФИЛЬТРАЦИИ ЗАШУМЛЕННОГО РЕЧЕВОГО СИГНАЛА В УСЛОВИЯХ СЛОЖНОЙ ПОМЕХОВОЙ ОБСТАНОВКИ | 2015 |
|
RU2580796C1 |
Изобретение относится к разделению акустических сигналов посредством фильтрации. Технический результат изобретения заключается в эффективном подавлении источников шума независимо от их временных характеристик, расположения или перемещения. Процесс отделения может включать в себя направленную фильтрацию, слепое разделение источников и шумоподавитель по методу спектрального вычитания с двумя входами. Входные каналы могут включать в себя два ненаправленных микрофона, выходной сигнал которых обрабатывается с использованием фильтрации по фазовой задержке для формирования форм луча речи и шума. Кроме того, формы луча могут корректироваться по частоте. Ненаправленные микрофоны генерируют один канал, который представляет собой, по существу, только шум, и другой канал, который представляет собой объединение шума и речи. Алгоритм слепого разделения источников дополняет направленное разделение посредством статистических методов. Сигнал шума и сигнал речи затем используются для установления характеристик процесса на шумоподавителе по методу спектрального вычитания с двумя входами (DINS), чтобы эффективно уменьшать или устранять составляющую шума. Таким образом, шум эффективно удаляется из комбинированного сигнала для генерирования речевого сигнала хорошего качества. 5 н. и 32 з.п. ф-лы, 8 ил.
1. Система шумоподавления посредством отделения речевого сигнала от акустической среды с высоким уровнем шума, причем система содержит:
множество входных каналов, причем каждый принимает один или более акустических сигналов;
по меньшей мере один фильтр источника, предназначенный для разделения одного или более акустических сигналов на лучи речи и шума, при этом фильтр источника содержит по меньшей мере один гиперкардиоидный направленный фильтр;
по меньшей мере один фильтр слепого разделения источников (BSS), причем фильтр слепого разделения источников действует для улучшения лучей речи и шума; и
по меньшей мере один шумоподавитель по методу спектрального вычитания с двумя входами (DINS), причем шумоподавитель по методу спектрального вычитания с двумя входами удаляет шум из луча речи.
2. Система по п.1, в которой фильтр источника использует фильтрацию по фазовой задержке для формирования лучей речи и шума.
3. Система по п.2, в которой лучи речи и шума корректируются по частотной характеристике фильтром источника.
4. Система по п.1, в которой улучшенные лучи речи и шума от фильтра слепого разделения источников (BSS) подаются на шумоподавитель по методу спектрального вычитания с двумя входами (DINS).
5. Система по п.1, в которой улучшенный луч шума от фильтра слепого разделения источников (BSS) и луч речи от фильтра источника подаются на шумоподавитель по методу спектрального вычитания с двумя входами (DINS).
6. Система по п.1, причем система дополнительно содержит
каскадное включение двух фильтров слепого разделения источников (BSS);
при этом входным сигналом каскадного включения являются лучи речи и шума от фильтра источника;
причем выходной сигнал каскадного включения подается на шумоподавитель по методу спектрального вычитания с двумя входами (DINS).
7. Система шумоподавления, причем система содержит
множество ненаправленных микрофонов, каждый из которых принимает один или более акустических сигналов;
первый направленный фильтр для создания сигнала оценки речи из одного или более акустических сигналов;
второй направленный фильтр для создания сигнала оценки шума из одного или более акустических сигналов; и
по меньшей мере один робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) для создания речевого сигнала с ослабленным шумом из созданного сигнала оценки речи и созданного сигнала оценки шума.
8. Система по п.7, в которой первый направленный фильтр создает гиперкардиоидную характеристику и второй направленный фильтр создает кардиоидную характеристику.
9. Система по п.7, в которой робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) вычисляет оценку статического шума из сигнала оценки речи и робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) вычисляет оценку непрерывного шума из сигнала оценки шума.
10. Система по п.9, в которой робастный шумоподавитель по методу спектрального вычитания с двумя входами (RD1NS) применяет оценку непрерывного шума, когда отношение сигнала оценки непрерывного шума к шуму выше первого порога.
11. Система по п.10, в которой робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) применяет оценку статического шума, когда отношение сигнала оценки непрерывного шума к шуму ниже второго предела.
12. Система по п.11, в которой робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) применяет оценку средневзвешенного шума, когда отношение сигнала оценки непрерывного шума к шуму выше второго порога, но ниже первого порога.
13. Электронное устройство для шумоподавления, содержащее
пару ненаправленных микрофонов для приема одного или более акустических сигналов; причем сигнал от ненаправленных микрофонов категоризируется как преобладающе речевой сигнал и преобладающе шумовой сигнал; и
по меньшей мере один процессор сигналов для обработки преобладающе речевого сигнала и преобладающе шумового сигнала для создания речевого сигнала с подавленным шумом, содержащий
по меньшей мере один фильтр источника, причем фильтр источника разделяет один или более акустических сигналов на лучи речи и шума;
по меньшей мере один фильтр слепого разделения источников (BSS), причем фильтр слепого разделения источников действует для улучшения лучей речи и шума;
по меньшей мере один шумоподавитель по методу спектрального вычитания с двумя входами (DINS), предназначенный для создания речевого сигнала, который по существу, свободен от шума, посредством обработки улучшенных лучей речи и шума с использованием одного из разделенных лучей речи и шума от по меньшей мере одного фильтра источника.
14. Электронное устройство по п.13, в котором фильтр источника использует фильтрацию по фазовой задержке для формирования лучей речи и шума.
15. Электронное устройство по п.14, в котором лучи речи и шума корректируются по частотной характеристике фильтром источника.
16. Электронное устройство по п.13, в котором улучшенные лучи речи и шума от фильтра слепого разделения источников (BSS) подаются на шумоподавитель по методу спектрального вычитания с двумя входами (DINS).
17. Электронное устройство по п.13, в котором улучшенный луч шума от фильтра слепого разделения источников (BSS) и луч речи от фильтра источника подаются на шумоподавитель по методу спектрального вычитания с двумя входами (DINS).
18. Электронное устройство по п.13, причем электронное устройство дополнительно содержит
каскадное включение двух фильтров слепого разделения источников (BSS);
причем входной сигнал на каскадное включение представляет собой лучи речи и шума от фильтра источника;
причем выходной сигнал каскадного включения подается на шумоподавитель по методу спектрального вычитания с двумя входами (DINS).
19. Электронное устройство по п.13, в котором оценка речи создается посредством фронтальной гиперкардиоидной диаграммы направленности, при этом оценка шума создается посредством тыльной кардиоидной диаграммы направленности.
20. Электронное устройство по п.19, причем по меньшей мере один процессор сигналов дополнительно содержит
по меньшей мере один робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) для создания речевого сигнала с ослабленным шумом из созданного сигнала оценки речи и сигнала оценки шума.
21. Электронное устройство по п.20, в котором робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) вычисляет оценку непрерывного шума из сигнала оценки шума.
22. Электронное устройство по п.21, в котором робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) вычисляет оценку статического шума из сигнала оценки речи.
23. Электронное устройство по п.22, в котором робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) применяет оценку непрерывного шума, когда отношение сигнала оценки непрерывного шума к шуму выше первого порога.
24. Электронное устройство по п.23, в котором робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) применяет оценку статического шума, когда отношение сигнала оценки непрерывного шума к шуму ниже второго порога.
25. Электронное устройство по п.24, в котором робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) применяет оценку средневзвешенного шума, когда отношение сигнала оценки непрерывного шума к шуму выше второго порога, но ниже первого порога.
26. Способ шумоподавления, причем способ содержит
прием одного или более акустических сигналов от множества входных каналов;
разделение посредством фильтра источника одного или более акустических сигналов, принятых от множества входных каналов, на лучи речи и шума, причем фильтр источника содержит по меньшей мере один гиперкардиоидный направленный фильтр для создания луча речи из принятых одного или более акустических сигналов;
улучшение лучей речи и шума посредством применения по меньшей мере одного фильтра слепого разделения источников (BSS), причем фильтр слепого разделения источников действует для улучшения лучей речи и шума; и
создание посредством по меньшей мере одного шумоподавителя по методу спектрального вычитания с двумя входами (DINS) речевого сигнала, который, по существу, свободен от шума, посредством обработки улучшенных лучей речи и шума с использованием одного из разделенных лучей речи и шума от фильтра источника.
27. Способ по п.26, в котором разделение на фильтре источника выполняется посредством фильтрации по фазовой задержке.
28. Способ по п.27, в котором лучи речи и шума корректируются по частотной характеристике.
29. Способ по п.26, в котором улучшенные лучи речи и шума от фильтра слепого разделения источников (BSS) подаются на шумоподавитель по методу спектрального вычитания с двумя входами (DINS).
30. Способ по п.26, в котором улучшенный луч шума от фильтра слепого разделения источников (BSS) и луч речи от фильтра источника подаются на шумоподавитель по методу спектрального вычитания с двумя входами (DINS).
31. Способ по п.26, причем способ дополнительно содержит каскадное включение двух фильтров слепого разделения источников (BSS);
причем входным сигналом для каскадного включения являются лучи речи и шума от фильтра источника;
при этом выходной сигнал каскадного включения подается на шумоподавитель по методу спектрального вычитания с двумя входами (DINS).
32. Способ шумоподавления, причем способ содержит
прием одного или более акустических сигналов на множестве ненаправленных микрофонов;
создание сигнала оценки речи посредством использования направленного фильтра, который создает гиперкардиоидную характеристику из одного или более акустических сигналов, принятых на множестве ненаправленных микрофонов;
создание сигнала оценки шума из гиперкардиоидной характеристики одного или более акустических сигналов, принятых на множестве ненаправленных микрофонов; и
создание речевого сигнала с ослабленным шумом из сигнала оценки речи и сигнала оценки шума, используя робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS).
33. Способ по п.32, в котором робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) вычисляет оценку непрерывного шума из сигнала оценки шума.
34. Способ по п.33, в котором робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) вычисляет оценку статического шума из сигнала оценки речи.
35. Способ по п.34, в котором робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) применяет оценку непрерывного шума, когда отношение сигнала оценки непрерывного шума к шуму выше первого порога.
36. Способ по п.35, в котором робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) применяет оценку статического шума, когда отношение сигнала оценки непрерывного шума к шуму ниже второго порога.
37. Способ по п.36, в котором робастный шумоподавитель по методу спектрального вычитания с двумя входами (RDINS) применяет оценку средневзвешенного шума, когда отношение сигнала оценки непрерывного шума к шуму выше второго порога, но ниже первого порога.
WO 2006028587 А2, 16.03.2006 | |||
СПОСОБ ПОДАВЛЕНИЯ ШУМА ПУТЕМ СПЕКТРАЛЬНОГО ВЫЧИТАНИЯ | 1996 |
|
RU2145737C1 |
Erik VISSER et al | |||
APPLICATION OF BLIND SOURCE SEPARATION IN SPEECH PROCESSING FOR COMBINED INTERFERENCE REMOVAL AND ROBUST SPEAKER DETECTION USING A TWO-MICROPHONE SETUP | |||
Очаг для массовой варки пищи, выпечки хлеба и кипячения воды | 1921 |
|
SU4A1 |
Способ и приспособление для нагревания хлебопекарных камер | 1923 |
|
SU2003A1 |
Авторы
Даты
2013-05-27—Публикация
2008-10-01—Подача