ВЫДЕЛЕНИЕ СИГНАЛА ВСЛЕПУЮ Российский патент 2011 года по МПК G10L21/02 

Описание патента на изобретение RU2417460C2

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к адаптивным методам выделения по меньшей мере одного искомого электромагнитного, звукового или любого другого сигнала и подавления других шумовых сигналов или помех с целью получения улучшенного сигнала, выделяемого из микшированной совокупности сигналов.

УРОВЕНЬ ТЕХНИКИ

Алгоритмы выделения (или улучшения) сигналов в общем случае имеют целью создание приемлемой версии принимаемых сигналов, одновременно ослабляя или подавляя другие приходящие нежелательные сигналы, принимаемые некоторым набором преобразователей или датчиков. Такие алгоритмы могут обрабатывать как данные от одного датчика, генерирующего один или несколько выходных сигналов, так и данные от нескольких датчиков, генерирующих один или несколько выходных сигналов. Система выделения сигналов может быть постоянной неадаптивной системой, которая поддерживает те же самые свойства независимо от изменений входного сигнала, или она может быть адаптивной системой, которая может изменять свои свойства на основе свойств входного сигнала. Операция фильтрации, выполняющаяся после фазы адаптации структурных параметров, может быть линейной или нелинейной. Кроме того, эта операция может зависеть от состояния сигнала (активен-неактивен), то есть от обнаружения активности сигнала.

При рассмотрении, например, задачи выделения речи рассматриваются физические области, которые должны учитываться при восстановлении речевой информации в зашумленной среде. Физической областью может быть область временной избирательности в таких приложениях, как подъем речевых частот, вычитание спектра, множественный доступ с временным разделением (TDMA) и других. Область частотной избирательности используется в таких приложениях, как фильтрация Винера, режекторная фильтрация, множественный доступ с частотным разделением (FDMA) и других. Область пространственной избирательности используется в таких приложениях, как винеровское формирование луча (Wiener BF), разделение сигналов вслепую (BSS), максимальный/минимальный эксцесс (MK), обобщенное подавление боковых лепестков (GSC), минимальная дисперсия с линейными ограничениями (LCMV), множественный доступ с пространственным разделением (SDMA) и других. Еще одной существующей областью является область кодовой избирательности, используемая, например, в методе множественного доступа с кодовым разделением (CDMA) и являющаяся по сути комбинацией перечисленных выше физических областей.

Никакими научными исследованиями или открытиями до сих пор не удавалось скомбинировать использование временной, частотной и пространственной избирательности для улучшения/выделения искомых сигналов в зашумленной среде. В особенности, такое комбинированное рассмотрение не применялось без предварительных допущений или конкретных сведений о среде, в которой производится выделение сигнала. Поэтому возможность полностью адаптивного автоматического выделения сигнала будет по достоинству оценена специалистами в данной области.

Более конкретно, решение задачи полностью автоматического выделения сигнала наталкивается на следующие проблемы: неизвестное и изменяющееся взаиморасположение источника и датчика; неизвестное количество источников искомого сигнала; неизвестные спектральные характеристики источников окружающих помех; неидеальные и меняющиеся, например, в результате старения характеристики датчиков; ограничения на сложность; необходимость работы в сильно зашумленной среде.

Ранее опубликованной работой в области выделения речи является: Энтони Дж. Белл и Терренс Дж. Сейновски, «Разделение вслепую и обращение свертки вслепую: теоретико-информационный подход», Лаборатория вычислительной нейробиологии, Институт Солк (“BLIND SEPARATION AND BLIND DECONVOLUTION: AN INFORMATION-THEORETIC APPROACH”, Anthony J. Bell & Terrence J. Sejnovski, The Salk Institute, 10010 N. Torrey Pines Road, La Jolla, California 92037, 0-7803-2431 45/95 $4.00 0 1995 IEEE).

Разделение вслепую и обращение свертки вслепую являются связанными проблемами в контексте несопровождаемого обучения. При разделении вслепую речь нескольких человек, музыка и т.д. смешиваются (микшируются) линейным матричным образом. Ничего не известно ни об источниках, ни о процессе микширования. Принимаемый сигнал представляет собой N наложений (суперпозиций) x1(t), x2(t),… xN(t). Задача заключается, таким образом, в восстановлении первоначальных источников нахождением квадратной матрицы W, являющейся некоторой пермутацией обращения неизвестной матрицы A. Эта проблема известна также под названием «проблемы коктейль-вечеринки» (cocktail party problem).

Другой опубликованной ранее работой в области выделения сигналов является статья: Жан-Франсуа Кардозо «Разделение сигналов вслепую: статистические принципы» (“Blind Signal Separation: Statistical Principles”, JEAN-FRANCOIS CARDOSO, PROCEEDINGS OF THE IEEE, VOL. 86, NO. 10, OCTOBER 1998).

Разделение сигналов вслепую (BSS) и анализ независимых компонентов (ICA) являются недавно появившимися методами обработки и анализа массивов данных для восстановления ненаблюдаемых сигналов или «источников» по наблюдаемым микшированным сигналам (как правило, выходным сигналам набора датчиков), используя только предположение о взаимной независимости между сигналами. Слабость начальных предположений делает этот подход весьма мощным, но требует использования более тонких методов, чем обычно используемые статистические методы второго порядка. В указанной статье рассматриваются некоторые недавно разработанные подходы к решению этой проблемы и показывается, как они связаны с основными принципами и друг с другом.

Метод BSS-ICA/PCA, где ICA эквивалентен нелинейному PCA, основан на независимости/декорреляции выходных сигналов. Все источники сигналов должны быть активны одновременно, и число датчиков, регистрирующих сигналы, должно быть равно или больше числа источников сигналов. Более того, существующие методы BSS и их аналоги работают только в слабо зашумленной среде.

Еще одной появившейся ранее работой в области выделения сигналов является статья: Джурджин А., Рикард С., Излмаз О. «РАЗДЕЛЕНИЕ ВСЛЕПУЮ РАЗДЕЛЬНО-ОРТОГОНАЛЬНЫХ СИГНАЛОВ: ВОССТАНОВЛЕНИЕ N ИСТОЧНИКОВ ПО 2 МИКШИРОВАННЫМ СИГНАЛАМ» (“BLIND SEPARATION OF DISJOINT ORTHOGONAL SIGNALS: DEMIXING N SOURCES FROM 2 MIXTURES”, Jourjine A., Rickard S., Yzlmaz O., Proceedings in 2000 IEEE International Conference on Acoustics, Speech and Signal Processing, Volume 5, Page(s) 2985-2988, 5-9 June 2000.

В этой научной статье авторы представляют новый метод разделения вслепую любого числа источников, используя только два микшированных сигнала. Метод применим, когда источники (W-) раздельно-ортогональны, т.е. когда носители (оконного) преобразования Фурье любых двух сигналов в составе микшированного сигнала являются непересекающимися множествами. Показано, что при безэховом микшировании ослабленных источников с задержкой данный метод позволяет получить оценку параметров микширования путем кластеризации коэффициентов временно-частотных представлений микшированных сигналов. Оценки параметров микширования используются затем для восстановления исходных сигналов путем разбиения временно-частотного представления одного микшированного сигнала. Этот метод работает, даже когда число исходных сигналов больше числа микшированных сигналов. Общие результаты проверены как для речевых сигналов, так и для беспроводных сигналов. Примеры звуковых файлов можно найти по ссылке.

BSS-раздельно ортогональное разделение (BSS-Disjoint Orthogonal de-mixing) использует неперекрывающиеся временно-частотные энергетические уровни, причем число датчиков >< числа источников. Этот метод вызывает появление музыкальных тонов, т.е. сильных искажений сигналов, и применим только для слабо зашумленной среды.

BSS-совместно кумулянтная диагонализация (BSS-Joint cumulant diagonalization) выполняет диагонализацию кумулянтных матриц более высокого порядка; при этом число датчиков должно быть больше или равно числу источников. Недостатком этого метода является его медленная сходимость, а также то, что он может применяться только для слабо зашумленной среды.

Еще одной ранее опубликованной работой в области выделения сигналов является статья: Кутрас А., Дерматас Е. «УСТОЙЧИВОЕ РАСПОЗНАВАНИЕ РЕЧИ В СИЛЬНО-ИНТЕРФЕРЕНТНОЙ РЕАЛЬНОЙ СРЕДЕ ВНУТРИ ПОМЕЩЕНИЯ, ИСПОЛЬЗУЯ ВЫДЕЛЕНИЕ ВСЛЕПУЮ РЕЧЕВОГО СИГНАЛА» (“ROBUST SPEECH RECOGNITION IN A HIGH INTERFERENCE REAL ROOM ENVIRONMENT USING BLIND SPEECH EXTRACTION”, Koutras A., Dermatas E., Proceedings in 2002 14th International Conference on Digital Signal Processing, Volume 1, Page(s) 167-171, 2002.

В этой статье представляется новый метод выделения сигнала вслепую (BSE) для надежного распознавания речи в реальной среде помещения в присутствии одновременных неречевых интерферирующих источников звука. Предлагаемый метод дает возможность извлекать искомый голос говорящего, основываясь на критерии максимального эксцесса. Обширными экспериментами по распознаванию фонем доказана эффективность этого метода при его использовании в реальной ситуации сочетания голоса говорящего с другими неречевыми источниками звука (такими как музыка и шум), с улучшением примерно на 23% уровня распознавания фонем, в особенности при высоком уровне интерференции. Более того, сравнение предлагаемой сети с известными сетями разделения сигналов вслепую (BSS), обычно используемыми в сходных ситуациях, показало меньшую вычислительную сложность и более высокую точность распознавания в сети BSE, делающие ее идеальной для применения во входном каскаде существующих систем автоматического распознавания речи (ASR).

Критерий максимального эксцесса выделяет единственный источник с наивысшим эксцессом, при числе датчиков >< числа источников. Его недостатком является трудность применения в ситуациях с несколькими говорящими, а также то, что он может применяться только для слабо зашумленной среды.

Еще одной ранее опубликованной работой в области выделения сигналов является статья: Амр Эль-Кейи, Тиагалингам Кирубараджан, Алекс Б. Гершман «Устойчивое адаптивное формирование луча, основанное на фильтре Кальмана» (“Robust Adaptive Beamforming based on the Kalman Filter”, Amr El-Keyi, Thiagalingam Kirubarajan & Alex B. Gershman, IEEE TRANSACTIONS ON SIGNAL PROCESSING, VOL. 53, NO. 8, AUGUST 2005).

В этой статье предлагается новый подход к реализации устойчивого формирователя луча с минимальной дисперсией без искажений выходного сигнала (Minimum Variance Distortion-less Response, MVDR). Этот формирователь луча основан на оптимизации эффективности в наихудшем случае и показал прекрасную устойчивость против произвольных, но ограниченных несогласованностей в управляющем векторе (steering vector) полезного сигнала. Однако существующие алгоритмы для решения этой задачи не имеют вычислительно-эффективных в реальном времени реализаций. В указанной статье описан новый разработанный алгоритм устойчивого MVDR-формирователя луча, который основан на использовании ограниченного фильтра Кальмана, может быть реализован для работы в реальном времени при низких вычислительных затратах. Алгоритм показал производительность, близкую к производительности первоначальной реализации устойчивого MVDR-формирователя луча, основанной на программировании конуса второго порядка (SOCP). Представлены также две улучшенных модификации предложенного алгоритма для работы в нестационарных условиях. Эти модификации основаны на методах переключения моделей и объединения гипотез, которые дополнительно улучшают устойчивость формирователя луча по отношению к быстрым (резким) изменениям среды.

Формирование луча вслепую основано на пассивной локализации говорящего вместе с обычным формированием луча (таким как MVDR), причем число датчиков >< числа источников. Его недостатком является то, что из-за пассивной локализации оно может применяться только для слабо зашумленной среды.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Рабочим названием концепции, на которой основано настоящее изобретение, является Выделение Сигналов Вслепую (Blind Signal Extraction, BSE). Хотя чертежи и описание используют для демонстрации примеров реализации настоящего изобретения задачу повышения качества воспроизведения речи, само изобретение не ограничено этой задачей и также относится к обнаружению и повышению качества электромагнитных сигналов, к анализу звуков, включая вибрации, и к другим подобным задачам.

Адаптивность выполнения BSE в соответствии с настоящим изобретением основана на различении одного или нескольких искомых (полезных) сигналов из микшированной совокупности сигналов, если эти искомые сигналы разделены по значениям некоторого различающего параметра (меры), например в пространстве или во времени; типичными вариантами является различение искомых сигналов по статистическим свойствам, по форме статистических функций распределения вероятностей (probability distribution function, pdf), по размещению во времени и в пространстве и т.д. Сигналы с различающими параметрами (мерами), например, такими, как форма статистических функций распределения вероятностей, отличающимися от значений для искомых сигналов, имеют меньший шанс появиться на выходе адаптивной операции выделения. Принцип выделения исходных сигналов в BSE может использоваться с любыми типами различающего параметра (меры), как, например, формой статистической функции распределения вероятностей, при условии, что значения этого параметра, например, форма статистических функций распределения вероятностей (pdf), для искомых сигналов отличаются от значений этого параметра для нежелательных сигналов. Из этого следует, что несколько структур BSE могут быть реализованы параллельным образом, так чтобы одновременно выделять из микшированного сигнала, соответствующего одной и той же совокупности входов на датчиках, несколько исходных сигналов с различными значениями различающего параметра, например, такого как pdf, в соответствии с настоящим изобретением.

Задачей настоящего изобретения является решение, например, таких проблем, как полностью автоматическое выделение речи в условиях, когда взаиморасположение источника и датчика искомого сигнала неизвестно и меняется; спектральные характеристики источников окружающих помех неизвестны; количество источников искомого сигнала неизвестно; характеристики датчиков неидеальны и меняются, например, в результате старения; имеются ограничения на сложность; имеется потребность работать в сильно зашумленной среде и другие вышеуказанные проблемы. Таким образом, в случае задачи выделения речи настоящее изобретение предоставляет способ и устройство, выделяющие все различные исходные речевые сигналы, используя только такие свойства речевых сигналов, которые не зависят от говорящего (такие как форма статистического распределения).

Система BSE согласно настоящему изобретению обладает многими желательными свойствами, такими как: адаптивность алгоритма; возможность работать в области временной избирательности и/или пространственной области и/или временной области; возможность работы с любым числом (>0) преобразователей/датчиков; работа, не зависящая от обнаружения активности сигнала. Далее, для работы данной системы BSE не требуется иметь информацию a priori о взаиморасположении источников и/или датчиков и не требуется использовать калиброванную конфигурацию преобразователей/датчиков. Описываемая система BSE обладает еще одним желательным свойством: она не требует статистической независимости источников или статистической декорреляции получаемых выходных сигналов.

Далее, описываемая система BSE не требует предварительно записанного набора сигналов или оценочных значений параметров, полученных для используемой среды или для используемых источников сигналов. Данная система BSE может успешно работать в среде как с положительным, так и с отрицательным коэффициентом SNIR (отношение сигнала к шуму плюс интерференция); ее результат включает устранение реверберации для принимаемых сигналов.

Для достижения перечисленных и других преимуществ настоящее изобретение предлагает адаптивный способ выделения по меньшей мере одного из искомых электромагнитных сигналов, звуковых сигналов или любых других сигналов и подавления шумов и помеховых сигналов, с получением улучшенных сигналов из микшированного сигнала. Предлагаемый способ включает в себя следующие шаги:

предварительно определяют по меньшей мере один из непрерывных по времени и, соответственно, дискретных по времени искомых сигналов одним или несколькими различающими параметрами, такими как статистические свойства, форма статистической функции плотности вероятности (pdf), положение во времени или по частоте;

причем упомянутые параметры искомых сигналов отличаются от параметров шумов и сигналов помеховых источников;

собирают принятые сигнальные данные из искомого сигнала, шумов и помеховых сигналов посредством соответствующего датчика, дискретизируют непрерывные по времени входные сигналы или, соответственно, используют дискретные по времени входные сигналы для формирования временного кадра дискретных по времени входных сигналов;

преобразуют сигнальные данные в набор поддиапазонов;

выполняют по меньшей мере одно из ослабления всех микшированных сигналов в каждом временном кадре входных сигналов в каждом поддиапазоне таким образом, чтобы искомые сигналы ослаблялись меньше, чем шумы и помеховые сигналы; и усиления всех микшированных сигналов в каждом временном кадре входных сигналов в каждом поддиапазоне таким образом, чтобы искомые сигналы усиливались, причем усиливались больше, чем шумы и помеховые сигналы;

обновляют коэффициенты фильтрации для каждого временного кадра входных сигналов в каждом поддиапазоне таким образом, чтобы минимизировать некоторый критерий ошибки между фильтрованными входными сигналами и преобразованными выходными сигналами;

фильтруют сигналы поддиапазонов с помощью заданного набора фильтров поддиапазонов, получая заданное количество выходных сигналов, в каждом из которых искомые сигналы получают преимущество на основе их различающего(их) параметра(ов); и

восстанавливают выходные сигналы поддиапазонов с помощью обратного преобразования.

Термин «ширина полосы» здесь может обозначать как полную полосу частот, так и полосу несколько уже, чем полная.

В одном варианте реализации настоящего изобретения упомянутое преобразование включает в себя такое преобразование, при котором сигналы в оцифрованном представлении разбиваются на сигналы в поддиапазонах меньшей или равной ширины.

В одном варианте реализации настоящего изобретения упомянутый параметр для различения сигналов в микшированном сигнале основан на функции плотности вероятности (pdf).

В другом варианте реализации настоящего изобретения принятые сигнальные данные преобразуется в цифровую форму, если он аналоговый.

Другой вариант реализации включает в себя преобразование выходных сигналов в аналоговые, когда это требуется.

Еще один вариант реализации включает в себя корректировку уровней выходных сигналов из-за изменения уровней сигналов при упомянутом ослаблении/усилении.

Еще один вариант реализации включает в себя ограничение коэффициентов фильтрации по норме некоторым минимальным и максимальным значением.

Еще один вариант реализации включает в себя увеличение коэффициентов фильтрации, когда они оказываются по норме меньше минимального допустимого уровня, и уменьшение коэффициентов фильтрации, когда они оказываются по норме больше максимального допустимого уровня.

Еще один вариант реализации включает в себя ослабление или усиление сигналов в соответствии с принципом адаптации вслепую коэффициентов фильтрации в каждом поддиапазоне таким образом, чтобы улучшить искомый сигнал в области временной избирательности, а также во временной и пространственной области.

Далее, настоящее изобретение предлагает устройство, адаптивно выделяющее по меньшей мере один из искомых электромагнитных сигналов, звуковых сигналов или любых других сигналов и подавляющее шумы и помеховые сигналы, с получением улучшенных сигналов из микшированного сигнала. Упомянутое устройство содержит:

набор нелинейных функций, адаптированных для определения заданных свойств, описывающих различие между различающим(и) параметром(ами) искомых сигналов и параметром(ами) нежелательных сигналов, таких как шумы и сигналы помеховых источников;

по меньшей мере один датчик, выполненный с возможностью сбора сигнальных данных из искомых сигналов, шумов и помеховых сигналов, дискретизации непрерывных по времени или, соответственно, использования дискретных по времени входных сигналов для формирования временного кадра дискретных по времени входных сигналов;

преобразователь, выполненный с возможностью преобразования сигнальных данных в набор поддиапазонов;

ослабитель (аттенюатор), выполненный с возможностью ослаблять каждый временной кадр входных сигналов в каждом поддиапазоне для всех сигналов таким образом, чтобы искомые сигналы ослаблялись меньше, чем шумы и помеховые сигналы;

усилитель, выполненный с возможностью усиливать каждый временной кадр входных сигналов в каждом поддиапазоне для всех сигналов таким образом, чтобы искомые сигналы усиливались, причем усиливались больше, чем шумы и помеховые сигналы;

набор коэффициентов фильтрации входных сигналов для каждого временного кадра входных сигналов в каждом поддиапазоне, выполненный с возможностью его обновления таким образом, чтобы минимизировать значение некоторого критерия ошибки между линейно отфильтрованными входными сигналами и нелинейно преобразованными выходными сигналами; и

фильтр, выполненный с возможностью фильтровать сигналы поддиапазонов с помощью заданного набора фильтров поддиапазонов, формируя заданное количество выходных сигналов, в каждом из которых искомые сигналы получают преимущество на основе их различающего(их) параметра(ов); и

блок восстановления, выполненный с возможностью восстанавливать выходные сигналы поддиапазонов с помощью обратного преобразования.

В одной реализации настоящего изобретения упомянутый преобразователь выполнен с возможностью преобразовывать упомянутые сигнальные данные таким образом, что сигналы в оцифрованном представлении разбиваются на сигналы в поддиапазонах меньшей или равной ширины.

Следует подчеркнуть, что предлагаемое устройство дает возможность выполнять варианты реализации описанного выше способа, как это видно из набора относящихся к устройству зависимых пунктов прилагаемой формулы.

Предлагаемая система BSE схематически описывается ниже в контексте выявления речи при распространении акустических волн, когда сигналы от речевого источника являются искомыми (желательными), а шумы и другие интерферирующие (помеховые) сигналы являются сигналами нежелательных источников.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Ссылки на прилагаемые рисунки совместно с предложенными примерами и описанными вариантами реализации должны способствовать лучшему пониманию настоящего изобретения.

Фиг.1 схематично изображает два сценария речи и помех согласно предшествующему уровню техники.

Фиг.2a-c схематично показывают пример временной избирательности согласно предшествующему уровню техники.

Фиг.3 схематично показывает пример обработки временной избирательности с помощью цифрового фильтра согласно предшествующему уровню техники.

Фиг.4a и 4b схематично показывают пример пространственной избирательности согласно предшествующему уровню техники.

Фиг.5a и 5b схематично показывают два результирующих сигнала в соответствии с пространственной избирательностью, показанной на Фиг.4a и 4b.

Фиг.6 схематично показывают, как звуковые сигналы пространственно принимаются тремя микрофонами согласно предшествующему уровню техники.

Фиг.7 схематично изображает общий вид выделения сигнала вслепую (BSE) во временном кадре согласно настоящему изобретению.

Фиг.8 схематично показывает разложение сигнала во временном кадре согласно настоящему изобретению.

Фиг.9 схематично показывает фильтрацию для получения выходного сигнала в области преобразования согласно настоящему изобретению.

Фиг.10 схематично показывает обратное преобразование для получения выходного сигнала согласно настоящему изобретению.

Фиг.11 схематично показывает время, временную и пространственную избирательность с использованием массива коэффициентов фильтрации согласно настоящему изобретению.

Фиг.12a-c представляет графические диаграммы во временной области, показывающие фильтрацию искомых сигналов по их функции распределения вероятности (pdf) из pdf помеховых сигналов в BSE согласно настоящему изобретению.

Фиг.13 схематично показывает графическую диаграмму фильтрации искомых сигналов согласно настоящему изобретению.

ПОДРОБНОЕ ОПИСАНИЕ ПРЕДПОЧТИТЕЛЬНЫХ ВАРИАНТОВ РЕАЛИЗАЦИИ

Ниже описывается выделение сигналов вслепую (BSE) в соответствии с настоящим изобретением в терминах его основополагающего принципа, его функционирования и выбора его алгоритмических параметров. Таким образом, предлагается способ и устройство для выделения всех искомых сигналов, в качестве примера изображенных источниками речи на прилагаемых чертежах, основываясь только на различиях в форме функций плотности вероятности для сигналов от желательных источников и для нежелательных сигналов, таких как шумы и другие помеховые сигналы.

BSE имеет много полезных свойств, таких как: адаптивность алгоритма; возможность работать в области временной избирательности и/или пространственной области и/или временной области; возможность работы с любым числом (>0) преобразователей/датчиков; работа, не зависящая от обнаружения активности сигнала. Далее, для работы данной системы BSE не требуется иметь информацию a priori о взаиморасположении источников и/или датчиков и не требуется использовать калиброванную конфигурацию преобразователей/датчиков. BSE обладает еще одним желательным свойством: она не требует статистической независимости источников или статистической декорреляции получаемых выходных сигналов.

Далее, BSE не требует предварительно записанного набора сигналов или оценок параметров, полученных для используемой среды, и не основывается ни на каких сигналах или оценках параметров, выделенных из реальных источников. BSE может успешно работать в среде как с положительным, так и с отрицательным коэффициентом SNIR; ее результат включает устранение реверберации для принимаемых сигналов.

У способа и устройства BSE настоящего изобретения имеется много применений. BSE может использоваться в различных приложениях для выделения сигналов. Эти приложения включают, не ограничиваясь ими: улучшение сигнала в области акустики в воздушной среде, например при пользовании персональными мобильными или стационарными телефонами, персональными устройствами радиосвязи, слуховыми аппаратами, телефонами конференцсвязи, устройствами персональной связи в шумной среде (т.е. устройствами, используемыми совместно с приспособлениями для защиты слуха), а также в устройствах медицинской ультразвуковой диагностики.

Другие приложения BSE относятся к улучшению электромагнитного сигнала, в частности в радиотелескопах, например для космических наблюдений, в радиокоммуникациях, в системах радиообнаружения и радиолокации (радарах), а также в устройствах медицинской диагностики.

Еще одой областью приложений является улучшение сигнала в подводной акустике, в частности в системах подводных коммуникаций и в системах звуковой навигации и локации (сонарах).

Кроме того, другой возможной областью приложений является улучшение сигнала при анализе вибраций, например для обнаружения и предсказания землетрясений, при изучении вулканической активности, при изучении механических вибраций.

Еще одной возможной областью приложений является улучшение сигнала при анализе полей морских волн, например для обнаружения цунами, при изучении морских течений, распределения морских температур или морской солености.

Фиг.1 схематично изображает два сценария взаимодействия речи и помех согласно предшествующему уровню техники. В верхней половине Фиг.1 изображен источник звуков 10 (человек), записываемый микрофоном/преобразователем/датчиком 12 на близком расстоянии и смешивающийся с шумом, показанным в виде стрелки, направленной к микрофону 12. Таким образом, микрофоном 12 регистрируется речь+шум, при отношении сигнала к шуму SNR=x[dB]. Нижняя половина Фиг.1 изображает человека 10 как источник звуков, которые должны регистрироваться и выделяться, на расстоянии R от микрофона/преобразователя/датчика 12. Теперь записываемый звук есть α·речь+шум, где α2 пропорционально 1/R2, и SNR=x+10·log10α2[dB].

Фиг.2a-c схематично показывают различные примеры временной избирательности согласно предшествующему уровню техники. Микрофон 12 регистрирует сигнал x(t), содержащий сигнал от искомого источника плюс шум. Фиг.2a показывает переключатель 14, который может быть включен при наличии речи и выключен во все остальные периоды времени. Фиг.2b иллюстрирует мультипликативную функцию α(t), которая может принимать любые значения между 0 и 1. Это значение может управляться конфигурацией активности речевого сигнала, и таким образом оно становится адаптивным программным ключом.

Фиг.2c иллюстрирует преобразование с помощью гребенки фильтров, с последующим применением адаптивных программных ключей таким образом, что каждый ключ применяется к узкополосному сигналу в своем собственном поддиапазоне. Результирующие сигналы поддиапазона объединяются затем синтезирующей гребенкой фильтров для получения выходного сигнала.

Фиг.3 схематично показывает пример того, как временная избирательность, т.е. различная обработка сигналов, имеющих различную периодичность во времени, выполняется с помощью цифрового фильтра 30 согласно предшествующему уровню техники. В фильтре применяется оператор единичной задержки, обозначенный символом z-1. Будучи примененным к последовательности цифровых значений, этот оператор выдает предыдущее значение в последовательности, вводя, таким образом, задержку на один интервал дискретизации. Применение оператора z-1 ко входному значению (xn) дает предыдущее входное значение (xn-1). Результат y(n) работы фильтра определяется формулой, приведенной на Фиг.3. Свойства этого цифрового фильтра задаются подходящим выбором параметров ak и bk.

Фиг.4a и 4b схематично показывают пример пространственной избирательности согласно предшествующему уровню техники, а Фиг.5a и 5b схематично показывают два результирующих сигнала в соответствии с пространственной избирательностью, показанной на Фиг.4a и 4b.

Стрелки на Фиг.4a и 4b показывают распространение двух идентичных волн 40, 42 от источника сигналов, расположенного прямо перед микрофонами 12, и двух идентичных волн 44, 46 от источника сигналов, расположенного под углом к микрофонам 12. На Фиг.4a волны от источника перед микрофонами находятся в фазе. Поскольку волны 40, 42 находятся в фазе, передаются с одного и того же расстояния и на одной и той же частоте, амплитуда суммарного сигнала равна сумме обеих амплитуд, производя выходной сигнал двойной амплитуды каждой из волн 40, 42, как показано на Фиг.5a.

Две волны 44, 46 тоже находятся в фазе, но прибывают на микрофоны 12 с разницей в половину длины волны, подавляя таким образом друг друга при сложении и давая выходной сигнал, изображенный на Фиг.5b.

На этом простом примере, изображенном на Фиг.4a-4b и 5a-5b, можно видеть трудности, которые возникают при выделении искомого сигнала. В задачах реальной жизни, например при обработке речи в присутствии шумов, при наличии временной избирательности, разницы в расстояниях от источников до микрофонов 12 и разницы в частотах, видно, насколько сложно и насколько необходимо иметь метод BSE, не требующий предварительной регистрации набора сигналов или оценочных значений параметров, полученных для используемой среды или для используемых источников сигналов.

Фиг.6 схематично показывает, как звуковые сигналы пространственно объединяются со всех направлений тремя микрофонами, где микрофоны 12 принимают как речевые, так и шумовые сигналы во всех вышеупомянутых областях.

Фиг.7 схематично изображает общий вид выделения сигнала вслепую во временном кадре, согласно настоящему изобретению. BSE 70 получает I входных сигналов, полученных пространственной дискретизацией поля распространения физической волны, принимаемой преобразователями/датчиками/микрофонами 12, и вырабатывает P выходных сигналов, подаваемых на некоторую совокупность обратных преобразователей/обратных датчиков, создавая поле распространения другой физической волны. Созданное поле распространения волны характеризуется тем, что уровни искомых сигналов в нем существенно выше, чем уровни помеховых сигналов. Созданное поле распространения волны может сохранять пространственные характеристики исходного поля распространения волны, для которого выполнялась пространственная дискретизация, но может иметь и измененные пространственные характеристики, так что первоначальные источники будут казаться локализованными в других точках по сравнению с их реальным физическим расположением.

BSE 70 согласно настоящему изобретению функционирует, как описано ниже, причем одна из ее целей состоит в усилении сигналов, приходящих, полностью или частично, от искомых источников с соответствующими им функциями плотности вероятности (pdf), и одновременном ослаблении или подавлении сигналов, приходящих, полностью или частично, от помеховых источников с соответствующими им функциями pdf. Для этого должно выполняться требование различия в форме pdf между искомыми и мешающими сигналами.

Фиг.8 схематично показывает разложение сигнала во временном кадре согласно настоящему изобретению. Исходные данные x(t) принимаются набором преобразователей/датчиков 12. Когда принимаемые данные изначально аналоговые, они преобразуются в цифровую форму аналого-цифровым преобразователем (АЦП, ADC) 80 (в шаге 1 описываемого ниже способа/процесса/алгоритма). Данные затем преобразуются в сигналы поддиапазона xi(k)(n) с помощью преобразования 82 в шаге 2 описанного ниже процесса. Преобразование 82 переводит входные сигналы в цифровом представлении в выходные сигналы xi(k)(n) в поддиапазонах меньшей (или равной) ширины. Эти сигналы поддиапазонов затем фильтруются набором 90 фильтров поддиапазонов, выходы которых затем суммируются в 92, получая выходные сигналы yp(k)(n), в каждом из которых усилены сигналы со специфической формой pdf (шаги 3-9 описанного ниже процесса).

Как показано на Фиг.10, эти выходные сигналы yp(k)(n) затем восстанавливаются обратным преобразованием (ITR) 100, в шаге 10 описанного ниже процесса. Если результирующие сигналы должны иметь аналоговую форму, выполняется их цифро-аналоговое преобразование (ЦАП, DAC) 102, в шаге 11 описанного ниже процесса.

Центральным моментом выполнения процесса, как показано на примере Фиг.11, является то, что для каждого очередного временного кадра входных данных, после выполнения шага многоканального преобразования 110 поддиапазонов, коэффициенты фильтрации в наборе 112 обновляются в каждом поддиапазоне, так что происходит ослабление и/или усиление всех сигналов. Обратное преобразование 114 восстанавливает выходные сигналы.

В случае, когда все сигналы ослабляются, это делается таким образом, что сигналы с нужной формой pdf ослабляются меньше, чем все остальные сигналы. В случае, когда все сигналы усиливаются, сигналы с нужной формой pdf усиливаются больше, чем все остальные сигналы. Это делается в соответствии с принципом, по которому коэффициенты фильтрации в каждом поддиапазоне адаптируются вслепую для улучшения некоторых сигналов в соответствии с формой pdf этих сигналов, как в области временной избирательности, так и во временной и пространственной областях.

Когда форма pdf нежелательных сигналов существенно отличается от формы pdf искомых сигналов, соответственное ослабление/усиление оказывается более значительным. Это происходит в соответствии с принципом, по которому, чем более удалена форма pdf помехового источника от формы pdf искомого источника, тем больше имеется степеней свободы для его изменения. Ослабление/усиление происходит в шагах 3-4. Чем ближе оказываются генерируемые выходные сигналы к искомым сигналам по форме их pdf, тем меньше будет величина критерия ошибки (шаг 4). Выполняется оптимизация процесса для минимизации критерия ошибки для каждого выходного сигнала. В шаге 5 происходит обновление коэффициентов фильтрации. Кроме того, имеется необходимость корректировки уровней выходных сигналов после их изменения в процессе ослабления/усиления. Это выполняется в шагах 6-7. Поскольку каждый поддиапазон обновляется описанным методом, это автоматически приводит к спектральной фильтрации, когда поддиапазоны с большим вкладом энергии помеховых сигналов ослабляются в большей мере.

Если на коэффициенты фильтрации не накладывать ограничений, они могут опуститься до нуля или бесконтрольно увеличиваться. Поэтому необходимо ограничить коэффициенты фильтрации по норме некоторым минимальным и максимальным значением. С этой целью выполняется увеличение коэффициентов фильтрации, когда они по норме падают ниже некоторого минимального допустимого значения (общее растяжение), и уменьшение коэффициентов фильтрации, когда они по норме возрастают выше некоторого максимального допустимого значения (общее сжатие). Эти операции выполняются в шагах 8 и 9 алгоритма.

Следующие константы используются в способе/процессе BSE согласно настоящему изобретению:

I: число используемых преобразователей/датчиков (нумеруются индексом i)

K: число преобразованных сигналов поддиапазона (нумеруются индексом k)

P: число получаемых выходных сигналов (нумеруются индексом p)

n: номер интервала дискретизации (т.е. реальное время t=nT, где T - период дискретизации)

Li: длина каждого фильтра поддиапазона

Levelp: коэффициент коррекции уровня, используемый для поддержания уровня искомого выходного сигнала на выходе номер p

λ1 и λ2: весовые коэффициенты обновления коэффициентов фильтрации

C1: нижний уровень для выполнения общего растяжения

C2: верхний уровень для выполнения общего сжатия

Используемые функции:

fp(k)(·) обозначает некоторое множество нелинейных функций

g1(k,p)(·) обозначает некоторое множество возрастающих функций

g2(k,p)(·) обозначает некоторое множество убывающих функций

Используемые переменные:

hi,n(k,p)(l) обозначает последовательность (фильтр) длиной Li коэффициентов, действительную для момента времени n

ĥi,n(k,p)(l) обозначает промежуточную последовательность (фильтр) длиной Li коэффициентов, действительную для момента времени n

Δhi,n(k,p)(l) обозначает последовательность длиной Li (поправочных) коэффициентов, действительную для момента времени n

Δĥi,n(k,p)(l) обозначает промежуточную последовательность длиной Li (поправочных) коэффициентов, действительную для момента времени n

Сигналы обозначаются следующим образом:

•Сигналы, принимаемые на входе преобразователей/датчиков:

xi(t), i=1,…I

•Дискретизованные входные сигналы преобразователей/датчиков:

xi(n), i=1,…I

•Преобразованные дискретизованные входные сигналы в поддиапазонах:

xi(k)(n), i=1,…I, k=0,… K-1

Здесь может использоваться любое частотно-избирательное преобразование, например кратковременное оконное быстрое преобразование Фурье, вейвлет-преобразование, преобразование гребенкой фильтров поддиапазонов, и т.д.

•Преобразованные дискретизованные выходные сигналы в поддиапазонах:

yp(k)(n), p=1,…P, k=0,… K-1

•Промежуточные сигналы:

ŷp(k)(n), p=1,…P, k=0,… K-1

•Выходные дискретизованные сигналы после обратного преобразования:

yp(n), p=1,…P

Используемое здесь обратное преобразование является обратным для преобразования, примененного к входным сигналам

•Непрерывные выходные сигналы:

yp(t), p=1,…P

В типичном случае BSE настоящего изобретения определяется следующими шагами способа/процесса:

1. ∀i, дискретизуют непрерывные по времени входные сигналы xi(t) для получения набора дискретных по времени входных сигналов xi(n).

2. ∀i, преобразуют входные сигналы xi(n) для получения K выходных сигналов поддиапазона.

3. ∀p, ∀k, вычисляют промежуточные выходные сигналы поддиапазона:

4. ∀p, ∀k, вычисляют поправочные коэффициенты (где ║ ║ обозначает норму значения в любом подходящем математическом смысле):

5. Обновляют фильтры ∀k, ∀i, ∀p, ∀l:

6. ∀p вычисляют (где ║ ║ обозначает норму в любом математическом смысле):

7. ∀k, ∀p вычисляют выходные сигналы

8.

9.

10.

11. ∀p выполняют обратное преобразование выходных сигналов поддиапазона yp(k)(n) для получения одного временного кадра выходных сигналов yp(n).

12. Восстанавливают непрерывные по времени выходные сигналы yp(t) с помощью цифроаналогового преобразования (ЦАП, DAC).

Вышеуказанные шаги ниже дополнительно описываются в словесной форме (шаг 4 также проиллюстрирован на Фиг.13):

1. Все входные сигналы, если нужно, преобразуются из цифровой в аналоговую форму.

2. Все входные сигналы преобразуются в один или несколько поддиапазонов.

3. Входные сигналы поддиапазонов фильтруются с помощью коэффициентов фильтрации, полученных на предыдущей итерации процесса (т.е. для момента времени n-1), для получения промежуточного выходного сигнала в каждом поддиапазоне k и для каждого выхода p.

4. На этом шаге выполняется процесс линеаризации. Отдельно для каждого поддиапазона k и для каждого выхода p вычисляется набор поправочных коэффициентов таким образом, чтобы минимизировать по норме разность между линейно отфильтрованными входными сигналами поддиапазонов и нелинейно преобразованными промежуточными выходными сигналами. Функции нелинейного преобразования выбираются таким образом, чтобы те дискретные значения выходных сигналов, которые в основном находятся на ожидаемых уровнях искомых сигналов, проходили с более высокими коэффициентами, чем дискретные выходные значения, находящиеся на ожидаемых уровнях помеховых сигналов. Следует отметить, что если заменить нелинейную функцию линейной функцией fp(k)(x)=x, то оптимальные поправочные коэффициенты будут всегда равны нулю, независимо от входных сигналов.

5. Поправочные коэффициенты помножаются на вес λ2 и прибавляются к помноженным на вес λ1 коэффициентам, полученным на предыдущей итерации, для получения нового набора промежуточных фильтров для каждого поддиапазона k, каждого канала i, каждого выхода p и каждого индекса l параметров.

6. Поскольку процесс линеаризации может изменить уровни выходных сигналов, вычисляются для дальнейшего использования обратные величины норм полученных фильтров.

7. Вычисляются выходные сигналы поддиапазона, путем фильтрации входных сигналов с помощью текущего (для момента времени n) промежуточного фильтра с последующим их умножением на обратные величины норм фильтров, для каждого поддиапазона k и каждого выхода p.

8. Отдельно для каждого выхода p, если общая норма совокупности коэффициентов по всем k,i,l становится меньше уровня C1 (или равна ему), то выполняется операция общего растяжения, создающая текущие (т.е. для момента времени n) фильтры из текущих промежуточных фильтров.

9. Отдельно для каждого выхода p, если общая норма совокупности коэффициентов по всем k,i,l становится больше уровня C2 (или равна ему), то выполняется операция общего сжатия, создающая текущие (т.е. для момента времени n) фильтры из текущих промежуточных фильтров.

10. Отдельно для каждого выхода p, если общая норма совокупности коэффициентов по всем k,i,l находится в интервале между уровнями C1 и C2, то текущие (т.е. для момента времени n) фильтры берутся равными текущим промежуточным фильтрам.

11. Отдельно для каждого p выполняется обратное преобразование выходных сигналов поддиапазона в выходные сигналы.

12. Отдельно для каждого p выполняется цифроаналоговое преобразование для получения непрерывных по времени сигналов.

Требования и установки

1. Выбор нелинейных функций fp(k)(·) зависит от статистических функций плотности вероятности для искомых сигналов в конкретном поддиапазоне k. Пусть мы имеем R случайных сигналов sr(t), r=1,2,…R, с нулевыми средними значениями, с соответствующими функциями плотности вероятности pxr(τ) и соответствующими значениями дисперсии σr2. Тогда упомянутые нелинейные функции, если они существуют, должны удовлетворять соотношению

Это соотношение означает, что все функции fp(k)(·) уменьшают (когда >) или увеличивают (когда <) мощность (дисперсию) всех сигналов.

Без потери общности можно считать, что функция плотности вероятности (pdf), соответствующая одному первому сигналу, является желаемой pdf, на первом выходе y1(t), т.е. px1(τ). Тогда требуется, чтобы

В более общем случае, если мы хотим выдать исходный сигнал №s на выходе №j, для нелинейной функции fj(k)(·), ∀k должно выполняться:

Эти требования означают, что уменьшение уровня мощности (дисперсии), вызываемое нелинейными функциями, таково, что помеховые сигналы уменьшаются в наибольшей степени.

Следует отметить, что приведенные выше требования в общем случае не выполняются для любой дисперсии σr2 на входе. В таком случае можно сузить множество Θ допустимых значений дисперсии или выбрать различные нелинейные функции fp(k)(·) для различных входных дисперсий.

В типичном случае для акустической среды, когда искомый источник сигнала является человеческой речью, рассматриваемая нелинейная функция может иметь вид гиперболического тангенса: fp(k)(x)=α1·th(α2x).

Инициализация фильтров и выбор параметров

Для n=0 фильтры hi,n(k,p)(l) могут быть инициализированы ∀k, ∀p значениями

hi,0(k,p)(l)=1 для l=0, i∈[1,2,…I]

hi,0(k,p)(l)=0 для всех остальных l и i

Параметры могут быть выбраны следующим образом, в одном не ограничивающем общности примерном варианте реализации изобретения:

Типично: 1≤K≤1024

Типично: 1≤Li≤64

Типично: 0,01≤α≤0,1

Типично: 0<α1<1

Типично: 0<α2<5

Типично: 0,001≤C1≤0,1

Типично: 0,1<C2≤10

Типично: 0<λ1<1

Типично: 0<λ2≤1

Настоящее изобретение предлагает устройство 70, адаптивно выделяющее из микшированного сигнала по меньшей мере один искомый сигнал, представляющий собой электромагнитный сигнал, звуковой сигнал или любой другой сигнал, и подавляющее шумы и помеховые сигналы, с улучшением искомых сигналов, производимых частично или полностью источником сигналов 10. Устройство содержит функции для определения плотности статистической вероятности искомых входных непрерывных по времени, или соответственно дискретных во времени сигналов. Упомянутые функции плотности вероятности для искомых сигналов отличаются от функций плотности вероятности для шумов и помеховых функций.

Далее, данное устройство содержит по меньшей мере один датчик, выполненный с возможностью сбора данных искомых сигналов, шумов и помеховых сигналов. Устройство выполняет, когда это требуется, дискретизацию непрерывных по времени входных сигналов для получения дискретных по времени входных сигналов. Устройство также содержит преобразователь, выполненный с возможностью преобразовывать данные сигналов в набор поддиапазонов, когда сигналы в цифровом представлении подразделяются на сигналы поддиапазонов меньшей (или равной) ширины.

Устройство также содержит ослабитель (аттенюатор), выполненный с возможностью ослаблять входные сигналы в каждом временном кадре в каждом поддиапазоне для всех сигналов таким образом, что искомые сигналы ослабляются в меньшей степени, чем шумы и помеховые сигналы, и/или усилитель, выполненный с возможностью усиливать входные сигналы в каждом временном кадре в каждом поддиапазоне для всех сигналов таким образом, что искомые сигналы усиливаются, причем усиливаются в большей степени, чем шумы и помеховые сигналы. Устройство содержит набор коэффициентов фильтрации входных сигналов для каждого временного кадра в каждом из поддиапазонов, выполненный с возможностью его обновления таким образом, чтобы минимизировать значение некоторого критерия ошибки между линейно отфильтрованными входными сигналами и нелинейно преобразованными выходными сигналами, а также фильтр, выполненный с возможностью фильтровать сигналы поддиапазонов с помощью заданного набора фильтров поддиапазонов, получая заданное количество выходных сигналов, в каждом из которых искомые сигналы получают преимущество на основе формы их статистической функции плотности вероятности. Наконец, устройство содержит блок восстановления, выполненный с возможностью восстанавливать выходные сигналы поддиапазонов с помощью обратного преобразования.

Фиг.12a-b-c схематично представляет графики выделения сигналов вслепую (BSE) во временной области, показывающие фильтрацию искомых сигналов по их функции распределения вероятности (pdf), сравнивая ее с pdf помеховых сигналов, согласно настоящему изобретению. Нижняя кривая на каждом графике Фиг.12a-b-c соответствует входным данным, имеющим искомый тип pdf в поддиапазонах 2 и 3, и тип pdf помеховых сигналов в поддиапазонах 1 и 4, в которых они будут подавлены фильтром, изображенным верхней кривой на Фиг.12a-b-c, при перемещении вниз в соответствии с описанным выше решением.

Настоящее изобретение описано здесь с помощью примеров и вариантов реализации, не предполагающих ограничения его объема защиты. Специалисту в данной области понятно, что приложенная формула изобретения предусматривает другие варианты его реализации.

Похожие патенты RU2417460C2

название год авторы номер документа
СПОСОБЫ, УСТРОЙСТВА И СИСТЕМЫ ДЛЯ УЛУЧШЕНИЯ УНИФИЦИРОВАННОГО ДЕКОДИРОВАНИЯ И КОДИРОВАНИЯ РЕЧИ И ЗВУКА 2018
  • Кумар, Раджат
  • Катури, Рамеш
  • Сатувалли, Сакет
  • Раи, Решма
RU2779265C2
УЛУЧШЕННОЕ РАСШИРЕНИЕ ДИАПАЗОНА ЧАСТОТ В ДЕКОДЕРЕ ЗВУКОВОГО СИГНАЛА 2015
  • Каневска Магдалена
  • Раго Стефан
RU2763848C2
УСОВЕРШЕНСТВОВАНИЕ ЗВУКОВОГО СИГНАЛА ВОЗМОЖНОСТЬЮ ПОВТОРНОГО МИКШИРОВАНИЯ 2007
  • Фаллер Кристоф
  • Ох Хиен О.
  • Дзунг Йанг Вон
RU2414095C2
УЛУЧШЕННОЕ РАСШИРЕНИЕ ДИАПАЗОНА ЧАСТОТ В ДЕКОДЕРЕ ЗВУКОВОГО СИГНАЛА 2015
  • Каневска, Магдалена
  • Раго, Стефан
RU2763547C2
УЛУЧШЕННОЕ РАСШИРЕНИЕ ДИАПАЗОНА ЧАСТОТ В ДЕКОДЕРЕ ЗВУКОВОГО СИГНАЛА 2015
  • Каневска Магдалена
  • Раго Стефан
RU2763481C2
КЛАССИФИКАТОР НА ОСНОВЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ВЫДЕЛЕНИЯ АУДИО ИСТОЧНИКОВ ИЗ МОНОФОНИЧЕСКОГО АУДИО СИГНАЛА 2006
  • Шмунк Дмитрий В.
RU2418321C2
УЛУЧШЕННОЕ РАСШИРЕНИЕ ДИАПАЗОНА ЧАСТОТ В ДЕКОДЕРЕ ЗВУКОВОГО СИГНАЛА 2015
  • Каневска Магдалена
  • Раго Стефан
RU2682923C2
УСОВЕРШЕНСТВОВАННОЕ ГАРМОНИЧЕСКОЕ ПРЕОБРАЗОВАНИЕ НА ОСНОВЕ БЛОКА ПОДДИАПАЗОНОВ 2014
  • Виллемоес Ларс
RU2644527C2
УСТРОЙСТВО ДЛЯ РАСШИРЕНИЯ ПОЛОСЫ ЧАСТОТ 2010
  • Мюллюла Вилле Микаель
  • Лааксонен Лаура
  • Пулакка Ханну Юхани
  • Алку Пааво Ильмари
RU2552184C2
СИСТЕМА КОМПАНДИРОВАНИЯ И СПОСОБ ДЛЯ СНИЖЕНИЯ ШУМА КВАНТОВАНИЯ С ИСПОЛЬЗОВАНИЕМ УСОВЕРШЕНСТВОВАННОГО СПЕКТРАЛЬНОГО РАСШИРЕНИЯ 2020
  • Хеделин, Пер
  • Бисвас, Ариджит
  • Шуг, Михель
  • Мелкоте, Винай
RU2801156C2

Иллюстрации к изобретению RU 2 417 460 C2

Реферат патента 2011 года ВЫДЕЛЕНИЕ СИГНАЛА ВСЛЕПУЮ

Изобретение относится к адаптивным способам выделения по меньшей мере одного искомого электромагнитного, звукового или любого другого сигнала и подавления других шумовых сигналов или помех с целью получения улучшенного сигнала, выделяемого из микшированной совокупности сигналов. Техническим результатом является создание способа и устройства, позволяющих выделять искомый сигнал из микшированной комбинации сигналов при минимальном объеме известных сведений о сигналах. Указанный технический результат достигается тем, что к дискретному по времени входному сигналу применяют первое преобразование для формирования входного сигнала поддиапазона, повторяют преобразование для всех моментов времени, на каждом этапе повторения выполняют для каждого поддиапазона определение промежуточного значения выходного сигнала поддиапазона, значения модифицированного выходного сигнала поддиапазона путем применения нелинейной функции к промежуточному значению выходного сигнала поддиапазона, определение последовательности коэффициентов коррекции, последовательности комбинированных коэффициентов фильтрации, значения выходного сигнала поддиапазона и установку последовательности промежуточных коэффициентов фильтрации, для каждого поддиапазона формируют выходной сигнал поддиапазона и дискретный по времени выходной сигнал путем применения второго преобразования к набору из всех выходных сигналов поддиапазона, причем второе преобразование является обратным по отношению к первому преобразованию. 2 н. и 14 з.п. ф-лы, 19 ил.

Формула изобретения RU 2 417 460 C2

1. Способ выделения дискретного по времени выходного сигнала из по меньшей мере одного дискретного по времени входного сигнала, полученного дискретизацией из по меньшей мере одного соответствующего непрерывного по времени входного сигнала в дискретные моменты времени, содержащий этапы, на которых:
a) для каждого дискретного по времени входного сигнала применяют первое преобразование к дискретному по времени входному сигналу для формирования по меньшей мере одного входного сигнала поддиапазона, таким образом определяя набор поддиапазонов, причем первое преобразование и поддиапазоны являются постоянными во всех дискретных по времени входных сигналах, причем каждый входной сигнал поддиапазона имеет значения входного сигнала поддиапазона в определенные моменты времени,
b) повторяют в хронологическом порядке для всех моментов времени,
c) на каждом этапе повторения выполняют отдельно для каждого поддиапазона:
определение промежуточного значения выходного сигнала поддиапазона, равного скалярному произведению последовательности промежуточных коэффициентов фильтрации и входного сигнала фильтра, причем входной сигнал фильтра содержит для каждого дискретного по времени входного сигнала входную последовательность следующих друг за другом значений входного сигнала поддиапазона для соответствующего входного сигнала поддиапазона, причем входная последовательность продолжается в обратном направлении по времени с момента времени текущего этапа повторения, причем длина входной последовательности является постоянной для всех этапов повторения и всех поддиапазонов;
определение значения модифицированного выходного сигнала поддиапазона путем применения нелинейной функции к промежуточному значению выходного сигнала поддиапазона, причем нелинейная функция является постоянной для всех этапов повторения;
определение последовательности коэффициентов коррекции таким образом, что норма разности между значением модифицированного выходного сигнала поддиапазона и скалярным произведением последовательности откорректированных коэффициентов фильтрации и входного сигнала фильтра минимизирована, причем последовательность откорректированных коэффициентов фильтрации равна векторной сумме последовательности промежуточных коэффициентов фильтрации и последовательности коэффициентов коррекции;
определение последовательности комбинированных коэффициентов фильтрации в виде умноженной на весовые коэффициенты векторной суммы последовательности промежуточных коэффициентов фильтрации и последовательности коэффициентов коррекции, причем весовые коэффициенты являются постоянными для всех этапов повторения и всех поддиапазонов;
определение значения выходного сигнала поддиапазона, равного скалярному произведению последовательности комбинированных коэффициентов фильтрации и входного сигнала фильтра, деленному на общую норму, определяемую по массивам комбинированных коэффициентов фильтрации для всех поддиапазонов и для всех дискретных по времени входных сигналов; и
установку последовательности промежуточных коэффициентов фильтрации для следующего этапа повторения, равной последовательности комбинированных коэффициентов фильтрации,
d) для каждого поддиапазона формируют выходной сигнал поддиапазона из соответствующих значений выходного сигнала поддиапазона, и
e) формируют дискретный по времени выходной сигнал путем применения второго преобразования к набору из всех выходных сигналов поддиапазона, причем второе преобразование является обратным по отношению к первому преобразованию.

2. Способ по п.1, в котором:
выделяют по меньшей мере один дополнительный выходной сигнал,
этапы с), d) и е) способа по п.1 выполняют по отдельности для каждого выходного сигнала,
длины входных последовательностей являются постоянными для всех выходных сигналов, и
весовые коэффициенты являются постоянными для всех выходных сигналов.

3. Способ по п.1 или 2, в котором
если определенная общая норма является меньшей или равной по отношению к нижнему уровню, применяют возрастающую функцию к каждой последовательности комбинированных коэффициентов фильтрации и устанавливают последовательность промежуточных коэффициентов фильтрации для следующего этапа повторения равной результату данного действия, и
если определенная общая норма является большей или равной по отношению к верхнему уровню, применяют убывающую функцию к каждой последовательности комбинированных коэффициентов фильтрации и устанавливают последовательность промежуточных коэффициентов фильтрации для следующего этапа повторения равной результату данного действия.

4. Способ по п.1, в котором:
упомянутый по меньшей мере один непрерывный по времени входной сигнал содержит искомый сигнал и по меньшей мере один помеховый сигнал,
статистическая функция распределения вероятностей искомого сигнала отличается от статистической функции распределения вероятностей упомянутого по меньшей мере одного помехового сигнала по меньшей мере в одном поддиапазоне, и
нелинейные функции выбирают в зависимости от статистической функции распределения вероятностей искомого сигнала.

5. Способ по п.4, в котором:
нелинейные функции уменьшают уровень мощности помеховых сигналов в большей степени, чем уровень мощности искомого сигнала.

6. Способ по п.4 или 5, в котором:
искомый сигнал является человеческой речью,
нелинейная функция имеет форму f(x)=α1·tanh(α2x).

7. Способ по п.1, дополнительно содержащий этап, на котором дискретизируют упомянутый, по меньшей мере, один непрерывный по времени сигнал в упомянутые моменты времени.

8. Способ по п.7, дополнительно содержащий этап, на котором собирают упомянутый по меньшей мере один непрерывный по времени сигнал по меньшей мере с одного соответствующего датчика.

9. Способ по п.1, дополнительно содержащий этап, на котором формируют непрерывный по времени выходной сигнал из каждого дискретного по времени выходного сигнала.

10. Устройство для адаптивного выделения, по меньшей мере, одного из искомых электромагнитных сигналов, звуковых сигналов (40, 42) или любых других сигналов из микшированной комбинации сигналов (40, 42, 44, 46), и подавления шумов и помеховых сигналов, с получением улучшенных сигналов (50), соответствующих искомым сигналам (10), содержащее
функции, предназначенные для определения одного или нескольких различающих параметров по меньшей мере одного из непрерывных по времени и/или соответственно дискретных по времени искомых сигналов, причем одним из упомянутых параметров является форма статистической функции распределения вероятности (pdf), причем упомянутый(е) различающий(ие) параметр(ы) отличается(ются) от упомянутых параметров шумов и помеховых сигналов;
по меньшей мере один датчик (12), выполненный с возможностью сбора сигнальных данных из искомых (10) сигналов, шумов и помеховых сигналов, дискретизации непрерывных по времени входных сигналов для формирования набора дискретных по времени входных сигналов или, соответственно, обработки дискретных по времени входных сигналов;
преобразователь (82), выполненный с возможностью преобразования упомянутых сигнальных данных в набор поддиапазонов;
усилитель и/или ослабитель, выполненный с возможностью усиливать или ослаблять каждый временной кадр входных сигналов в каждом поддиапазоне для всех сигналов таким образом, что искомые сигналы усиливаются или ослабляются, и что они усиливаются в большей или в меньшей степени, чем шумы и помеховые сигналы;
набор коэффициентов (90) фильтрации для каждого временного кадра входных сигналов в каждом поддиапазоне, адаптированный для обновления таким образом, чтобы минимизировать значение некоторого критерия ошибки между отфильтрованными входными сигналами и преобразованными выходными сигналами;
причем набор коэффициентов (90) фильтрации адаптирован с возможностью того, что упомянутые сигналы поддиапазонов фильтруются с помощью заданного набора фильтров поддиапазонов с получением заданного количества выходных сигналов, в каждом из которых искомые сигналы получают преимущество на основе одного или нескольких их различающих параметров, причем параметр для различения различных сигналов в микшированном сигнале основан на pdf; и
блок восстановления, выполненный с возможностью осуществлять обратное преобразование (100) над выходными сигналами поддиапазонов.

11. Устройство по п.10, в котором упомянутый преобразователь (82) выполнен с возможностью преобразовывать упомянутые сигнальные данные таким образом, что сигналы, доступные в цифровом представлении, разбиваются на сигналы поддиапазонов меньшей или равной ширины.

12. Устройство по п.10, в котором упомянутые принятые сигнальные данные преобразуются (80) в цифровую форму, если они аналоговые.

13. Устройство по п.10, в котором упомянутые выходные сигналы выполнены с возможностью преобразования, если требуется, в аналоговые сигналы (102).

14. Устройство по п.10, в котором уровни выходных сигналов корректируются вследствие изменения уровней сигналов при упомянутом ослаблении/усилении.

15. Устройство по п.10, в котором упомянутые коэффициенты фильтрации адаптивно ограничиваются по норме некоторым минимальным и максимальным значением коэффициента фильтрации.

16. Устройство по п.15, в котором выполняется увеличение коэффициентов фильтрации, когда они оказываются по норме меньше минимального допустимого значения, и уменьшение коэффициентов фильтрации, когда они оказываются по норме больше максимального допустимого значения.

Документы, цитированные в отчете о поиске Патент 2011 года RU2417460C2

US 6408269 B1, 18.06.2002
US 2006111900 A1, 25.05.2006
JP 2003271168 A, 25.09.2003
KR 20030050636 A, 25.06.2003
УСОВЕРШЕНСТВОВАННОЕ ПРЕОБРАЗОВАНИЕ СПЕКТРА/СВЕРТКА В ОБЛАСТИ ПОДДИАПАЗОНОВ 2001
  • Лильерюд Ларс Густаф
  • Экстранд Пер
  • Хенн Фредрик
  • Кьерлинг Кристофер
RU2251795C2
СИСТЕМА АДАПТИВНОЙ ФИЛЬТРАЦИИ АУДИОСИГНАЛОВ ДЛЯ УЛУЧШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ ПРИ НАЛИЧИИ ШУМА 1996
  • Торбьерн В. Сельве
RU2163032C2

RU 2 417 460 C2

Авторы

Грбик Неделько

Клаессон Ингвар

Эрикссон Пер

Даты

2011-04-27Публикация

2006-06-05Подача