Варианты осуществления настоящего изобретения относятся к способу и устройству для определения глубокого фильтра. Дополнительные варианты осуществления относятся к применению способа извлечения сигнала, отделения сигнала или реконструкции сигнала.
Когда сигнал захватывается датчиками, он обычно содержит нужные и ненужные компоненты. Рассмотрим речь (нужную) в зашумленном окружении с дополнительными говорящими, создающими помеху, или направленными источниками шума (ненужными). Извлечение нужной речи из смеси необходимо для получения высококачественных свободных от шумов записей и может благотворно сказываться на воспринимаемом качестве речи, например, в системах конференц-связи или мобильной связи. Рассматривая другой сценарий электрокардиографии, электроматографии или электроэнцефалографии, где биомедицинские сигналы захватываются датчиками, помехи или шумы также нужно подавлять для обеспечения оптимальной интерпретации и дополнительной обработки захваченных сигналов, например, медицинским персоналом. В общем случае, извлечение нужного сигнала из смеси или разделение множественных нужных сигналов в смеси желательно во многих разных сценариях.
Помимо извлечения и разделения, существуют сценарии, где части захваченного сигнала больше не доступны. Рассмотрим сценарий передачи, где некоторые пакеты потеряны, или аудиозаписи, где акустика помещения создает пространственные гребенчатые фильтры и приводит к подавлению/ослаблению конкретных частот. Предполагая наличие в оставшихся частях сигнала информации о содержимом потерянных частей, реконструкция пропущенных частей сигнала также весьма желательна во многих разных сценариях.
Ниже будут рассмотрены современные подходы к извлечению и отделению сигнала.
При наличии адекватной оценки статистики нужного и ненужного сигналов, традиционные способы, наподобие винеровской фильтрации, применяют действительнозначный коэффициент усиления к представлению комплексной смеси с помощью кратковременного преобразования Фурье (STFT) для извлечения из смеси нужного сигнала [например [01], [02]].
Другая возможность состоит в оценивании из статистики комплекснозначного многомерного фильтра в области STFT каждого временно-частотного элемента разрешения смеси и его применения для осуществления извлечения. Для сценария отделения, каждый нужный сигнал нуждается в своем собственном фильтре [02].
Статистические способы хорошо работают с данными стационарными сигналами, однако статистическое оценивание часто встречает затруднения с данными сильно нестационарные сигналы.
Другой подход состоит в использовании неотрицательного матричного разложения (NMF). Оно бесконтрольно обучается из обеспеченных базисных векторов обучающих данных для данных, которые можно распознавать в ходе тестирования [например [03], [04]]. Когда речь нужно отделить от белого шума, NMF изучает наиболее заметные базисные векторы в примерах обучения. Поскольку белый шум не имеет корреляции по времени, эти векторы принадлежат речи. В ходе испытания, можно определять, активен ли в данный момент один из базисных векторов для осуществления извлечения.
Речевые сигналы от разных говорящих сильно отлючаются, аппроксимация всех возможных речевых сигналов ограниченным количеством базисных векторов не отвечает этой высокой дисперсии в нужных данных. Также, если шум является высоко нестационарным и неизвестным в ходе обучения, в отличие от белого шума, базисные векторы могут покрывать шумовые сегменты, что снижает производительность извлечения.
В последние годы, в особенности методы временно-частотного маскирования на основе глубокого обучения показали основные усовершенствования в отношении производительности [например [05]]. При наличии помеченных обучающих данных, глубокая нейронная сеть (DNN) обучается оценивать временно-частотную маску. Эта маска поэлементно применяется к комплексной смеси STFT для осуществления извлечения сигнала или в случае множественных масок отделение сигнала. Элементы маски могут быть двоичными при условии, что временно-частотный элемент разрешения смеси доминируется единственным источником [например [06]]. Элементы маски также могут быть действительнозначными отношениями [например [07]] или комплекснозначными отношениями [например [08]] данных множественных активных источников для каждого временно-частотного элемента разрешения.
Это извлечение показано на фиг. 1. На фиг. 1 показаны две частото/временные диаграммы для множества элементов разрешения sx, y. Элементы разрешения являются входным STFT, причем область, обозначенная A, входного STFT сообщается DNN для оценивания коэффициента усиления для каждого временно-частотного элемента разрешения в ней. Этот коэффициент усиления применяется к комплексному входному STFT, поэлементно (см. элемент разрешения, обозначенный x во входном сигнале а также в диаграмме извлечения). Цель состоит в оценивании соответствующего нужного компонента.
При условии, что временно-частотный элемент разрешения смеси равен нулю вследствие деструктивной интерференции нужных и ненужных сигналов, маски не могут реконструировать нужные сигналы путем применения коэффициента усиления только к этому элементу разрешения, поскольку соответствующее значение маски не существует. Даже если временно-частотный элемент разрешения смеси близок к нулю вследствие деструктивной интерференции нужных и ненужных сигналов, маски обычно не могут полностью реконструировать нужные сигналы путем применения коэффициента усиления только к этому элементу разрешения, поскольку соответствующая маска обычно ограничена по величине, что ограничивает ее производительность при условии деструктивной интерференции в конкретных временно-частотных элементах разрешения. Кроме того, в случае потери частей сигнала, маски не могут реконструировать эти части, поскольку они применяют коэффициент усиления только к временно-частотному элементу разрешения для оценивания нужного сигнала.
Поэтому требуется усовершенствованный подход.
Задача настоящего изобретения состоит в обеспечении усовершенствованного подхода для извлечения, отделения и реконструкции сигнала.
Эта задача решается объектами независимых пунктов формулы изобретения.
Вариант осуществления настоящего изобретения предусматривает способ определения глубокого фильтра по меньшей мере одного измерения. Способ содержит этапы приема смеси, оценивания с использованием глубокой нейронной сети глубокого фильтра, причем оценивание осуществляется таким образом, что глубокий фильтр при применении к элементам смеси получает оценку соответствующих элементов нужного представления. Здесь глубокий фильтр по меньшей мере одного измерения содержит тензор с элементами.
Изобретение основано на понимании того, что комбинация принципа комплексных временно-частотных фильтров из частей статистического способа с глубокими нейронными сетями позволяет извлекать/отделять/реконструировать нужные значения из многомерного тензора (предполагая многомерный тензор входным представлением). Эта общая конфигурация называется глубоким фильтром, базирующимся на искаженных/зашумленных входных сигналах, обработанных с использованием нейронной сети (которая может обучаться с использованием функции стоимости и обучающих данных). Например, тензор может быть одномерным или двухмерным комплексным STFT или также STFT с дополнительной размерностью датчика, но не ограничивается этими сценариями. Здесь глубокая нейронная сеть напрямую используется для оценивания для каждого уравненного элемента тензора (A) одномерного или даже многомерного (комплексного) глубокого фильтра. Эти фильтры применяются к заданным областям ухудшенного тензора для получения оценок нужных значений в улучшенном тензоре. Это позволяет преодолеть проблему масок с деструктивной интерференцией вследствие их ограниченных значений путем включения нескольких значений тензора для их оценки. Использование DNN также позволяет преодолевать статистическое оценивание для временно-частотных фильтров.
Согласно варианту осуществления, смесь может содержать действительно- или комплекснозначное временно-частотное представление (наподобие кратковременного преобразования Фурье) или его признаковое представление. Здесь, нужное представление содержит нужное действительно- или комплекснозначное временно-частотное представление или также его признаковое представление. Согласно вариантам осуществления, следствием может быть то, что глубокий фильтр также содержит действительно- или комплекснозначный временно-частотный фильтр. В этом случае, существует возможность описания одного измерения глубокого фильтра в области кратковременного преобразования Фурье.
Кроме того, по меньшей мере одно измерение может состоять в группе, содержащей временное измерение, частотное измерение или измерение сигнала датчика. Согласно дополнительным вариантам осуществления, оценивание осуществляется для каждого элемента смеси или для заданной части элементов смеси или для заданной части элементов тензора смеси. Это оценивание - согласно вариантам осуществления - может осуществляться для одного или более, например, по меньшей мере двух источников.
Согласно определению фильтра, следует отметить, что способ может, согласно вариантам осуществления, содержать этап задания структуры фильтра с помощью переменных фильтра для глубокого фильтра по меньшей мере одного измерения. Этот этап может оставаться в связи с вариантом осуществления, согласно которому глубокая нейронная сеть содержит множество выходных параметров, причем количество выходных параметров может быть равно количеству значений фильтра для фильтрационной функции глубокого фильтра. Заметим, что количество обучаемых параметров обычно гораздо больше, причем полезно задавать количество выходных сигналов, равное количеству действительных плюс мнимых компонентов фильтра. Согласно вариантам осуществления, глубокая нейронная сеть содержит слой нормализации партии, слой двунаправленной долгой краткосрочной памяти, выходной слой прямой связи, выходной слой прямой связи с активацией гиперболическим тангенсом и/или один или более дополнительных слоев. Как указано выше, эта глубокая нейронная сеть может обучаться. Поэтому способ содержит, согласно вариантам осуществления, этап обучения глубокой нейронной сети. Этот этап может осуществляться на подэтапе обучения с использованием среднеквадратичной ошибки (MSE) между эталонными данными и нужным представлением и оценки нужного представления. Заметим, что иллюстративный подход к процедуре обучения состоит в минимизации среднеквадратичной ошибки в ходе обучения DNN. Альтернативно, глубокая нейронная сеть может обучаться путем уменьшения ошибки реконструкции между нужным представлением и оценкой нужного представления. Согласно дополнительному варианту осуществления, обучение осуществляется путем реконструкции по величине.
Согласно варианту осуществления, оценивание может осуществляться по формуле
где 2⋅L+1 - размер фильтра в направлении временного кадра, и 2⋅I+1 - размер фильтра в направлении частоты, и - комплексно-сопряженный 2D фильтр. Исключительно для полноты следует отметить, что вышеприведенная формула представляет, что следует осуществлять на “этапе применения”.
Начиная с этой формулы, обучение может осуществляться с использованием следующей формулы,
,
где - нужное представление, и - оценка нужного представления, или
с использованием следующей формулы:
,
где - нужное представление, и - оценка нужного представления.
Согласно вариантам осуществления, элементы глубокого фильтра ограничены по величине или ограничены по величине с использованием следующей формулы,
,
где - комплексно-сопряженный 2D фильтр. Заметим, что в предпочтительном варианте осуществления ограничение обусловлено функцией активации гиперболического тангенса выходного слоя DNN.
Другой вариант осуществления предусматривает способ фильтрации. Этот способ содержит основные, а также необязательные этапы вышеописанного способа определения глубокого фильтра и этап применения глубокого фильтра к смеси. Здесь следует отметить, что согласно вариантам осуществления, этап применения осуществляется путем поэлементного умножения и последовательного суммирования для получения оценки нужного представления.
Согласно дополнительному варианту осуществления этот способ фильтрации может использоваться для извлечения сигнала и/или для отделения сигнала по меньшей мере двух источников. Другое применение согласно дополнительному варианту осуществления состоит в том, что этот способ может использоваться для реконструкции сигнала. Типичными применениями реконструкции сигнала являются утаивание потери пакетов и расширение полосы.
Следует отметить, что способ фильтрации, а также способ извлечения сигнала/отделения сигнала и реконструкции сигнала может осуществляться с использованием компьютера. Это справедливо для способа определения глубокого фильтра по меньшей мере одного измерения. Это означает, что дополнительный вариант осуществления предусматривает компьютерную программу, имеющую программный код для осуществления, при выполнении на компьютере, одного из вышеописанных способов.
Другой вариант осуществления предусматривает устройство для определения глубокого фильтра. Устройство содержит вход для приема смеси;
глубокую нейронную сеть для оценивания глубокого фильтра таким образом, что глубокий фильтр, когда применяется к элементам смеси, получает оценки соответствующих элементов нужного представления. Здесь, фильтр содержит тензор (с элементами) по меньшей мере одного измерения.
Согласно другому варианту осуществления, предусмотрено устройство, позволяющее фильтровать смесь. Это устройство содержит глубокий фильтр, определенный выше, который применяется к смеси. Это устройство можно улучшить, чтобы оно позволяло осуществлять извлечение сигнала/отделение сигнала/реконструкция сигнала.
Далее варианты осуществления настоящего изобретения будут рассмотрены со ссылкой на прилагаемые чертежи, где
фиг. 1 - диаграмма (частотно-временная диаграмма) представляющая смесь в качестве входного сигнала совместно с диаграммой, представляющей извлечение, для иллюстрации принципа формирования/определения фильтра согласно традиционному подходу;
фиг. 2a - входная диаграмма (частотно-временная диаграмма) и диаграмма извлечения (частотно-временная диаграмма) для иллюстрации принципа оценивания фильтра согласно варианту осуществления настоящего изобретения;
фиг. 2b - блок-схема операций для иллюстрации способа определения глубокого фильтра согласно варианту осуществления;
фиг. 3 - блок-схема архитектуры DNN согласно варианту осуществления;
фиг. 4 - блок-схема архитектуры DNN согласно дополнительному варианту осуществления;
фиг. 5a-b - две диаграммы, представляющие результаты двух испытаний, выраженные в MSE, для иллюстрации преимуществ вариантов осуществления;
фиг. 6a-6c - фрагмент логарифмической амплитудно-частотной характеристики STFT для иллюстрации принципа и преимуществ вариантов осуществления настоящего изобретения.
Ниже варианты осуществления настоящего изобретения будут рассмотрены с обращением к сопровождающим чертежам, на которых одинаковые ссылочные позиции обозначают элементы/объекты, имеющие одинаковую или аналогичную функцию, благодаря чему их описание взаимно применимо и взаимозаменяемо.
На фиг. 2a показаны две частотно-временные диаграммы, где левая частотно-временная диаграмма, обозначенная ссылочной позицией 10, представляет смесь, принятую в качестве входного сигнала. Здесь, смесь представляет собой STFT (кратковременное преобразование Фурье), имеющее множество элементов разрешения sx, y. Некоторые элементы разрешения, обозначенные ссылочной позицией 10a, используются в качестве входного сигнала для оценивания фильтра, который является целью способа 100, описанного в контексте фиг. 2a и 2b.
Согласно фиг. 2b, способ 100 содержит два основных этапа 110 и 120. На основном этапе 110 происходит прием смеси 110, как показано на левой диаграмме на фиг. 2a.
На следующем этапе 120 происходит оценивание глубокого фильтра. Этот этап 120 проиллюстрирован стрелками 12, символизирующими отображение отмеченных элементов разрешения 10x правой частотно-временной диаграммы, используемой в порядке извлечения. Оцененный фильтр визуализируется крестиками 10x и оценивается таким образом, что глубокий фильтр, в случае применения к элементам смеси получает оценку соответствующего элемента нужного представления 11 (см. Диаграмму абстракции). Другими словами это означает, что фильтр можно применять к заданной области комплексного входного STFT для оценивания соответствующего нужного компонента (см. диаграмму извлечения).
Здесь DNN используется для оценивания для каждого элемента sx, y ухудшенного тензора по меньшей мере одномерного, или, предпочтительно, многомерного (комплексного) глубокого фильтра, что обозначено 10x. Фильтр 10x (для элемента ухудшенного тензора) применяется к заданным областям 10a ухудшенного тензора sx, y для получения оценок нужных значений в улучшенном тензоре. Это позволяет преодолеть проблему маски с деструктивной интерференцией вследствие их ограниченных значений путем включения нескольких значений тензора для оценок. Заметим, что маски ограничены, поскольку выходные сигналы DNN находятся в ограниченном диапазоне, обычно (0,1). С теоретической точки зрения, диапазон (0, ∞) является предпочтительным вариантом для осуществления хорошей реконструкции, причем недостатки вышеописанного ограниченного диапазона были показаны на практике. Этот подход позволяет преодолеть статистическое оценивание для временно-частотных фильтров с использованием DNN.
В отношении примера, показанного на фиг. 2a, следует отметить, что здесь используется квадратный фильтр, причем фильтр 10 не ограничивается этой формой. Также следует отметить, что фильтр 10x имеет два измерения, а именно частотное измерение и временное измерение, причем, согласно другому варианту осуществления, фильтр 10x может иметь только одно измерение, т.е. частотное измерение или временное измерение или другое (не показанное) измерение. Кроме того, следует отметить, что фильтр 10a имеет больше, чем показанные два измерения, т.е. может быть реализован в виде многомерного фильтра. Хотя фильтр 10x проиллюстрированный как 2D комплексный фильтр STFT, другая возможность состоит в том, что фильтр реализуется в виде STFT с дополнительной размерностью датчика, т.е. не обязательно в виде комплексного фильтра. Альтернативы представляют собой действительно-значный фильтр и кватернионо-значный фильтр. Эти фильтры также могут иметь размерность один или более для формирования многомерного глубокого фильтра.
Многомерные фильтры обеспечивают многоцелевое решение для разнообразных задач (отделения сигнала, реконструкции сигнала, извлечения сигнала, снижения шума, расширения полосы, …). Они способны осуществлять извлечение сигнала и отделять лучшие, чем временно-частотные маски (традиционные). Поскольку они снижают деструктивную интерференцию, они могут применяться в целях утаивания потери пакетов или расширения полосы, которое аналогично проблеме деструктивной интерференции и, следовательно, не решатется временно-частотными масками. Кроме того, они могут применяться в целях ликвидации усечения сигналов.
Глубокие фильтры могут задаваться в разных измерениях, например, временном, частотном или датчиковом, что делает их очень гибкими и применимыми к разнообразным задачам.
По сравнению с традиционной техникой, извлечение сигнала из одноканальной смеси с дополнительными ненужными сигналами, которое чаще всего осуществляется с использованием временно/частотных (TF) масок, проясняет, что комплексный TF фильтр, оцененный с использованием DNN, оценивается для каждого TF элемента разрешения смеси, который отображает область STFT в соответствующей смеси в нужный TF элемент разрешения для решения деструктивной интерференции в TF элемент разрешения смеси. Как рассмотрено выше, DNN можно оптимизировать путем минимизации ошибки между извлеченным и эталонным нужным сигналом, что позволяет осуществлять обучение, без необходимости задавать эталонные TF фильтры, но обучать фильтры путем уменьшения частоты ошибок. Исключительно для полноты, следует отметить, что традиционный подход, позволяющий извлекать сигнал из одноканальной смеси с дополнительными ненужными сигналами, чаще всего осуществляется с использованием временно-частотных (TF) масок. Обычно маска оценивается с помощью глубокой нейронной сети DNN и поэлементно применяется к представлению комплексной смеси с помощью кратковременного преобразования Фурье (STFT) для осуществления извлечения. Идеальные величины маски равны нулю только для ненужных сигналов в TF элементе разрешения и бесконечность для суммарной деструктивной интерференции. Обычно маски имеют ограничение сверху для обеспечения строго определенных выходных сигналов DNN ценой ограниченных возможностей извлечения.
Ниже процесс конструирования фильтра будет рассмотрен более подробно со ссылкой на фиг. 3.
На фиг. 3 показан пример архитектуры DNN, отображающей действительное и мнимое значение входного STFT 10 с использованием DNN 20 в фильтр 10x (см. фиг. 3a). Согласно реализации, показанной на фиг. 3b, архитектура DNN может содержать множество слоев, таким образом, что их отображение осуществляется с использованием либо три слоя двунаправленной долгой краткосрочной памяти BLTSMS (либо три слоя долгой краткосрочной памяти) LSTMS (оба плюс слой прямой связи с активацией гиперболическим тангенсом в действительные и мнимые значения глубоких фильтров. Заметим, что BLSTMS имеют путь LSTM в прямом и обратном направлении времени.
На первом этапе указывается структура фильтра, зависящая от задачи. Согласно способу 100 (см. фиг. 2b), этот необязательный этап обозначен ссылочной позицией 105. Эта конструкция является компромиссом между вычислительной сложностью (т.е., чем больше значений может принимать фильтр, тем больше требуется вычислений и производительность при условии слишком малого количества значений фильтра, например, деструктивная интерференция или потеря данных снова может играть роль, поэтому задается граница реконструкции).
Глубокие фильтры 10x получаются путем подачи смеси 10 или его признакового представление в DNN 20. Признаковое представление может, например, быть действительной и мнимой частью STFT комплексной смеси в качестве входного сигнала 10.
Как показано выше, архитектура DNN может состоять, например, из слоя нормализации партии, слоев (двунаправленной) долгой краткосрочной памяти (BLSTM) и выходной слой прямой связи, например, с активацией гиперболическим тангенсом. Активация гиперболическим тангенсом приводит к выходным слоям DNN в [-1,1]. Конкретный пример приведен в приложении. Если вместо BLSTMS используются LSTM, может осуществляться отделение/реконструкция онлайн, поскольку структура DNN лишена обратного пути по времени. Конечно, дополнительные слои или альтернативные слои могут использоваться в архитектуре 10 DNN.
DNN может обучаться, согласно дополнительному варианту осуществления, со среднеквадратичной ошибкой между эталонными данными и оцененными сигналами заданными путем применения фильтров к смеси. На фиг. 2 показано применение иллюстративного фильтра, который оценила DNN. Красные крестики во входном сигнале обозначают элементы разрешения STFT, для которых комплексные значения фильтра были оценены для оценивания соответствующего элемента разрешения STFT (обозначенного красным крестиком) в извлечении. Существует оценивание фильтра для каждого значения в извлечении STFT. При условии, что во входном STFT, подлежащем отделению, присутствует N нужных источников, процесс извлечения осуществляется для каждого из них по отдельности. Фильтры нужно оценивать для каждого источника, например, с архитектурой, показанной на фиг. 4.
На фиг. 4 показан пример архитектуры DNN, отображающей действительное и мнимое значение входного STFT 10 во множество фильтров 10×1-10xn. Каждый из фильтров 10×1-10xn предназначен для определенного нужного источника. Это отображение осуществляется, как рассмотрено со ссылкой на фиг. 3, с использованием DNN 20.
Согласно варианту осуществления, оцененный/определенный глубокий фильтр может использоваться для разных сценариев применения. Вариант осуществления предусматривает способ извлечения и отделения сигнала с использованием глубокого фильтра, определенного в соответствии с вышеописанным принципом.
Когда один или несколько нужных сигналов нужно извлечь из смеси STFT, возможной формой фильтра является 2D прямоугольный фильтр для каждого элемента разрешения STFT для каждого нужного источника для осуществления отделения/извлечения нужных сигналов. Такой глубокий фильтр проиллюстрирован на фиг. 2a.
Согласно дополнительному варианту осуществления, глубокий фильтр может использоваться для реконструкции сигнала. Если смесь STFT вырождается за счет предварительной фильтрации (например, режекторным фильтром), артефактов усечения, или части нужного(ых) сигнала(ов) пропущена(ы) (например, вследствие потери пакетов [например [9] ] в ходе передачи или узкополосной передачи).
В вышеприведенных случаях нужные сигналы нужно реконструировать с использованием временной и/или частотой информации.
Рассматриваемые сценарии решают проблемы реконструкции, где элементы разрешения STFT были пропущены либо во временном, либо в частотном измерении. В контексте расширения полосы (например, в случае узкополосной передачи), конкретные области STFT пропущены (например, верхние частоты). Заранее зная о не ухудшенных элементах разрешения STFT, можно сократить количество фильтров до количества ухудшенных элементов разрешения STFT (т.е. пропущенных верхних частот). Можно оставить прямоугольную структуру фильтра, но применять глубокие фильтры к данным нижним частотам для осуществления расширения полосы.
Вышеописанные варианты осуществления предусматривают использование глубокого фильтра для извлечения сигнала с использованием комплексных временно-частотных фильтров. В нижеследующем подходе проводится сравнение между подходом м комплексно- и действительно-значными TF масками путем выделения речи из разнообразных звуковых и шумовых классов из корпуса Google AudioSet. Здесь, смесь STFT может обрабатываться режекторными фильтрами и полностью нулевыми временными кадрами для демонстрации возможностей реконструкции данного подхода. Предложенный способ превзошел исходные показатели, в особенности, когда применялись режекторные фильтры и обнуление временных кадров.
Сигналы реального мира часто повреждаются ненужными источниками шума или источниками помех наподобие белого собственного шума микрофонов, фоновых звуков наподобие невнятной речи или дорожного шума, а также резкими звуками наподобие аплодисментов. Предварительная обработка наподобие режекторной фильтрации или конкретная акустика помещения, которая создает пространственные гребенчатые фильтры, также может способствовать снижению качества записанного сигнала. Извлечение и/или реконструкция нужного сигнала из такой смеси приносит большую пользу, когда требуются высококачественные сигналы. Возможными применениями являются, например, улучшение записанных речевых сигналов, отделение разных источников друг от друга или утаивание потери пакетов. Способы извлечения сигнала в широком смысле можно классифицировать на одно- и многоканальные подходы. В этом документе будут рассмотрены одноканальные подходы и решение проблемы извлечения нужного сигнала из смеси нужных и ненужных сигналов.
Общие подходы осуществляют это извлечение в области кратковременного преобразования Фурье (STFT), где оценивается либо нужная спектральная величина (например, [1]), либо временно-частотная (TF) маска, которая затем поэлементно применяется к комплексной смеси STFT для осуществления извлечения. Оценивание TF масок обычно предпочтительнее, чем непосредственное оценивание спектральных величин по причинам [2] производительности. Обычно, TF маски оцениваются из представления смеси глубокой нейронной сетью (DNN) (например [2]-[9]), где выходной слой часто напрямую дает маску STFT. Существуют два общих подхода к обучению таких DNN. Согласно первому, задается маска эталонных данных, и DNN обучается смесью для маскирования отображения путем минимизации функции ошибок между эталонными данными и оцененными масками (например [3], [5]). Согласно второму подходу, DNN обучается отображению, напрямую минимизируя функцию ошибок между оцененным и нужным сигналами (например [8], [10], [11]). Эрдоган и др. [12] показали, что прямая оптимизация равна оптимизации маски, взвешенной квадратом величины смеси. В результате, влияние высокоэнергичных TF элементов разрешения на потери увеличивается, и влияние низкой энергии уменьшается. Кроме того, маску эталонных данных задавать не нужно, поскольку она неявно задана в нужном сигнале эталонных данных.
Для разных задач извлечения, предложены различные типы TF масок. Рассматривая смесь в области STFT, где сигнал в каждом TF элементе разрешения принадлежит либо только нужному, или либо только ненужному сигналу, извлечение может осуществляться с использованием двоичных масок [13], которые использовались, например, в [5], [7]. Рассматривая смесь в области STFT, где несколько источников активны в одном и том же TF элементе разрешения, могут применяться маски отношения (RM) [14] или комплексные маски отношения (cRM) [15]. Обе назначают коэффициент усиления каждому TF элементу разрешения смеси для оценивания нужного спектра. Действительнозначные коэффициенты усиления RM осуществляют коррекцию величины для каждого TF элемента разрешения из смеси в нужный спектр. В этом случае оцененная фаза равна фазе смеси. cRM применяют комплексный коэффициент усиления вместо действительного и дополнительно осуществляют коррекцию фазы. Выделение, подавление реверберации и подавление шума речи достигается с использованием RM (например [6], [8], [10], [11], [16]) и cRM (например [3], [4]). В идеале, величина RM и cRM равна нулю, если в TF элементе разрешения активны только ненужные сигналы, и бесконечности, если в определенном TF элементе разрешения нужные и ненужные сигналы перекрываются деструктивно. DNN не может оценивать выходные сигналы, стремящиеся к бесконечности. Для получения строго определенных выходных сигналов DNN, можно оценивать сжатую маску (например [4]) с помощью DNN и осуществлять извлечение после снятия сжатия для получения значений маски с высокими величинами. Однако слабый шум на выходе DNN может приводить к очень большому изменению оцененных масок, давая большие ошибки. Кроме того, когда сумма нужных и ненужных сигналов в TF элементе разрешения равна нулю, сжатая маска также не может реконструировать соответствующую величину из нуля путем умножения. Часто случай деструктивной интерференции игнорируется (например [6], [11], [17]), и оцениваются значения маски, ограниченные единицей, поскольку более высокие значения сопряжены с риском усиления шума. Помимо масок комплекснозначные TF фильтры (например [18]) также применялись в целях извлечения сигнала. Современные подходы к TF фильтрам обычно предусматривают этап статистического оценивания (например, [18]-[21]), что может быть критично при условии большого разнообразия неизвестных сигналов помехи с быстро изменяющейся статистикой, присутствующих в сценариях реального мира.
В этом документе предлагается использовать DNN для оценивания комплекснозначного TF фильтра для каждого TF элемента разрешения в области STFT для решения извлечения также для сильно нестационарных сигналов с неизвестной статистикой. Фильтр поэлементно применяется к заданной области в соответствующей смеси STFT. Результат суммируется для получения оценки нужного сигнала в соответствующем TF элементе разрешения. Комплексные значения отдельных фильтров ограничены по величине для обеспечения строго определенных выходных сигналов DNN. Каждый оцененный TF элемент разрешения является комплексной взвешенной суммой области TF элемента разрешения в комплексной смеси. Это позволяет решать случай деструктивной интерференции в единственном TF элементе разрешения без шумочувствительности сжатия маски. Это также позволяет реконструировать TF элемент разрешения, который равен нулю с учетом соседних TF элементов разрешения с ненулевыми величинами. Комбинация DNN и TF фильтров нивелирует как недостатки TF масок, так и существующие подходы к TF фильтрам.
Документ структурирован следующим образом. В разделе II представлен процесс извлечения сигнала с помощью TF масок и затем, в разделе III, описан предложенный способ. Раздел IV содержит используемые массивы данных, и раздел V - результаты экспериментов для проверки теоретических изысканий.
Начиная с этого извлечения, осуществляется извлечение на основе маски STFT. Описано извлечение, обработанное TF маской, при обеспечении деталей реализации масок, используемых в качестве исходных данных при оценивании производительности.
A. Задача
Обозначим комплексный одноканальный спектр смеси X(n, k), нужного сигнала как Xd(n, k), и ненужного сигнала как Xu(n, k) в области STFT, где n - временной кадр, и k - индекс частоты. Рассмотрим смесь X(n, k) как суперпозицию
(1)
Задача состоит в получении оценки Xd(n, k) путем применения маски к X (n, k) в качестве суперпозиции
(2)
где - оцененный нужный сигнал, и (n, k) - оцененная TF маска. Для двоичной маски, (n, k) ∈ {0, 1}, для RM (n, k) ∈ [0, b] с верхней границей b ∈ , и для cRM | (n, k)| ∈ [0, b] и (n, k) ∈ C. Верхняя граница b обычно равна единице или близка к единице. Двоичные маски классифицируют TF элементы разрешения, RM осуществляют коррекцию величины, и cRM дополнительно осуществляют коррекцию фазы от X(n, k) к . Решение проблемы извлечения в этом случае равно решению проблемы оценивания маски.
Обычно TF маски оцениваются в DNN, которая оптимизирована либо для оценивания заранее заданной TF маски эталонных данных для всех N · K TF элементов разрешения, где N - суммарное количество временных кадров, и K - количество частотных элементов разрешения для каждого временного кадра
(3)
с маской эталонных данных M(n, k), либо для снижения реконструкции Xd(n, k) и
(4)
или реконструкции по величине
(5)
Оптимизация ошибки реконструкции эквивалентна взвешенной оптимизации масок, снижающей влияние TF элементов разрешения с низкой энергией и увеличивающей влияние высокоэнергичных TF элементов разрешения на потери [12]. Для деструктивной интерференции в (1) справедливо общеизвестное неравенство треугольника, выраженное в виде
(6)
требующее 1 < |M(n, k)| . Следовательно, глобальный оптимум не может достигаться выше верхней границы b маски.
B. Реализация
Для оценивание маски используется DNN со слоем партия-норм после которого следуют три слоя двунаправленной долгой краткосрочной памяти (BLSTM) [22] с 1200 нейронами на слой и выходной слой прямой связи с активацией гиперболическим тангенсом, дающий выход O с размерностью (N, K, 2), представляющий мнимый и действительный выход для каждого TF элемента разрешения ∈ [−1, 1].
Для оценивания маски построена модель, имеющая одно и то же количество обучаемых параметров и один и тот же максимум | | для подходов RM и cRM. Используется действительнозначная DNN с уложенной в стопку мнимой и действительной частью X в качестве входного сигнала и два выходных сигнала, обозначенные Or и Oi, для каждого TF элемента разрешения. Их можно интерпретировать как мнимый и действительный компоненты маски. Для оценивания RM вычисляется (n, k)= , что дает (n, k) ∈ [0, √2]. Для cRM величина Re{ (n, k))}=Or(n, k) и Im{ (n, k)} составляет от 1 до √2, где 1 достигается для Oi(n, k). Эта настройка дает зависящий от фазы максимальный cRM чисто действительное или мнимое значение маски и √2 для |Or(n, k)|=|Oi(n, k)|=1, что приводит к недостатку усиления cRM по сравнению с RM. Были обучены две DNN для оценивания RM, оптимизированного с (5), и cRM, оптимизированного с (4). Комплексное умножение X(n, k) и (n, k) в (2) для cRM осуществляется согласно
Заметим, что (n, k) для краткости опущено. Было обучено 100 эпох, использовались оптимизатор Адама [23], выпадение [24] 0,4 в BLSTM, размер партии 64, начальная скорость обучения 1e-4 умноженный на 0,9 после каждого эпизода потеря подтверждения не уменьшалась.
Ниже будет рассмотрен усовершенствованный подход к предложенному извлечению на основе фильтра STFT. Здесь, в частности, будет показано, как оценивать xd с использованием фильтра в области STFT вместо TF масок. Этот фильтр называется глубоким фильтром (DF).
A. Задача
Предложено получать из путем применения комплексного фильтра
(9)
где 2 · L+1 - размер фильтра в направлении временного кадра, и 2 · I+1 в направлении частоты и - комплексно-сопряженный 2D фильтр TF элемента разрешения (n, k). Заметим, что, без потери общности, в (9) используется квадратный фильтр только для простоты представления. Значения фильтра подобны значениям маски, ограниченным по величине для обеспечения строго определенных выходных сигналов DNN
(10)
DNN оптимизируется согласно (4), что позволяет осуществлять обучение без необходимости задавать фильтры эталонных данных (GTF) и напрямую оптимизировать среднеквадратичную ошибку реконструкции (MSE). Решение по GTF критически важно, поскольку обычно существует бесконечно много комбинаций разных значений фильтра, которые приводят к одному и тому же результату извлечения. Если GTF выбирается произвольно для TF элемента разрешения из бесконечного множества GTF, обучение не удается ввиду отсутствия согласованности между выбранными фильтрами. Эту ситуацию можно интерпретировать как частично наблюдаемый процесс для проектировщика GTF и полностью наблюдаемый для DNN. На основании свойств входных данных, DNN может принимать решение, какой именно фильтр взять без неопределенностей. Проектировщик GTF имеет бесконечно большое множество возможных GTF, но не может интерпретировать входные данные, чтобы решить, какой GTF взять, чтобы текущее обновление DNN согласовывалось с предыдущими обновлениями. Обучение согласно (4), позволяет избежать проблемы выбора GTF.
B. Реализация
Используется та же DNN, которая была предложена в разделе II-B, изменения касаются только формы выходного сигнала (N, K, 2, 2 · L+1, 2 · I+1), где последние 2 элемента являются измерениями фильтра. Комплексное умножение в (9) осуществляется, как показано в (7) и (8). В экспериментальных исследованиях было установлено L=2 и I=1, в результате чего максимум |Hn, k (l, i)| фильтра зависит от фазы ∈ для размерности (5, 3). Аналогично cRM в подразделе II-B, используется активация выходного слоя. Поскольку все |Hn, k (l, i)| могут быть равны по меньшей мере 1, DNN теоретически можно оптимизировать (4) до ее нулеваго глобального оптимума, если
(11)
где ∈ - максимальная величина, которой могут достигать все значения фильтра, в текущей настройке c=1. Следовательно, для решения деструктивной интерференции, суммирование всех величин смеси, рассматриваемых фильтром, взвешенным величиной c, должно быть по меньшей мере равно величине нужного TF элемента разрешения. Когда фильтры выходят за пределы спектра для TF элементов разрешения на краю, спектр заполняется L нулями на временной оси и I нулями на частотной оси.
IV. Массивы данных
AudioSet [25] используется в качестве источника помех (без речевых выборок) и LIBRI [26] в качестве массивов данных нужной речи. Все данные дискретизируются с понижением до частоты дискретизации 8 кГц и имеют длительность 5 с. Для STFT размер скачка задан равным 10 мс, длина кадра - 32 мс, и используется окно Ханна. В результате, в проведенных испытаниях K=129 и N=501.
Нужные речевые выборки подвергались ухудшению путем добавления белого шума, помехи из AudioSet, режекторной фильтрации и обнуления произвольного временного кадра (T-kill). Каждое ухудшение применялось к выборке с вероятностью 50 процентов. Для помехи из AudioSet, было произвольно выбрано пять секунд AudioSet и нужная речь из LIBRI для вычисления одной обучающей выборки. Речь и помеха смешивались с сегментарным отношением сигнал-шум (SNR) ∈ [0, 6] дБ, речь и белый шум - с SNR ∈ [20, 30] дБ. Для режекторной фильтрации, была произвольно выбрана центральная частота с добротностью ∈ [10, 40]. В случае применения T-kill, каждый временной кадр обнуляется с вероятностью 10 процентов. Было сформировано 100000 выборок обучения, 5000 выборок подтверждения и 50000 выборок испытания с использованием соответствующих множеств LIBRI и с вышеупомянутыми ухудшениями. Во избежание переобучения, выборки обучения, подтверждения и испытания создавались из различных выборок речи и помехи из AudioSet и LIBRI. Выборки испытания делились на три подмножества, а именно испытание 1, испытание 2 и испытание 3. В испытании 1, речь ухудшалась только помехой от AudioSet. В испытании 2, речь ухудшалась только режекторной фильтрацией и T-kill. В испытании 3, речь ухудшалась одновременно помехой, режекторной фильтрацией и T-kill. Все подмножества включают в себя выборки с белым шумом и без него.
D. Оценивание производительности
Для оценивания производительности используется отношение сигнал-искажение (SDR), отношение сигнал-артефакты (SAR), отношение сигнал-помеха (SIR) [27], MSE реконструкции (см. (4)), кратковременная объективная разборчивость (STOI) [28], [29] и массив данных испытания.
Сначала было испытано, как ухудшается чистая речь при обработке. Применялись MSE после RM, cRM и DF, где -33,5, -30,7 и -30,2 дБ, соответственно. Ошибки очень малы и предположительно обусловлены шумом в выходных сигналах DNN. RM создают наименьшую MSE, поскольку шум в выходных сигналах DNN влияет только на величину, а cRM определяет фазу, и величина подвергается влиянию, и наконец, DF вносят наибольшую MSE. В испытании информационного прослушивания, никакого различия не воспринимается. В Таблице I представлены усредненные результаты испытаний 1-3. В испытании 1, DF, cRM и RM продемонстрировали возможность хорошо обобщать невидимую помеху. Обработка с помощью cRM вместо RM не приводит к повышению производительности хотя cRMs
Таблица I: усредненные результаты SDR, SIR, SAR, MSE (в дБ), STOI для RM, cRM и DF для выборок испытания, ухудшенных помехой из AudioSet в испытании 1, режекторным фильтром и обнулением временного кадра (T-kill) в испытании 2 и комбинацией в испытании 3; необр. MSE 1,60, -7,80, 1,12 и STOI 0,81, 0,89, 0,76 для испытания 1, 2, 3, соответственно
Помимо коррекции величины осуществляется коррекция фазы. Это может происходить из недостатка усиления cRM по сравнению с RM, обусловленными используемой архитектурой DNN, описанной в подразделе II-B. Для метрики STOI, DF и RM осуществляются нормальным образом тогда как для других метрик DF осуществляются наилучшим образом и достигают дополнительного повышения SDR на 0,61 дБ. Диаграммы размаха результатов MSE изображены на фиг. 5. Предполагается, что это обусловлено повышенными возможностями реконструкции DF в отношении деструктивной интерференции. В испытании 2, DF отчетливо превзошли cRM и RM, как и ожидалось, поскольку условия испытания обеспечивали сценарий, сравнимый с деструктивной интерференцией. На фиг. 6 изображена логарифмическая амплитудно-частотная характеристика чистой речи, речи, ухудшенной обнулением каждого пятого временного кадра и частотной оси и после улучшения с помощью DF. Ухудшение на этой фиг. 6 осуществлялось только в целях иллюстрации в отличие от обнуления произвольного временного кадра в массивах данных. Трассы сетки по прежнему видны в спектральных областях низкой, но не высокой энергии, что подчеркивается потерей в (4). В испытании 3, DF осуществляются наилучшим образом, поскольку они способны компенсировать все ухудшения, в отличие от RM и cRM. Первоначальные cRM и RM осуществляются нормальным образом.
Заключение
Понятие временно-частотных масок для извлечения сигнала было распространено на комплексные фильтры для увеличения подавления помех и уменьшения искажения сигнала, и для решения деструктивной интерференции нужных и ненужных сигналов. Было предложено оценивать фильтры с глубокой нейронной сетью, которая обучается путем минимизации MSE между нужным и оцененным сигналом и позволяет избежать задания фильтров эталонных данных для обучения, которые были бы критически важными вследствие необходимости согласованно задавать фильтры для обучения сети при наличии бесконечного множества возможностей. Способы фильтрации и маскирования позволяют осуществлять извлечение речи при условии, что неизвестные помеховые сигналы из AudioSet демонстрируют свою обобщаемость и вносят лишь очень малую ошибку при обработке чистой речи. Предложенный подход полностью превзошел комплексную маску отношения, и полностью исходную маску отношения, кроме одной метрики с нормальной производительностью. Помимо подавления помех, было испытано, можно ли решить потерю данных, имитированную обнулением временного кадра или фильтрацией режекторными фильтрами, и показано, что только предложенный способ позволяет реконструировать нужный сигнал. Следовательно, благодаря глубоким фильтрам, извлечение и/или реконструкция сигнала выглядит осуществимой в очень неблагоприятных условиях потери пакетов или неизвестной помехи.
Как рассмотрено выше, вышеописанный подход может осуществляться компьютером, т.е. вариант осуществления относится к компьютерной программе, осуществляющей один из вышеописанных способов. Аналогичным образом, подход может осуществляться с использованием устройства.
Хотя некоторые аспекты были описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признак этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все из этапов способа могут выполняться аппаратным устройством (или с его помощью), например, микропроцессором, программируемым компьютером или электронной схемой. В некоторых вариантах осуществления, некоторые из одного или более из наиболее важных этапов способа может выполняться таким устройством.
Кодированный аудиосигнал, отвечающий изобретению, может сохраняться на цифровом носителе данных или может передаваться в среде передачи, например, беспроводной среде передачи или проводной среде передачи, например, интернете.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы аппаратными средствами или программными средствами. Реализация может осуществляться с использованием цифрового носителя данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флеш-памяти, на котором хранятся считываемые электронными средствами сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой для осуществления соответствующего способа. Поэтому цифровой носитель данных может быть машиночитаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой для осуществления одного из описанных здесь способов.
В общем случае, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, причем программный код способен осуществлять один из способов, когда компьютерный программный продукт выполняется на компьютере. Например, программный код может храниться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из описанных здесь способов, хранящуюся на машиночитаемом носителе.
Другими словами, вариант осуществления способа, отвечающего изобретению, предусматривает компьютерную программу, имеющую программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.
Дополнительный вариант осуществления способов, отвечающих изобретению, предусматривает носитель данных (или цифровой носитель данных или машиночитаемый носитель), на котором записана компьютерная программа для осуществления одного из описанных здесь способов. Носитель данных, цифровой носитель данных или записанный носитель обычно является физическим и/или постоянным.
Дополнительный вариант осуществления способа, отвечающего изобретению, предусматривает поток данных или последовательность сигналов, представляющий/ую компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов может, например, быть выполнен с возможностью переноса через соединение с возможностью передачи данных, например, через интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью или адаптированное для осуществления одного из описанных здесь способов.
Дополнительный вариант осуществления содержит компьютер, на котором установлена компьютерная программа для осуществления одного из описанных здесь способов.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненное/ую с возможностью переноса (например, электронного или оптического) компьютерной программы для осуществления одного из описанных здесь способов получателю. Получателем может быть, например, компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система может, например, содержать файловый сервер для переноса компьютерной программы получателю.
В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) может использоваться для осуществления некоторых или всех функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления, вентильная матрица, программируемая пользователем, может взаимодействуют с микропроцессором для осуществления одного из описанных здесь способов. В общем случае, способы предпочтительно осуществляются любым аппаратным устройством.
Вышеописанные варианты осуществления призваны иллюстрировать принципы настоящего изобретения. Следует понимать, что специалистам в данной области техники будут очевидны модификации и изменения описанных здесь конфигураций и подробностей. Поэтому подразумевается ограничение лишь объемом нижеследующей формулы изобретения, но не конкретными подробностями, представленными в порядке описания и пояснения рассмотренных здесь вариантов осуществления.
Список литературы
[01] J. Le Roux and E. Vincente, "Consistent Wiener filtering for audio source separation," IEEE Signal Processing Letters, pp. 217-220, March 2013.
[02] B. Jacob, J. Chen and E. A. P. Habets, Speech enhancement in the STFT domain, Springer Science & Business Media., 2011.
[03] T. Virtanen, "Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria," IEEE TRANS. ON AUDIO, SPEECH, AND LANGUAGE PROCES., pp. 1066-1074, February 2007.
[04] F. Weninger, J. L. Roux, J. R. Hershey and S. Watanabe, "Discriminative NMF and its application to single-channel source separation," In Fifteenth Annual Conf. of the Inti. Speech Commun. Assoc., September 2014.
[05] D. Wang and J. Chen, "Supervised speech separation based on deep learning: An overview," Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 1702-1726, May 2018.
[06] J. R. Hershey, Z. Chen, J. L. Roux and S. Watanabe, "Deep clustering: Discriminative embeddings for segmentation and separation," Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 31-35, March 2016.
[07] Y. Dong, M. Kolbaek, Z. H. Tan and J. Jensen, "Permutation invariant training of deep models for speaker-independent multi-talker speech separation," Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 241-245, March 2017.
[08] D. S. Williamson and D. Wang, "Speech dereverberation and denoising using complex ratio masks," Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 5590-5594, March 2017.
[09] J. Lecomte et al., "Packet-loss concealment technology advances in EVS," Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 5708- 5712, August 2015.
[1] K. Han, Y. Wang, D. Wang, W. S. Woods, I. Merks, and T. Zhang, “Learning spectral mapping for speech dereverberation and denoising,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 23, no. 6, pp. 982-992, June 2015.
[2] Y. Wang, A. Narayanan, and D. Wang, “On training targets for supervised speech separation,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 12, pp. 1849-1858, December 2014.
[3] D. S. Williamson, Y. Wang, and D. Wang, “Complex ratio masking for monaural speech separation,” IEEE Trans. Audio, Speech, Lang. Process., vol. 24, no. 3, pp. 483-492, March 2016.
[4] D. S. Williamson and D. Wang, “Speech dereverberation and denoising using complex ratio masks,” in Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 5590-5594.
[5] J. R. Hershey, Z. Chen, J. L. Roux, and S. Watanabe, “Deep clustering: Discriminative embeddings for segmentation and separation,” in Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2016, pp. 31-35.
[6] Z. Chen, Y. Luo, and N. Mesgarani, “Deep attractor network for single-microphone speaker separation,” in Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 246-250.
[7] Y. Isik, J. L. Roux, Z. Chen, S. Watanabe, and J. R. Hershey, “Single-channel multispeaker separation using deep clustering,” in Proc. Inter-speech Conf., September 2016, pp. 545-549.
[8] D. Yu, M. Kolbaek, Z. H. Tan, and J. Jensen, “Permutation invariant training of deep models for speaker-independent multi-talker speech separation,” in Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 241- 245.
[9] Y. Luo, Z. Chen, J. R. Hershey, J. L. Roux, and N. Mesgarani, “Deep clustering and conventional networks for music separation: Stronger together,” in Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 61- 65.
[10] M. Kolbaek, D. Yu, Z.-H. Tan, J. Jensen, M. Kolbaek, D. Yu, Z.-H. Tan, and J. Jensen, “Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks,” IEEE Trans. Audio, Speech, Lang. Process., vol. 25, no. 10, pp. 1901-1913, October 2017.
[11] W. Mack, S. Chakrabarty, F.-R. Stoter, S. Braun, B. Edler, and E. A. P. Habets, “Single-channel dereverberation using direct MMSE optimization and bidirectional LSTM networks,” in Proc. Interspeech Conf., September 2018, pp. 1314-1318.
[12] H. Erdogan and T. Yoshioka, “Investigations on data augmentation and loss functions for deep learning based speech-background separation,” in Proc. Interspeech Conf., September 2018, pp. 3499-3503.
[13] D. Wang, “On ideal binary mask as the computational goal of audi-tory scene analysis,” in Speech Separation by Humans and Machines, P. Divenyi, Ed. Kluwer Academic, 2005, pp. 181-197.
[14] C. Hummersone, T. Stokes, and T. Brookes, “On the ideal ratio mask as the goal of computational auditory scene analysis,” in Blind Source Separation, G. R. Naik and W. Wang, Eds. Springer, 2014, pp. 349-368.
[0] F. Mayer, D. S. Williamson, P. Mowlaee, and D. Wang, “Impact of phase estimation on single-channel speech separation based on time-frequency masking,” J. Acoust. Soc. Am., vol. 141, no. 6, pp. 4668-1679, 2017.
[1] F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Roux, J. R. Hershey, and B. Schuller, “Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR,” in Proc. of the 12th Int. Conf. on Lat.Var. An. and Sig. Sep., ser. LVA/ICA. New York, USA: Springer-Verlag, 2015, pp. 91-99.
[2] X. Li, J. Li, and Y. Yan, “Ideal ratio mask estimation using deep neural networks for monaural speech segregation in noisy reverberant conditions,” August 2017, pp. 1203-1207.
[3] J. Benesty, J. Chen, and E. A. P. Habets, Speech Enhancement in the STFT Domain, ser. SpringerBriefs in Electrical and Computer Engineering. Springer-Verlag, 2011.
[4] J. Benesty and Y. Huang, “A single-channel noise reduction MVDR filter,” in Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2011, pp. 273-276.
[5] D. Fischer, S. Doclo, E. A. P. Habets, and T. Gerkmann, “Com-bined single-microphone Wiener and MVDR filtering based on speech interframe correlations and speech presence probability,” in Speech Communication; 12. ITG Symposium, Oct 2016, pp. 1-5.
[6] D. Fischer and S. Doclo, “Robust constrained MFMVDR filtering for single-microphone speech enhancement," in Proc. Inti. Workshop Acoust. Signal Enhancement (IWAENC), 2018, pp. 41^t5.
[7] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural Computation, vol. 9, no. 8, pp. 1735-1780, Nov 1997.
[8] J. B. D. Kingma, “Adam: A method for stochastic optimization," in Proc. IEEE Inti. Conf. on Learn. Repr. (ICLR), May 2015, pp. 1-15.
[9] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,” J. Mach. Learn. Res., vol. 15, no. 1, pp. 1929-1958, January 2014. [Online]. Available: http://dl.acm.org/citation.cfm?id=2627435.2670313
[10] J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter, “Audio Set: An ontology and human-labeled dataset for audio events,” in Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 776-780.
[11] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “Librispeech: An ASR corpus based on public domain audio books,” in Proc. IEEE Inti. Conf. on Acoustics, Speech and Signal Processing (ICASSP), April 2015, pp. 5206-5210.
[12] C. Raffel, B. McFee, E. J. Humphrey, J. Salamon, 0 . Nieto, D. Liang, and D. P. W. Ellis, “MIR EVAL: A transparent implementation of common MIR metrics,” in Inti. Soc. of Music Inf. Retrieval, October 2014, pp. 367-372.
[13] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time-frequency weighted noisy speech,” IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 7, pp. 2125-2136, September 2011.
[14] M. Pariente, “pystoi,” https://github.com/mpariente/pystoi, 2018.
Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении возможности извлечения и/или реконструкции сигнала при неблагоприятных условиях потери пакетов или неизвестной помехи. Технический результат достигается за счет определения глубокого фильтра по меньшей мере одного измерения, в том числе: принимают смесь; оценивают, с использованием глубокой нейронной сети, глубокий фильтр, причем оценивание осуществляется таким образом, что глубокий фильтр при применении к элементам смеси получает оценки соответствующих элементов нужного представления, причем глубокий фильтр получается путем задания структуры фильтра с переменными фильтра для глубокого фильтра по меньшей мере одного измерения и обучения глубокой нейронной сети, причем обучение осуществляется с использованием среднеквадратичной ошибки (MSE) между эталонными данными и нужным представлением и минимизации среднеквадратичной ошибки или минимизации функции ошибок между эталонными данными и нужным представлением; причем глубокий фильтр является по меньшей мере одномерным и содержит одно- или многомерный тензор с элементами (sx, y). 6 н. и 16 з.п. ф-лы, 7 ил.
1. Способ определения глубокого фильтра (10x) для фильтрации смеси нужных и ненужных сигналов, содержащих аудиосигнал или сигнал датчика, для извлечения нужного сигнала из смеси нужных и ненужных сигналов, причем способ содержит этапы, на которых:
определяют (100) глубокий фильтр (10x) по меньшей мере одного измерения, в том числе:
принимают (110) смесь (10);
оценивают (120), с использованием глубокой нейронной сети, глубокий фильтр (10x), причем оценивание (120) осуществляется таким образом, что глубокий фильтр (10x) при применении к элементам смеси (10) получает оценки соответствующих элементов нужного представления (11),
причем глубокий фильтр (10x) получается путем задания структуры фильтра с переменными фильтра для глубокого фильтра (10x) по меньшей мере одного измерения и обучения глубокой нейронной сети, причем обучение осуществляется с использованием среднеквадратичной ошибки (MSE) между эталонными данными и нужным представлением и минимизации среднеквадратичной ошибки или минимизации функции ошибок между эталонными данными и нужным представлением;
причем глубокий фильтр (10x) является по меньшей мере одномерным и содержит одно- или многомерный тензор с элементами (sx, y).
2. Способ по п. 1, в котором смесь (10) содержит ее действительно- или комплекснозначное временно-частотное представление или признаковое представление; и
причем нужное представление (11) содержит ее нужное действительно- или комплекснозначное временно-частотное представление или признаковое представление.
3. Способ по любому из предыдущих пунктов, в котором глубокий фильтр (10x) содержит действительно- или комплекснозначный временно-частотный фильтр; и/или глубокий фильтр (10x) по меньшей мере одного измерения описан в области кратковременного преобразования Фурье.
4. Способ по любому из предыдущих пунктов, в котором этап оценивания (120) осуществляется для каждого элемента смеси (10) или для заданной части элементов смеси (10).
5. Способ по любому из предыдущих пунктов, в котором оценивание (120) осуществляется для по меньшей мере двух источников.
6. Способ по любому из предыдущих пунктов, в котором глубокий фильтр (10x) является многомерным комплексным глубоким фильтром.
7. Способ по любому из предыдущих пунктов, в котором глубокая нейронная сеть содержит выходные параметры в количестве, равном количеству значений фильтра для фильтрационной функции глубокого фильтра (10x).
8. Способ по любому из предыдущих пунктов, в котором по меньшей мере одно измерение принадлежит группе, содержащей время, частоту и датчик, или
причем по меньшей мере одно из измерений является временем или частотой.
9. Способ по любому из предыдущих пунктов, в котором глубокая нейронная сеть содержит слой нормализации партии, слой двунаправленной долгой краткосрочной памяти, выходной слой прямой связи с активацией гиперболическим тангенсом и/или один или более дополнительных слоев.
10. Способ по любому из предыдущих пунктов, дополнительно содержащий этап, на котором обучают глубокую нейронную сеть.
11. Способ по п. 10, в котором глубокая нейронная сеть обучается посредством оптимизации среднеквадратичной ошибки между эталонными данными нужного представления (11) и оценкой нужного представления (11); или
в котором глубокая нейронная сеть обучается путем уменьшения ошибки реконструкции между нужным представлением (11) и оценкой нужного представления (11); или
в котором обучение осуществляется путем реконструкции по величине.
12. Способ по любому из предыдущих пунктов, в котором оценивание (120) осуществляется по формуле
,
где 2⋅L+1 - размер фильтра в направлении временного кадра, и 2⋅I+1 - размер фильтра в направлении частоты, и - комплексно-сопряженный 1D или 2D фильтр; и где - оценка нужного представления (11), где n - временной кадр, и k - индекс частоты, где X(n, k) - смесь.
13. Способ по пп. 10, 11 или 12, в котором обучение осуществляется с использованием следующей формулы:
, где - нужное представление (11), и - оценка нужного представления (11), где N - суммарное количество временных кадров, и K - количество частотных элементов разрешения для каждого временного кадра, где n - временной кадр, и k - индекс частоты, или
с использованием следующей формулы:
, где - нужное представление (11), и - оценка нужного представления (11), где N - суммарное количество временных кадров, и K - количество частотных элементов разрешения для каждого временного кадра, где n - временной кадр, и k - индекс частоты.
14. Способ по любому из предыдущих пунктов, в котором элементы (sx, y) тензора глубокого фильтра (10x) ограничены по величине или ограничены по величине с использованием следующей формулы:
, где - комплексно-сопряженный 2D фильтр.
15. Способ по любому из предыдущих пунктов, в котором этап применения осуществляется поэлементно.
16. Способ по любому из предыдущих пунктов, в котором применение осуществляется суммированием для получения оценки нужного представления (11) в соответствующем элементе (sx, y) тензора.
17. Способ по любому из предыдущих пунктов, содержащий способ (100) фильтрации смеси нужных и ненужных сигналов, содержащей аудиосигнал или сигнал датчика, для извлечения нужного сигнала из смеси нужных и ненужных сигналов, причем способ содержит этап, на котором:
применяют глубокий фильтр (10x) к смеси (10).
18. Применение способа (100) по п. 17 для извлечения сигнала или для разделения сигналов по меньшей мере двух источников.
19. Применение способа (100) по п. 17 для реконструкции сигнала.
20. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления при выполнении на компьютере одного из способов по любому из пп. 1-17.
21. Устройство для определения глубокого фильтра (10x), позволяющего извлекать нужный сигнал из смеси нужных и ненужных сигналов, причем устройство содержит
вход для приема (110) смеси (10) нужных и ненужных сигналов или содержащей по меньшей мере ненужные сигналы, содержащей аудиосигнал или сигнал датчика;
глубокий фильтр (10x) для оценивания (120) глубокого фильтра (10x) таким образом, что глубокий фильтр (10x) при применении к элементам смеси (10) получает оценки соответствующих элементов нужного представления (11);
причем глубокая нейронная сеть получается путем задания структуры фильтра с переменными фильтра для глубокого фильтра (10x) по меньшей мере одного измерения и обучения глубокой нейронной сети, причем обучение осуществляется с использованием среднеквадратичной ошибки (MSE) между эталонными данными и нужным представлением и минимизации среднеквадратичной ошибки или минимизации функции ошибок между эталонными данными и нужным представлением;
причем глубокий фильтр (10x) является по меньшей мере одномерным и содержит одно- или многомерный тензор с элементами (sx, y).
22. Устройство фильтрации смеси, причем устройство содержит устройство по п. 21 и упомянутый определенный глубокий фильтр, и средство для применения глубокого фильтра к смеси.
Токарный резец | 1924 |
|
SU2016A1 |
Способ получения цианистых соединений | 1924 |
|
SU2018A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек | 1923 |
|
SU2007A1 |
СИСТЕМА И СПОСОБ ДЛЯ ГЕНЕРАЦИИ АУДИОСИГНАЛА | 2011 |
|
RU2595636C2 |
Авторы
Даты
2023-01-26—Публикация
2020-04-15—Подача