СПОСОБ (ВАРИАНТЫ) ФИЛЬТРАЦИИ ЗАШУМЛЕННОГО РЕЧЕВОГО СИГНАЛА В УСЛОВИЯХ СЛОЖНОЙ ПОМЕХОВОЙ ОБСТАНОВКИ Российский патент 2016 года по МПК G10L19/00 G06F17/14 H04B15/00 G10L25/93 

Описание патента на изобретение RU2580796C1

Представленные изобретения относится к области цифровой связи и могут быть использованы в системах телекоммуникаций при реализации процедуры фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки.

Область применения изобретений: радиотелефония и системы обработки речи, голосовое управление электронными приборами, устройства пред- и пост-обработки речевого сигнала.

Несмотря на наличие большого количества технических решений в области применения заявленных изобретений остается нерешенной задача обработки зашумленной речи в условиях высокой интенсивности шумового воздействия, что проявляется в снижении качества предоставляемых телекоммуникационных услуг.

Имеется способ и устройство ослабления шума в речевом сигнале (патент РФ 2121719 G10L 9/00, опубликовано 10.11.1998), основанных на обработке зашумленной речи в режиме реального времени устройством, в котором определяют спектральные оценки каждого сегмента речи заданной длительности, при этом каждый сегмент речи анализируют логически на наличие фонем и их принадлежность определенному классу, частью которого они являются, и затем частотный спектр сегмента анализируют на наличие особенностей, позволяющих распознать специфические фонемы в пределах типа. Последовательность фонем может быть сохранена в виде компактных групп и преобразована затем для синхронизации с голосом диктора.

Такой подход ввиду использования результатов фонемного анализа обладает низким качеством очищенной речи.

Наиболее близким аналогом по совокупности существенных признаков, признанным в качестве прототипа, являются способ улучшения качества речи и устройство для его осуществления (патент на изобретение РФ 2391778 Н04В 15/00, опубликовано 07.09.2005), включающих последовательно исполняемые этапы, согласно которым осуществляют прием зашумленного речевого сигнала и его аналого-цифровое преобразование с предустановленной частотой дискретизации, далее разделяют зашумленный речевой сигнал на сегменты квазистационарности, после чего на основе анализа результатов фильтрации, как в области нижних, так и верхних частот классифицируют сегменты на вокализованные и невокализованные, далее выполняют оценку спектральных характеристик шума, производят в заранее выбранных сегментах и производят шумоподавление отдельно для вокализованного сегмента в модуле адаптивной фильтрации и невокализованного сегмента путем спектрального вычитания в спектрах мощности, далее выполняют оценку спектра фаз зашумленного обрабатываемого сегмента, с последующим обратным преобразованием Фурье спектра амплитуд и спектра фаз для получения очищенного речевого сигнала.

К недостаткам аналога и прототипа можно отнести такие факты как:

невозможность определения факта зашумления речевого сигнала с дальнейшей задачей проведения оценки шумового воздействия в случае высокой энергетики шума (при отношениях сигнал-шум <10 дБ - условия сложной помеховой обстановки (фигура 1));

появление сильных нелинейных искажений после проведения процедуры шумоподавления.

Задачей заявленных изобретений является создание способов фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки.

Задача изобретений решается тем, что достигается технический результат, выражаемый как повышение отношение сигнал-шум очищенного речевого сигнала, обрабатываемого способами фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки.

Заявленные способы характеризуются тем, что на этапе дискретизации устанавливают постоянное значение частоты дискретизации, равное 44100 Гц, кроме того на этапе сегментации выбирают постоянный период квазистационарности, равный 1024 отсчетам, также применяют полиспектральный анализ, включающий в себя оценку и работу не только с спектром мощности, но и биамплитудой , биспектра обрабатываемого зашумленного речевого сигнала (Тоцкий А.В., Астола Я., Восстановление сигналов по оценкам биспектров в присутствии гауссовых и негауссовых помех, Зарубежная радиоэлектроника, 2002, №11, с. 44-58, Никиас Х.Л., Рагувер М.Р. Биспектральное оценивание применительно к цифровой обработке сигналов. ТИИЭР, 1987, Т. 75, №7, с. 5-30, Zhang Ji-Wu, Zheng Chong-Xun, and Xie Au, Bispectrum analysis of focal ischemic cerebral EEG signal usingthird-order recursion method, IEE Trans. Biomedical Engineering, vol. 47, No. 3, March 2000, pp. 352-359).

Для чего на этапе проектирования набирают статистику, которая в полной мере описывает все статистические и параметрические свойства русской речи, далее записывают полученную информацию в блок хранения информации.

Накопление априорных сведений о чистом речевом сигнале можно определить следующими последовательно выполняемыми действиями:

I) Используют следующие тестовые фразы (ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы испытаний. - М.: Госстандарт России, 1997 г. - 230 с). Данные фразы в полной мере характеризуют русскую речь и полностью описывают ее статистические и параметрические особенности, общее количество записей М=3:

A) "Если хочешь быть здоров, советует Татьяна Илье - чистить зубы пастой "Жемчуг";

Б) "В клумбах сочинской здравницы "Пуща", как сообщает автоинспектор, обожгли шихту";

B) "Актеры и актрисы драматического театра часто покупают в этой аптеке антибиотики".

Данные тестовые фразы полностью характеризуют вариабельность русского языка и в той же мере точно описывают его параметрические и статистические свойства.

II) Запись тестовых фраз осуществляют от 40 дикторов, 25 из которых мужского пола: 5 до 20 лет, 5 от 20 до 25 лет, 5 от 25 до 35 лет, 5 от 35 до 50 лет, 5 старше 50 лет, и 15 женского пола: 3 до 20 лет, 3 от 20 до 25 лет, 3 от 25 до 35 лет, 3 от 35 до 50 лет, 3 старше 50 лет, общее количество дикторов: X=40 (фиг. 2).

III) Запись осуществляют в условиях отсутствия шумов.

IV) Записанные тестовые фразы по 8 с подвергают аналого-цифровому преобразованию с частотой дискретизации 44100 Гц.

V) Полученные последовательности отсчетов делят на сегменты квазистационарности по 1024 отсчета, общее количество сегментов D=344.

VI) Определяют среднее значение моментной энергии на сегменте чистого речевого сигнала:

,

где - значение энергии отсчета при номере отсчета , при i=1:1024, последовательном номере d - сегмента, m - записи, x - диктора сигнала чистой речи, при конкретных значениях d=1, 2, 3, …, D, l=1, 2 …, M, x=1, 2, 3, …, X;

,

где - значение мгновенной энергии d - сегмента, l - записи, x - диктора сигнала «чистой» речи, при конкретных значениях d=1, 2, 3, …, D, l=1, 2 …, М, х=1, 2, 3, …, X;

,

где - среднее значение мгновенной энергии на сегменте 1024 отсчета для всех D - сегментов, М - записей, X - дикторов.

VII) Полученные априорные данные записывают в блок хранения информации устройства обработки речи.

Полную последовательность материальных действий выполняемых согласно предложенным способам фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки можно представить следующим образом (фиг. 3) (А1, A2, … А10 - некие последовательности составных материальных действий по обработке зашумленного PC, раскрываемых ниже. Кроме того, d - последовательный номер сегмента, так что d - текущий сегмент обработки, d-1 - предшествующий текущему сегменту обработки и т.д., L - суммарное количество сегментов, необходимое для состоятельной оценки спектральных характеристик шумового воздействия (для частоты дискретизации 44100 Гц и сегмента локальной стационарности 23 мс L≥88⇔2 сек):

А1) Прием непрерывного зашумленного речевого сигнала.

А2):

1) Аналого-цифровое преобразование с частотой дискретизации 44100 Гц.

2) Сегментация PC на участки локальной стационарности по 23 мс (1024 отсчета).

Если последовательный номер сегмента не удовлетворяет условию состоятельной оценки спектральных характеристик шумового воздействия, то выполняется последовательность действий, согласно прототипа.

A3) Разделение обрабатываемого сигнала на вокализованные и невокализованные участки PC путем фильтрации в области нижних и верхних частот.

А4) Выполнение спектрального вычитания для невокализованных участков речи.

А5) Выполнение амплитудно-линейной фильтрации (АЛФ) для вокализованных участков речи (выявляется доминантная спектральная компонента в области частоты основного тона, относительно которой осуществляется АЛФ с затуханием 6 дБ на октаву).

A1, А2, A3, А4, А5 достаточно подробно представлены в [О.И. Шелухин, Н.Ф. Лукьянцев Цифровая обработка и передача речи, М., Радио и Связь, 2000 г. - с. 102-112, с. 123-146; Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония: учебное пособие для вузов - М.: Радио и связь, 2003 г. - 144 с] прототипе.

В случае удовлетворения последовательного номера сегмента обработки условию состоятельной оценки спектральных характеристик шумового воздействия для d>L.

А6):

3) Осуществляют оценку мгновенного эмпирического отношения шум-сигнал (ОШС - характеристика противоположная отношению сигнал-шум) для каждого сегмента на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с согласно:

где G(d) - отношение шум-сигнал в дБ, d - последовательный номер сегмента обработки; U(i) - номер отсчета сегмента обработки.

4) Получают оценку среднего значения эмпирического отношения шум-сигнал для сегмента обработки с учетом мгновенных оценок ОШС на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с:

5) Получают оценку порогового значения разрешающей способности биамплитуды биспектра сегмента зашумленного речевого сигнала:

6) Получают оценку порогового значения процедуры выделения сегментов путем анализа низкоплотностной области биамплитуды:

7) Выполняют прямое быстрое дискретное преобразование Фурье на сегменте:

8) Получают оценку усеченного спектра амплитуд Фурье зашумленного сегмента PC при i=1:122:

9) Получают оценку спектра фаз Фурье зашумленного сегмента PC при i=1:1024:

,

где - значение мнимой составляющей комплексного спектра Фурье на i - частоте, - значение вещественной составляющей комплексного спекта Фурье на i - частоте.

10) Получают оценку разреза биамплитуды , которую синтезируют прямым методом согласно следующему выражению при p=11, q≤122, p+q≤122:

,

где - значение амплитудного Фурье-спектра на частоте р,

- значение амплитудного Фурье-спектра на частоте q,

- значение амплитудного Фурье-спектра на частоте p+q.

11) Осуществляют стабилизацию разрешающей способности биамплитуды на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с при р=11, q≤122, p+q≤122:

12) Находят значение суммарной бикорреляции для вокализованных элементов речи на сегменте анализа р=11:

13) Находят среднее значение суммарной бикорреляции для вокализованных элементов речи на сегменте анализа:

14) Находят максимальное значение суммарной бикорреляции для вокализованных элементов речи на сегменте анализа:

15) Осуществляют первую ступень нормировки суммарной бикорреляции для вокализованных элементов речи на сегменте:

16) Находят максимальное значение 1-нормированной суммарной бикорреляции для вокализованных элементов речи C1(d) на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с:

17) Осуществляют вторую ступень нормировки суммарной бикорреляции для вокализованных элементов речи на сегменте:

18) Получают оценку среднего значения 2-нормированной суммарной бикорреляции для вокализованных элементов речи C2(d) на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с:

19) Осуществляют третью ступень нормировки суммарной бикорреляции для вокализованных элементов речи на сегменте:

20) Находят значение суммарной бикорреляции для невокализованных элементов речи на сегменте анализа р=11:

21) Находят среднее значение бикорреляции для невокализованных элементов речи на сегменте анализа:

22) Находят максимальное значение бикорреляции для невокализованных элементов речи на сегменте анализа:

23) Осуществляют первую ступень нормировки суммарной бикорреляции для невокализованных элементов речи на сегменте:

24) Находят максимальное значение 1-нормированной суммарной бикорреляции для невокализованных элементов речи Н1(d) на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с:

25) Осуществляют вторую ступень нормировки суммарной бикорреляции для невокализованных элементов речи на сегменте:

26) Находят среднее значение 2-нормированной суммарной бикорреляции для невокализованных элементов речи H2(d) на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с:

27) Осуществляют третью ступень нормировки суммарной бикорреляции для невокализованных элементов речи на сегменте:

28) Получают оценку 3-нормированной суммарной бикорреляции для всех элементов речи на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с:

29) Получают оценку среднего значения 2-нормированной суммарной бикорреляции для всех элементов речи на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с:

30) Получают оценку коэффициента стабилизации порогового значения процедуры выделения сегментов:

31) Осуществляют стабилизацию порогового значения процедуры выделения сегментов:

32) Осуществляют выделение сегментов для оценки спектральных характеристик шумового воздействия на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с:

где JS(d) - признак сегмента, выделенного для оценки спектральных характеристик шумового воздействия.

33) Осуществляют выделение сегментов для оценки спектральных характеристик шумового воздействия для процедуры эмпирической модовой декомпозиции (ЭМД) на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 секунды:

где JE(d)- признак сегмента, выделенного для оценки спектральных характеристик шумового воздействия, подаваемого на вход процедуры ЭМД.

34) Находят мгновенные спектры мощности для каждого сегмента на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов и примерно 2 с при i=1:122, d=d-L+1:d:

35) Осуществляют оценку спектральных характеристик шумового воздействия для процедуры спектрального вычитания на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с при i=1:122:

36) Осуществляют проверку оценки спектральных характеристик шумового воздействия на узкополостность для сегмента анализа при последовательном номере спектральной компоненты i=1:122:

37) Осуществляют оценку коэффициента бикорреляции на анализируемом сегменте:

38) Осуществляют первую ступень стабилизации оценки коэффициента бикорреляции на анализируемом сегменте:

39) Осуществляют вторую ступень стабилизации оценки коэффициента бикорреляции на анализируемом сегменте:

А7):

40) Выполняют спектральное вычитание согласно следующим выражениям при i=1:122:

,

где - значение спектральной компоненты на частоте i амплитудного спектра Фурье очищенного сегмента обрабатываемого речевого сигнала с выхода процедуры спектрального вычитания.

41) Осуществляют обратное дискретное преобразование Фурье:

где S*(1:1024)d - очищенный сегмент обрабатываемого речевого сигнала с выхода блока обратного преобразования Фурье,

- спектр амплитуд Фурье с выхода процедуры спектрального вычитания,

FU(1:1024)d - спектр фаз Фурье сегмента анализа зашумленного PC.

А8):

42) Осуществляют оценку спектральных характеристик шумового воздействия для процедуры ЭМД на длительности оценки шума, т.е. анализируемый сегмент и L-1 - сегментов предшествующих ему, что для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с при i=1:122:

43) Осуществляют проверку остаточного шумового воздействия на узкополостность для сегмента анализа при i=1:122:

44) Формируют временные реализации остаточного шумового воздействия для сегмента анализа 1024 отсчета и частоте дискретизации 44100 Гц составляет 88 сегментов примерно 2 с:

где E(1:1024)d - временная реализация остаточного шумового воздействия на анализируемом сегменте очищенного сигнала с выхода процедуры спектрального вычитания,

- спектр амплитуд Фурье остаточного шумового воздействия,

FU(1:1024)d - спектр фаз Фурье сегмента анализа зашумленного PC.

45) Осуществляют эмпирическую модовую декомпозицию, т.е. производят разложение на составляющие моды последовательности отсчетов S*(1:1024)d и E(1:1024)d согласно следующим выражениям:

46) Осуществляют помодовое вычитание полученных эмпирических декомпозиций i=1:1024, j=1:15:

47) Восстанавливают целостный сигнал после помодового вычитания:

где S**(1:1024)d - очищенный сегмент обрабатываемого речевого сигнала с выхода процедуры эмпирической модовой декомпозиции.

А9):

45) Временную реализацию очищенного сегмента обрабатываемого речевого сигнала с выхода процедуры эмпирической модовой декомпозиции S**(1:1024)d подают на вход адаптивного цифрового фильтра низких частот и выполняют следующие действия:

где S***(1:1024)d - очищенный сегмент обрабатываемого речевого сигнала с выхода адаптивного цифрового фильтра низких частот,

где: S**(1:1024)d - очищенный сегмент обрабатываемого речевого сигнала с выхода процедуры эмпирической модовой декомпозиции,

O(d) - оценка коэффициента бикорреляции на анализируемом сегменте,

×If - операция свертки с импульсной характеристик цифрового фильтра низких частот.

Исходя из предложенного описания последовательности действий, определим функциональный состав для каждого из пунктов формулы (фиг. 3):

Способ по п. 1: А1-А7;

Способ по п. 2: А1-А8;

Способ по п. 3: А1-А9.

Предполагаемое устройство для реализации заявленных способов, представлено на фигуре 4:

1) Уровень управляющих воздействий и предустановленных априорных данных о чистом сигнале речи (возможность реализации по совокупности процессора постоянного запоминающего устройства), имеющий технологически в своем составе:

1 - блок управления (функционально соединенный со всеми блоками);

2 - блок хранения априорных данных (соединен с блоком 8 оценки эмпирического отношения шум-сигнал);

3 - блок хранения кратковременных данных (реализация возможна на оперативном запоминающем устройстве);

2) Этап приема непрерывного сигнала речи, имеющий технологически в составе:

4 - блок приема непрерывного зашумленного сигнала речи;

3) Этап аналого-цифрового преобразования и сегментации речевого сигнала, имеющий технологически в составе:

5 - блок аналого-цифрового преобразования;

6 - блок сегментации дискретного обрабатываемого зашумленного речевого сигнала на сегменты квазистационарности;

4) Этап полиспектрального анализа речевого сигнала при последовательно-параллельной обработке, технологически имеющий в своем составе:

7 - блок прямого преобразования Фурье;

8 - блок оценки эмпирического отношения шум-сигнал;

9 - блок процедуры оценки спектральных характеристик шумового воздействия и бикорреляционных свойств обрабатываемого сегмента зашумленного речевого сигнала;

10 - блок спектрального вычитания;

11 - блок обратного преобразования Фурье;

5) Этап коррекции, имеющий технологически в своем составе:

12 - блок процедуры эмпирической модовой декомпозиции;

13 - цифровой адаптивный фильтр низких частот.

Процедуры приема, аналого-цифрового преобразования и сегментации речевого сигнала и их реализация достаточно подробно описаны в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б., Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с. 425-446). Описание формирования и приема кадра передачи, выполняемые блоками 3, 4, 5 представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - с. 79-87).

Реализация совокупности блоков 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 возможна на базе модуля TORNADO-P64, который разработан компанией "МикроЛАБ Системе" () Цифровая обработка сигналов CHIP NEWS Жучков К., Хоружий С., Чепель Е. Полиспектральный анализатор сигналов на базе модуля цифрового сигнального процессора TMS320C6416).

Устройство, реализующее заявленные способы, работает следующим образом (фиг. 4): П0 - связь на вход устройства, предложенного в прототипе, П1 - выход очищенного сигнала по п. 1 формулы изобретения, П2 - выход очищенного сигнала по п. 2 формулы изобретения, П3 - выход очищенного сигнала по п. 3 формулы изобретения.

Согласно способу по п. 1:

Непрерывный зашумленный акустический сигнал поступает на вход блока 4, в котором происходит его акустоэлектрическое преобразование. Полученный непрерывный электрический сигнал с выхода блока 4 поступает на вход блока аналого-цифрового преобразования 5, в котором осуществляется получение дискретных отсчетов речевого сигнала с частотой дискретизации, равной 44100 Гц, последовательность дискретных отсчетов с выхода блока 5 поступает на вход блока сегментации 6, где происходит разделение последовательности отсчетов на сегменты квазистационарности по 1024 отсчета, далее с выхода блока 6 посегментно речевой сигнал поступает на входы блоков прямого преобразования Фурье 7 и оценки эмпирического отношения шум-сигнал 8, с выхода блока 7 на вход блоков процедуры оценки спектральных характеристик шумового воздействия и бикорреляционных свойств обрабатываемого сегмента зашумленного речевого сигнала 9 и спектрального вычитания 10 поступает последовательность значений усеченного спектра амплитуд Фурье, также с выхода блока 7 на вход блока обратного преобразования Фурье 11 поступает последовательность значений спектра фаз обрабатываемого сегмента зашумленного речевого сигнала, с выхода блока 8 на вход блока 9 поступают значения среднего эмпирического отношения шум-сигнал на сегменте обработки и последовательность значений мгновенного эмпирического отношения шум-сигнал для каждого из сегментов в течение предшествующих 2 с, с выхода блока 9 на вход блока 10 поступает последовательность значений оценки спектра амплитуд шумового воздействия для сегмента обработки, в блоке 10 выполняется спектральное вычитание в спектрах амплитуд Фурье, с выхода блока 10 на вход блока 11 последовательность значений спектра амплитуд Фурье очищенного речевого сигнала, на выходе блока 11 получена последовательность значений временной реализации сегмента очищенного речевого сигнала.

Согласно способу по п. 2:

Аналогично способу по п. 1, с дополнением следующих связей и операций:

С выхода блока 10 на вход блока 9 поступают последовательности значений спектров амплитуд очищенного речевого сигнала в течение последних 2-х с, в блоке 9 осуществляется оценка спектральных характеристик остаточного шумового воздействия, далее с выхода блока оценки шумового воздействия 9 на вход блока 12 поступает последовательность значений оценки спектра амплитуд остаточного шумового воздействия, с выхода блока 11 на второй вход блока 12 поступает последовательность значений временной реализации сегмента речевого сигнала с выхода процедуры спектрального вычитания, с выхода блока прямого преобразования Фурье на вход блока 12 поступает последовательность значений спектра фаз Фурье зашумленного речевого сигнала, в блоке 12 осуществляется синтез временной реализации остаточного шумового воздействия для сегмента обработки с коррекцией сегмента обработки очищенного речевого сигнала с выхода спектрального вычитания на основе эмпирической модовой декомпозиции, с выхода блока 12 получена последовательность значений временной реализации сегмента очищенного речевого сигнала.

Согласно способу по п. 3:

Аналогично способу по п. 2, с дополнением следующих связей и операций:

С выхода блока 9 на вход адаптивного цифрового фильтра низких частот 13 поступает значение коэффициента бикорреляции для сегмента обработки, с выхода блока 12 на второй вход блока 13 поступает последовательность значений сегмента очищенного речевого сигнала с выхода процедуры эмпирической модовой декомпозиции, с выхода блока 13 получена последовательность значений временной реализации сегмента очищенного речевого сигнала.

Блок управления 1 работает в режиме реального времени и осуществляет общий контроль над всеми процедурами. Блок хранения априорных данных 2 выполнен на основе постоянного запоминающего устройства и хранит информацию о среднем значении мгновенной энергии на сегменте чистого речевого сигнала. Блок хранения кратковременных данных работает в режиме реального масштаба времени и осуществляет прием и хранение различных значений оценок всех информационных признаков, описанных выше согласно предложенному способу в течение последних двух секунд обработки, и осуществляет обмен этими данными между всеми блоками.

При проведении фильтрации в условиях слабого шумового воздействия правила принятия решения, предложенные в прототипе, имеют высокую эффективность, однако в условиях воздействия шума высокой интенсивности наблюдается ее снижение, вследствие появления ситуации, связанной с трудностью оценки спектральных характеристик шума и возникновением нелинейных искажений после проведения спектрального вычитания, что снижаем в итоге отношение сигнал-шум.

Для оценки эффекта, получаемого при введении различных действий над обрабатываемым зашумленным речевым сигналом, взято отношение сигнал-шум (ОСШ) очищенного речевого сигнала, полученного способом фильтрации.

ОСШ характеризует в физическом смысле меру близости зашумленного и чистого речевого сигнала до фильтрации согласно способу и очищенного и чистого речевого сигнала после фильтрации согласно способу.

Исходя из этого, объективным показателем повышения эффективности предложенных способов относительно прототипа, выберем среднее повышение ОСШ очищенного речевого сигнала в диапазоне от 10 до -10 дБ, так как повышение ОСШ является техническим результатом, достигаемым предложенными изобретениями.

На фиг. 10 представлен график зависимости ОСШ до фильтрации согласно предложенных способов и прототипа от ОСШ после фильтрации для различных шумов.

Оценку среднего повышения ОСШ ΔDj j - способа в дБ будем проводить согласно следующему выражению:

- значение ОСШ на выходе предложенного j-способа от (10-i)-го отношения сигнал-шум на входе;

Pi - значение ОСШ на выходе прототипа от (10-i)-го отношения сигнал-шум на входе;

h - вид шума;

I - количество уровней отношения сигнал-шум на входе способов - 20 (от плюс 10 до минус 10 дБ);

H - количество видов шумов - 9:

1) Белый гауссовский шум.

2) Шум двигателя.

3) Шум города.

4) Шум ветра.

5) Шум вертолета.

6) Шум идеализированной синусоиды (тоновой шум).

7) Шум проезжающего поезда.

8) Шум боя.

9) Шум горящего здания.

В ходе проверки эффективности получены следующие значения среднего повышения отношения сигнал-шум:

ΔD1=3.33678708525837 дБ - для способа по п. 1,

ΔD2=3.75325376882644 дБ - для способа по п. 2,

ΔD3=4.1522149764898 дБ - для способа по п. 3.

Исходя из проведенной оценки эффективности предложенного способа, согласно решению изобретательской задачи, можно с уверенностью сказать, что предложенные способы позволяют осуществлять фильтрацию зашумленного речевого сигнала со средним повышением отношения шум-сигнал от 3,33 дБ до 4,15 дБ.

Достоверность технического результата, подтверждена сведениями экспериментального характера, полученными в ходе испытаний (использовались различные записи речевых сигналов, которые подвергались аддитивному зашумлению белым гауссовым шумом и различными видами реальных шумов при различных отношениях сигнал-шум, данные зашумленные сигналы подвергались многократным испытаниям в сравнительном характере между различными способами, реализованными в программной среде MATLAB) по принятым в отрасли стандартным методикам (согласно ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы испытаний. - М.: Госстандарт России, 1997 г. - 230 с.), которые показали, что применение предложенных способов позволяет повысить отношение сигнал - шум.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа фильтрации зашумленного речевого сигнала, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности "новизна".

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Заявленное изобретение поясняется следующими фигурами:

На фиг. 1 представлены условия сложной помеховой обстановки:

A) Чистый речевой сигнал (PC);

Б) PC + БГШ ОСШ минус 10 дБ;

B) PC + шум двигателя ОСШ минус 10 дБ;

Г) PC + шум ветра ОСШ минус 20 дБ.

На фиг. 2 представлены варианты записей тестовых фраз:

A) тестовая фраза №1 5-го диктора (женщина 30 лет);

Б) гистограмма значений отсчетов тестовой фразы №1 5-го диктора;

B) тестовая фраза №2 23-го диктора (мужчина 66 лет);

Г) гистограмма значений отсчетов тестовой фразы №2 23-го диктора;

Д) тестовая фраза №3 37-го диктора (мужчина 21 год);

Е) гистограмма значений отсчетов тестовой фразы №3 37-го диктора.

На фиг. 3 представлены блок-схемы способов согласно формулы изобретения: П1 - П7 пункты формулы изобретения;

На фиг. 4 представлен вариант устройства для реализации заявленных способов. Состав устройства представлен выше в описании.

На фиг. 5 представлена процедура стабилизации разрешающей способности биамплитуды:

A) разрез биамплитуды зашумленного PC по сегментам до процедуры стабилизации разрешающей способности;

Б) разрез биамплитуды зашумленного PC по сегментам до процедуры стабилизации разрешающей способности на плоскости равных значений;

B) разрез биамплитуды зашумленного PC по сегментам после процедуры стабилизации разрешающей способности;

Г) разрез биамплитуды зашумленного PC по сегментам после процедуры стабилизации разрешающей способности на плоскости равных значений.

На фиг. 6 представлена процедура выделения сегментов для оценки спектральных характеристик шумового воздействия путем анализа зон сосредоточения низкоплотностной области биамплитуды:

A) оценка эмпирического отношения шум-сигнал по сегментам;

Б) выделение сегментов для анализа спектральных характеристик шумового воздействия;

B) признак сегмента, выделенного для оценки спектральных характеристик шумового воздействия;

Г) признак сегмента, выделенного для оценки спектральных характеристик остаточного шумового воздействия;

Д) оценка коэффициента бикорреляции по сегментам.

На фиг. 7 представлена процедура спектрального вычитания:

A) спектрограмма по сегментам зашумленного PC;

Б) истинная спектрограмма по сегментам шумового воздействия;

B) спектрограмма оценки шумового воздействия по сегментам;

Г) спектрограмма по сегментам чистого PC;

Д) спектрограмма по сегментам очищенного PC с выхода процедуры спектрального вычитания.

На фиг. 8 представлена коррекция сигналов с выхода спектрального вычитания на основе эмпирической модовой декомпозиции и адаптивной цифровой фильтрации низких частот с использованием коэффициента бикорреляции:

A) сегмент зашумленного речевого сигнала ОСШ - минус 7 дБ;

Б) сегмент чистого речевого сигнала;

B) сегмент очищенного речевого сигнала с выхода блока спектрального вычитания ОСШ - минус 3,45 дБ;

Г) эмпирическая модовая декомпозиция сегмента речевого сигнала с выхода процедуры спектрального вычитания;

Д) сегмент временной реализации оценки остаточного шумового воздействия;

Е) эмпирическая модовая декомпозиция сегмента сигнала остаточного шумового воздействия;

Ж) результат помодового вычитания;

З) сегмент очищенного речевого сигнала с выхода процедуры ЕМД ОСШ - минус 1,2 дБ;

И) сегмент очищенного речевого сигнала с выхода цифрового фильтра низких частот ОСШ - плюс 0,7 дБ.

На фиг. 9 представлены основы подхода к анализу зон сосредоточения низкоплотностной области биамплитуды. Сравнительная характеристика вокализованных и энергетически сильных элементов речи с невокализованными и энергетически слабыми элементами речи.

На фиг. 10 представлены графики эффективности в зависимости отношение сигнал-шум на выходе от отношения сигнал-шум на входе предложенных способов и прототипа для некоторых видов шумов:

1) Белый гауссовский шум (БГШ).

2) Шум двигателя.

3) Шум города.

4) Шум ветра.

Исходя из проведенной оценки эффективности, согласно решению изобретательской задачи, можно с уверенностью сказать, что предложенные способы позволяют осуществлять эффективную фильтрацию в задаче шумоподавления со средним повышением отношения сигнал-шум от 3,33 до 4,15 дБ, следовательно, задача заявленных изобретений достигнута.

Похожие патенты RU2580796C1

название год авторы номер документа
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа 2014
  • Титов Олег Николаевич
  • Афанасьев Андрей Алексеевич
  • Илюшин Михаил Владимирович
RU2606566C2
Способ пеленгации телефонных радиосигналов с амплитудной модуляцией 2023
  • Аладинский Виктор Алексеевич
  • Ахмадеев Рудель Ринатович
  • Кузьминский Сергей Владиславович
  • Смирнов Павел Леонидович
RU2798775C1
СПОСОБ УЛУЧШЕНИЯ КАЧЕСТВА РЕЧИ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2005
  • Ким Чан Воо
RU2391778C2
СПОСОБ И УСТРОЙСТВО ДЛЯ УЛУЧШЕНИЯ РЕЧЕВОГО СИГНАЛА В ПРИСУТСТВИИ ФОНОВОГО ШУМА 2004
  • Джелинек Милан
RU2329550C2
СПОСОБ И УСТРОЙСТВО ДЛЯ РАСШИРЕНИЯ ШИРИНЫ ПОЛОСЫ АУДИОСИГНАЛА 2008
  • Рамабадран Тенкаси В.
  • Джейсук Марк А.
RU2447415C2
ТЕКСТОЗАВИСИМЫЙ СПОСОБ КОНВЕРСИИ ГОЛОСА 2010
  • Бредихин Александр Юрьевич
  • Петровский Александр Александрович
  • Сергейчев Николай Евгеньевич
RU2427044C1
СПОСОБ И УСТРОЙСТВО ДЛЯ ЭФФЕКТИВНОГО МАСКИРОВАНИЯ СТЕРТЫХ КАДРОВ В РЕЧЕВЫХ КОДЕКАХ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ 2003
  • Желинек Милан
  • Гурнай Филипп
RU2325707C2
ПОМЕХОУСТОЙЧИВАЯ КЛАССИФИКАЦИЯ РЕЖИМОВ КОДИРОВАНИЯ РЕЧИ 2012
  • Дуни Этан Роберт
  • Раджендран Вивек
RU2584461C2
СПОСОБЫ И УСТРОЙСТВА УПРАВЛЯЕМОГО ИСТОЧНИКОМ ШИРОКОПОЛОСНОГО КОДИРОВАНИЯ РЕЧИ С ПЕРЕМЕННОЙ СКОРОСТЬЮ В БИТАХ 2003
  • Желинек Милан
RU2331933C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБНАРУЖЕНИЯ ЗВУКОВОЙ АКТИВНОСТИ И КЛАССИФИКАЦИИ ЗВУКОВЫХ СИГНАЛОВ 2008
  • Маленовски Владимир
  • Елинек Милан
  • Вайанкур Томми
  • Салами Редван
RU2441286C2

Иллюстрации к изобретению RU 2 580 796 C1

Реферат патента 2016 года СПОСОБ (ВАРИАНТЫ) ФИЛЬТРАЦИИ ЗАШУМЛЕННОГО РЕЧЕВОГО СИГНАЛА В УСЛОВИЯХ СЛОЖНОЙ ПОМЕХОВОЙ ОБСТАНОВКИ

Изобретения относятся к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат заключается в повышении отношения сигнал-шум очищенного речевого сигнала. Применяют способы фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки. Для чего используют результаты полиспектрального анализа с целью точной оценки спектральных характеристик шумового воздействия. В заявленных способах осуществляется спектральное вычитание с дополнительной коррекцией сигналов на основе процедуры эмпирической модовой декомпозиции и адаптивной цифровой фильтрацией низких частот с применением коэффициента бикорреляции, полученного путем анализа суммарной бикорреляции в зонах сосредоточения низкоплотностной области биамплитуды обрабатываемого сегмента зашумленного речевого сигнала. 3 н.п. ф-лы, 10 ил.

Формула изобретения RU 2 580 796 C1

1. Способ фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки, включающий последовательно исполняемые этапы, согласно которым осуществляют прием зашумленного речевого сигнала и его аналого-цифровое преобразование с предустановленной частотой дискретизации, далее разделяют зашумленный речевой сигнал на сегменты квазистационарности, после чего на основе анализа результатов фильтрации в области нижних и верхних частот классифицируют сегменты на вокализованные и невокализованные, далее выполняют оценку спектральных характеристик шума в заранее выбранных сегментах и производят отдельное шумоподавление для вокализованного сегмента в модуле адаптивной фильтрации и невокализованного сегмента путем спектрального вычитания в спектрах мощности, затем получают оценку спектра фаз обрабатываемого сегмента зашумленного речевого сигнала, с последующим обратным преобразованием Фурье спектра амплитуд и спектра фаз для получения очищенного речевого сигнала, отличающийся тем, что при оценке характеристик шумового воздействия используют результаты полиспектрального анализа, на основании которого применяют значения коэффициентов суммарной бикорреляции, получаемых через оценки биспектра зашумленного речевого сигнала в зонах сосредоточения низкоплотностной области биамплитуды с дальнейшим выполнением спектрального вычитания в спектрах амплитуд Фурье для всех сегментов.

2. Способ фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки, включающий последовательно исполняемые этапы, согласно которым осуществляют прием зашумленного речевого сигнала и его аналого-цифровое преобразование с предустановленной частотой дискретизации, далее разделяют зашумленный речевой сигнал на сегменты квазистационарности, после чего на основе анализа результатов фильтрации в области нижних и верхних частот классифицируют сегменты на вокализованные и невокализованные, далее выполняют оценку спектральных характеристик шума в заранее выбранных сегментах и производят отдельное шумоподавление для вокализованного сегмента в модуле адаптивной фильтрации и невокализованного сегмента путем спектрального вычитания в спектрах мощности, затем получают оценку спектра фаз обрабатываемого сегмента зашумленного речевого сигнала, с последующим обратным преобразованием Фурье спектра амплитуд и спектра фаз для получения очищенного речевого сигнала, отличающийся тем, что при оценке характеристик шумового воздействия используют результаты полиспектрального анализа, на основании которого применяют значения коэффициентов суммарной бикорреляции, получаемых через оценки биспектра зашумленного речевого сигнала в зонах сосредоточения низкоплотностной области биамплитуды с дальнейшим выполнением спектрального вычитания в спектрах амплитуд Фурье для всех сегментов, затем после обратного преобразования Фурье дополнительно применяют процедуру эмпирической модовой декомпозиции для устранения артефактов нелинейного характера в очищенном речевом сигнале.

3. Способ фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки, включающий последовательно исполняемые этапы, согласно которым осуществляют прием зашумленного речевого сигнала и его аналого-цифровое преобразование с предустановленной частотой дискретизации, далее разделяют зашумленный речевой сигнал на сегменты квазистационарности, после чего на основе анализа результатов фильтрации в области нижних и верхних частот классифицируют сегменты на вокализованные и невокализованные, далее выполняют оценку спектральных характеристик шума в заранее выбранных сегментах и производят отдельное шумоподавление для вокализованного сегмента в модуле адаптивной фильтрации и невокализованного сегмента путем спектрального вычитания в спектрах мощности, затем получают оценку спектра фаз обрабатываемого сегмента зашумленного речевого сигнала, с последующим обратным преобразованием Фурье спектра амплитуд и спектра фаз для получения очищенного речевого сигнала, отличающийся тем, что при оценке характеристик шумового воздействия используют результаты полиспектрального анализа, на основании которого применяют значения коэффициентов суммарной бикорреляции, получаемых через оценки биспектра зашумленного речевого сигнала в зонах сосредоточения низкоплотностной области биамплитуды с дальнейшим выполнением спектрального вычитания в спектрах амплитуд Фурье для всех сегментов, затем после обратного преобразования Фурье дополнительно применяют процедуру эмпирической модовой декомпозиции для устранения артефактов нелинейного характера в очищенном речевом сигнале, далее применяют адаптивную цифровую фильтрацию низких частот с целью дополнительного ослабления шумового воздействия в паузах с использованием коэффициента бикорреляции, который вычисляют в зонах сосредоточения низкоплотностной области биамплитуды обрабатываемого зашумленного речевого сигнала.

Документы, цитированные в отчете о поиске Патент 2016 года RU2580796C1

Аппарат для очищения воды при помощи химических реактивов 1917
  • Гордон И.Д.
SU2A1
Аппарат для очищения воды при помощи химических реактивов 1917
  • Гордон И.Д.
SU2A1
Аппарат для очищения воды при помощи химических реактивов 1917
  • Гордон И.Д.
SU2A1
Многоступенчатая активно-реактивная турбина 1924
  • Ф. Лезель
SU2013A1
Устройство для контроля цифровыхблОКОВ 1979
  • Лиснянский Элик Хаимович
  • Хейман Борис Хононович
  • Омелюсик Владимир Степанович
SU807305A1
CN 101010723 A, 01.08.2007
CN 101345054 A, 14.01.2009.

RU 2 580 796 C1

Авторы

Титов Олег Николаевич

Афанасьев Андрей Алексеевич

Рыжков Александр Павлович

Даты

2016-04-10Публикация

2015-03-02Подача