Способ выделения речевого сигнала путем анализа значений параметров гармонических составляющих Российский патент 2024 года по МПК G10L25/93 

Описание патента на изобретение RU2829627C1

Изобретение относится к области цифровой обработки речевых сигналов и может найти применение в устройствах связи.

Известен способ спектрального анализа электрических сигналов (патент РФ №2431853), в котором анализируемый электрический сигнал подают одновременно на гребенку фильтров, настроенных на различные частоты и измеряют сигналы на выходах этих фильтров, причем до проведения измерений диапазон контролируемых частот разбивают на элементы разрешения с шагом дискретизации, соответствующим желаемым точности и разрешению спектрального анализа. Недостатком способа является сложность технической реализации и недостаточно высокая эффективность решения задачи выделения речевого сигнала в условиях наличия помех.

Известен способ спектрального анализа сигналов (патент РФ №2127888), в котором при дискретизации и квантовании сигнала создают последовательности дискретных значений сигнала с различными частотами следования отсчетов в каждой из них. При этом дискретные значения этих последовательностей фильтруют с помощью цифровых полосовых фильтров и цифровых фильтров нижних частот. Сигналы с выходов цифровых полосовых фильтров подвергают обработке, связанной с определением амплитудных значений, а на их основе и остальных информативных параметров полосовых сигналов. Недостатком способа является недостаточно высокая эффективность решения задачи выделения речевого сигнала в условиях наличия помех.

Известен способ спектрального анализа многочастотных периодических сигналов, представленных цифровыми отсчетами (Функциональный контроль и диагностика электротехнических систем и устройств по цифровым отсчетам мгновенных значений тока и напряжения. /под редакцией Е.И. Гольдштейна - Томск: Изд. «Печатная мануфактура», 2003, с.92-94). Недостатком способа является недостаточно высокая эффективность решения задачи выделения речевого сигнала в условиях наличия помех.

Известен способ спектрального анализа сигналов (патент РФ №2730043 G01R23/16). Однако у способа недостаточно высокая эффективность решения задачи выделения речевого сигнала в условиях наличия помех.

Известен способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума, описанный в патенте RU 2700189, H04Q1/46, у которого недостаточно высокая эффективность решения задачи выделения речевого сигнала в условиях наличия помех.

Известен способ выделения речевого сигнала с использованием временного анализа спектра аддитивной смеси сигнала и акустических помех, описанный в патенте RU 2786547, G10L 25/93. Недостатком способа является недостаточно высокая эффективность решения задачи выделения речевого сигнала в условиях наличия большого числа частотных составляющих шумоподобных акустических помех.

Наиболее близким аналогом по технической сущности к предлагаемому является способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих, описанный в патенте RU 2723301, G10L 25/93, принятый за прототип.

Способ-прототип заключается в следующем.

На всем интервале анализа, состоящего из интервала, который содержит шум или речевой сигнал, или смесь речевого сигнала и шума, которые поступают в устройство, то есть входной сигнал, его разветвляют на две одинаковые составляющие, одну из них фильтруют фильтром нижних частот (ФНЧ), вторую составляющую фильтруют полосовым фильтром, сигналы, поступившие на выходы фильтров дискретизируют и заносят в память для последующей обработки. Формируют «скользящее окно», состоящее из интервалов одинаковой длительности, «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов, «скользящее окно» формируют так, что оно включает в себя два интервала анализа, каждый из которых состоит из нескольких интервалов одинаковой длительности, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха. Затем осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом: каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют ФНЧ, полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению, выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени. Сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты и запоминают эти значения пропорциональные амплитуде сигналов, находят среднее значение МСП, определяют значение порога путем умножения найденного среднего значения МСП на коэффициент, значение которого устанавливают заранее, полученные значения МСП сравнивают с порогом, по результатам сравнения принимают решение о наличии или об отсутствии сигнала с соответствующей частотой. Находят значения мощности каждого выделенного сигнала путем возведения в квадрат соответствующих значений МСП, находят для каждой гармоники дисперсию значений мощностей для первого и второго интервалов анализа, рассчитывают среднее значение дисперсий мощностей первого и второго интервалов, усреднение осуществляют по числу гармоник, определяют пороговое значение путем умножения среднего значения дисперсии значений мощностей первого интервала анализа, принадлежащего «скользящему окну», на коэффициент, значение которого определяют заранее, находят значение разности средних значений дисперсий мощностей, рассчитанных для первого и второго интервалов анализа, данное значение разности сравнивают с порогом. Считают, что во втором интервале анализа присутствует только помеха, если значение разности средних значений дисперсий мощностей не превышает порог, в противном случае считают, что во втором интервале анализа присутствует сигнал или смесь сигнала и помехи, сдвигают «скользящее окно» на заданное значение интервалов, описанную процедуру повторяют. Для последующих шагов пороговое значение для разности средних значений дисперсии значений мощностей интервалов анализа определяют с использованием среднего значения средних значений дисперсии мощностей интервалов анализа, которое рассчитывают, применяя принцип «первый пришел, первый ушел». Процесс продолжают до тех пор, пока не закончится время, отведенное для анализа входного сигнала.

Недостатком способа-прототипа является его недостаточно высокая эффективность при решении задачи выделения речевого сигнала в условиях наличия помех.

Задачей предлагаемого способа является повышение эффективности выделения речевого сигнала при наличии акустических помех.

Для решения поставленной задачи в способе, который заключается в том, что на всем интервале анализа, состоящего из интервала, содержащего помеху и интервала, содержащего речевой сигнал или смесь речевого сигнала и помехи, - входной сигнал, осуществляют следующее, формируют «скользящее окно», «скользящее окно» сдвигают на временной интервал заранее установленной величины, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха, рассчитывают значения мощностей спектральных составляющих входного сигнала для каждого интервала следующим образом, каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полосу пропускания которого выбирают так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению, выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени, сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, рассчитывают значения мощностей спектральных составляющих и запоминают эти значения, согласно изобретению, заранее устанавливают значения: длительности «скользящего окна»; максимальной длительности существования речевого сигнала; пороговое значение для числа спектральных составляющих, мощности которых превысили пороговое значение - обнаруженные спектральные составляющие; коэффициентов, с использованием которых рассчитывают пороговые значения для значений мощностей спектральных составляющих и для среднего значения мощностей обнаруженных спектральных составляющих, пороговое значение отношения мощности спектральных составляющих к среднему значению их мощностей;

«скользящее окно» периодически сдвигают на временной интервал установленной величины, для каждого положения «скользящего окна» рассчитывают значения мощностей спектральных составляющих, значения частот спектральных составляющих считают равными значению соответствующих опорных частот;

для положения «скользящего окна», в котором отсутствует сигнал, рассчитывают: число обнаруженных спектральных составляющих помехи и пороговое значение для числа обнаруженных спектральных составляющих; среднее значение мощностей спектральных составляющих помехи и пороговые значения для значения мощности спектральных составляющих и для среднего значения мощности спектральных составляющих;

в дальнейшем для каждого положения «скользящего окна», для которого принимают решение о присутствии только гармоник помехи, рассчитывают данные пороговые значения;

при осуществлении анализа для других положений «скользящего окна», используют последние рассчитанные пороговые значения;

для положений «скользящего окна», для которых возможно присутствие сигнала, рассчитывают значения мощностей спектральных составляющих, число спектральных составляющих, значение мощности которых превысило соответствующий порог, эти спектральные составляющие помечают как обнаруженные составляющие, если число спектральных составляющих не превысило соответствующий порог, то данные спектральные составляющие считают составляющими помехи;

для каждой обнаруженной спектральной составляющей осуществляют проверку того, что ее длительность превышает минимальное значение, следующим образом:

сдвигают отсчеты огибающей смеси сигнала и помехи на величину равную половине периода, значение которого определяется значением частоты обнаруженной спектральной составляющей;

суммируют полученные отсчеты с исходными;

с использованием полученных отсчетов рассчитывают значения мощностей этих спектральных составляющих,

если значение мощности анализируемой гармоники, полученное в процессе проверки ее длительности, превышает значение мощности данной гармоники, рассчитанное при проведении первичного анализа, то считают, что длительность данной составляющей не превышает минимальное значение, эту составляющую помечают как помеху, в противном случае считают, что длительность данной составляющей превышает минимальное значение, ее относят к сигналу, который может быть речевым сигналом;

рассчитывают число гармоник, относительно которых принято решение, что они могут быть составляющими речевого сигнала, если данное число не превышает заданное пороговое значение, то гармоники считают речеподобной помехой, в противном случае считают, что данные гармоники могут быть составляющими речевого сигнала, в этом случае рассчитывают среднее значение мощности этих гармоник, если это значение превышает рассчитанное пороговое значение, то считают, что данные гармоники являются составляющими речевого сигнала, в противном случае считают, что данные составляющие являются помехой;

если для предыдущего положения «скользящего окна» было зарегистрировано наличие речеподобной помехи и для текущего положения «скользящего окна» было установлено наличие гармоник речевого сигнала, то для гармоник речевого сигнала, частоты которых совпадают с частотами гармоник речеподобной помехи, мощность гармоник рассчитывают путем вычитания из значения мощности гармоник речевого сигнала мощности соответствующих гармоник речеподобной помехи;

если для предыдущего положения «скользящего окна» не был зарегистрирован речевой сигнал, то длительность речевого сигнала, зарегистрированного для текущего положения «скользящего окна», считают равной длительности «скользящего окна»;

если для предыдущего положения «скользящего окна» был зарегистрирован речевой сигнал, то сравнивают значения частот обнаруженных гармоник для текущего положения «скользящего окна» и для его предыдущего положения, если число гармоник с одинаковыми значениями частот превышает пороговое значение для числа спектральных составляющих, то считают, что присутствует речевой сигнал, рассчитывают значение отношений мощности гармоник к среднему значению мощности этих гармоник, если для какой-либо гармоники это значение превышает порог, то значению мощности этой гармоники присваивают значение мощности гармоники с той же частотой, рассчитанное для предыдущего положения «скользящего окна», длительность речевого сигнала увеличивают на значение длительности временного интервала, на который сдвигают «скользящее окно»;

если число гармоник с одинаковыми значениями частот не превышает пороговое значение для числа спектральных составляющих, то считают, что речевой сигнал, существующий в предыдущем положении «скользящего окна» прекратил существование, в этом случае если длительность сигнала, который зарегистрирован для предыдущих положений «скользящего окна» как речевой сигнал, не превосходит максимального значения, то данный сигнал считают речевым сигналом, в противном случае данный сигнал считают помехой;

если находят гармоники, значения частот которых отличаются от значения частот гармоник речевого сигнала, зарегистрированного для предыдущего положения «скользящего окна», число этих гармоник превышает пороговое значение для числа спектральных составляющих, речевой сигнал, зарегистрированный для предыдущего положения «скользящего окна», существует для текущего положения «скользящего окна», и значение средней мощности нового сигнала превышает значение средней мощности гармоник речевого сигнала, зарегистрированного для предыдущего положения «скользящего окна», считают, что данные гармоники являются речевым сигналом, его длительность считают равной длительности «скользящего окна», речевой сигнал, зарегистрированный для предыдущего положения «скользящего окна» и существующий в текущем положении «скользящего окна», является помехой;

если значение средней мощности нового речевого сигнала не превышает значение средней мощности гармоник речевого сигнала, зарегистрированного для предыдущего положения «скользящего окна», то считают, что данные гармоники являются помехой, длительность сигнала, зарегистрированного для предыдущего положения «скользящего окна», увеличивают на значение длительности временного интервала, на который сдвигают «скользящее окно».

Предлагаемый способ заключается в следующем.

Заранее устанавливают значения:

- длительности «скользящего окна»;

- длительности временного интервала, на который сдвигают «скользящее окно»;

- максимальной длительности существования речевого сигнал;

- коэффициентов, с использованием которых рассчитывают пороговые значения для значений мощностей спектральных составляющих (гармоник) и для среднего значения мощностей обнаруженных гармоник;

- пороговое значение для числа гармоник, мощности которых превысили пороговое значение - обнаруженные гармоники.

Данные значения устанавливают для типовых условий применения устройства, в котором реализован способ выделения речевого сигнала, путем анализа значений параметров спектральных составляющих методом математического моделирования или экспериментальным путем.

Формируют «скользящее окно». Сдвигают «скользящее окно» заданное число раз (иллюстративный пример приведен на фиг. 1).

Для каждого положения «скользящего окна» рассчитывают значения мощностей спектральных составляющих следующим образом.

Каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие.

Первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала. Одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению. Выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени (иллюстративный пример приведен на фиг. 2).

Сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого. Результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, рассчитывают значения мощности каждой гармоники и запоминают эти значения.

Значения частот спектральных составляющих считают равными значению соответствующих опорных частот.

«Скользящее окно» периодически сдвигают на временной интервал установленной величины.

Для положения «скользящего окна», в котором отсутствует сигнал, рассчитывают:

- число обнаруженных спектральных составляющих помехи;

- пороговое значение для числа обнаруженных гармоник;

- среднее значение мощностей спектральных составляющих помехи;

- пороговое значение для значения мощности гармоник;

- пороговое значение для средних значений мощности гармоник.

Пороговое значение для числа обнаруженных гармоник рассчитывают по формуле

Nпосп= Nосп Kосп, (1)

где: Nосп - число обнаруженных спектральных составляющих помехи;

Kосп - коэффициент, используемый при расчете порогового значения для среднего числа обнаруженных спектральных составляющих.

Пороговые значения для значения мощности спектральных составляющих (Uпмг) и для средних значений мощности спектральных составляющих (Uпсмг) рассчитывают следующим образом

Uпмг= Uсмг Kпмг, (2)

где: Uсмг - среднее значение мощностей спектральных составляющих помехи;

Kпмг - коэффициент, используемый при расчете порогового значения для значения мощности спектральных составляющих.

Uпсмг= Uсмг Kспмг, (3)

где: Uсмг - среднее значение мощностей спектральных составляющих помехи;

Kспмг - коэффициент, используемый при расчете порогового значения для средних значений мощности спектральных составляющих.

Значения данных коэффициентов определяют методом математического моделирования или экспериментальным путем.

В дальнейшем для каждого положения «скользящего окна», для которого принимают решение о присутствии только помехи, рассчитывают данные пороговые значения.

При осуществлении анализа для других положений «скользящего окна», используют последние рассчитанные пороговые значения.

Для последующих положений «скользящего окна», для которых возможно присутствие сигнала, рассчитывают значения мощностей спектральных составляющих и число гармоник, значение мощности которых превысило соответствующий порог. При наличии таких составляющих данные гармоники помечают как обнаруженные спектральные составляющие. В противном случае эти спектральные составляющие, считают гармониками помехи.

Для каждой обнаруженной спектральной составляющей осуществляют проверку того, что ее длительность превышает минимальное значение, следующим образом:

сдвигают отсчеты огибающей смеси сигнала и помехи на величину равную половине периода, значение которого определяется значением частоты обнаруженной спектральной составляющей;

суммируют полученные отсчеты с исходными;

рассчитывают значения мощностей этих спектральных составляющих с использованием рассчитанных отсчетов.

Если значение мощности анализируемой спектральной составляющей, полученное в процессе проверки ее длительности, превышает значение мощности данной спектральной составляющей, рассчитанное при проведении первичного анализа, то считают, что длительность данной составляющей не превышает минимальное значение. Эту спектральную составляющую помечают как помеху. В противном случае считают, что длительность данной гармоники превышает минимальное значение, ее относят к сигналу, который может быть речевым сигналом.

Рассчитывают число гармоник, относительно которых принято решение, что они могут быть составляющими речевого сигнала.

Если данное число не превышает заданное пороговое значение, то гармоники считают речеподобной помехой. В противном случае считают, что данные гармоники могут быть составляющими речевого сигнала.

В этом случае рассчитывают среднее значение мощности этих спектральных составляющих. Если это значение превышает рассчитанное пороговое значение, то считают, что данные гармоники являются составляющими речевого сигнала. В противном случае считают, что данные гармоники являются помехой.

Если для предыдущего положения «скользящего окна» было зарегистрировано наличие речеподобной помехи и для текущего положения «скользящего окна» было установлено наличие гармоник речевого сигнала, то для гармоник речевого сигнала, частоты которых совпадают с частотами гармоник речеподобной помехи, мощность гармоник рассчитывают путем вычитания из значения мощности гармоник речевого сигнала мощности соответствующих гармоник речеподобной помехи.

Если для предыдущего положения «скользящего окна» не был зарегистрирован речевой сигнал, то длительность речевого сигнала рассчитывают для этого случая по формуле

Тдссо, (4)

где Тсо - длительность «скользящего окна».

Если для предыдущего положения «скользящего окна» было зарегистрировано наличие речевого сигнал, то длительность речевого сигнала увеличивают на длительность временного интервала, на который сдвигают «скользящее окно»,

Тдсi = Тдс (i-1) + Тссо. (5)

Здесь: i - номер шага процесса;

Тссо - длительность временного интервала, на который сдвигают «скользящее окно».

Если для предыдущего положения «скользящего окна» был зарегистрирован речевой сигнал, то сравнивают значения частот обнаруженных гармоник для текущего положения «скользящего окна» и для его предыдущего положения.

Если число гармоник с одинаковыми значениями частот превышает пороговое значение для числа спектральных составляющих, то считают, что присутствует речевой сигнал.

Рассчитывают значение отношений мощности гармоник к среднему значению мощности этих гармоник.

Если для какой-либо гармоники это значение превышает соответствующий порог, то значению мощности этой гармоники присваивают значение мощности гармоники с той же частотой, рассчитанное для предыдущего положения «скользящего окна».

Значение данного порога определяют методом математического моделирования или экспериментальным путем.

Длительность речевого сигнала увеличивают на значение длительности временного интервала, на который сдвигают «скользящее окно».

Если число гармоник с одинаковыми значениями частот не превышает пороговое значение для числа спектральных составляющих, то считают, что речевой сигнал, существующий в предыдущем положении «скользящего окна» прекратил существование. В этом случае если длительность сигнала, который зарегистрирован для предыдущих положений «скользящего окна» как речевой сигнал, не превосходит максимального значения, то данный сигнал считают речевым сигналом, в противном случае данный сигнал считают помехой.

Если находят гармоники, значения частот которых отличаются от значения частот гармоник речевого сигнала, зарегистрированного для предыдущего положения «скользящего окна», число этих гармоник превышает пороговое значение для числа спектральных составляющих, речевой сигнал, зарегистрированный для предыдущего положения «скользящего окна» существует для текущего положения «скользящего окна», и значение средней мощности нового сигнала превышает значение средней мощности гармоник речевого сигнала, зарегистрированного для предыдущего положения «скользящего окна», считают, что данные гармоники являются речевым сигналом. Его длительность считают равной длительности «скользящего окна». Речевой сигнал, зарегистрированный для предыдущего положения «скользящего окна» и существующий в текущем положении «скользящего окна», является помехой.

Если значение средней мощности нового речевого сигнала не превышает значение средней мощности гармоник речевого сигнала, зарегистрированного для предыдущего положения «скользящего окна», то считают, что данные гармоники являются помехой. Длительность сигнала, зарегистрированного для предыдущего положения «скользящего окна», увеличивают на значение длительности временного интервала, на который сдвигают «скользящее окно» (ф. 5, стр. 13 описания).

Процесс изменения положения «скользящего окна» осуществляют до тех пор, пока не будет исчерпан интервал анализа сигнала.

Ниже приведены результаты моделирования процесса обнаружения речевого сигнала или его отсутствия в условиях наличия помех.

Результаты оценки эффективности предлагаемого способа получены методом математического моделирования на ЭВМ с использованием системы MATLAB. При разработке модели оценки эффективности использована «Программа оценки эффективности способа спектрального анализа многочастотных периодических сигналов с использованием квадратурных составляющих и компенсацией комбинационных составляющих» - свидетельство о государственной регистрации программы для ЭВМ №2019660813.

Шумоподобная помеха моделировалась как сумма гармонических сигналов со случайными значениями амплитуд (Usi) и фаз (ϕsi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, соответственно

где: ωsi, ϕsi, - частота, фаза, амплитуда i-го гармонического сигнала;

Nsp - число гармонических сигналов.

Частоты гармоник помехи формировались как случайные величины, значения которых распределены по равномерному закону в полосе сигнала. Длительности гармоник помехи формировались как случайные величины, значения которых распределены по равномерному закону в пределах от одного до двух периодов гармоник. Значение периода соответствуют значению частоты гармоники помехи.

Речевой сигнал и речеподобная помеха моделировались как сумма гармонических сигналов с некоторым значением первой частоты и фиксированными «расстояниями» между значениями частот других гармоник. Значение первой частоты определялось при условии, что это значение равномерно распределено в интервале от 300 до 800 Гц.

Значения фаз гармоник сигнала устанавливались одинаковыми.

Амплитуды гармоник сигнала формировались как случайные величины, распределенные по нормальному закону.

Моделирование проведено для следующих значений параметров:

- диапазон изменения частот речевого сигнала: 300 Гц - 3400 Гц;

- число реализаций - 500;

- число гармоник сигнала - 8;

- число гармоник шумоподобной помехи - в среднем 100 для одного положения «скользящего окна»;

- число положений «скользящего окна» - 15;

- коэффициент, определяющий частоту дискретизации - 64000;

- число опорных частот - 30;

- значение первой опорной частоты - 300 Гц;

- значение последней опорной частоты - 3350 Гц;

- значение полосы частот полосового фильтра с максимальной крутизной АЧХ - 200 Гц (0 - Fр, см. фиг. 1);

- длительность речевого сигнала (одна фонема) - 30 мс;

- длительность речеподобной помехи - от 30 до 120 мс.

Результаты моделирования процесса выделения речи в условиях возможного присутствия речеподобной помехи для различного числа частотных составляющих помехи (Nчсп) приведены в таблице 1.

В таблице 1 использованы следующие обозначения:

POSNP - вероятность решения о наличии речевого сигнала при его присутствии и при наличии речеподобной помехи;

PPOS - вероятность решения о присутствии речевого сигнала при наличии только речевого сигнала и наличии речеподобной помехи до появления речевого сигнала;

PLT - вероятность решения о присутствии речевого сигнала при наличии только речеподобной помехи.

Таблица 1

Nчсп Обозначение параметра Значение вероятности Значение отношения мощностей сигнала и помехи 0,5 1 1,2 6 POSNP 1 1 1 PPOS 1 1 1 PLT 0 0 0 8 POSNP 1 1 1 PPOS 1 1 1 PLT 0 0 0 10 POSNP 1 1 1 PPOS 0 1 1 PLT 0 0 0

Результаты моделирования процесса выделения речи при наличии шумоподобной помехи приведены в таблице 2.

В таблице 2 использованы следующие обозначения:

PPOS - вероятность решения о наличии речевого сигнала при его присутствии;

PLT - вероятность решения о присутствии речевого сигнала при наличии только шумоподобной помехи - вероятность ложной тревоги.

Таблица 2

Тип помехи Обозначение параметра Значение отношения мощностей сигнала и помехи 0,5 1 Шумоподобная помеха PPOS 0,95 0,998 PLT 0,12 0,08

Результаты моделирования процесса выделения речи в условиях возможного присутствия речеподобной и шумоподобной помехи для различного числа частотных составляющих речеподобной помехи (Nсп) приведены в таблице 3.

В таблице 3 использованы следующие обозначения:

POS - значения вероятности решения о наличии речевого сигнала при его присутствии и при наличии речеподобной и шумоподобной помехи;

PLTNP - значения вероятности решения о присутствии речевого сигнала при его отсутствии и наличии речеподобной и шумоподобной помехи.

Таблица 3

Nсп Обозначение параметра Значение вероятности Значение отношения мощностей сигнала и помехи 0,5 1 6 POS 0,85 0,99 PLTNP 0,19 0,15 8 POS 0,88 0,98 PLTNP 0,15 0,18 10 POS 0,9 0,98 PLTNP 0,15 0,2

На основе результатов анализа данных, приведенных в таблицах 1 - 3, может быть сделан вывод о высокой эффективности рассматриваемого способа, что объясняется высокой эффективностью используемого способа спектрального анализа.

Техническим результатом предлагаемого способа является повышение эффективности выделения речевого сигнала при наличии акустических помех.

Структурная схема устройства, реализующего предлагаемый способ, приведена на фиг. 3, где обозначено:

1 - электроакустическое устройство (ЭАУ);

2 - фильтр нижних частот (ФНЧ);

3 - усилитель низкой частоты (УНЧ);

4 - аналого-цифровой преобразователь (АЦП);

5 - вычислительное устройство (ВУ).

Устройство содержит последовательно соединенные ЭАУ 1, ФНЧ 2, УНЧ 3, АЦП 4 и ВУ 5, выход которого является выходом устройства. Вход ЭАУ 1 является входом устройства.

Устройство работает следующим образом.

Помеху или аддитивную смесь сигнала и помехи, которые поступают с выхода ЭАУ 1, фильтруют ФНЧ 2, усиливают в УНЧ 3 и преобразуют в цифровой вид в АЦП 4.

Сформированные отсчеты подают в ВУ 5. В вычислительном устройстве 5 помеху или аддитивную смесь сигнала и помехи обрабатывают по алгоритму, который приведен на стр. 9 - 13 описания.

В ВУ 5 после завершения анализа сигнала за заданное время, например, 60 мс - время задержки сигнала из-за его обработки, в случае обнаружения речевого сигнала в цифровом виде формируют его огибающую путем формирования отсчетов соответствующих гармонических сигналов и их суммирования. Сформированную огибающую в цифровом виде подают на выход устройства.

Результаты моделирования процесса выделения речевого сигнала путем анализа значений параметров гармонических составляющих приведены выше.

В качестве ЭАУ 1 могут использоваться, например, микрофоны или ларингофоны. УНЧ 2 может быть реализован, например, на микросхеме OP467GS фирмы Analog Devices. АЦП 4 может быть выполнен, например, на микросхеме AD7495BR фирмы Analog Devices.

Вычислительное устройство 5 может быть выполнено, например, в виде единого микропроцессорного устройства с соответствующим программным обеспечением, например, процессора серии TMS320VC5416 фирмы Texas Instruments, или в виде программируемой логической интегральной схемы (ПЛИС), с соответствующим программным обеспечением, например, ПЛИС XCV400 фирмы Xilinx.

Таким образом, заявляемый способ может быть реализован описанным устройством.

Похожие патенты RU2829627C1

название год авторы номер документа
Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи 2023
  • Золотарев Владимир Алексеевич
  • Карманов Данил Сергеевич
RU2811741C1
Способ разделения речи и пауз путем анализа значений характеристик спектральных составляющих смеси сигнала и помехи 2023
  • Золотарев Владимир Алексеевич
RU2814115C1
Способ определения наличия в сигнале гармоник, длительность которых превышает установленное значение 2023
  • Золотарев Владимир Алексеевич
RU2821216C1
Способ выделения речевого сигнала с использованием временного анализа спектра аддитивной смеси сигнала и акустических помех 2022
  • Белогуров Владимир Александрович
  • Золотарев Владимир Алексеевич
RU2786547C1
Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума 2019
  • Белогуров Владимир Александрович
  • Золотарев Владимир Алексеевич
RU2700189C1
Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих 2019
  • Белогуров Владимир Александрович
  • Золотарев Владимир Алексеевич
RU2723301C1
Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала 2018
  • Белогуров Владимир Александрович
  • Золотарев Владимир Алексеевич
RU2680735C1
Способ выделения речи путем анализа значений амплитуд помехи и сигнала в двухканальной системе обработки речевого сигнала 2022
  • Золотарев Владимир Алексеевич
  • Карманов Данил Сергеевич
RU2807194C1
Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи 2018
  • Белогуров Владимир Александрович
  • Золотарёв Владимир Алексеевич
RU2691603C1
Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи 2017
  • Белогуров Владимир Александрович
  • Золотарев Владимир Алексеевич
RU2668407C1

Иллюстрации к изобретению RU 2 829 627 C1

Реферат патента 2024 года Способ выделения речевого сигнала путем анализа значений параметров гармонических составляющих

Изобретение относится к области цифровой обработки речевой информации и может найти применение в устройствах связи. Техническим результатом является повышение эффективности выделения речевого сигнала при наличии акустических помех. Для каждого положения «скользящего окна» рассчитывают значения мощностей гармоник. Для положения «скользящего окна», в котором отсутствует сигнал, рассчитывают пороговые значения для числа обнаруженных гармоник, мощности гармоник и для средних значений мощности гармоник. Для положений «скользящего окна», где возможно присутствие речевого сигнала, для каждой обнаруженной гармоники сдвигают отсчеты смеси сигнала и помехи на величину, равную половине периода гармоники. Суммируют полученные отсчеты с исходными. С использованием полученных отсчетов рассчитывают значения мощностей гармоник. По результатам сравнения полученных значений и значений, полученных при первичном анализе, их регистрируют как шумоподобную, или речеподобную помехи, или как речевой сигнал. Рассчитывают среднее значение мощностей и число обнаруженных гармоник. Если эти значения превышают соответствующие пороги, то сигнал считают речевым сигналом. Если для предыдущего положения «скользящего окна» был зарегистрирован речевой сигнал, то по результатам оценки изменения значений частот гармоник и их мощностей определяют наличие или отсутствие речевого сигнала. Если речевой сигнал прекращает свое существование и его длительность не превышает максимальное значение, то этот сигнал считают речевым сигналом. В противном случае данный сигнал считают помехой. 3 ил., 3 табл.

Формула изобретения RU 2 829 627 C1

Способ выделения речевого сигнала путем анализа значений параметров гармонических составляющих, заключающийся в том, что на всем интервале анализа, состоящего из интервала, содержащего помеху, и интервала, содержащего речевой сигнал или смесь речевого сигнала и помехи, – входной сигнал, осуществляют следующее, формируют «скользящее окно», «скользящее окно» сдвигают на временной интервал заранее установленной величины, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха, рассчитывают значения мощностей спектральных составляющих входного сигнала для каждого интервала следующим образом: каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полосу пропускания которого выбирают так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению, выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени, сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, рассчитывают значения мощностей спектральных составляющих и запоминают эти значения, отличающийся тем, что заранее устанавливают значения: длительности «скользящего окна»; максимальной длительности существования речевого сигнала; пороговое значение для числа спектральных составляющих, мощности которых превысили пороговое значение – обнаруженные спектральные составляющие; коэффициентов, с использованием которых рассчитывают пороговые значения для значений мощностей спектральных составляющих и для среднего значения мощностей обнаруженных спектральных составляющих, пороговое значение отношения мощности спектральных составляющих к среднему значению их мощностей, «скользящее окно» периодически сдвигают на временной интервал установленной величины, для каждого положения «скользящего окна» рассчитывают значения мощностей спектральных составляющих, значения частот спектральных составляющих считают равными значению соответствующих опорных частот, для положения «скользящего окна», в котором отсутствует сигнал, рассчитывают: число обнаруженных спектральных составляющих помехи и пороговое значение для числа обнаруженных спектральных составляющих; среднее значение мощностей спектральных составляющих помехи и пороговые значения для значения мощности спектральных составляющих и для среднего значения мощности спектральных составляющих, в дальнейшем для каждого положения «скользящего окна», для которого принимают решение о присутствии только гармоник помехи, рассчитывают данные пороговые значения, при осуществлении анализа для других положений «скользящего окна», используют последние рассчитанные пороговые значения, для положений «скользящего окна», для которых возможно присутствие сигнала, рассчитывают значения мощностей спектральных составляющих, число спектральных составляющих, значение мощности которых превысило соответствующий порог, эти спектральные составляющие помечают как обнаруженные составляющие, если число спектральных составляющих не превысило соответствующий порог, то данные спектральные составляющие считают составляющими помехи, для каждой обнаруженной спектральной составляющей осуществляют проверку того, что ее длительность превышает минимальное значение, следующим образом: сдвигают отсчеты огибающей смеси сигнала и помехи на величину, равную половине периода, значение которого определяется значением частоты обнаруженной спектральной составляющей; суммируют полученные отсчеты с исходными; с использованием полученных отсчетов рассчитывают значения мощностей этих спектральных составляющих, если значение мощности анализируемой гармоники, полученное в процессе проверки ее длительности, превышает значение мощности данной гармоники, рассчитанное при проведении первичного анализа, то считают, что длительность данной составляющей не превышает минимальное значение, эту составляющую помечают как помеху, в противном случае считают, что длительность данной составляющей превышает минимальное значение, ее относят к сигналу, который может быть речевым сигналом, рассчитывают число гармоник, относительно которых принято решение, что они могут быть составляющими речевого сигнала, если данное число не превышает заданное пороговое значение, то гармоники считают речеподобной помехой, в противном случае считают, что данные гармоники могут быть составляющими речевого сигнала, в этом случае рассчитывают среднее значение мощности этих гармоник, если это значение превышает рассчитанное пороговое значение, то считают, что данные гармоники являются составляющими речевого сигнала, в противном случае считают, что данные составляющие являются помехой, если для предыдущего положения «скользящего окна» было зарегистрировано наличие речеподобной помехи, и для текущего положения «скользящего окна» было установлено наличие гармоник речевого сигнала, то для гармоник речевого сигнала, частоты которых совпадают с частотами гармоник речеподобной помехи, мощность гармоник рассчитывают путем вычитания из значения мощности гармоник речевого сигнала мощности соответствующих гармоник речеподобной помехи, если для предыдущего положения «скользящего окна» не был зарегистрирован речевой сигнал, то длительность речевого сигнала, зарегистрированного для текущего положения «скользящего окна», считают равной длительности «скользящего окна», если для предыдущего положения «скользящего окна» был зарегистрирован речевой сигнал, то сравнивают значения частот обнаруженных гармоник для текущего положения «скользящего окна» и для его предыдущего положения, если число гармоник с одинаковыми значениями частот превышает пороговое значение для числа спектральных составляющих, то считают, что присутствует речевой сигнал, рассчитывают значение отношений мощности гармоник к среднему значению мощности этих гармоник, если для какой-либо гармоники это значение превышает порог, то значению мощности этой гармоники присваивают значение мощности гармоники с той же частотой, рассчитанное для предыдущего положения «скользящего окна», длительность речевого сигнала увеличивают на значение длительности временного интервала, на который сдвигают «скользящее окно», если число гармоник с одинаковыми значениями частот не превышает пороговое значение для числа спектральных составляющих, то считают, что речевой сигнал, существующий в предыдущем положении «скользящего окна» прекратил существование, в этом случае если длительность сигнала, который зарегистрирован для предыдущих положений «скользящего окна» как речевой сигнал, не превосходит максимального значения, то данный сигнал считают речевым сигналом, в противном случае данный сигнал считают помехой, если находят гармоники, значения частот которых отличаются от значения частот гармоник речевого сигнала, зарегистрированного для предыдущего положения «скользящего окна», число этих гармоник превышает пороговое значение для числа спектральных составляющих, речевой сигнал, зарегистрированный для предыдущего положения «скользящего окна», существует для текущего положения «скользящего окна» и значение средней мощности нового сигнала превышает значение средней мощности гармоник речевого сигнала, зарегистрированного для предыдущего положения «скользящего окна», считают, что данные гармоники являются речевым сигналом, его длительность считают равной длительности «скользящего окна», речевой сигнал, зарегистрированный для предыдущего положения «скользящего окна», и существующий в текущем положении «скользящего окна», является помехой, если значение средней мощности нового речевого сигнала не превышает значение средней мощности гармоник речевого сигнала, зарегистрированного для предыдущего положения «скользящего окна», то считают, что данные гармоники являются помехой, длительность сигнала, зарегистрированного для предыдущего положения «скользящего окна», увеличивают на значение длительности временного интервала, на который сдвигают «скользящее окно».

Документы, цитированные в отчете о поиске Патент 2024 года RU2829627C1

СПОСОБ СПЕКТРАЛЬНОГО АНАЛИЗА СИГНАЛОВ 1993
  • Плавильщиков Александр Алексеевич
RU2127888C1
Способ спектрального анализа многочастотных периодических сигналов с использованием компенсации комбинационных составляющих 2019
  • Белогуров Владимир Александрович
  • Золотарев Владимир Алексеевич
RU2730043C1
CN 114624513 A, 14.06.2022
CN 115276686 A, 01.11.2022.

RU 2 829 627 C1

Авторы

Золотарев Владимир Алексеевич

Даты

2024-11-02Публикация

2024-04-03Подача