Показать метаданные Скрыть метаданные

(19)

(11)

2 814 115

(13)

(51)

МПК

G10L25/93(2013-01-01)

(21) (22)

Заявка

2023120818, 2023-08-09

(24)

Дата начала отсчета патента

2023-08-09

(22)

дата подачи заявки

2023-08-09

(45)

опубликовано

2024-02-22

(72)

авторы

Золотарев Владимир Алексеевич

(73)

патентообладатели

Акционерное Общество

(56)

Документы, цитированные в отчете о поиске

Способ разделения речи и пауз путем анализа значений характеристик спектральных составляющих смеси сигнала и помехи Российский патент 2024 года по МПК G10L25/93

Описание патента на изобретение RU2814115C1

Изобретение относится к области цифровой обработки речевых сигналов и может найти применение в устройствах связи.

Известен способ спектрального анализа электрических сигналов (патент РФ № 2431853), в котором анализируемый электрический сигнал подают одновременно на гребенку фильтров, настроенных на различные частоты и измеряют сигналы на выходах этих фильтров, причем до проведения измерений диапазон контролируемых частот разбивают на элементы разрешения с шагом дискретизации, соответствующим желаемым точности и разрешению спектрального анализа. Недостатком данного способа является сложность технической реализации и недостаточно высокая эффективность решения задачи разделения речи и пауз.

Известен способ спектрального анализа сигналов (патент РФ №2127888), в котором при дискретизации и квантовании сигнала создают последовательности дискретных значений сигнала с различными частотами следования отсчетов в каждой из них. При этом дискретные значения этих последовательностей фильтруют с помощью цифровых полосовых фильтров и цифровых фильтров нижних частот. Сигналы с выходов цифровых полосовых фильтров подвергают обработке, связанной с определением амплитудных значений, а на их основе и остальных информативных параметров полосовых сигналов. Но данный способ имеет недостаточно высокую эффективность решения задачи разделения речи и пауз.

Известен способ спектрального анализа многочастотных периодических сигналов, представленных цифровыми отсчетами (Функциональный контроль и диагностика электротехнических систем и устройств по цифровым отсчетам мгновенных значений тока и напряжения. /под редакцией Е.И. Гольдштейна - Томск: Изд. «Печатная мануфактура», 2003, с.92-94). Недостатком способа является недостаточно высокая эффективность решения задачи разделения речи и пауз.

Известен способ спектрального анализа сигналов (патент РФ №2730043 G01R23/16). Недостатком этого способа является недостаточно высокая эффективность решения задачи разделения речи и пауз.

Известен способ разделения речи и пауз, описанный в книге «Цифровая обработка речевых сигналов. //Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 123 - 126. Недостатком данного способа является высокая вероятность ошибочного решения о появлении сигнала в условиях наличия акустического шума.

Известен способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи по патенту РФ 2668407, G10L 25/93, у которого недостаточно высокая эффективность решения задачи разделения речи и пауз в условиях наличия мощных акустических помех.

Известен способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала по патенту РФ 2680735, G10L 21/0272, который обладает недостаточно высокой эффективностью решения задачи разделения речи и пауз в условиях наличия большого числа частотных составляющих акустических помех.

Известен способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи по патенту РФ 2691603, G10L 15/00. Известное техническое решение имеет недостаточно высокую эффективность при решении задачи разделения речи и пауз в условиях априорной неопределенности информации о присутствии в интервале анализа только помехи или смеси помехи и сигнала.

Известен способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума, описанный в патенте РФ 2700189, H04Q1/46, недостатком которого является недостаточно высокая эффективность решения задачи разделения речи и пауз в условиях наличия большого числа частотных составляющих акустических помех.

Наиболее близким аналогом по технической сущности к предлагаемому является способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих, описанный в патенте РФ 2723301, G10L 25/93, принятый за прототип.

Способ-прототип заключается в следующем.

На всем интервале анализа, состоящего из интервала, который содержит шум или речевой сигнал или смесь речевого сигнала и шума, которые поступают в устройство (входной сигнал), сигнал разветвляют на две одинаковые составляющие, одну из них фильтруют фильтром нижних частот (ФНЧ), вторую составляющую фильтруют полосовым фильтром, сигналы, поступившие на выходы фильтров дискретизируют и заносят в память для последующей обработки, формируют «скользящее окно», состоящее из интервалов одинаковой длительности, «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов, «скользящее окно» формируют так, что оно включает в себя два интервала анализа, каждый из которых состоит из нескольких интервалов одинаковой длительности, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха, осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом, каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению, выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени, сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты и запоминают эти значения пропорциональные амплитуде сигналов, находят среднее значение МСП, определяют значение порога путем умножения найденного среднего значения МСП на коэффициент, значение которого устанавливают заранее, полученные значения МСП сравнивают с порогом, по результатам сравнения принимают решение о наличии или об отсутствии сигнала с соответствующей частотой, находят значения мощности каждого выделенного сигнала путем возведения в квадрат соответствующих значений МСП, находят для каждой гармоники дисперсию значений мощностей для первого и второго интервалов анализа, рассчитывают среднее значение дисперсий мощностей первого и второго интервалов, усреднение осуществляют по числу гармоник, определяют пороговое значение путем умножения среднего значения дисперсии значений мощностей первого интервала анализа, принадлежащего «скользящему окну», на коэффициент, значение которого определяют заранее, находят значение разности средних значений дисперсий мощностей, рассчитанных для первого и второго интервалов анализа, данное значение разности сравнивают с порогом, считают, что во втором интервале анализа присутствует только помеха, если значение разности средних значений дисперсий мощностей не превышает порог, в противном случае считают, что во втором интервале анализа присутствует сигнал или смесь сигнала и помехи, сдвигают «скользящее окно» на заданное значение интервалов, описанную процедуру повторяют, для последующих шагов пороговое значение для разности средних значений дисперсии значений мощностей интервалов анализа определяют с использованием среднего значения средних значений дисперсии мощностей интервалов анализа, которое рассчитывают, применяя принцип «первый пришел, первый ушел», процесс продолжают до тех пор, пока не закончится время, отведенное для анализа входного сигнала.

Недостатком способа-прототипа является его недостаточно высокая эффективность при решении задачи разделения речи и пауз в условиях наличия помехи с быстро изменяющейся мощностью.

Задачей предлагаемого способа является повышение эффективности принятия правильного решения о появлении речевого сигнала при наличии акустических шумоподобных помех.

Для решения поставленной задачи в способе разделения речи и пауз путем анализа значений характеристик спектральных составляющих смеси сигнала и помехи, заключающемся в том, что на всем интервале анализа, состоящего из интервала, содержащего шум или речевой сигнал или смесь речевого сигнала и шума, которые поступают в устройство – входной сигнал, дискретизируют и заносят в память для последующей обработки, формируют «скользящее окно», «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха, осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом, каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению, выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени, сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, рассчитывают значения мощностей спектральных составляющих и запоминают эти значения, согласно изобретению, заранее устанавливают значения: интервала анализа; длительности «скользящего окна»; длительности временного интервала, на который сдвигают «скользящее окно»; количества положений «скользящего окна», в которых осуществляют анализ наличия сигнала, минимальной и максимальной длительности речевого сигнала; коэффициентов, с использованием которых рассчитывают пороговые значения для значений мощностей спектральных составляющих, для среднего числа спектральных составляющих, значения мощности которых превысили порог – обнаруженные составляющие, для среднего значения мощностей обнаруженных спектральных составляющих смеси сигнала и помехи, «скользящее окно» сдвигают на временной интервал установленной величины, для каждого положения «скользящего окна» проводят спектральный анализ;

для нескольких первых положений «скользящего окна», число которых устанавливают заранее, для которых выполняется условие отсутствия сигнала, рассчитывают: число обнаруженных спектральных составляющих помехи для каждого положения «скользящего окна» и пороговое значение для среднего числа обнаруженных спектральных составляющих смеси сигнала и помехи; среднее значение мощностей спектральных составляющих помехи; пороговые значения для значения мощности спектральных составляющих смеси сигнала и помехи и для средних значений мощности спектральных составляющих смеси сигнала и помехи, для нескольких положений «скользящего окна», число которых устанавливают заранее, для которых возможно присутствие сигнала, рассчитывают для каждого положения «скользящего окна» число обнаруженных спектральных составляющих и среднее число обнаруженных спектральных составляющих, если среднее число обнаруженных спектральных составляющих превышает соответствующее пороговое значение, то считают, что для этих положений «скользящего окна» возможно присутствие речевого сигнала, это событие регистрируют, для этого случая рассчитывают длительность сигнала, если длительность сигнала превышает минимальное пороговое значение и не превышает максимальное пороговое значение, то рассчитывают среднее значение мощностей обнаруженных спектральных составляющих сигнала и помехи, если рассчитанное среднее значение мощностей превышает пороговое значение, то считают, что в этих «скользящих окнах» присутствует сигнал, в противном случае принимают решение о наличии в этих временных интервалах только помехи, если для положений «скользящего окна», для которых возможно присутствие сигнала, не зарегистрировано наличие речевого сигнала, или рассчитанное значение длительности сигнала не превышает минимальное значение или превышает максимальное пороговое значение, то считают, что в этих «скользящих окнах», присутствует только помеха, для «скользящих окон», относительно которых принято решение, что в них присутствует только помеха, рассчитывают пороговые значения: для среднего числа обнаруженных спектральных составляющих смеси сигнала и помехи; для значения мощности спектральных составляющих смеси сигнала и помехи; для средних значений мощности спектральных составляющих смеси сигнала и помехи, процесс изменения положения «скользящего окна» осуществляют до тех пор, пока не будет исчерпан интервал анализа сигнала.

Предлагаемый способ заключается в следующем.

Заранее устанавливают значения:

– интервала анализа;

– длительности «скользящего окна»;

– длительности временного интервала, на который сдвигают «скользящее окно»;

– количества положений «скользящего окна», в которых осуществляют анализ наличия сигнала, минимальной и максимальной длительности речевого сигнала.

Также заранее устанавливают значения коэффициентов, с использованием которых рассчитывают пороговые значения:

– для значений мощностей спектральных составляющих;

– для среднего числа спектральных составляющих, значения мощности которых превысили порог – обнаруженные составляющие;

– для среднего значения мощностей обнаруженных спектральных составляющих смеси сигнала и помехи.

Данные значения устанавливают для типовых условий применения устройства, в котором реализован способ разделения речи и пауз, методом математического моделирования или экспериментальным путем.

Входной сигнал преобразуют в цифровой вид и заносят в память для последующей обработки.

Формируют «скользящее окно».

Сдвигают «скользящее окно» на несколько временных интервалов. Значение числа сдвигов устанавливают заранее.

Для каждого положения «скользящего окна» проводят спектральный анализ.

Спектральный анализ осуществляют, например способом, описание которого приведено в патенте РФ № 2730043, G01R23/16.

Каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие.

Первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала. Одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению. Выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени (иллюстративный пример приведен на фиг. 1).

Сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого. Результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, рассчитывают значения мощности (дисперсий) каждой спектральной составляющей и запоминают эти значения.

Для нескольких первых положений «скользящего окна», число которых устанавливают заранее, для которых выполняется условие отсутствия речевого сигнала, рассчитывают:

– число обнаруженных спектральных составляющих помехи для каждого положения «скользящего окна» и пороговое значение для среднего числа обнаруженных спектральных составляющих смеси сигнала и помехи;

– среднее значение мощностей спектральных составляющих помехи, пороговые значения для значения мощности спектральных составляющих смеси сигнала и помехи и для средних значений мощности спектральных составляющих смеси сигнала и помехи.

Пороговое значение для среднего числа обнаруженных спектральных составляющих смеси сигнала и помехи рассчитывают путем расчета среднего числа обнаруженных спектральных составляющих помехи для этих положений «скользящего окна» и умножения этого значения на значение соответствующего коэффициента.

Пороговые значения для значения мощности спектральных составляющих смеси сигнала и помехи и для средних значений мощности спектральных составляющих смеси сигнала и помехи рассчитывают путем умножения среднего значения мощности спектральных составляющих смеси сигнала и помехи на значения соответствующих коэффициентов.

Число первых положений «скользящего окна», для которых выполняется условие отсутствия сигнала, рассчитывают для типовых условий применения устройства, в котором реализован способ разделения речи и пауз, методом математического моделирования или экспериментальным путем.

Для нескольких положений «скользящего окна», число которых устанавливают заранее, для которых возможно присутствие сигнала, рассчитывают для каждого положения «скользящего окна» число обнаруженных спектральных составляющих и среднее число обнаруженных спектральных составляющих.

Если среднее число обнаруженных спектральных составляющих превышает соответствующее пороговое значение, то считают, что для этих положений «скользящего окна» возможно присутствие речевого сигнала, это событие регистрируют.

Для этого случая рассчитывают длительность сигнала по формуле

где Т_со – длительность «скользящего окна»;

Т_ссо – длительность интервала, на который сдвигают «скользящее окно»;

N – число положений «скользящего окна».

Если длительность сигнала превышает минимальное пороговое значение и не превышает максимальное пороговое значение, то рассчитывают среднее значение мощностей обнаруженных спектральных составляющих сигнала и помехи. Если рассчитанное среднее значение мощностей превышает пороговое значение, то считают, что в этих «скользящих окнах» присутствует сигнал, в противном случае принимают решение о наличии в этих временных интервалах только помехи.

Если для положений «скользящего окна», для которых возможно присутствие сигнала, не зарегистрировано наличие речевого сигнала, или рассчитанное значение длительности сигнала не превышает минимальное значение или превышает максимальное пороговое значение, то считают, что в этих «скользящих окнах», присутствует только помеха.

Для «скользящих окон», относительно которых принято решение, что в них присутствует только помеха, рассчитывают пороговые значения:

– для среднего числа обнаруженных спектральных составляющих смеси сигнала и помехи;

– для значения мощности спектральных составляющих смеси сигнала и помехи;

– для средних значений мощности спектральных составляющих смеси сигнала и помехи.

Процесс изменения положения «скользящего окна» осуществляют до тех пор, пока не будет исчерпан интервал анализа сигнала.

Ниже приведены результаты моделирования процесса обнаружения факта присутствия речевого сигнала или его отсутствия в условиях наличия помех.

Шумоподобная помеха моделировалась как сумма гармонических сигналов со случайными значениями амплитуд (U_si) и фаз (ϕ_si), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, соответственно

где: ω_si, φ_si, – частота, фаза, амплитуда i-ого гармонического сигнала;

Nsp – число гармонических сигналов.

Частоты гармоник помехи формировались как случайные величины, значения которых распределены по равномерному закону в полосе сигнала.

Длительности гармоник помехи формировались как случайные величины, значения которых распределены по равномерному закону в пределах от одного до двух периодов гармоник. Значение периода соответствуют значению частоты гармоники помехи.

Сигнал моделировался как сумма гармонических сигналов с некоторым значением первой частоты и фиксированными «расстояниями» между значениями частот других гармоник. Значение первой частоты определялось при условии, что это значение равномерно распределено в интервале от 300 до 800 Гц. Значения фаз гармоник сигнала устанавливались одинаковыми.

Амплитуды гармоник сигнала формировались как случайные величины, распределенные по нормальному закону.

Моделирование проведено для следующих значений параметров:

– диапазон изменения частот речевого сигнала: 300 Гц – 3400 Гц;

– число реализаций – 500;

– число гармоник сигнала – 8;

– число гармоник помехи – в среднем 100 для одного положения «скользящего окна»;

– число положений «скользящего окна» – 15;

– коэффициент, определяющий частоту дискретизации – 64000;

– число опорных частот – 30;

– значение первой опорной частоты – 300 Гц;

– значение последней опорной частоты – 3350 Гц;

– значение полосы частот полосового фильтра с максимальной крутизной АЧХ – 200 Гц (0 – Fр, см. фиг. 1);

– длительность речевого сигнала (одна фонема) – 30 мс.

Результаты моделирования процесса разделения речи и пауз для шумоподобной помехи (значения вероятности решения о наличии речевого сигнала при его присутствии – PPOS, значения вероятности решения о присутствии речевого сигнала при наличии только помехи – PPOP) приведены в таблице.

Тип помехи Обозначение параметра Отношение мощностей сигнала и помехи 0,5 1 Шумоподобная помеха PPOS 0,95 0,998 PPOP 0,12 0,08

На основе результатов анализа данных, приведенных в таблице, может быть сделан вывод о высокой эффективности рассматриваемого способа, что объясняется высокой эффективностью используемого способа спектрального анализа.

Структурная схема устройства, реализующего предлагаемый способ, приведена на фиг. 3, где обозначено:

1 – электроакустическое устройство (ЭАУ);

2 – усилитель низкой частоты (УНЧ);

3.1 – 3.n – блоки умножения с первого по n-й;

4.1 – 4.n – фильтры нижних частот (ФНЧ) с первого по n-й;

5.1 – 5.n – устройства вычитания с первого по n-й;

6.1 – 6.n – аналого-цифровые преобразователи (АЦП) с первого по n-й;

7.1 – 7.n – полосовые фильтры с первого по n-й;

8 – вычислительное устройство (ВУ).

Устройство содержит последовательно соединенные ЭАУ 1 и УНЧ 2, при этом вход ЭАУ 1 является входом устройства. Кроме того, n параллельных линеек, каждая из которых состоит из соответствующих последовательно соединенных блока умножения 3, ФНЧ 4, устройства вычитания 5 и АЦП 6, при этом полосовой фильтр 7 включен между выходом блока умножения 3 и вторым входом устройства вычитания 5. Входы n блоков умножения 3.1 – 3.n объединены и соединены с выходом УНЧ 2. Выходы с первого по n-й АЦП 6.1 – 6.n соединены с соответствующими входами с первого по n-й вычислительного устройства 8, выход которого является выходом устройства. Вторые входы блоков умножения 3.1 – 3.n являются входами для опорных сигналов.

Устройство работает следующим образом.

Помеху или аддитивную смесь сигнала и помехи, которые поступают с выхода ЭАУ 1, усиливают в УНЧ 2 и подают на объединенный вход n параллельных линеек.

Для обработки одной гармоники используют две линейки устройства. То есть, при использовании k опорных частот число линеек равно

Помеху или аддитивную смесь сигнала и помехи с выхода УНЧ 2 подают на первые входы блоков умножения 3.1-3.n, на вторые входы которых подают соответствующие опорные сигналы, например,

U_оп1 = sin(x);

U_оп2 = cos(x).

….

U_оп(n-1) = sin(x);

U_опn = cos(x).

Результат умножения сигнала и помехи на опорные сигналы разветвляют на две одинаковые составляющие. Первую составляющую фильтруют ФНЧ 4.1 – 4.n, полоса каждого из которых согласована с полосой сигнала. Одновременно вторую составляющую фильтруют полосовыми фильтрами 7.1 – 7.n, полоса пропускания каждого из которых выбирается так, что верхняя частота полосовых фильтров 7.1 – 7.n соответствует верхней частоте сигнала, нижнюю частоту полосовых фильтров 7.1 – 7.n устанавливают максимально близкой к нулевому значению.

Выбор ФНЧ 4.1 – 4.n и полосовых фильтров 7.1 – 7.n осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что АЧХ полосовых фильтров 7.1 – 7.n в области частот близких к нулю имеет максимально возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ 4.1 – 4.n и полосовых фильтров 7.1 – 7.n становится меньше некоторой заранее заданной величины (F_р), обеспечивают идентичность их АЧХ в максимальной степени (иллюстративный пример приведен на фиг. 1).

Сигналы, прошедшие ФНЧ 4.1 – 4.n и полосовые фильтры 7.1 – 7.n, вычитают один из другого. То есть, из сигнала первого ФНЧ 4.1 вычитают сигнал первого полосового фильтра 7.1, из сигнала второго ФНЧ 4.2 вычитают сигнал второго полосового фильтра 7.2 и т.д.

Полученные сигналы преобразуют в цифровой вид в соответствующих с первого по n-й АЦП 6.1 – 6.n. Данные сигналы в цифровом виде подают в ВУ 8.

В ВУ 8 по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют дисперсию (мощность) спектральных составляющих для каждой опорной частоты путем извлечения квадратного корня из суммы квадратов синусной и косинусной составляющей и запоминают эти значения.

В ВУ 8 осуществляют обнаружение наличия или отсутствия речевого сигнала по алгоритму, который приведен на стр. 8 – 12 описания.

Результаты моделирования процесса спектрального анализа приведены выше.

В качестве ЭАУ 1 могут использоваться, например, микрофоны или ларингофоны.

УНЧ 2 может быть реализован, например, на микросхеме OP467GS фирмы Analog Devices.

Блоки умножения 3.1 – 3.n могут быть выполнены, например, в виде преобразователя частоты (смесителя), см., например, учебное пособие «Основы теории радиотехнических систем». Учебное пособие. // В.И. Борисов, В.М. Зинчук, А.Е. Лимарев, Н.П. Мухин. Под ред. В.И. Борисова. Воронежский научно-исследовательский институт связи, 2004», стр. 186 – 189.

АЦП 6.1 – 6.n могут быть выполнены, например, на микросхеме AD7495BR фирмы Analog Devices.

Вычислительное устройство может быть выполнено, например, в виде единого микропроцессорного устройства с соответствующим программным обеспечением, например, процессора серии TMS320VC5416 фирмы Texas Instruments, или в виде программируемой логической интегральной схемы (ПЛИС) с соответствующим программным обеспечением, например ПЛИС XCV400 фирмы Xilinx.

Таким образом, заявляемый способ может быть реализован описанным устройством.

Техническим результатом предлагаемого способа является повышение эффективности принятия правильного решения о появлении речевого сигнала при наличии акустических помех.

Иллюстрации к изобретению RU 2 814 115 C1

Реферат патента 2024 года Способ разделения речи и пауз путем анализа значений характеристик спектральных составляющих смеси сигнала и помехи

Изобретение относится к области вычислительной техники для цифровой обработки речевой информации. Технический результат заключается в повышении точности разделения речи и пауз в условиях наличия помехи с быстро изменяющейся мощностью. Технический результат достигается за счет того, что спектральный анализ проводят методом анализа многочастотных периодических сигналов, представленных цифровыми отсчетами, с использованием компенсации комбинационных составляющих. Для нескольких положений «скользящего окна» по результатам анализа значений параметров помехи устанавливают пороговые значения для мощностей и числа обнаруженных спектральных составляющих, а также для среднего значения мощностей спектральных составляющих помехи. Для положений «скользящего окна», для которых возможно присутствие сигнала, рассчитывают среднее число обнаруженных составляющих. Если это число превышает соответствующий порог, то рассчитывают длительность сигнала. Если длительность сигнала превышает минимальное пороговое значение и не превышает максимальное пороговое значение, то рассчитывают среднее значение мощностей спектральных составляющих смеси речевого сигнала и шума. Если данное значение превышает пороговое значение, то считают, что в этих «скользящих окнах» присутствует сигнал. В противном случае принимают решение о наличии в этих временных интервалах только помехи. 3 ил., 1 табл.

Формула изобретения RU 2 814 115 C1

Способ разделения речи и пауз путем анализа значений характеристик спектральных составляющих смеси сигнала и помехи, заключающийся в том, что на всем интервале анализа, состоящего из интервала, содержащего шум, или речевой сигнал, или смесь речевого сигнала и шума, которые поступают в устройство – входной сигнал, дискретизируют и заносят в память для последующей обработки, формируют «скользящее окно», «скользящее окно» сдвигают на некоторое заранее определенное количество отсчетов, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха, осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом: каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению, выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот, близких к нулю, имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени, сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, рассчитывают значения мощностей спектральных составляющих и запоминают эти значения, отличающийся тем, что заранее устанавливают значения: интервала анализа; длительности «скользящего окна», длительности временного интервала, на который сдвигают «скользящее окно», количества положений «скользящего окна», в которых осуществляют анализ наличия сигнала, минимальной и максимальной длительности речевого сигнала, коэффициентов, с использованием которых рассчитывают пороговые значения для значений мощностей спектральных составляющих, для среднего числа спектральных составляющих, значения мощности которых превысили порог – обнаруженные составляющие, для среднего значения мощностей обнаруженных спектральных составляющих смеси сигнала и помехи, «скользящее окно» сдвигают на временной интервал установленной величины, для каждого положения «скользящего окна» проводят спектральный анализ; для нескольких первых положений «скользящего окна», число которых устанавливают заранее, для которых выполняется условие отсутствия сигнала, рассчитывают: число обнаруженных спектральных составляющих помехи для каждого положения «скользящего окна» и пороговое значение для среднего числа обнаруженных спектральных составляющих смеси сигнала и помехи; среднее значение мощностей спектральных составляющих помехи; пороговые значения для значения мощности спектральных составляющих смеси сигнала и помехи и для средних значений мощности спектральных составляющих смеси сигнала и помехи, для нескольких положений «скользящего окна», число которых устанавливают заранее, для которых возможно присутствие сигнала, рассчитывают для каждого положения «скользящего окна» число обнаруженных спектральных составляющих и среднее число обнаруженных спектральных составляющих, если среднее число обнаруженных спектральных составляющих превышает соответствующее пороговое значение, то считают, что для этих положений «скользящего окна» возможно присутствие речевого сигнала, это событие регистрируют, для этого случая рассчитывают длительность сигнала, если длительность сигнала превышает минимальное пороговое значение и не превышает максимальное пороговое значение, то рассчитывают среднее значение мощностей обнаруженных спектральных составляющих сигнала и помехи, если рассчитанное среднее значение мощностей превышает пороговое значение, то считают, что в этих «скользящих окнах» присутствует сигнал, в противном случае принимают решение о наличии в этих временных интервалах только помехи, если для положений «скользящего окна», для которых возможно присутствие сигнала, не зарегистрировано наличие речевого сигнала, или рассчитанное значение длительности сигнала не превышает минимальное значение или превышает максимальное пороговое значение, то считают, что в этих «скользящих окнах» присутствует только помеха, для «скользящих окон», относительно которых принято решение, что в них присутствует только помеха, рассчитывают пороговые значения: для среднего числа обнаруженных спектральных составляющих смеси сигнала и помехи; для значения мощности спектральных составляющих смеси сигнала и помехи; для средних значений мощности спектральных составляющих смеси сигнала и помехи, процесс изменения положения «скользящего окна» осуществляют до тех пор, пока не будет исчерпан интервал анализа сигнала.

Документы, цитированные в отчете о поиске Патент 2024 года RU2814115C1

Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих	2019	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2723301C1
Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи	2017	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2668407C1
Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи	2018	Белогуров Владимир Александрович Золотарёв Владимир Алексеевич	RU2691603C1
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек	1923	Григорьев П.Н.	SU2007A1
Способ и приспособление для нагревания хлебопекарных камер	1923	Иссерлис И.Л.	SU2003A1

RU 2 814 115 C1

Авторы

Золотарев Владимир Алексеевич

Даты

2024-02-22—Публикация

2023-08-09—Подача

название	год	авторы	номер документа
Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи	2023	Золотарев Владимир Алексеевич Карманов Данил Сергеевич	RU2811741C1
Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих	2019	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2723301C1
Способ выделения речевого сигнала путем анализа значений параметров гармонических составляющих	2024	Золотарев Владимир Алексеевич	RU2829627C1
Способ определения наличия в сигнале гармоник, длительность которых превышает установленное значение	2023	Золотарев Владимир Алексеевич	RU2821216C1
Способ выделения речевого сигнала с использованием временного анализа спектра аддитивной смеси сигнала и акустических помех	2022	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2786547C1
Способ выделения речи путем анализа значений амплитуд помехи и сигнала в двухканальной системе обработки речевого сигнала	2022	Золотарев Владимир Алексеевич Карманов Данил Сергеевич	RU2807194C1
Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи	2017	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2668407C1
Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума	2019	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2700189C1
Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала	2018	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2680735C1
Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи	2018	Белогуров Владимир Александрович Золотарёв Владимир Алексеевич	RU2691603C1