Показать метаданные Скрыть метаданные

(19)

(11)

2 811 741

(13)

(51)

МПК

G10L25/93(2013-01-01)

G10L25/84(2013-01-01)

G10L15/20(2006-01-01)

G10L19/22(2013-01-01)

G10L21/272(2013-01-01)

(21) (22)

Заявка

2023112221, 2023-05-12

(24)

Дата начала отсчета патента

2023-05-12

(22)

дата подачи заявки

2023-05-12

(45)

опубликовано

2024-01-16

(72)

авторы

Золотарев Владимир АлексеевичКарманов Данил Сергеевич

(73)

патентообладатели

Акционерное Общество

(56)

Документы, цитированные в отчете о поиске

Л.РРабинер, Р.ВШафер, Цифровая обработка речевых сигналов, Москва, "Радио и связь", 1981, сKR 100866580 B1, 03.11.2008JP 2016080767 A, 16.05.2016.

Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи Российский патент 2024 года по МПК G10L25/93 G10L25/84 G10L15/20 G10L19/22 G10L21/272

Описание патента на изобретение RU2811741C1

Изобретение относится к области цифровой обработки речевых сигналов и может найти применение в устройствах связи.

Известен способ спектрального анализа электрических сигналов (патент РФ №2431853), в котором анализируемый электрический сигнал подают одновременно на гребенку фильтров, настроенных на различные частоты, и измеряют сигналы на выходах этих фильтров, причем до проведения измерений диапазон контролируемых частот разбивают на элементы разрешения с шагом дискретизации, соответствующим желаемым точности и разрешению спектрального анализа. Недостатком данного способа является сложность технической реализации и недостаточно высокая эффективность решения задачи разделения речи и пауз.

Известен способ спектрального анализа сигналов (патент РФ №2127888), в котором при дискретизации и квантовании сигнала создают последовательности дискретных значений сигнала с различными частотами следования отсчетов в каждой из них. При этом дискретные значения этих последовательностей фильтруют с помощью цифровых полосовых фильтров и цифровых фильтров нижних частот. Сигналы с выходов цифровых полосовых фильтров подвергают обработке, связанной с определением амплитудных значений, а на их основе и остальных информативных параметров полосовых сигналов. Недостатком данного способа является недостаточно высокая эффективность решения задачи разделения речи и пауз.

Известен способ спектрального анализа многочастотных периодических сигналов, представленных цифровыми отсчетами (Функциональный контроль и диагностика электротехнических систем и устройств по цифровым отсчетам мгновенных значений тока и напряжения. /под редакцией Е.И. Гольдштейна - Томск: Изд. «Печатная мануфактура», 2003, с.92-94). У этого способа недостаточно высокая эффективность решения задачи разделения речи и пауз.

Известен способ спектрального анализа сигналов (патент РФ №2730043 G01R23/16). Недостатком данного способа является недостаточно высокая эффективность решения задачи разделения речи и пауз.

Известен способ разделения речи и пауз, описанный в книге «Цифровая обработка речевых сигналов. //Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 123 - 126. Недостатком данного способа являются недостаточно высокая точность решения задачи определения момента появления речевого сигнала и высокая вероятность ошибочного решения о появлении сигнала в условиях наличия акустического шум.

Известен способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи по патенту RU 2668407, G10L 25/93, который имеет недостаточно высокую эффективность решения задачи разделения речи и пауз в условиях наличия мощных акустических помех.

Известен способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала по патенту RU 2680735, G10L 21/0272, недостатком которого является недостаточно высокая эффективность решения задачи разделения речи и пауз в условиях наличия большого числа частотных составляющих акустических помех.

Известен способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи по патенту RU 2691603, G10L 15/00. Известное техническое решение обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз в условиях априорной неопределенности информации о присутствии в интервале анализа только помехи или смеси помехи и сигнала.

Известен способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума, описанный в патенте RU 2700189, H04Q1/46, недостатком которого является недостаточно высокая эффективность решения задачи разделения речи и пауз в условиях наличия большого числа частотных составляющих акустических помех.

Наиболее близким аналогом по технической сущности к предлагаемому является способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих, описанный в патенте RU 2723301, G10L 25/93, принятый за прототип.

Способ-прототип заключается в следующем.

На всем интервале анализа, состоящего из интервала, который содержит шум или речевой сигнал, или смесь речевого сигнала и шума, которые поступают в устройство - входной сигнал, сигнал разветвляют на две одинаковые составляющие, одну из них фильтруют фильтром нижних частот (ФНЧ), вторую составляющую фильтруют полосовым фильтром, сигналы, поступившие на выходы фильтров дискретизируют и заносят в память для последующей обработки, формируют «скользящее окно», состоящее из интервалов одинаковой длительности, «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов, «скользящее окно» формируют так, что оно включает в себя два интервала анализа, каждый из которых состоит из нескольких интервалов одинаковой длительности, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха. Осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом. Каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот, полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению, выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени. Сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты и запоминают эти значения пропорциональные амплитуде сигналов, находят среднее значение МСП, определяют значение порога путем умножения найденного среднего значения МСП на коэффициент, значение которого устанавливают заранее, полученные значения МСП сравнивают с порогом, по результатам сравнения принимают решение о наличии или об отсутствии сигнала с соответствующей частотой, находят значения мощности каждого выделенного сигнала путем возведения в квадрат соответствующих значений МСП, находят для каждой гармоники дисперсию значений мощностей для первого и второго интервалов анализа, рассчитывают среднее значение дисперсий мощностей первого и второго интервалов, усреднение осуществляют по числу гармоник, определяют пороговое значение путем умножения среднего значения дисперсии значений мощностей первого интервала анализа, принадлежащего «скользящему окну», на коэффициент, значение которого определяют заранее, находят значение разности средних значений дисперсий мощностей, рассчитанных для первого и второго интервалов анализа, данное значение разности сравнивают с порогом. читают, что во втором интервале анализа присутствует только помеха, если значение разности среднее значение дисперсий значений мощностей не превышает порог, в противном случае считают, что во втором интервале анализа присутствует сигнал или смесь сигнала и помехи, сдвигают «скользящее окно» на заданное значение интервалов, описанную процедуру повторяют. Для последующих шагов пороговое значение для разности средних значений дисперсии значений мощностей интервалов анализа определяют с использованием среднего значения средних значений дисперсии мощностей интервалов анализа, которое рассчитывают, применяя принцип «первый пришел, первый ушел», процесс продолжают до тех пор, пока не закончится время, отведенное для анализа входного сигнала.

Способ-прототип обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз в условиях наличия помехи с быстро изменяющейся мощностью.

Задачей предлагаемого способа является повышение эффективности принятия правильного решения о появлении речевого сигнала при наличии акустических шумоподобных и речеподобных акустических помех.

Для решения поставленной задачи в способе разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи, заключающемся в том, что на всем интервале анализа, состоящего из интервала, содержащего шум или речевой сигнал или смесь речевого сигнала и шума, которые поступают в устройство - входной сигнал, дискретизируют и заносят в память для последующей обработки; формируют «скользящее окно», «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха; осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом: каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению; выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени; сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты путем извлечения квадратного корня из суммы их квадратов и запоминают эти значения, пропорциональные амплитуде сигналов, находят среднее значение МСП, согласно изобретению, заранее устанавливают значения: интервала анализа; длительности «скользящего окна»; временного интервала, на который сдвигают «скользящее окно»; минимальной и максимальной длительности речевого сигнала; коэффициентов, с использованием которых рассчитывают пороговые значения для амплитуды спектральных составляющих, для числа спектральных составляющих, значения амплитуд которых превысили порог - обнаруженные составляющие, для среднего значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»;

сдвигают «скользящее окно» на несколько временных интервалов, значение числа сдвигов устанавливают заранее;

для каждого положения «скользящего окна» проводят спектральный анализ,

для нескольких первых положений «скользящего окна», число которых устанавливают заранее, для которых выполняется условие отсутствия сигнала, рассчитывают: среднее значение амплитуд спектральных составляющих и пороговое значение для амплитуд спектральных составляющих; суммарное число составляющих, амплитуда которых превысила пороговое значение; пороговое значение для числа обнаруженных составляющих; среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»; пороговое значение для значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»;

для положений «скользящего окна», для которых возможно присутствие сигнала, рассчитывают значение числа обнаруженных составляющих, если данное значение превысило пороговое значение для числа спектральных составляющих, то считают, что для данного положения «скользящего окна» возможно присутствие речевого сигнала, это событие регистрируют;

если для какого-либо положения «скользящего окна», для которого возможно присутствие сигнала, не зарегистрировано наличие речевого сигнала, то сигнал, присутствующий во данном «скользящем окне» считают помехой;

регистрируют положения «скользящего окна», для которых для всех его положений возможно присутствие речевого сигнала, для этого случая рассчитывают длительность сигнала, если длительность сигнала превышает минимальное пороговое значение и не превышает максимальное пороговое значение, то рассчитывают среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах», если данное значение превышает пороговое значение, то считают, что в этих «скользящих окнах» присутствует речевой сигнал, в противном случае считают, что в этих «скользящих окнах», присутствует только помеха;

если длительность сигнала не превышает минимальное значение или превышает максимальное пороговое значение, то считают, что в этих «скользящих окнах», присутствует только помеха;

процесс изменения положения «скользящего окна» осуществляют до тех пор, пока не будет исчерпан интервал анализа сигнала.

Предлагаемый способ заключается в следующем.

Заранее устанавливают значения:

- интервала анализа;

- длительности «скользящего окна»;

- временного интервала, на который сдвигают «скользящее окно»;

- минимальной и максимальной длительности речевого сигнала.

Также заранее устанавливают значения коэффициентов, с использованием которых рассчитывают пороговые значения:

- для амплитуды спектральных составляющих;

- для числа спектральных составляющих, значения амплитуд которых превысили порог - обнаруженные составляющие;

- для среднего значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах».

Данные значения устанавливают для типовых условий применения устройства, в котором реализован способ разделения речи и пауз, методом математического моделирования или экспериментальным путем.

Входной сигнал преобразуют в цифровой вид и заносят в память для последующей обработки.

Формируют «скользящее окно».

Сдвигают «скользящее окно» на несколько временных интервалов. Значение числа сдвигов устанавливают заранее.

Для каждого положения «скользящего окна» проводят спектральный анализ.

Спектральный анализ осуществляют, например, способом, описание которого приведено в патенте РФ №2730043.

Каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие.

Первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала. Одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению. Выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений амплитудно-частотной характеристики ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени (иллюстративный пример приведен на фиг. 1).

Сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого. Результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты и запоминают эти значения пропорциональные амплитуде сигналов.

Для нескольких первых положений «скользящего окна», число которых устанавливают заранее, для которых выполняется условие отсутствия сигнала, рассчитывают:

- среднее значение амплитуд спектральных составляющих и пороговое значение для амплитуд спектральных составляющих путем умножения данного значения на значение соответствующего коэффициента;

- среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах», и пороговое значение для среднего числа спектральных составляющих с одинаковыми частотами путем умножения данного среднего значения на значение соответствующего коэффициента.

Число первых положений «скользящего окна», для которых выполняется условие отсутствия сигнала, рассчитывают для типовых условий применения устройства, в котором реализован способ разделения речи и пауз, методом математического моделирования или экспериментальным путем.

Для положений «скользящего окна», для которых возможно присутствие сигнала, рассчитывают значение числа составляющих, значения амплитуд которых превысили соответствующее пороговое значение. Если данное значение превысило пороговое значение для числа спектральных составляющих, то считают, что для данного положения «скользящего окна» возможно присутствие речевого сигнала (иллюстративный пример приведен на фиг. 2).

Это событие регистрируют.

Если для какого-либо положения «скользящего окна», для которого возможно присутствие сигнала, не зарегистрировано наличие речевого сигнала, то сигналы, присутствующие в данных «скользящих окнах» считают помехой.

Регистрируют положения «скользящего окна», для которых для всех его положений возможно присутствие речевого сигнала. Для этого случая рассчитывают длительность сигнала.

Длительность сигнала рассчитывают по формуле

где Т_со - длительность «скользящего окна»; Т_ссо - длительность интервала, на который сдвигают «скользящее окно»; N - число положений «скользящего окна».

Если длительность сигнала превышает минимальное пороговое значение и не превышает максимальное пороговое значение, то рассчитывают среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах». Если данное значение превышает соответствующее пороговое значение, то считают, что в этих «скользящих окнах» присутствует речевой сигнал. В противном случае считают, что в этих «скользящих окнах» присутствует только помеха.

Если длительность сигнала не превышает минимальное пороговое значение или превышает максимальное пороговое значение, то считают, что в этих «скользящих окнах» присутствует только помеха.

Процесс изменения положения «скользящего окна» осуществляют до тех пор, пока не будет исчерпан интервал анализа сигнала.

Ниже приведены результаты моделирования процесса обнаружения присутствия речевого сигнала или его отсутствия в условиях наличия помех.

Рассмотрены два типа помехи:

- первый - шумоподобная помеха;

- второй - речеподобная помеха.

Шумоподобная помеха моделировалась как сумма гармонических сигналов со случайными значениями амплитуд (U_si) и фаз (ϕ_si), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, соответственно

где: ω_si ϕ_si - частота, фаза, амплитуда i-ого гармонического сигнала;

Nsp - число гармонических сигналов.

Частоты гармоник помехи формировались как случайные величины, значения которых распределены по равномерному закону в полосе сигнала.

Речеподобная помеха и сигнал моделировались как сумма гармонических сигналов с некоторым значением первой частоты, и фиксированными «расстояниями» между значениями частот других гармоник. Значение первой частоты определялось при условии, что это значение равномерно распределено в интервале от 300 до 800 Гц.

Значения фаз гармоник сигнала устанавливались одинаковыми. Значения фаз гармоник помехи устанавливались аналогично.

Амплитуды гармоник сигнала и речеподобной помехи формировались как случайные величины, распределенные по нормальному закону в диапазоне от 1 до 2.

Моделирование проведено для следующих значений параметров:

- диапазон изменения частот речевого сигнала: 300 Гц - 3400 Гц;

- число реализаций - 500;

- число гармоник сигнала - 8;

- число гармоник помехи:

для шумоподобной помехи - в среднем 30 для одного положения «скользящего окна»;

для речеподобной помехи - 8;

- число положений «скользящего окна»:

для шумоподобной помехи - 15;

для речеподобной помехи - 15;

- длительность «скользящего окна» - 30 мс;

- длительность речевого сигнала - 120 мс;

- длительность интервала, в котором присутствует только помеха - 150 мс;

- коэффициент, определяющий частоту дискретизации -16000;

- число опорных частот - 30;

- значение первой опорной частоты - 300 Гц;

- коэффициент, определяющий шаг изменения опорной частоты составляет 1,087;

- значение полосы частот полосового фильтра с максимальной крутизной АЧХ - 200 Гц (0 - Fp, см. фиг. 1).

Результаты моделирования процесса разделения речи и пауз для шумоподобной и речеподобной помехи (значение вероятности решения о наличии речевого сигнала при его присутствии - PPOS, значение вероятности принятия решения о присутствии речевого сигнала для всех положений «скользящего окна» в котором присутствует только помеха - PNOP) приведены в таблице.

Таблица Тип помехи Обозначение параметра Отношение мощностей сигнала и помехи 0,3 0,5 1 Шумоподобная помеха PPOS 0,99 0,98 0,99 PNOP 0 0 0 Речеподобная помеха PPOS 0,98 0,99 0,997 PNOP 0 0 0

На основе результатов анализа данных, приведенных в таблице, может быть сделан вывод о высокой эффективности принятия правильного решения о появлении речевого сигнала при наличии акустических шумоподобных и речеподобных акустических помех рассматриваемого способа.

Высокая эффективность заявляемого способа объясняется, в том числе высокой эффективностью используемого способа спектрального анализа.

Структурная схема устройства, реализующего предлагаемый способ, приведена на фиг. 3, где обозначено:

1 - электроакустическое устройство (ЭАУ);

2 - усилитель низкой частоты (УНЧ);

3.1 - 3.n - блоки умножения с первого по n-й;

4.1 - 4.n - фильтры нижних частот (ФНЧ) с первого по n-й;

5.1 - 5.n - устройства вычитания с первого по n-й;

6.1 - 6.n - аналого-цифровые преобразователи (АЦП) с первого по n-й;

7.1 - 7.n - полосовые фильтры с первого по n-й;

8 - вычислительное устройство (ВУ).

Устройство содержит последовательно соединенные ЭАУ 1 и УНЧ 2, вход ЭАУ 1 является входом устройства. А также n параллельных линеек, каждая из которых состоит из соответствующих последовательно соединенных блока умножения 3, ФНЧ 4, устройства вычитания 5 и АЦП 6, при этом полосовой фильтр 7 включен между выходом блока умножения 3 и вторым входом устройства вычитания 5. Входы n блоков умножения 3.1÷3.n объединены и соединены с выходом УНЧ 2. Выходы с первого по n-й АЦП 6.1÷6.n соединены с соответствующими входами с первого по n-й вычислительного устройства 8, выход которого является выходом устройства. Вторые входы блоков умножения 3.1÷3.n являются входами для опорных сигналов U_оп.

Устройство работает следующим образом.

Шум или аддитивную смесь сигнала и шума, которые поступают с выхода ЭАУ 1, усиливают в УНЧ 2 и подают на вход n параллельных линеек.

Для обработки одной гармоники используют две линейки устройства. То есть, при использовании k опорных частот число линеек равно

Помеху или аддитивную смесь сигнала и помехи с выхода УНЧ 2 подают на первые входы блоков умножения 3.1÷3.n, на вторые входы которых подают соответствующие опорные сигналы, например,

U_оп1=sin(x);

U_оп2=cos(x);

………….

U_оп(n-1)=sin(x);

U_опn=cos(x).

Результат умножения сигнала и помехи на опорные сигналы разветвляют на две одинаковые составляющие. Первую составляющую фильтруют ФНЧ 4.1÷4.n, полоса каждого из которых согласована с полосой сигнала. Одновременно вторую составляющую фильтруют полосовыми фильтрами 7.1÷7.n, полоса пропускания каждого из которых выбирается так, что верхняя частота полосовых фильтров 7.1÷7.n соответствует верхней частоте сигнала, нижнюю частоту полосовых фильтров 7.1÷7.n устанавливают согласованно со значениями разности между соседними опорными частотами.

Значение нижней частоты полосовых фильтров 7.1÷7.n определяют на этапе разработки экспериментальным путем или методом математического моделирования как значение, обеспечивающее максимальную эффективность спектрального анализа.

Выбор ФНЧ 4.1÷4.n и полосовых фильтров 7.1÷7.n осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что АЧХ полосовых фильтров 7.1÷7.n в области частот близких к нулю имеет максимально возможную крутизну, в области частот, начиная со значения, для которого разность значений амплитудно-частотных характеристик ФНЧ 4.1÷4.n и полосовых фильтров 7.1÷7.n становится меньше некоторой заранее заданной величины (Fp), обеспечивают идентичность их АЧХ в максимальной степени (иллюстративный пример приведен на фиг. 1).

Сигналы, прошедшие ФНЧ 4.1÷4.n и полосовые фильтры 7.1÷7.n, вычитают один из другого. То есть, из сигнала первого ФНЧ 4.1 вычитают сигнал первого полосового фильтра 7.1, из сигнала второго ФНЧ 4.2 вычитают сигнал второго полосового фильтра 7.2 и т.д.

Полученные сигналы преобразуют в цифровой вид в соответствующих с первого по n-й АЦП 6.1÷6.n. Данные сигналы в цифровом виде подают в вычислительное устройство 8.

В ВУ 8 по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты путем извлечения квадратного корня из суммы квадратов синусной и косинусной составляющей и запоминают эти значения, пропорциональные амплитуде сигналов.

В ВУ 8 осуществляют обнаружение наличия или отсутствия речевого сигнала по алгоритму, который приведен на стр. 8÷11 описания.

Результаты моделирования процесса спектрального анализа приведены выше.

В качестве ЭАУ 1 могут использоваться, например, микрофоны или ларингофоны.

УНЧ 2 может быть реализован, например, на микросхеме OP467GS фирмы Analog Devices.

Блоки умножения 3.1÷3.n могут быть выполнены, например, в виде преобразователя частоты (смесителя), см., например, учебное пособие «Основы теории радиотехнических систем». Учебное пособие. // В.И. Борисов, В.М. Зинчук, А.Е. Лимарев, Н.П. Мухин. Под ред. В.И. Борисова. Воронежский научно-исследовательский институт связи, 2004», стр. 186 - 189.

АЦП 6.1÷6.n могут быть выполнены, например, на микросхеме AD7495BR фирмы Analog Devices.

Вычислительное устройство может быть выполнено, например, в виде единого микропроцессорного устройства с соответствующим программным обеспечением, например, процессора серии TMS320VC5416 фирмы Texas Instruments, или в виде программируемой логической интегральной схемы (ПЛИС), с соответствующим программным обеспечением, например ПЛИС XCV400 фирмы Xilinx.

Таким образом, заявляемый способ может быть реализован описанным устройством.

Иллюстрации к изобретению RU 2 811 741 C1

Реферат патента 2024 года Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи

Изобретение относится к области техники передачи и трансляции речевой информации. Технический результат заключается в повышении эффективности принятия правильного решения о появлении речевого сигнала при наличии акустических помех. Проводят спектральный анализ помехи или аддитивной смеси речевого сигнала и помехи для каждого положения «скользящего окна». Спектральный анализ проводят методом анализа многочастотных периодических сигналов, представленных цифровыми отсчетами, с использованием компенсации комбинационных составляющих. Устанавливают пороговые значения для амплитуд, числа спектральных составляющих, числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах». Для каждого положения «скользящего окна», для которых возможно присутствие сигнала, рассчитывают число обнаруженных составляющих и длительность сигнала, который регистрируют как речевой сигнал. Для двух соседних положений «скользящего окна» рассчитывают значения числа спектральных составляющих с одинаковыми частотами. По результатам анализа числа спектральных составляющих, длительности сигнала, значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах», принимают решение о наличии или об отсутствии речевого сигнала. 3 ил., 1 табл.

Формула изобретения RU 2 811 741 C1

Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи, заключающийся в том, что на всем интервале анализа, состоящего из интервала, содержащего шум или речевой сигнал или смесь речевого сигнала и шума, которые поступают в устройство – входной сигнал, дискретизируют и заносят в память для последующей обработки; формируют «скользящее окно», «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха; осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом: каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению; выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени; сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты путем извлечения квадратного корня из суммы их квадратов и запоминают эти значения, пропорциональные амплитуде сигналов, находят среднее значение МСП, отличающийся тем, что заранее устанавливают значения: интервала анализа; длительности «скользящего окна»; временного интервала, на который сдвигают «скользящее окно»; минимальной и максимальной длительности речевого сигнала; коэффициентов, с использованием которых рассчитывают пороговые значения для амплитуды спектральных составляющих, для числа спектральных составляющих, значения амплитуд которых превысили порог – обнаруженные составляющие, для среднего значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»; сдвигают «скользящее окно» на несколько временных интервалов, значение числа сдвигов устанавливают заранее;

для каждого положения «скользящего окна» проводят спектральный анализ, для нескольких первых положений «скользящего окна», число которых устанавливают заранее, для которых выполняется условие отсутствия сигнала, рассчитывают: среднее значение амплитуд спектральных составляющих и пороговое значение для амплитуд спектральных составляющих; суммарное число составляющих, амплитуда которых превысила пороговое значение; пороговое значение для числа обнаруженных составляющих; среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»; пороговое значение для значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»; для положений «скользящего окна», для которых возможно присутствие сигнала, рассчитывают значение числа обнаруженных составляющих, если данное значение превысило пороговое значение для числа спектральных составляющих, то считают, что для данного положения «скользящего окна» возможно присутствие речевого сигнала, это событие регистрируют; если для какого-либо положения «скользящего окна» для которого возможно присутствие сигнала, не зарегистрировано наличие речевого сигнала, то сигнал, присутствующий в данном «скользящем окне» считают помехой; регистрируют положения «скользящего окна», для которых для всех его положений возможно присутствие речевого сигнала, для этого случая рассчитывают длительность сигнала, если длительность сигнала превышает минимальное пороговое значение и не превышает максимальное пороговое значение, то рассчитывают среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах», если данное значение превышает пороговое значение, то считают, что в этих «скользящих окнах» присутствует речевой сигнал, в противном случае считают, что в этих «скользящих окнах» присутствует только помеха;

Документы, цитированные в отчете о поиске Патент 2024 года RU2811741C1

Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих	2019	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2723301C1
СПОСОБ СПЕКТРАЛЬНОГО АНАЛИЗА ЭЛЕКТРИЧЕСКОГО СИГНАЛА	2010	Самойленко Марина Витальевна	RU2431853C1
СПОСОБ СПЕКТРАЛЬНОГО АНАЛИЗА СИГНАЛОВ	1993	Плавильщиков Александр Алексеевич	RU2127888C1
Способ спектрального анализа многочастотных периодических сигналов с использованием компенсации комбинационных составляющих	2019	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2730043C1
Л.Р
Рабинер, Р.В
Шафер, Цифровая обработка речевых сигналов, Москва, "Радио и связь", 1981, с
Устройство для разметки подлежащих сортированию и резанию лесных материалов	1922	Войтинский Н.С. Квятковский М.Ф.	SU123A1
Способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи	2017	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2668407C1
Способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала	2018	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2680735C1
KR 100866580 B1, 03.11.2008
JP 2016080767 A, 16.05.2016.

RU 2 811 741 C1

Авторы

Золотарев Владимир Алексеевич

Карманов Данил Сергеевич

Даты

2024-01-16—Публикация

2023-05-12—Подача