Изобретение относится к области техники передачи и трансляции речевой информации и может найти применение в устройствах связи и в устройствах громкоговорящей связи.
Известно устройство для выделения акустических сигналов в каналах связи, описанное в патенте RU 2171549 H04Q 1/46. Изобретение относится к электросвязи, в частности к автоматическим средствам приема сигналов тональной сигнализации в системах многоканальной связи, и может использоваться, например, для обнаружения акустических сигналов (АС) в телефонных каналах. Функционирование основано на вычислении ряда решающих статистик, которые являются отличительными признаками при распознавании информационного АС от канальных шумов и паразитных речевых сигналов. В качестве решающих статистик используются оценка мощности сигнала в информационной полосе частот, распределение энергии входного сигнала по частотному диапазону и величина неравномерности огибающей отфильтрованного в полосовом фильтре входного сигнала. Для принятия окончательного решения о присутствии в канале связи АС используется вторичная обработка, которая основана на применении мажоритарного правила для последовательной серии первичных решений.
Недостатком известного устройства является его невысокая эффективность при решении задачи разделения речи и пауз.
Известно устройство для выделения тональных сигналов в каналах связи по патенту RU 2214051, H04B 3/46, H04Q 1/457, H04M 1/50. Изобретение относится к области электросвязи, в частности к автоматическим средствам приема сигналов канальной сигнализации в системах многоканальной связи, и может использоваться для обнаружения акустических сигналов в телефонных каналах.
Известное техническое решение обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз.
Наиболее близким аналогом по технической сущности к предлагаемому является способ разделения речи и пауз, описанный в книге «Цифровая обработка речевых сигналов. //Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 123 - 126, принятый за прототип.
Способ-прототип заключается в следующем.
Сигнал, поступающий в систему, дискретизируется в течение интервала времени, установленного для его анализа, и заносится в память для последующей обработки. Обрабатываемый сигнал состоит из интервала, который содержит только помеху, длительность данного интервала составляет около 100 мс, и интервала, который содержит аддитивную смесь речевого сигнала и помехи (в дальнейшем – смесь сигнала и помехи).
В качестве основных параметров используется число переходов через ноль в течение 10 мс и функция среднего значения, вычисленная с использованием окна длительностью 10 мс. По этим отсчетам вычисляются средние значения и дисперсии взвешенной суммы абсолютных значений амплитуд отсчетов и среднего числа переходов через ноль (статистические характеристики шума).
С учетом значений этих характеристик и максимального среднего значения вычисляются пороги для среднего числа переходов через ноль (СЧПН) и энергии сигнала. Определяется фрагмент колебаний, на котором траектория среднего значения энергии сигнала (СЗЭС) превышает верхний порог. Предполагается, что начало и конец слова лежат вне этого фрагмента.
Затем, двигаясь в обратном направлении по оси времени от момента, где среднее значение энергии сигнала впервые превысило порог, определяют момент, в котором СЗЭС впервые оказалось меньше нижнего порога (точка N1). Этот момент выбирается в качестве предполагаемого начала. Таким же образом определяется и предполагаемое окончание слова (точка N2).
Следующий шаг состоит в перемещении влево от точки N1 (вправо от точки N2) и сравнении числа переходов через ноль с порогом, вычисленным по данным начального участка. Если число переходов через ноль превышает порог в 3 или более раз, начало слова переносится туда, где кривая числа переходов через ноль впервые превысила порог. В противном случае точка N1 считается началом слова. Аналогичный процесс осуществляется в отношении точки N2.
Недостатком способа-прототипа является невысокая точность решения задачи и высокая вероятность ошибочного решения о появлении сигнала в условиях наличия помех.
Задача предлагаемого способа – повышение точности определения момента появления речевого сигнала и увеличение значения вероятности правильного решения о появлении речевого сигнала в условиях наличия акустического шума.
Для решения поставленной задачи в способе разделения речи и пауз, заключающемся в том, что на всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь речевого сигнала и помехи, помеху или смесь речевого сигнала и помехи, которые поступают в систему, дискретизируют и заносят в память для последующей обработки, согласно изобретению, для временного интервала, который содержит только помеху, рассчитывают значение корреляционной функции помехи для определенного заранее значения разности аргументов (τ), определяют пороговое значение для корреляционной функции путем умножения рассчитанного значения корреляционной функции на коэффициент, значение которого определяют заранее, формируют первое «скользящее окно» – интервал заданной длительности, смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее, рассчитывают значение корреляционной функции сигнала для определенного заранее значения разности аргументов (τ) для этого положения «скользящего окна», значение корреляционной функции сравнивают с рассчитанным пороговым значением, если рассчитанное значение корреляционной функции превышает пороговое значение, то считают, что в «скользящем окне» присутствует речевой сигнал, в противном случае описанную процедуру повторяют до тех пор, пока не будет обнаружен речевой сигнал, при этом при определении порогового значения для корреляционной функции рассчитывают и используют ее среднее значение, которое рассчитывают в соответствии с принципом «первый пришел, первый ушел» с использованием ранее рассчитанных значений корреляционной функции и ее текущего значения, для определенного заранее количества значений корреляционной функции, в случае принятия решения о появлении речевого сигнала устанавливают возможное значение его левой границы равным значению левой границы «скользящего окна», уменьшенному на заранее заданную величину, формируют второе «скользящее окно», длительность которого определяют заранее, устанавливают его начальное положение, так, что значение его правой границы совпадает с установленным значением левой границы речевого сигнала, смещают «скользящее окно» на величину шага смещения, значение которого определяют в соответствии с заданной точностью определения положения сигнала, рассчитывают значение корреляционной функции сигнала, это значение сравнивают с рассчитанным на предыдущем шаге пороговым значением для корреляционной функции, если значение корреляционной функции превышает пороговое значение, то считают, что в «скользящем окне» присутствует сигнал, и процесс завершают, начало речевого сигнала считают равным значению положения правой границы «скользящего окна», уменьшенному на определенную заранее величину, в противном случае устанавливают значение начала речевого сигнала равным значению левой границы «скользящего окна», для которого было принято решение о наличии речевого сигнала на втором этапе процедуры определения факта появления речевого сигнала.
Предлагаемый способ заключается в следующем.
Сигналы, поступающие с выхода электроакустического устройства (ЭАУ), прошедшие на выход фильтра низкой частоты (ФНЧ), усиленные в усилителе низкой частоты (УНЧ), дискретизируют с использованием аналого-цифрового преобразователя (АЦП) и заносят в память вычислительного устройства для последующей обработки.
Обнаружение речевого сигнала и определение положения его начала осуществляется в несколько этапов.
Первый этап.
Для временного интервала, который содержит только помеху, рассчитывают известным образом значение корреляционной функции помехи для определенного заранее значения разности аргументов (τ), (в дальнейшем по тексту – КФ) (см., например, Е.С. Вентцель «Теория вероятностей», М. 1969, стр. 178, 179).
Длительность интервала, для которого считают, что он содержит только помеху, определяют на этапе разработки экспериментальным путем или методом математического моделирования.
Определяют пороговое значение для КФ путем умножения рассчитанного значения КФ на коэффициент, значение которого определяют заранее. Значение коэффициента определяют на этапе разработки экспериментальным путем или методом математического моделирования, как значение, обеспечивающее среднее значение вероятности правильного решения о наличии речевого сигнала не менее заданного уровня.
Второй этап – этап обнаружения речевого сигнала и грубое определение положения его начала.
Формируют первое «скользящее окно» – временной интервал заданной длительности (определенное количество отсчетов), значение которого выбирают исходя из условия, чтобы значение вероятности обнаружения речевого сигнала при его наличии (вероятность правильного обнаружения) было не ниже заданного уровня и, чтобы значение вероятности принятия решения о наличии речевого сигнала при его отсутствии (вероятность ложной тревоги) не превышала заданное значение.
Значение длительности «скользящего окна» определяют на этапе разработки экспериментальным путем или методом математического моделирования. Начальное значение длительности «скользящего окна» в оптимизационных процедурах может быть выбрано, например, равным минимальной длительности одной фонемы (20 мс).
Смещают «скользящее окно» на интервал, значение которого определяют заранее (текущее положение). Начальное значение длительности данного интервала в оптимизационных процедурах может быть выбрано, например, равным длительности интервала, обеспечивающей заданную точность определения начала речевого сигнала.
Рассчитывают значения КФ сигнала для текущего положения «скользящего окна», значения КФ сравнивают с рассчитанным пороговым значением для корреляционной функции. Если рассчитанное значение КФ превышает пороговое значение, то считают, что сигнал присутствует.
Если не было принято решение о том, что сигнал присутствует, то описанную процедуру обнаружения сигнала повторяют. При этом, при определении порогового значения для корреляционной функции, рассчитывают и используют среднее значение КФ, которое рассчитывают с использованием рассчитанных значений КФ для предыдущих положений «скользящего окна» и его текущее значение с использованием принципа «первый пришел, первый ушел» (см., например, Роберт Круз. «Структуры данных и проектирования программ». – Бином. Лаборатория знаний. 2008). То есть из списка значений КФ, с использованием которых рассчитывают среднее значение КФ, вычеркивают первое значение и добавляют последнее рассчитанное значение. После чего значения КФ перенумеровывают, а именно, значению со вторым номером присваивают номер один, значению с третьим номером присваивают номер два, и т.д., последнему рассчитанному значению присваивают последний номер.
Число значений КФ сигнала, которое используют при расчете среднего значения КФ сигнала с использованием принципа «первый пришел, первый ушел» определяют на этапе разработки экспериментальным путем или методом математического моделирования. Процесс повторяют до тех пор, пока не будет принято решение о появлении речевого сигнала.
В случае принятия решения о наличии речевого сигнала устанавливают значение левой границы сигнала равным значению правой границы «скользящего окна», уменьшенному на заранее заданную величину.
Значение данной величины рассчитывается, например, по формуле
Tс= (Tшс+ Tтон)/2, (1)
Tшс – величина, на которую один раз смещают «скользящее окно» (мс);
Tтон – точность определения положения сигнала (мс).
Значение данной величины может уточняться на этапе разработки экспериментальным путем или методом математического моделирования.
Третий этап – этап точного определения положения начала речевого сигнала.
Формируют второе «скользящее окно», длительность которого устанавливают исходя из условия, чтобы точность определения начала сигнала была не ниже заданного уровня. Положение данного «скользящего окна» устанавливают так, что значение его правой границы, равно установленному значению левой границы речевого сигнала. Смещают «скользящее окно» на величину шага смещения, значение которого определяют исходя из заданной точности определения положения сигнала.
Рассчитывают значение корреляционной функции сигнала для определенного заранее значения разности аргументов (τ). Это значение сравнивают с рассчитанным ранее пороговым значением для корреляционной функции, которое определяют с использованием последнего рассчитанного среднего значения корреляционной функции сигнала, для которого было принято решение о наличии речевого сигнала. Если значение КФ превышает пороговое значение, то считают, что в «скользящем окне», присутствует сигнал. После чего процесс завершают. Время появления речевого сигнала считают равным значению положения правой границы «скользящего окна» уменьшенному на некоторую определенную заранее величину. Значение данной величины может быть установлено, например, равным шагу смещения интервала, и может уточняться на этапе разработки экспериментальным путем или методом математического моделирования.
Если значение корреляционной функции не превысило пороговое значение, то значение начала сигнала устанавливают равным значению левой границы «скользящего окна», для которого было принято решение о наличии речевого сигнала на втором этапе процедуры определения факта появления речевого сигнала.
Иллюстративное пояснение работы способа приведено на фиг. 1.
Ниже приведены результаты моделирования процесса принятия решения о наличии речевого сигнала в зависимости от отношения мощностей помехи и сигнала с использованием системы MATLAB.
Помеха при моделировании представлена в виде совокупности гармонических колебаний со случайными значениями амплитуд (Upi) и фаз (ϕpi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам (см., например, учебное пособие «Основы теории радиотехнических систем». Учебное пособие. //В.И. Борисов, В.М. Зинчук, А.Е. Лимарев, Н.П. Мухин. Под ред. В.И. Борисова. Воронежский научно-исследовательский институт связи, 2004., стр. 51)
U=
где: ωpi – частота i-ой составляющей помехи;
φpi – фаза i-ой составляющей помехи;
Nsp – число гармонических составляющих помехи, используемых для ее представления.
Частоты составляющих помехи моделировались как случайные величины, значения которых распределены по равномерному закону в полосе сигнала. Длительность гармонических составляющих помехи значительно (в десятки раз) превышает значение периода, соответствующего минимальной частоте речевого сигнала.
Сигнал представлен в виде совокупности гармонических колебаний со случайными значениями амплитуд (Usi) и фаз (ϕsi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, причем начальные значения фаз для составляющих сигнала устанавливаются одинаковыми.
Значения частот сигнала устанавливают следующим образом.
Значение первой гармоники берут как случайную величину, значения которой распределены по равномерному закону в некоторой заданной полосе частот. «Расстояние» по частоте между гармониками сигнала устанавливают одинаковыми, причем это значение берут как случайную величину, значение которой распределено по равномерному закону в некоторой заданной полосе частот.
При моделировании использовались следующие исходные данные:
– число реализаций – 103;
– частота взятия отсчетов – 64000 отсч./с;
– число частотных составляющих сигнала – 8;
– значение разности аргументов (τ) – 1;
– длительность интервала, где присутствует только помеха – 50 мс;
– длительность интервала, где присутствует только помеха для второго этапа – 300 мс;
– длительность первого и второго «скользящих окон» – 20 мс;
– величина шага смещения «скользящих окон»:
для второго этапа – 10 мс;
для третьего этапа – 5 мс;
– количество положений «скользящего окна», используемого на третьем этапе – 4;
– длительность интервала, определяющего точность определения положения сигнала – 5 мс;
– величина, на которую уменьшают значение правой границы «скользящего окна», при определении значения левой границы сигнала на втором этапе – 10 мс (рассчитана по ф. 1);
– величина, на которую уменьшают значение правой границы «скользящего окна» на третьем этапе – 5 мс;
– величина, на которую уменьшают последнее значение правой границы «скользящего окна» (третий этап) – 10 мс;
– диапазон изменения значения нижней частоты спектра речевого сигнала – 300 … 1000 Гц;
– диапазон изменения разницы между соседними частотами спектра речевого сигнала – 100 … 400 Гц.
При моделировании использовалось оптимальное в среднем значение коэффициента, используемого при расчете порогового значения для КФ. Усреднение осуществлялось по значениям мощности и числу частотных составляющих помехи и сигнала.
В таблице 1 представлены результаты моделирования процесса определения вероятности правильного решения о наличии речевого сигнала, осуществляемого на втором этапе, в зависимости от числа частотных составляющих помехи и отношения мощностей помехи и сигнала.
Таблица 1
В таблице использованы следующие обозначения:
Nfp – число частотных составляющих помехи;
Pпр – вероятность правильного принятия решения о наличии речевого сигнала;
Pлт – вероятность принятия решения о наличии речевого сигнала при его отсутствии (вероятность ложной тревоги).
Результаты моделирования процесса определения точности положения речевого сигнала в зависимости от числа частотных составляющих помехи и отношения мощностей помехи и сигнала, осуществляемого на третьем этапе, представлены в таблице 2.
Таблица 2
мс
В таблице использованы следующие обозначения:
Nfp – число частотных составляющих помехи.
Из анализа данных, приведенных в таблицах 1, 2, следует, что для значений отношения мощностей помехи и сигнала не превышающих 2,5 для любых значений числа частотных составляющих помехи, вероятность правильного принятия решения о наличии речевого сигнала принимает значение не менее 0,992 при этом значение вероятности ложной тревоги не превышает 0,06. При этом ошибка определения времени появления речевого сигнала не превышает ±3,2 мс.
Структурная схема устройства, реализующего предлагаемый способ, приведена на фиг. 2, где обозначено:
1 – электроакустическое устройство (ЭАУ);
2 – фильтр нижних частот (ФНЧ);
3 – усилитель низкой частоты (УНЧ);
4 – аналого-цифровой преобразователь (АЦП);
5 – вычислительное устройство (ВУ).
Устройство содержит последовательно соединенные ЭАУ 1, ФНЧ 2, УНЧ 3, АЦП 4, ВУ 5, выход которого является выходом заявляемого устройства, вход ЭАУ 1 является входом устройства.
Устройство работает следующим образом.
Помеху или аддитивную смесь сигнала и помехи, которые поступают с выхода ЭАУ 1, фильтруют ФНЧ 2, полоса которого согласована с полосой речевого сигнала, затем помеху или аддитивную смесь сигнала и помехи усиливают в УНЧ 3 и подают на вход АЦП 4. Отсчеты помехи или смеси сигнала и помехи, образуемые в АЦП 4, в цифровом виде поступают на вход ВУ 5.
В вычислительном устройстве 5 поступившие отсчеты помехи или смеси сигнала и помехи обрабатывают по алгоритму, приведенному выше.
Результат обработки – решение в цифровом виде о наличии или отсутствии речевого сигнала, например:
1 – сигнал присутствует;
0 –сигнал отсутствует.
На выход устройства поступает также значение времени появления речевого сигнала, в случае, когда принимают решение о наличии речевого сигнала. Методика определения времени появления речевого сигнала приведена выше.
Результаты моделирования процесса обнаружения речевого сигнала и определения точности положения речевого сигнала в зависимости от числа частотных составляющих помехи и отношения мощностей помехи и сигнала, приведены в таблицах 1 и 2 соответственно.
В качестве ЭАУ 1 могут использоваться, например, микрофоны или ларингофоны.
УНЧ 3 может быть реализован, например, на микросхеме OP467GS фирмы Analog Devices.
АЦП 4 может быть реализован, например, на микросхеме ADS8422 фирмы Texas Instruments.
Вычислительное устройство 5 может быть выполнено в виде программируемой логической интегральной схемы (ПЛИС), и реализовано, например, на микросхеме XC2V3000-6FG676I фирмы Xilinx.
Таким образом, заявляемый способ может быть реализован описанным устройством и позволяет с высокой эффективностью и точностью решить задачу разделения речи и пауз за счет обнаружения появления речевого сигнала путем сравнения значения его корреляционной функции с порогом.
Изобретение относится к радиотехнике и может быть использовано в устройствах передачи речевой информации. Технический результат - повышение точности определения момента появления речевого сигнала при наличии внешних акустических помех. Это достигается тем, что в данном способе используется три этапа сравнения значений корреляционной функции помехи или смеси помехи сигнала с порогом. На первом этапе для интервала, который содержит только помеху, определяют значение порога по значениям корреляционной функции помехи. Данное значение уточняется в процессе движения «скользящего окна». На втором этапе осуществляется обнаружение появления сигнала с низким значением точности определения времени его появления и высоким значением вероятности обнаружения сигнала, определяемых значением длительности и величиной смещения «скользящего окна». На третьем этапе осуществляется уточнение положения сигнала, при этом обеспечивается значение вероятности правильного решения о наличии сигнала не ниже заданного уровня, что достигается использованием соответствующих значений длительности и смещения «скользящего окна». 2 ил., 2 табл.
Способ разделения речи и пауз, заключающийся в том, что на всем интервале анализа, состоящего из интервала, который не содержит речевой сигнал, и интервала, который содержит смесь речевого сигнала и помехи, помеху или смесь речевого сигнала и помехи, которые поступают в систему, дискретизируют и заносят в память для последующей обработки, отличающийся тем, что для временного интервала, который содержит только помеху, рассчитывают значение корреляционной функции помехи для определенного заранее значения разности аргументов (τ), определяют пороговое значение для корреляционной функции путем умножения рассчитанного значения корреляционной функции на коэффициент, значение которого определяют заранее, формируют первое «скользящее окно» – интервал заданной длительности, смещают «скользящее окно» на величину шага смещения, значение которого определяют заранее, рассчитывают значение корреляционной функции сигнала для определенного заранее значения разности аргументов (τ) для этого положения «скользящего окна», значение корреляционной функции сравнивают с рассчитанным пороговым значением, если рассчитанное значение корреляционной функции превышает пороговое значение, то считают, что в «скользящем окне» присутствует речевой сигнал, в противном случае описанную процедуру повторяют до тех пор, пока не будет обнаружен речевой сигнал, при этом при определении порогового значения для корреляционной функции рассчитывают и используют ее среднее значение, которое рассчитывают в соответствии с принципом «первый пришел, первый ушел» с использованием ранее рассчитанных значений корреляционной функции и ее текущего значения, для определенного заранее количества значений корреляционной функции, в случае принятия решения о появлении речевого сигнала устанавливают возможное значение его левой границы равным значению правой границы «скользящего окна», уменьшенному на заранее заданную величину, формируют второе «скользящее окно», длительность которого определяют заранее, устанавливают его начальное положение так, что значение его правой границы совпадает с установленным значением левой границы речевого сигнала, смещают «скользящее окно» на величину шага смещения, значение которого определяют в соответствии с заданной точностью определения положения сигнала, рассчитывают значение корреляционной функции сигнала, это значение сравнивают с рассчитанным на предыдущем шаге пороговым значением для корреляционной функции, если значение корреляционной функции превышает пороговое значение, то считают, что в «скользящем окне» присутствует сигнал, и процесс завершают, начало речевого сигнала считают равным значению положения правой границы «скользящего окна», уменьшенному на определенную заранее величину, в противном случае устанавливают значение начала речевого сигнала равным значению левой границы «скользящего окна», для которого было принято решение о наличии речевого сигнала на втором этапе процедуры определения факта появления речевого сигнала.
Л.Р | |||
Рабинер и др., Цифровая обработка речевых сигналов, Л.Р | |||
Рабинер и др., перевод с английского под редакцией М.В | |||
Назарова и Ю.Н | |||
Прохорова, Москва, Радио и связь, 1991, стр | |||
Устройство для разметки подлежащих сортированию и резанию лесных материалов | 1922 |
|
SU123A1 |
Способ адаптивного выделения периодов речевого сигнала | 1988 |
|
SU1583970A1 |
СПОСОБ ОБНАРУЖЕНИЯ ПАУЗ В РЕЧЕВЫХ СИГНАЛАХ И УСТРОЙСТВО ЕГО РЕАЛИЗУЮЩЕЕ | 2010 |
|
RU2436173C1 |
Способ разделения речевых и нестационарных шумовых сигналов | 1990 |
|
SU1781701A1 |
СПОСОБ ОБНАРУЖЕНИЯ ПАУЗ В РЕЧЕВЫХ СИГНАЛАХ И УСТРОЙСТВО ЕГО РЕАЛИЗУЮЩЕЕ | 2006 |
|
RU2317595C1 |
СИСТЕМА И СПОСОБ РАСПОЗНАВАНИЯ РЕЧИ | 2011 |
|
RU2466468C1 |
US 4700394 A, 13.10.1987 | |||
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек | 1923 |
|
SU2007A1 |
US 4682361 A1, 21.07.1987. |
Авторы
Даты
2019-06-14—Публикация
2018-08-22—Подача