Изобретение относится к области цифровой связи и может использоваться в системах кодирования и обработки речевого сигнала, а также в биометрических системах распознавания диктора.
Наиболее близким к заявляемому изобретению является способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, представленный в [RU 2445718 С1 МПК G10L 19/00, опубл. 20.03.2012].
Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, основан на том, что на выходе аналого-цифрового преобразователя (АЦП) с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), основанный на формальном статистическом тесте для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95, при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции.
Недостатком известного способа является снижение вероятности правильной сегментации в условиях воздействия стационарных и нестационарных шумов, в частности, обладающих сплошным спектром, что приводит к случайному изменению величины интервала корреляции и возникновению ошибок сегментации, а также, сужение области применения в результате формирования границ сигнала на основе кардинального изменения величины интервала корреляции.
Техническим результатом изобретения является повышение вероятности правильной сегментации речевого сигнала в условиях воздействия шума, а также расширение области применения способа, за счет использования различий в энергетических свойствах речевого сигнала и шума.
Указанный технический результат достигается тем, что в известном способе выделения сегментов обработки речи, основанном на приеме входного речевого сигнала, аналого-цифровом преобразовании и выделении фрагмента речевого сигнала, согласно изобретению, измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз.
Сущность изобретения заключается в том, что измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз.
В известном способе, сегментация речевого сигнала производится за счет преобразования аналогового сигнала в цифровой, выделения участка анализа, вычисления автокорреляционной функции сигнала и интервала корреляции, а граница сегмента формируется в момент кардинального изменения величины интервала корреляции.
Это позволяет уменьшить объем данных, однако, известный способ подвержен воздействию шумов и не применим в системах идентификации человека по голосу.
Предложенный способ, в свою очередь, основан на различии в энергетических свойствах речевого сигнала и шума, которое возникает в том случае, если случайный речевой сигнал является стационарным, т.е. ограничивается время наблюдения [А.Г. Зюко, Д.Д. Кловский, В.И. Коржик, М.В. Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д. Кловского. - М.: Радио и связь, 1998. - с. 36-44, 56-60].
При ограниченном времени наблюдения речевой сигнал и аддитивный шум являются независимыми стационарными случайными процессами, обладающими эргодическим свойством [И.Н. Щитов, В.Г. Галкина. Введение в теорию сигналов. Часть 1. Аналоговые сигналы: учебное пособие / - Санкт-Петербург, 2010. - с. 103-104].
Для анализа подобных сигналов, вместо автокорреляционной функции можно использовать дисперсию входного сигнала, которая рассчитывается путем усреднения по временным отсчетам. Структурная схема измерителя дисперсии представлена на рисунке 1 и описывается выражением (12) в статье «Помехоустойчивый алгоритм сегментации речевого сигнала в системах идентификации абонента» [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23].
В статье «Помехоустойчивый алгоритм сегментации речевого сигнала в системах идентификации абонента» [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23] показано, что если речевой сигнал и шум взаимно независимы, то общая дисперсия входного сигнала существенно увеличивается при появлении речевого сигнала и соответственно уменьшается при его окончании.
Сегментация входного сигнала на участки речи и шума на основе расчета общей дисперсии входного сигнала невозможна без расчета порогового значения и дисперсии шума.
Расчет дисперсии шума предлагается произвести на основе первых 200 мс входного сигнала, которые соответствуют естественной для человека паузой перед произнесением фразы [Шейкин Р.Л. К анализу механизмов возникновения пауз в речи // Механизмы речеобразования и восприятия сложных звуков. М. Л., 1966. С. 31-44]. Методика расчета дисперсии шума аналогична методике расчета общей дисперсии входного сигнала.
Для учета влияния шума на речевой сигнал, используя дисперсию шума, по выражению (24) статьи «Помехоустойчивый алгоритм сегментации речевого сигнала в системах идентификации абонента» [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23] рассчитаем такое значение интервала накопления, которому соответствует максимальное отношение сигнал/шум.
Расчет порогового значения осуществляется по выражению (20) [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23] и позволяет учесть ошибку измерения дисперсии, возникающую в результате ограничения времени наблюдения.
Предложенный способ выделения сегментов обработки речи, в отличии от применяемых в настоящее время, производит оценку дисперсии шума, с ее использованием рассчитывают величину порогового значения и интервал накопления, и на основе различий в энергетических свойствах речи и шума, производят измерение дисперсии входного сигнала и ее сравнение с пороговым значением с последующим удалением участков шума.
Расчет интервала накопления и величины порогового значения на основе дисперсии шума позволяет получить наилучшее отношение сигнал/шум и повысить точность сегментации.
Способ может быть реализован, например, с помощью устройства, структурная схема которого приведена на чертеже, где обозначено: 1 - аналого-цифровой преобразователь сигнала; 2.1 - блок расчета дисперсии шума; 3 - блок расчета значения порога; 4 - блок расчета значения интервала усреднения; 2.2 - блок расчета дисперсии входного сигнала; 5 - блок классификации; 6 - блок сегментации речевого сигнала.
Данное устройство может быть реализовано цифровым способом на базе однокристальной ЭВМ.
Блок аналого-цифрового преобразования сигнала, предназначен для преобразования входного речевого сигнала в цифровую форму с заданной частотой дискретизации и уровнями квантования.
Блок расчета дисперсии шума и входного сигнала состоит из ФНЧ, квадратора и интегратора и предназначен для измерения дисперсии сигнала. Дисперсия шума измеряется на речевом фрагменте заданной длительности, с использованием которой в блоке расчета значения порога рассчитывают величину порога, а в блоке расчета значения интервала усреднения рассчитывается оптимальный интервал накопления. Рассчитанное значение интервала накопления используется для измерения дисперсии речевого сигнала.
Блок классификации предназначен для сравнения значения дисперсии интервала усреднения с рассчитанным пороговым значением и классификации дискретных отсчетов на отсчеты речи и паузы.
Блок сегментации речевого сигнала производит удаление дискретных отсчетов, содержащих паузы и объединение оставшихся речевых отсчетов.
Устройство работает следующим образом: входной аналоговый сигнал поступает на вход аналого-цифрового преобразователя, где происходит его преобразование к цифровому представлению, далее цифровой сигнал с выхода АЦП поступает в блок расчета дисперсии шума, далее рассчитанное значение дисперсии шума поступает в блок расчета значения порога и блок расчета значения интервала усреднения, далее рассчитанное значение интервала усреднения вместе с дискретными отсчетами входного сигнала со второго выхода АЦП поступают в измеритель дисперсии входного сигнала, который накапливает заданное количество дискретных отсчетов и рассчитывает значение дисперсии и затем передает его в блок классификации, где происходит сравнение значения дисперсии на интервале усреднения с рассчитанным пороговым значением и классификация дискретных отсчетов на отсчеты речи и паузы. Если на интервале, равном половине интервала накопления, значение дисперсии превышает порог, данные дискретные отсчеты классифицируются как речь, в противном случае как пауза. Классифицированные дискретные отсчеты поступают в блок сегментации речевого сигнала, куда также поступает цифровой сигнал с выхода АЦП. Блок сегментации речевого сигнала производит удаление дискретных отсчетов, содержащих паузы, а затем оставшиеся фрагменты речи объединяются и поступают на выход устройства.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ | 1994 |
|
RU2047912C1 |
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ АНАЛИЗА КОРРЕЛЯЦИОННЫХ ЗАВИСИМОСТЕЙ В РЕЧЕВОМ СИГНАЛЕ | 2010 |
|
RU2445718C1 |
СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ГОЛОСУ | 2022 |
|
RU2789689C1 |
Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих | 2019 |
|
RU2723301C1 |
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа | 2014 |
|
RU2606566C2 |
УСТРОЙСТВО ДЛЯ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ | 1998 |
|
RU2136059C1 |
Способ разделения речи и пауз путем анализа значений характеристик спектральных составляющих смеси сигнала и помехи | 2023 |
|
RU2814115C1 |
СПОСОБ РАСПОЗНАВАНИЯ СЛОВ РЕЧИ | 2005 |
|
RU2296376C2 |
СПОСОБ ГИБРИДНОЙ ГЕНЕРАТИВНО-ДИСКРИМИНАТИВНОЙ СЕГМЕНТАЦИИ ДИКТОРОВ В АУДИО-ПОТОКЕ | 2013 |
|
RU2530314C1 |
Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума | 2019 |
|
RU2700189C1 |
Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении вероятности правильной сегментации речевого сигнала в условиях воздействия шума. Технический результат достигается за счет способа выделения сегментов обработки речи, основанного на приеме входного речевого сигнала, аналого-цифровом преобразовании и выделении фрагмента речевого сигнала, при этом измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы, удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз. 1 ил.
Способ выделения сегментов обработки речи, основанный на приеме входного речевого сигнала, аналого-цифровом преобразовании и выделении фрагмента речевого сигнала, отличающийся тем, что измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы, удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз.
Многоступенчатая активно-реактивная турбина | 1924 |
|
SU2013A1 |
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
Многоступенчатая активно-реактивная турбина | 1924 |
|
SU2013A1 |
Способ восстановления спиралей из вольфрамовой проволоки для электрических ламп накаливания, наполненных газом | 1924 |
|
SU2020A1 |
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ ПОСЛЕДОВАТЕЛЬНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА | 2018 |
|
RU2684576C1 |
Авторы
Даты
2025-03-31—Публикация
2024-04-23—Подача