СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ Российский патент 2025 года по МПК G10L15/05 G10L17/02 

Описание патента на изобретение RU2837348C1

Изобретение относится к области цифровой связи и может использоваться в системах кодирования и обработки речевого сигнала, а также в биометрических системах распознавания диктора.

Наиболее близким к заявляемому изобретению является способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, представленный в [RU 2445718 С1 МПК G10L 19/00, опубл. 20.03.2012].

Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, основан на том, что на выходе аналого-цифрового преобразователя (АЦП) с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), основанный на формальном статистическом тесте для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95, при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции.

Недостатком известного способа является снижение вероятности правильной сегментации в условиях воздействия стационарных и нестационарных шумов, в частности, обладающих сплошным спектром, что приводит к случайному изменению величины интервала корреляции и возникновению ошибок сегментации, а также, сужение области применения в результате формирования границ сигнала на основе кардинального изменения величины интервала корреляции.

Техническим результатом изобретения является повышение вероятности правильной сегментации речевого сигнала в условиях воздействия шума, а также расширение области применения способа, за счет использования различий в энергетических свойствах речевого сигнала и шума.

Указанный технический результат достигается тем, что в известном способе выделения сегментов обработки речи, основанном на приеме входного речевого сигнала, аналого-цифровом преобразовании и выделении фрагмента речевого сигнала, согласно изобретению, измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз.

Сущность изобретения заключается в том, что измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз.

В известном способе, сегментация речевого сигнала производится за счет преобразования аналогового сигнала в цифровой, выделения участка анализа, вычисления автокорреляционной функции сигнала и интервала корреляции, а граница сегмента формируется в момент кардинального изменения величины интервала корреляции.

Это позволяет уменьшить объем данных, однако, известный способ подвержен воздействию шумов и не применим в системах идентификации человека по голосу.

Предложенный способ, в свою очередь, основан на различии в энергетических свойствах речевого сигнала и шума, которое возникает в том случае, если случайный речевой сигнал является стационарным, т.е. ограничивается время наблюдения [А.Г. Зюко, Д.Д. Кловский, В.И. Коржик, М.В. Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д. Кловского. - М.: Радио и связь, 1998. - с. 36-44, 56-60].

При ограниченном времени наблюдения речевой сигнал и аддитивный шум являются независимыми стационарными случайными процессами, обладающими эргодическим свойством [И.Н. Щитов, В.Г. Галкина. Введение в теорию сигналов. Часть 1. Аналоговые сигналы: учебное пособие / - Санкт-Петербург, 2010. - с. 103-104].

Для анализа подобных сигналов, вместо автокорреляционной функции можно использовать дисперсию входного сигнала, которая рассчитывается путем усреднения по временным отсчетам. Структурная схема измерителя дисперсии представлена на рисунке 1 и описывается выражением (12) в статье «Помехоустойчивый алгоритм сегментации речевого сигнала в системах идентификации абонента» [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23].

В статье «Помехоустойчивый алгоритм сегментации речевого сигнала в системах идентификации абонента» [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23] показано, что если речевой сигнал и шум взаимно независимы, то общая дисперсия входного сигнала существенно увеличивается при появлении речевого сигнала и соответственно уменьшается при его окончании.

Сегментация входного сигнала на участки речи и шума на основе расчета общей дисперсии входного сигнала невозможна без расчета порогового значения и дисперсии шума.

Расчет дисперсии шума предлагается произвести на основе первых 200 мс входного сигнала, которые соответствуют естественной для человека паузой перед произнесением фразы [Шейкин Р.Л. К анализу механизмов возникновения пауз в речи // Механизмы речеобразования и восприятия сложных звуков. М. Л., 1966. С. 31-44]. Методика расчета дисперсии шума аналогична методике расчета общей дисперсии входного сигнала.

Для учета влияния шума на речевой сигнал, используя дисперсию шума, по выражению (24) статьи «Помехоустойчивый алгоритм сегментации речевого сигнала в системах идентификации абонента» [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23] рассчитаем такое значение интервала накопления, которому соответствует максимальное отношение сигнал/шум.

Расчет порогового значения осуществляется по выражению (20) [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23] и позволяет учесть ошибку измерения дисперсии, возникающую в результате ограничения времени наблюдения.

Предложенный способ выделения сегментов обработки речи, в отличии от применяемых в настоящее время, производит оценку дисперсии шума, с ее использованием рассчитывают величину порогового значения и интервал накопления, и на основе различий в энергетических свойствах речи и шума, производят измерение дисперсии входного сигнала и ее сравнение с пороговым значением с последующим удалением участков шума.

Расчет интервала накопления и величины порогового значения на основе дисперсии шума позволяет получить наилучшее отношение сигнал/шум и повысить точность сегментации.

Способ может быть реализован, например, с помощью устройства, структурная схема которого приведена на чертеже, где обозначено: 1 - аналого-цифровой преобразователь сигнала; 2.1 - блок расчета дисперсии шума; 3 - блок расчета значения порога; 4 - блок расчета значения интервала усреднения; 2.2 - блок расчета дисперсии входного сигнала; 5 - блок классификации; 6 - блок сегментации речевого сигнала.

Данное устройство может быть реализовано цифровым способом на базе однокристальной ЭВМ.

Блок аналого-цифрового преобразования сигнала, предназначен для преобразования входного речевого сигнала в цифровую форму с заданной частотой дискретизации и уровнями квантования.

Блок расчета дисперсии шума и входного сигнала состоит из ФНЧ, квадратора и интегратора и предназначен для измерения дисперсии сигнала. Дисперсия шума измеряется на речевом фрагменте заданной длительности, с использованием которой в блоке расчета значения порога рассчитывают величину порога, а в блоке расчета значения интервала усреднения рассчитывается оптимальный интервал накопления. Рассчитанное значение интервала накопления используется для измерения дисперсии речевого сигнала.

Блок классификации предназначен для сравнения значения дисперсии интервала усреднения с рассчитанным пороговым значением и классификации дискретных отсчетов на отсчеты речи и паузы.

Блок сегментации речевого сигнала производит удаление дискретных отсчетов, содержащих паузы и объединение оставшихся речевых отсчетов.

Устройство работает следующим образом: входной аналоговый сигнал поступает на вход аналого-цифрового преобразователя, где происходит его преобразование к цифровому представлению, далее цифровой сигнал с выхода АЦП поступает в блок расчета дисперсии шума, далее рассчитанное значение дисперсии шума поступает в блок расчета значения порога и блок расчета значения интервала усреднения, далее рассчитанное значение интервала усреднения вместе с дискретными отсчетами входного сигнала со второго выхода АЦП поступают в измеритель дисперсии входного сигнала, который накапливает заданное количество дискретных отсчетов и рассчитывает значение дисперсии и затем передает его в блок классификации, где происходит сравнение значения дисперсии на интервале усреднения с рассчитанным пороговым значением и классификация дискретных отсчетов на отсчеты речи и паузы. Если на интервале, равном половине интервала накопления, значение дисперсии превышает порог, данные дискретные отсчеты классифицируются как речь, в противном случае как пауза. Классифицированные дискретные отсчеты поступают в блок сегментации речевого сигнала, куда также поступает цифровой сигнал с выхода АЦП. Блок сегментации речевого сигнала производит удаление дискретных отсчетов, содержащих паузы, а затем оставшиеся фрагменты речи объединяются и поступают на выход устройства.

Похожие патенты RU2837348C1

название год авторы номер документа
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ 1994
  • Сорокин Виктор Николаевич
RU2047912C1
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ АНАЛИЗА КОРРЕЛЯЦИОННЫХ ЗАВИСИМОСТЕЙ В РЕЧЕВОМ СИГНАЛЕ 2010
  • Афанасьев Андрей Алексеевич
  • Новиков Евгений Иванович
  • Трубицын Владимир Геннадьевич
  • Титов Олег Николаевич
RU2445718C1
СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ГОЛОСУ 2022
  • Юдаков Дмитрий Сергеевич
  • Чернышов Анатолий Павлович
  • Гребенюк Андрей Витальевич
  • Хакимов Тимерхан Мусагитович
RU2789689C1
Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих 2019
  • Белогуров Владимир Александрович
  • Золотарев Владимир Алексеевич
RU2723301C1
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа 2014
  • Титов Олег Николаевич
  • Афанасьев Андрей Алексеевич
  • Илюшин Михаил Владимирович
RU2606566C2
УСТРОЙСТВО ДЛЯ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ 1998
  • Брайнина И.С.
  • Кузнецов М.В.
RU2136059C1
Способ разделения речи и пауз путем анализа значений характеристик спектральных составляющих смеси сигнала и помехи 2023
  • Золотарев Владимир Алексеевич
RU2814115C1
СПОСОБ РАСПОЗНАВАНИЯ СЛОВ РЕЧИ 2005
  • Гиголо Людмила Антоновна
  • Сахаров Виталий Олегович
RU2296376C2
СПОСОБ ГИБРИДНОЙ ГЕНЕРАТИВНО-ДИСКРИМИНАТИВНОЙ СЕГМЕНТАЦИИ ДИКТОРОВ В АУДИО-ПОТОКЕ 2013
  • Хитров Михаил Васильевич
  • Пеховский Тимур Сахиевич
  • Шулипа Андрей Константинович
RU2530314C1
Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума 2019
  • Белогуров Владимир Александрович
  • Золотарев Владимир Алексеевич
RU2700189C1

Иллюстрации к изобретению RU 2 837 348 C1

Реферат патента 2025 года СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении вероятности правильной сегментации речевого сигнала в условиях воздействия шума. Технический результат достигается за счет способа выделения сегментов обработки речи, основанного на приеме входного речевого сигнала, аналого-цифровом преобразовании и выделении фрагмента речевого сигнала, при этом измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы, удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз. 1 ил.

Формула изобретения RU 2 837 348 C1

Способ выделения сегментов обработки речи, основанный на приеме входного речевого сигнала, аналого-цифровом преобразовании и выделении фрагмента речевого сигнала, отличающийся тем, что измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы, удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз.

Документы, цитированные в отчете о поиске Патент 2025 года RU2837348C1

Многоступенчатая активно-реактивная турбина 1924
  • Ф. Лезель
SU2013A1
Пломбировальные щипцы 1923
  • Громов И.С.
SU2006A1
Многоступенчатая активно-реактивная турбина 1924
  • Ф. Лезель
SU2013A1
Способ восстановления спиралей из вольфрамовой проволоки для электрических ламп накаливания, наполненных газом 1924
  • Вейнрейх А.С.
  • Гладков К.К.
SU2020A1
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ ПОСЛЕДОВАТЕЛЬНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА 2018
  • Власов Роман Сергеевич
  • Кисляк Алексей Алексеевич
  • Титов Олег Николаевич
  • Любимов Денис Владимирович
RU2684576C1

RU 2 837 348 C1

Авторы

Коренной Александр Владимирович

Чернышов Анатолий Павлович

Юдаков Дмитрий Сергеевич

Алшавва Сафван Мохаммад

Даты

2025-03-31Публикация

2024-04-23Подача