Показать метаданные Скрыть метаданные

(19)

(11)

2 837 348

(13)

(51)

МПК

G10L15/05(2013-01-01)

G10L17/02(2013-01-01)

(21) (22)

Заявка

2024111259, 2024-04-23

(24)

Дата начала отсчета патента

2024-04-23

(22)

дата подачи заявки

2024-04-23

(45)

опубликовано

2025-03-31

(72)

авторы

Коренной Александр ВладимировичЧернышов Анатолий ПавловичЮдаков Дмитрий СергеевичАлшавва Сафван Мохаммад

(73)

патентообладатели

Федеральное Государственное Казенное Военное Образовательное Учреждение Высшего Образования Учебно-Научный Центр Военно-Воздушных Сил Академия Имени Профессора Н.Е. Жуковского И Ю.А. Гагарина" Воронеж) Министерства Обороны Российской Федерации

(56)

Документы, цитированные в отчете о поиске

СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ Российский патент 2025 года по МПК G10L15/05 G10L17/02

Описание патента на изобретение RU2837348C1

Изобретение относится к области цифровой связи и может использоваться в системах кодирования и обработки речевого сигнала, а также в биометрических системах распознавания диктора.

Наиболее близким к заявляемому изобретению является способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, представленный в [RU 2445718 С1 МПК G10L 19/00, опубл. 20.03.2012].

Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, основан на том, что на выходе аналого-цифрового преобразователя (АЦП) с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), основанный на формальном статистическом тесте для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95, при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции.

Недостатком известного способа является снижение вероятности правильной сегментации в условиях воздействия стационарных и нестационарных шумов, в частности, обладающих сплошным спектром, что приводит к случайному изменению величины интервала корреляции и возникновению ошибок сегментации, а также, сужение области применения в результате формирования границ сигнала на основе кардинального изменения величины интервала корреляции.

Техническим результатом изобретения является повышение вероятности правильной сегментации речевого сигнала в условиях воздействия шума, а также расширение области применения способа, за счет использования различий в энергетических свойствах речевого сигнала и шума.

Указанный технический результат достигается тем, что в известном способе выделения сегментов обработки речи, основанном на приеме входного речевого сигнала, аналого-цифровом преобразовании и выделении фрагмента речевого сигнала, согласно изобретению, измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз.

Сущность изобретения заключается в том, что измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз.

В известном способе, сегментация речевого сигнала производится за счет преобразования аналогового сигнала в цифровой, выделения участка анализа, вычисления автокорреляционной функции сигнала и интервала корреляции, а граница сегмента формируется в момент кардинального изменения величины интервала корреляции.

Это позволяет уменьшить объем данных, однако, известный способ подвержен воздействию шумов и не применим в системах идентификации человека по голосу.

Предложенный способ, в свою очередь, основан на различии в энергетических свойствах речевого сигнала и шума, которое возникает в том случае, если случайный речевой сигнал является стационарным, т.е. ограничивается время наблюдения [А.Г. Зюко, Д.Д. Кловский, В.И. Коржик, М.В. Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д. Кловского. - М.: Радио и связь, 1998. - с. 36-44, 56-60].

При ограниченном времени наблюдения речевой сигнал и аддитивный шум являются независимыми стационарными случайными процессами, обладающими эргодическим свойством [И.Н. Щитов, В.Г. Галкина. Введение в теорию сигналов. Часть 1. Аналоговые сигналы: учебное пособие / - Санкт-Петербург, 2010. - с. 103-104].

Для анализа подобных сигналов, вместо автокорреляционной функции можно использовать дисперсию входного сигнала, которая рассчитывается путем усреднения по временным отсчетам. Структурная схема измерителя дисперсии представлена на рисунке 1 и описывается выражением (12) в статье «Помехоустойчивый алгоритм сегментации речевого сигнала в системах идентификации абонента» [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23].

В статье «Помехоустойчивый алгоритм сегментации речевого сигнала в системах идентификации абонента» [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23] показано, что если речевой сигнал и шум взаимно независимы, то общая дисперсия входного сигнала существенно увеличивается при появлении речевого сигнала и соответственно уменьшается при его окончании.

Сегментация входного сигнала на участки речи и шума на основе расчета общей дисперсии входного сигнала невозможна без расчета порогового значения и дисперсии шума.

Расчет дисперсии шума предлагается произвести на основе первых 200 мс входного сигнала, которые соответствуют естественной для человека паузой перед произнесением фразы [Шейкин Р.Л. К анализу механизмов возникновения пауз в речи // Механизмы речеобразования и восприятия сложных звуков. М. Л., 1966. С. 31-44]. Методика расчета дисперсии шума аналогична методике расчета общей дисперсии входного сигнала.

Для учета влияния шума на речевой сигнал, используя дисперсию шума, по выражению (24) статьи «Помехоустойчивый алгоритм сегментации речевого сигнала в системах идентификации абонента» [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23] рассчитаем такое значение интервала накопления, которому соответствует максимальное отношение сигнал/шум.

Расчет порогового значения осуществляется по выражению (20) [А.В. Коренной, Д.С. Юдаков, А.П. Чернышов, С. Алшавва // Научно-технический журнал «ЭЛЕКТРОМАГНИТНЫЕ ВОЛНЫ И ЭЛЕКТРОННЫЕ СИСТЕМЫ» // №5, Том: 28, 2023, С. 15-23] и позволяет учесть ошибку измерения дисперсии, возникающую в результате ограничения времени наблюдения.

Предложенный способ выделения сегментов обработки речи, в отличии от применяемых в настоящее время, производит оценку дисперсии шума, с ее использованием рассчитывают величину порогового значения и интервал накопления, и на основе различий в энергетических свойствах речи и шума, производят измерение дисперсии входного сигнала и ее сравнение с пороговым значением с последующим удалением участков шума.

Расчет интервала накопления и величины порогового значения на основе дисперсии шума позволяет получить наилучшее отношение сигнал/шум и повысить точность сегментации.

Способ может быть реализован, например, с помощью устройства, структурная схема которого приведена на чертеже, где обозначено: 1 - аналого-цифровой преобразователь сигнала; 2.1 - блок расчета дисперсии шума; 3 - блок расчета значения порога; 4 - блок расчета значения интервала усреднения; 2.2 - блок расчета дисперсии входного сигнала; 5 - блок классификации; 6 - блок сегментации речевого сигнала.

Данное устройство может быть реализовано цифровым способом на базе однокристальной ЭВМ.

Блок аналого-цифрового преобразования сигнала, предназначен для преобразования входного речевого сигнала в цифровую форму с заданной частотой дискретизации и уровнями квантования.

Блок расчета дисперсии шума и входного сигнала состоит из ФНЧ, квадратора и интегратора и предназначен для измерения дисперсии сигнала. Дисперсия шума измеряется на речевом фрагменте заданной длительности, с использованием которой в блоке расчета значения порога рассчитывают величину порога, а в блоке расчета значения интервала усреднения рассчитывается оптимальный интервал накопления. Рассчитанное значение интервала накопления используется для измерения дисперсии речевого сигнала.

Блок классификации предназначен для сравнения значения дисперсии интервала усреднения с рассчитанным пороговым значением и классификации дискретных отсчетов на отсчеты речи и паузы.

Блок сегментации речевого сигнала производит удаление дискретных отсчетов, содержащих паузы и объединение оставшихся речевых отсчетов.

Устройство работает следующим образом: входной аналоговый сигнал поступает на вход аналого-цифрового преобразователя, где происходит его преобразование к цифровому представлению, далее цифровой сигнал с выхода АЦП поступает в блок расчета дисперсии шума, далее рассчитанное значение дисперсии шума поступает в блок расчета значения порога и блок расчета значения интервала усреднения, далее рассчитанное значение интервала усреднения вместе с дискретными отсчетами входного сигнала со второго выхода АЦП поступают в измеритель дисперсии входного сигнала, который накапливает заданное количество дискретных отсчетов и рассчитывает значение дисперсии и затем передает его в блок классификации, где происходит сравнение значения дисперсии на интервале усреднения с рассчитанным пороговым значением и классификация дискретных отсчетов на отсчеты речи и паузы. Если на интервале, равном половине интервала накопления, значение дисперсии превышает порог, данные дискретные отсчеты классифицируются как речь, в противном случае как пауза. Классифицированные дискретные отсчеты поступают в блок сегментации речевого сигнала, куда также поступает цифровой сигнал с выхода АЦП. Блок сегментации речевого сигнала производит удаление дискретных отсчетов, содержащих паузы, а затем оставшиеся фрагменты речи объединяются и поступают на выход устройства.

Иллюстрации к изобретению RU 2 837 348 C1

Реферат патента 2025 года СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении вероятности правильной сегментации речевого сигнала в условиях воздействия шума. Технический результат достигается за счет способа выделения сегментов обработки речи, основанного на приеме входного речевого сигнала, аналого-цифровом преобразовании и выделении фрагмента речевого сигнала, при этом измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы, удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз. 1 ил.

Формула изобретения RU 2 837 348 C1

Способ выделения сегментов обработки речи, основанный на приеме входного речевого сигнала, аналого-цифровом преобразовании и выделении фрагмента речевого сигнала, отличающийся тем, что измеряют значение дисперсии шума фрагмента речевого сигнала заданной длительности, с использованием которой рассчитывают величину порога и оптимального интервала накопления, на котором определяют дисперсию входного сигнала, сравнивают дисперсию с рассчитанным порогом, если на интервале, равном половине интервала накопления, значение дисперсии будет ниже порога, то принимают решение о классификации данного интервала как пауза, в противном случае как речь, дискретные отсчеты, содержащие паузы, удаляют, а оставшиеся отсчеты объединяют и получают речевой участок без пауз.

Документы, цитированные в отчете о поиске Патент 2025 года RU2837348C1

Многоступенчатая активно-реактивная турбина	1924	Ф. Лезель	SU2013A1
Пломбировальные щипцы	1923	Громов И.С.	SU2006A1
Многоступенчатая активно-реактивная турбина	1924	Ф. Лезель	SU2013A1
Способ восстановления спиралей из вольфрамовой проволоки для электрических ламп накаливания, наполненных газом	1924	Вейнрейх А.С. Гладков К.К.	SU2020A1
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ ПОСЛЕДОВАТЕЛЬНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА	2018	Власов Роман Сергеевич Кисляк Алексей Алексеевич Титов Олег Николаевич Любимов Денис Владимирович	RU2684576C1

RU 2 837 348 C1

Авторы

Коренной Александр Владимирович

Чернышов Анатолий Павлович

Юдаков Дмитрий Сергеевич

Алшавва Сафван Мохаммад

Даты

2025-03-31—Публикация

2024-04-23—Подача

название	год	авторы	номер документа
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ	1994	Сорокин Виктор Николаевич	RU2047912C1
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ АНАЛИЗА КОРРЕЛЯЦИОННЫХ ЗАВИСИМОСТЕЙ В РЕЧЕВОМ СИГНАЛЕ	2010	Афанасьев Андрей Алексеевич Новиков Евгений Иванович Трубицын Владимир Геннадьевич Титов Олег Николаевич	RU2445718C1
СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ГОЛОСУ	2022	Юдаков Дмитрий Сергеевич Чернышов Анатолий Павлович Гребенюк Андрей Витальевич Хакимов Тимерхан Мусагитович	RU2789689C1
Способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих	2019	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2723301C1
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа	2014	Титов Олег Николаевич Афанасьев Андрей Алексеевич Илюшин Михаил Владимирович	RU2606566C2
УСТРОЙСТВО ДЛЯ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ	1998	Брайнина И.С. Кузнецов М.В.	RU2136059C1
Способ разделения речи и пауз путем анализа значений характеристик спектральных составляющих смеси сигнала и помехи	2023	Золотарев Владимир Алексеевич	RU2814115C1
СПОСОБ РАСПОЗНАВАНИЯ СЛОВ РЕЧИ	2005	Гиголо Людмила Антоновна Сахаров Виталий Олегович	RU2296376C2
СПОСОБ ГИБРИДНОЙ ГЕНЕРАТИВНО-ДИСКРИМИНАТИВНОЙ СЕГМЕНТАЦИИ ДИКТОРОВ В АУДИО-ПОТОКЕ	2013	Хитров Михаил Васильевич Пеховский Тимур Сахиевич Шулипа Андрей Константинович	RU2530314C1
Способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума	2019	Белогуров Владимир Александрович Золотарев Владимир Алексеевич	RU2700189C1