Эффективность автоматического анализа речевых сигналов в системах биометрической идентификации и диагностики органов речевого аппарата определяется точностью измерения его амплитудных и временных, частотных и энергетических параметров, достоверностью обнаружения и распознавания его отдельных элементов. В свою очередь, основной причиной погрешностей измерений и ошибок обнаружения (распознавания) элементов речевых сигналов являются помехи, различные по своему происхождению, интенсивности, спектральным и статистическим характеристикам, взаимодействию с полезным сигналом.
Одной из наиболее сложных задач эффективного обнаружения и распознавания параметров речевых сигналов в системах биометрической идентификации и диагностики органов речевого аппарата является задача подавления физиологических помех, вызванных нестабильной работой речевого аппарата, при наличии заболеваний в работе систем органов речевого аппарата, таких как ларингит, синусит, фарингит и др. Патологические отклонения в работе систем речевого аппарата могут свести на нет даже самые сложные и изощренные алгоритмы распознавания речевых сигналов в системах биометрический идентификации личности и привести к сбою работы государственной системы безопасности.
Как отмечается в [1], речевой сигнал представляет собой звуковую волну, образуемую артикуляционным отделом речевого аппарата. Речевой сигнал является акустическим сигналом, нелинейным и нестационарным, распространяющимся в пространстве с частотой 70-7000 Гц.
На этапе формирования звуков и регистрации их различными каналами связи участвуют три основных отдела органов речевого аппарата: 1) легкие, бронхи и трахея; 2) голосовой аппарат гортани; 3) полость рта, глотки носа и околоносовых пазух.
Определение нестабильной работы всех отделов органов дыхания является актуальной задачей, для решения большого круга проблем в области диагностики заболеваний и биометрической идентификации личности.
Рассмотрим подробнее известные способы обработки речевых сигналов в условиях нестабильной работы речевого аппарата.
Известен способ «Система для анализа и формирования изображения шума дыхательных путей» (аналог) [2], позволяющий регистрировать и анализировать акустические шумы тела пациента, и используется для диагностики нарушения дыхательных путей.
Анализ известного способа-аналога [2] показал, что его работа заключается в регистрации акустического шума дыхательных путей путем наложении акустических датчиков на тело пациента, вычислении средней акустической энергии сигнала на каждом промежутке времени, отображении значений акустической энергии на двумерном изображении грудной клетки (первый отдел органов речевого аппарата), выводе диагностического заключения о стадии нестабильной работы первого отдела органов дыхания. Структурная схема известного способа приведена на фиг. 1.
Недостатками данного способа являются:
1. Возможность регистрации, кроме акустических шумов, шумов связанных с физиологической активностью других органов и систем организма: сердечно-сосудистой системы, желудочно-кишечного тракта и др., что может привести к искажению результатов измерения и точности постановки диагностического заключения.
2. Диагностика только заболеваний первого отдела органов речевого аппарата, что ограничивает его использование широким кругом потребителей для диагностических целей и в системах биометрической идентификации.
3. Наложение на тело пациента множества акустических датчиков, приводящее к дискомфорту пациента и возникновению дополнительных помех и шумов, связанных с движением пациента и уменьшением сопротивления кожа-электрод.
4. Невозможность использования данной технологии при разработке портативных устройств, используемых в диагностических целях в домашних условиях и в офисах для систем безопасности.
Известен другой способ исследования функционального состояния органов речевого аппарата на примере голосовых складок «Способ исследования функционального состояния голосовых складок» (прототип) [3].
Анализ известного способа-прототипа [3] показал, что его работа заключается в регистрации речевых сигналов, сегментации речевых сигналов, вейвлет-преобразовании речевых сигналов, построении вейвлет-поверхности участка речевого сигнала, определении информативной области вейвлет-поверхности, вычислении значения энергии информативной области, сравнении вычисленного значения с пороговым, выводе диагностического заключения о стадии нестабильной работы голосовых складок (второго отдела органов речевого аппарата). Структурная схема известного способа приведена на фиг. 2.
Недостатками данного способа являются:
1. Недостаточно высокая эффективность вывода диагностического заключения о стадии нестабильной работы органов речевого аппарата, обусловленная невозможностью адаптации вейвлет-функции к структуре и локальным особенностям зарегистрированного речевого сигнала.
2. Диагностика только заболеваний второго отдела органов речевого аппарата, что так же, как и в первом способе, ограничивает его использование для диагностики биометрической идентификации.
Изобретения направлено на повышение точности обработки речевых сигналов в условиях нестабильной работы органов речевого аппарата.
Это достигается тем, что в способе адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата, заключающемся в регистрации речевых сигналов, сегментации речевых сигналов, вычислении значения энергии информативной области, сравнении вычисленного значения с пороговым, выводе диагностического заключения о стадии нестабильной работы органов речевого аппарата, дополнительно осуществляют декомпозицию на эмпирические моды фонемы речевого сигнала, построение спектра Гильберта фонемы речевого сигнала. Структурная схема предлагаемого способа приведена на фиг. 3.
Суть предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата заключается в том, что определение нестабильности (отклонения) состояния органов речевого аппарата на речевом сигнале осуществляется за счет выделения информативных областей сигнала (фонем), образованных различными отделами органов речевого аппарата, построения спектра Гильберта фонемы речевого сигнала и вывода диагностического заключения о стадии нестабильной работы органов речевого аппарата путем вычисления разности значений энергии фонемы речевого сигнала с пороговым, характеризующим стадию развития нестабильности (отклонения) в работе органов речевого аппарата.
Главной отличительной особенностью предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата от известного способа является обработка отдельных слов, фраз и выражений, образованных определенными органами речевого аппарата, и адаптивное вычисление значений энергии исследуемых фонем с использованием декомпозиции на эмпирические моды и спектра Гильберта.
Рассмотрим особенности реализации предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата. Первый этап («Регистрация речевых сигналов») аналогичен этапу известного способа [2], заключающегося в регистрации речевого сигнала с помощью акустического приемника и аналогово-цифровом преобразовании речевого сигнала. Пример зарегистрированного и оцифрованного речевого сигнала - звука «а» - приведен на фиг. 4.
В отличие от известного способа на этапе регистрации речевых сигналов предлагается регистрировать речевые сигналы конкретных фраз и выражений, состоящих из звуков, сформированных определенными органами речевого аппарата. Для этого авторами способа ранее разработана в виде таблиц реляционной СУБД Microsoft Office Access (см. фиг. 5) и запатентована база эталонных слов, фраз и выражений [4]. Использование верифицированной базы речевых сигналов позволит эффектней диагностировать нестабильность речевого аппарата путем систематизации заболеваний органов речевого аппарата по группам звуков сформированных определенными органами речевого аппарата.
Второй этап «Сегментация речевых сигналов» заключается в следующем. В зависимости от вида речевого сигнала их длительность может варьироваться от 5 до 500 мс. Фонемы речевых сигналов различных тональных и сонорных звуков в среднем имеют длительность от 10 до 25 мс. Для автоматизации последующих этапов способа предлагается ограничивать длительность речевых сигналов длительностью фонем до одной фиксированной величины, равной 20 мс. Унификация речевого сигнала до фонем различной длительности с помощью сегментации в равные отрезки позволяет улучшить обработку на последующем этапе обработки речевых сигналов.
Третий этап «Декомпозиция на эмпирические моды фонемы речевого сигнала» заключается в разложении фонемы речевого сигнала на частотные составляющие с помощью адаптивной технологии, способной подстроиться к исследуемого сигналу без искажения его свойств.
Схема декомпозиция на эмпирические моды фонемы речевого сигнала приведена на фиг. 6 и включает в себя следующие этапы:
1. Определение локальных экстремумов (максимумов и минимумов) фонемы речевого сигнала f j(t i):
- значение i-го отсчета f j(t i) является локальным максимумом, если выполняется условие ;
- значение i-го отсчета f j(t i) является локальным минимумом, если выполняется условие .
2. Определение верхней e j (t i ) и нижней g j (t i ) огибающих фонемы речевого сигнала с помощью кубической сплайн-интерполяции [5] по найденным локальным экстремумам f j (t i ):
,
,
где а в, b в, с в, d в - коэффициенты для каждого значения i-го отсчета верхней огибающей фонемы речевого сигнала; а н, b н, с н, d н - коэффициенты для каждого значения i-го отсчета верхних огибающих фонемы речевого сигнала
3. Вычисление среднего значения огибающих фонемы речевого сигнала в соответствии с выражением:
,
где h j(t i) - среднее значение огибающих фонемы речевого сигнала;
e j(t i) и g j(t i) - верхняя и нижняя огибающая исходных фонемы речевого сигнала соответственно.
4. Вычисление остатка фонемы речевого сигнала по формуле:
,
где s j(t i) - остаток частотных составляющих речевого сигнала.
5. Вычисление значения критерия останова. В качестве критерия останова декомпозиции используется значение нормализованной квадратичной разности, определяемое как [6]:
.
6. Проверка условия останова. На этом этапе осуществляется сравнение значения остатка речевого сигнала со значением нормализованной квадратичной разности. Если:
- SD>s j(t i), то переходят к выполнению действия 1;
- SD<s j(ti) и h j(t i)>s j(t i), то переходят к выполнению следующего действия.
7. Вывод частотных составляющих фонемы речевого сигнала. На этом этапе осуществляется вывод эмпирических мод m k(t i) и остатка s j(t i) фонемы речевого сигнала. На фиг. 7 приведены моды фонемы речевого сигнала.
После того как получены частотные составляющие фонемы речевого сигнала с помощью декомпозиции на эмпирические моды, выполняется построение спектра Гильберта.
Схема следующего этапа «Преобразование и Построение спектра Гильберта фонемы речевого сигнала» приведена на фиг. 8 и включает в себя следующие подэтапы [6, 7].:
1. Получение сопряженного по Гильберту фонемы речевого сигнала:
,
где m k(t i) - эмпирическая мода, подвергнутая преобразованию Гильберта;
M k(t i) - сопряженный по Гильберту фонемы речевого сигнала, соответствующий моде m k(t i);
k - номер моды;
τ - независимая переменная.
2. Определение аналитического (комплексного) значения для каждой моды фонемы речевого сигнала:
,
где - мнимая единица.
3. Определение значения мгновенной амплитуды для каждой моды фонемы речевого сигнала:
4. Определение значения мгновенной частоты для каждой моды фонемы речевого сигнала:
.
5. Представление фонемы речевого сигнала в виде спектра Гильберта. В каждой эмпирической моде сигнал в виде поверхности в системе координат амплитуда-частота-время может быть выражен следующим образом [7, 8]:
,
Визуальное представление спектра Гильберта характеризует распределение мгновенной энергии фонемы речевого сигнала в каждой точке частотно-временной плоскости и, по мнению авторов, открывает возможность выделения новых диагностических признаков в речевых сигналах.
На фиг. 9 приведен спектр Гильберта речевого сигнала (звук «а») рассчитанный по выражению (10) согласно алгоритму построения спектра Гильберта (см. фиг. 8).
Следующий пятый этап «Вычисление значения энергии информативной области» осуществляется согласно следующему выражению:
,
где t 1 - отсчет, принятый за середину фонемы;
t k - отсчет, принятый за начало фонемы.
Рассчитанные средние значения энергии спектра Гильберта фонемы по формуле (10) позволяют получить функцию распределения среднего значения энергии по частоте:
,
где t - const.
Результатом расчета выражения (12) является функция распределения , характеризующая усредненное значение энергии информативно области (фонемы) спектра Гильберта.
Следующий этап «Сравнение вычисленного значения энергии с пороговым» заключается в сравнении вычисленной средней энергии фонемы с пороговыми значениями, вычисленные априорно на большой выборке данных. Пороговое значение энергии характеризует уровень и вид нестабильности (отклонения) работы речевого аппарата. По результатам проведенных исследований выявлено, что в зависимости от произносимого контрольного слова, фразы или предложения, состоящего из фонем, образованных определенным отделом органов речевого аппарата, наблюдается прямая зависимость с уровнем энергии спектра Гильберта. Результаты проведенных исследований проведены в табл. 1.
Заключительный этап «Вывод диагностического заключения о стадии нестабильной работы органов речевого аппарата» заключается в постановки заключения, основанного на результатах предыдущего этапа способа.
Приведенное описание способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата показывает, что предлагаемый способ позволяет устранить недостатки известного способа «Способ исследования функционального состояния голосовых складок», а именно повысить эффективность вывода диагностического заключения о стадии нестабильной работы органов речевого аппарата за счет используемого адаптивного подхода обработки фонем речевого сигнала, способного приспособиться к индивидуальным особенностям и параметрам потребителя; диагностировать широкий спектр заболеваний всех трех отделов органов речевого аппарата.
Другим преимуществом предлагаемого способа адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата является визуальное представление спектра Гильберта речевого сигнала, что позволяет выявить новые диагностические признаки в речевых сигналах для диагностических систем и биометрической идентификации личности.
Эффективная обработка речевых сигналов ведет к увеличению достоверных заключений и, следовательно, к повышению эффективности диагностики и лечения заболеваний органов речевого аппарата и идентификация личности в системах биометрической защиты.
Источники информации
1. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. - М.: Радио и связь. 1987 г., 103 с.
2. Кушнир И., Ботбол М. Патент РФ, Система для анализа и формирования изображения шума дыхательных путей - №2314751; заявл. 10.03.2005; опубл. 20.01.2008.
3. Плешков И.В., Филист С.А., Краснова Н.В., Блинков Ю.А. Патент РФ, Способ исследования функционального состояния голосовых складок - №2313280; заявл. 16.05.2006; опубл. 27.12.2007.
4. Тычков А.Ю., Алимурадов А.К., Квитка Ю.С., Ярославцева Д.А. Свидетельства о государственной регистрации программ для ЭВМ. Верифицированная база речевых сигналов - №2013621156; заявл. 13.09.2013; опубл. 06.11.2013.
5. Корнейчук, Н.П. Сплайны в теории приближения. - М.: Наука, Главная редакция физико-математической литературы, 1984 - 352 с.
6. Huang, N.E., Attoh-Okine Nii О. The Hilbert-Huang transform in engineering - Taylor and Francis, 2005 - 95 p.
7. Sharpley R.C., Vatchev V.D. Analysis of the intrinsic mode functions. Department of Mathematics University of South Carolina, 2004 - 31 p.
8. Huang N.E., Shen S.S. The Hilbert-Huang transform and its applications - World Scientific Publication, 2005 - 323 p.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ АДАПТИВНОГО ПОДАВЛЕНИЯ ПОМЕХ В ЭЛЕКТРОКАРДИОСИГНАЛЕ | 2011 |
|
RU2486862C1 |
УСТРОЙСТВО ДЛЯ РЕГИСТРАЦИИ ЭЛЕКТРОКАРДИОСИГНАЛОВ | 2010 |
|
RU2452364C1 |
СПОСОБ ПОДАВЛЕНИЯ ШУМОВ В ЭЛЕКТРОКАРДИОСИГНАЛЕ | 2010 |
|
RU2440022C2 |
СПОСОБ И СИСТЕМА БИОНИЧЕСКОГО УПРАВЛЕНИЯ РОБОТИЗИРОВАННЫМИ УСТРОЙСТВАМИ | 2020 |
|
RU2759310C1 |
СПОСОБ ЭКСПРЕСС-ОЦЕНКИ ЭЛЕКТРИЧЕСКОЙ СТАБИЛЬНОСТИ СЕРДЦА | 2013 |
|
RU2567271C2 |
СПОСОБ ФОРМИРОВАНИЯ МАСКИРУЮЩЕЙ ПОМЕХИ ДЛЯ ЗАЩИТЫ РЕЧЕВОЙ ИНФОРМАЦИИ | 2016 |
|
RU2622631C1 |
СПОСОБ (ВАРИАНТЫ) ФИЛЬТРАЦИИ ЗАШУМЛЕННОГО РЕЧЕВОГО СИГНАЛА В УСЛОВИЯХ СЛОЖНОЙ ПОМЕХОВОЙ ОБСТАНОВКИ | 2015 |
|
RU2580796C1 |
Биометрический способ идентификации абонента по речевому сигналу | 2020 |
|
RU2742040C1 |
СПОСОБ РАСПОЗНАВАНИЯ КЛЮЧЕВЫХ СЛОВ В СЛИТНОЙ РЕЧИ | 2008 |
|
RU2403628C2 |
СПОСОБ И УСТРОЙСТВО ЦИФРОВОГО СПЕКТРАЛЬНО-ВРЕМЕННОГО АНАЛИЗА СИГНАЛОВ | 2013 |
|
RU2536108C2 |
Изобретение относится к медицине, а именно к биометрической идентификации и диагностике органов речевого аппарата. Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата состоит в том, что осуществляют регистрацию речевых сигналов, сегментацию речевых сигналов, вычисляют значения энергии информативной области, сравнивают вычисленное значение с пороговым и делают диагностическое заключение о стадии нестабильной работы органов речевого аппарата. При этом дополнительно проводят декомпозицию на эмпирические моды фонемы речевого сигнала и построение спектра Гильберта фонемы речевого сигнала. Использование изобретения позволяет повысить точность обработки речевых сигналов в условиях нестабильной работы органов речевого аппарата. 1 табл., 9 ил.
Способ адаптивной обработки речевых сигналов в условиях нестабильной работы речевого аппарата, заключающийся в том, что осуществляют регистрацию речевых сигналов, сегментацию речевых сигналов, вычисление значения энергии информативной области, сравнение вычисленного значения с пороговым, вывод диагностического заключения о стадии нестабильной работы органов речевого аппарата, отличающийся тем, что осуществляют дополнительно декомпозицию на эмпирические моды фонемы речевого сигнала, построение спектра Гильберта фонемы речевого сигнала.
СПОСОБ ИССЛЕДОВАНИЯ ФУНКЦИОНАЛЬНОГО СОСТОЯНИЯ ГОЛОСОВЫХ СКЛАДОК | 2006 |
|
RU2313280C1 |
RU 2013119828 A, 10.11.2014 | |||
WO 2011148230 A1, 01.12.2011 | |||
US 2012220899 A1, 30.08.2012 | |||
US 2008300867 A1, 04.12.2008 | |||
D.Michaelis et al | |||
Glottal-to-noise excitation ratio-a new measure for describing pathological voices, ACUSTICA, v.83, 1997, pp.700-706. |
Авторы
Даты
2016-04-20—Публикация
2015-01-28—Подача