Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др.
Известен способ обнаружения эмоций (Патент РФ №2287856, G06N 5/00, G10L 15/00, G06K 9/00, 2006), заключающийся в записи и анализе голосового сигнала, при котором выявляется изменение во времени, во-первых, интенсивности голоса, во-вторых, его темпа как характеристики скорости изменения голосового сигнала и, в-третьих, его интонации, характеризующей изменение интенсивности в каждом отрезке голосового сигнала. По полученным трем величинам изменения параметров голосового сигнала автоматически определяются состояния по меньшей мере гнева, печали и удовольствия.
Указанный способ характеризуется низкой достоверностью и плохой воспроизводимостью результатов, из-за неустойчивости к вариациям произнесения речевого материала диктором, так как результат детектирования эмоций существенным образом зависит от набора и характеристик голосовых фильтров, применяемых для установления специфических текстозависимых частотных компонент речевого сигнала;
отсутствия критерия оценки численного значения характерного времени речевых сегментов, соответствующего конкретной эмоции, а также математической неопределенности критерия выявления значимого рассогласования для различных эмоций «рисунка изменения интенсивности» в каждом слове голоса.
В другом способе определения эмоционального состояния человека по голосу (Горшков Ю.Г. Новые решения речевых технологий безопасности / Ю.Г.Горшков // Специальная техника. - 2006. - №4. - С.1-13) из записанного речевого сигнала с применением вейвлет-анализа выделяются и анализируются одновременно его основные параметры и кратковременные высокочастотные составляющие.
Недостатком данного способа является ограниченность его применения и неоднозначность получаемых результатов из-за отсутствия критериев различия и мер различимости, необходимых для детектирования эмоций, а также неопределенности параметров используемого вейвлета и выбора отсчетов масштаба вейвлет-преобразования.
Наиболее близким по совокупности признаков является способ анализа речи (Патент РФ №2403626, G10L 11/04, 2010), заключающийся в записи голосового сигнала диктора, его интегральном преобразовании в амплитудный спектр, вычислении автокорреляционного колебания при сдвиге полученного амплитудного спектра на частотной оси и вычислении частоты основного тона на основе локального интервала между одним из максимумов и одним из минимумов автокорреляционного колебания с последующим анализом изменения частоты основного тона на основе меры различимости.
В способе не определена мера различимости для сравнения различных эмоций, не используется информация о значениях амплитуд спектральных компонент голосового сигнала (распределении энергии голосового сигнала в значимых для решаемой задачи областях его амплитудного спектра); не учитывается форма частотно-временного распределения спектральных компонент, которые существенным образом определяют эмоциональное состояние человека (Галунов В.И. О возможности определения эмоционального состояния по речи / В.И.Галунов // Речевые технологии. - 2008. - №1. - С.60-66).
Все это приводит к уменьшению достоверности оценок эмоционального состояния диктора и их плохой воспроизводимости для различных дикторов.
Заявляемое изобретение предназначено для повышения вероятности правильных оценок эмоционального состояния человека по его речевому сигналу за счет использования непрерывного вейвлет-преобразования в качестве ядра интегрального преобразования и общей для детектирования различных видов эмоционального состояния диктора меры различимости.
Технический результат заключается в повышении достоверности и воспроизводимости оценок эмоционального состояния диктора.
Технический результат достигается тем, что в известном способе выявления эмоционального состояния человека по голосу, заключающийся в записи речевого сигнала и его последующей обработке, включающей в себя расчет коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости, согласно изобретению, коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования; при этом для вычисления коэффициентов локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала используется вейвлет Морле.
Получаемый при осуществлении изобретения технический результат, а именно, повышение достоверности и воспроизводимости оценок эмоционального состояния человека по речевому сигналу, достигается за счет применения частотно-временного анализа существенных параметров речевого сигнала, адекватно описывающих эмоциональное состояние человека. В основе такого анализа лежит регистрация изменений во времени спектра непрерывного вейвлет-преобразования речевого сигнала, что позволяет получать аналитические выражения для практической оценки существенных параметров.
В непрерывном вейвлет-преобразовании в качестве материнского вейвлета используется вейвлет Морле (Голубинский А.Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Вестник ВИ МВД России. - 2011. - №3. - С.144-153), частотно-временные характеристики которого аналогичны характеристикам базилярной мембраны (Юрков П.Ю. Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов: автореф. дис. канд. техн. наук: 05.13.19, 05.13.17 / П.Ю.Юрков. - Таганрог, 2006. - 16 с.). Существенные отсчеты масштаба непрерывного вейвлет-преобразования выбираются с использованием показательной аппроксимации функции масштаба (Голубинский А.Н., Асташов Р.А. К вопросу о выборе масштаба непрерывного вейвлет-преобразования для обработки речевых сигналов // Охрана, безопасность, связь - 2011: Материалы международной научно-практической конференции. Часть 1. - Воронеж: Воронежский институт МВД России, 2011. - С.64-68). Для детектирования эмоционального состояния применяется мера различимости между локальными спектрами НВП, что позволяет обеспечить повышение реальной и потенциальной точности оценки эмоционального состояния (Голубинский А.Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Вестник ВИ МВД России. - 2011. - №3. - С.144-153).
Заявляемый способ поясняется фиг.1, где схематически изображены основные блоки, реализующие способ выявления эмоционального состояния человека по голосу.
Блок-схема алгоритма выявления эмоционального состояния человека по голосу (фиг.1) включает источник речевого сигнала в цифровой или аналоговой форме, например микрофон (М) 1 и аналого-цифровой преобразователь (АЦП) 2, блок расчета существенных отсчетов масштаба непрерывного вейвлет-преобразования (БРСОМНВП) 3, блок расчета коэффициентов локального спектра непрерывного вейвлет-преобразования (БРКЛСНВП) 4, коммутатор 5, который работает следующим образом: нижнее положение переключателя - получение эталонных параметров голоса диктора, верхнее положение переключателя - детектирование эмоционального состояния, блок расчета мер различимости между локальными спектрами непрерывного вейвлет-преобразования (БРМРЛСНВП) 6, блок запоминания эталонных параметров голоса диктора (БЗЭПГД) 7, блок принятия решения об эмоциональном состоянии диктора (БПРЭСД) 8.
Предложенная блок-схема показывает работу в двух режимах: режиме обучения и режиме детектирования эмоционального состояния.
В режиме обучения речевой сигнал с микрофона 1 подают через АЦП 2 в блок 3, в котором на основе показательной аппроксимации функции масштаба вычисляются отсчеты масштаба НВП:
Константы в показателях (1) связаны выражением:
Θ=θ/ln(2).
Минимальное значение масштаба вейвлета:
,
где Δt - эффективный временной размер материнского вейвлета, для вейвлета Морле равный: ; fd - частота дискретизации; σ - параметр масштаба.
Номер наибольшего отсчета масштаба рассчитывается по формуле:
Здесь - округление до ближайшего целого числа; fmin - минимальная существенная частота в спектре речевого сигнала;
,
где ξ - доминантная частота, принимаемая равной: ξ=5/σ.
Значение М-го отсчета масштаба рассчитывается по формуле:
.
Затем в блоке 4 осуществляется расчет коэффициентов локального спектра непрерывного вейвлет-преобразования по формуле:
здесь - коэффициенты дискретного преобразования Фурье для отсчетов xi, вычисляемые на основе алгоритма быстрого преобразования Фурье (Баскаков С.И. Радиотехнические цепи и сигналы: Учебник для вузов / С.И.Баскаков. - 4-е изд. - М.: Высшая школа, 2005. - С.389-395.); N - количество отсчетов; ψ(k,m) - преобразование Фурье от материнского вейвлета Морле:
После этого в блоке 7 осуществляется запоминание значений коэффициентов локального спектра непрерывного вейвлет-преобразования.
В режиме детектирования эмоционального состояния после процедуры расчета коэффициентов локального спектра непрерывного вейвлет-преобразования в блоке 6 осуществляется расчет меры различимости по формуле:
Здесь
Затем в блоке 8 осуществляется определение наименьшего значения меры различимости
Принципом детектирования какого-либо эмоционального состояния человека по его голосу, общим, для всех известных способов, является сравнение текущих значений некоторого набора параметров голосового сигнала, существенных для решения данной задачи, с «эталонными» значениями того же набора, однозначно характеризующими наличие данного эмоционального состояния. Вероятность соответствия текущего эмоционального состояния детектируемому состоянию будет тем выше, чем меньше значение меры различимости текущих и «эталонных» значений существенных параметров.
Достоверность способа детектирования эмоционального состояния диктора в общем случае обеспечивается эффективностью (прецизионностью) решающего критерия, состоящего из правила сравнения (решения) и меры различимости, т.е. в основном определяется прецизионностью меры различимости, которая в свою очередь обеспечивается:
- выбором существенных параметров как аргументов меры различимости;
- способом формирования значений существенных параметров, обеспечивающим высокую контрастность сопоставления текущего и заданного эмоционального состояния;
- способом формирования численного значения или вектора меры различимости.
Повышение вероятности правильного определения эмоционального состояния человека по его голосу в заявляемом способе обеспечивается:
- использованием в качестве существенных параметров коэффициентов локального спектра непрерывного вейвлет-преобразования, характеризующихся большой чувствительностью к изменению базовой функции, т.е. обладающих более существенными взаимными отличиями по сравнению с соответствующими значениями первичных параметров речевого сигнала (интенсивности, темпа, спектральной плотности мощности и др.);
- использованием вейвлета Морле в качестве материнского вейвлета в непрерывном вейвлет-преобразовании речевого сигнала, что повышает различимость существенных параметров;
- применением евклидовой невязки в качестве меры различимости, что позволяет однозначно и прецизионно сопоставлять текущее эмоциональное состояние диктора одновременно со всем набором детектируемых эмоциональных состояний по единственному текущему численному значению.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ КОНТАКТНО-РАЗНОСТНОЙ АКУСТИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ | 2011 |
|
RU2451346C1 |
СИСТЕМА ЭМОЦИОНАЛЬНОЙ СТАБИЛИЗАЦИИ РЕЧЕВЫХ КОММУНИКАЦИЙ "ЭМОС" | 2008 |
|
RU2408087C2 |
Биометрический способ идентификации абонента по речевому сигналу | 2020 |
|
RU2742040C1 |
СПОСОБ ГИБРИДНОЙ ГЕНЕРАТИВНО-ДИСКРИМИНАТИВНОЙ СЕГМЕНТАЦИИ ДИКТОРОВ В АУДИО-ПОТОКЕ | 2013 |
|
RU2530314C1 |
АНАЛИЗАТОР РЕЧИ, ОБНАРУЖИВАЮЩИЙ ЧАСТОТУ ОСНОВНОГО ТОНА, СПОСОБ АНАЛИЗА РЕЧИ И ПРОГРАММА АНАЛИЗА РЕЧИ | 2006 |
|
RU2403626C2 |
СИСТЕМА ИСКАЖЕНИЯ ГОЛОСА ДИКТОРА | 2009 |
|
RU2403627C1 |
СПОСОБ ОБНАРУЖЕНИЯ ЭМОЦИЙ ПО ГОЛОСУ | 2012 |
|
RU2510955C2 |
СПОСОБ ОБНАРУЖЕНИЯ ЭМОЦИЙ, СПОСОБ ГЕНЕРИРОВАНИЯ ЧУВСТВИТЕЛЬНОСТИ И СИСТЕМА И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ ИХ ОСУЩЕСТВЛЕНИЯ | 2001 |
|
RU2287856C2 |
СИСТЕМА ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ДИКТОРА | 2009 |
|
RU2385272C1 |
СПОСОБ ДИАГНОСТИКИ ПСИХОЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ПО ГОЛОСУ | 2019 |
|
RU2718868C1 |
Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др. Технический результат заключается в повышении достоверности и воспроизводимости оценок эмоционального состояния диктора. Способ заключается в записи речевого сигнала и его последующей обработке, включающей в себя расчет коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости. Коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования. 1 з.п. ф-лы, 1 ил.
1. Способ выявления эмоционального состояния человека (депрессия, тоска, печаль, норма, радость, страх, гнев) по голосу, заключающийся в записи речевого сигнала и его последующей обработке, включающей в себя расчет частотно-временных параметров в виде коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости, отличающийся тем, что коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования, эмоциональное состояние выявляется по наименьшему из значений меры различимости для всех эмоциональных состояний человека в базе данных, а для исключения из анализа речевого сигнала с не соответствующим базе данных эмоциональным состоянием диктора проводится сравнение меры различимости с заданным пороговым значением.
2. Способ по п. 1, отличающийся тем, что при вычислении коэффициентов локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала используется вейвлет Морле.
СПОСОБ РАСПОЗНАВАНИЯ ФОНЕМ РЕЧИ И УСТРОЙСТВО ДЛЯ РЕАЛИЗАЦИИ СПОСОБА | 2004 |
|
RU2268504C9 |
RU 2012109382 A, 12.03.2012 | |||
СПОСОБ ОБНАРУЖЕНИЯ ЭМОЦИЙ, СПОСОБ ГЕНЕРИРОВАНИЯ ЧУВСТВИТЕЛЬНОСТИ И СИСТЕМА И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ ИХ ОСУЩЕСТВЛЕНИЯ | 2001 |
|
RU2287856C2 |
RU 2007149237 A, 20.07.2009 | |||
УСТРОЙСТВО И СПОСОБЫ ДЛЯ ДЕТЕКТИРОВАНИЯ ЭМОЦИЙ | 1998 |
|
RU2294023C2 |
JP 2008269065 A, 06.11.2008 |
Авторы
Даты
2015-06-10—Публикация
2012-08-29—Подача