СПОСОБ ВЫЯВЛЕНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА ПО ГОЛОСУ Российский патент 2015 года по МПК G10L25/63 G06N5/00 

Описание патента на изобретение RU2553413C2

Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др.

Известен способ обнаружения эмоций (Патент РФ №2287856, G06N 5/00, G10L 15/00, G06K 9/00, 2006), заключающийся в записи и анализе голосового сигнала, при котором выявляется изменение во времени, во-первых, интенсивности голоса, во-вторых, его темпа как характеристики скорости изменения голосового сигнала и, в-третьих, его интонации, характеризующей изменение интенсивности в каждом отрезке голосового сигнала. По полученным трем величинам изменения параметров голосового сигнала автоматически определяются состояния по меньшей мере гнева, печали и удовольствия.

Указанный способ характеризуется низкой достоверностью и плохой воспроизводимостью результатов, из-за неустойчивости к вариациям произнесения речевого материала диктором, так как результат детектирования эмоций существенным образом зависит от набора и характеристик голосовых фильтров, применяемых для установления специфических текстозависимых частотных компонент речевого сигнала;

отсутствия критерия оценки численного значения характерного времени речевых сегментов, соответствующего конкретной эмоции, а также математической неопределенности критерия выявления значимого рассогласования для различных эмоций «рисунка изменения интенсивности» в каждом слове голоса.

В другом способе определения эмоционального состояния человека по голосу (Горшков Ю.Г. Новые решения речевых технологий безопасности / Ю.Г.Горшков // Специальная техника. - 2006. - №4. - С.1-13) из записанного речевого сигнала с применением вейвлет-анализа выделяются и анализируются одновременно его основные параметры и кратковременные высокочастотные составляющие.

Недостатком данного способа является ограниченность его применения и неоднозначность получаемых результатов из-за отсутствия критериев различия и мер различимости, необходимых для детектирования эмоций, а также неопределенности параметров используемого вейвлета и выбора отсчетов масштаба вейвлет-преобразования.

Наиболее близким по совокупности признаков является способ анализа речи (Патент РФ №2403626, G10L 11/04, 2010), заключающийся в записи голосового сигнала диктора, его интегральном преобразовании в амплитудный спектр, вычислении автокорреляционного колебания при сдвиге полученного амплитудного спектра на частотной оси и вычислении частоты основного тона на основе локального интервала между одним из максимумов и одним из минимумов автокорреляционного колебания с последующим анализом изменения частоты основного тона на основе меры различимости.

В способе не определена мера различимости для сравнения различных эмоций, не используется информация о значениях амплитуд спектральных компонент голосового сигнала (распределении энергии голосового сигнала в значимых для решаемой задачи областях его амплитудного спектра); не учитывается форма частотно-временного распределения спектральных компонент, которые существенным образом определяют эмоциональное состояние человека (Галунов В.И. О возможности определения эмоционального состояния по речи / В.И.Галунов // Речевые технологии. - 2008. - №1. - С.60-66).

Все это приводит к уменьшению достоверности оценок эмоционального состояния диктора и их плохой воспроизводимости для различных дикторов.

Заявляемое изобретение предназначено для повышения вероятности правильных оценок эмоционального состояния человека по его речевому сигналу за счет использования непрерывного вейвлет-преобразования в качестве ядра интегрального преобразования и общей для детектирования различных видов эмоционального состояния диктора меры различимости.

Технический результат заключается в повышении достоверности и воспроизводимости оценок эмоционального состояния диктора.

Технический результат достигается тем, что в известном способе выявления эмоционального состояния человека по голосу, заключающийся в записи речевого сигнала и его последующей обработке, включающей в себя расчет коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости, согласно изобретению, коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования; при этом для вычисления коэффициентов локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала используется вейвлет Морле.

Получаемый при осуществлении изобретения технический результат, а именно, повышение достоверности и воспроизводимости оценок эмоционального состояния человека по речевому сигналу, достигается за счет применения частотно-временного анализа существенных параметров речевого сигнала, адекватно описывающих эмоциональное состояние человека. В основе такого анализа лежит регистрация изменений во времени спектра непрерывного вейвлет-преобразования речевого сигнала, что позволяет получать аналитические выражения для практической оценки существенных параметров.

В непрерывном вейвлет-преобразовании в качестве материнского вейвлета используется вейвлет Морле (Голубинский А.Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Вестник ВИ МВД России. - 2011. - №3. - С.144-153), частотно-временные характеристики которого аналогичны характеристикам базилярной мембраны (Юрков П.Ю. Разработка и исследование методов и средств голосовой аутентификации с динамически изменяемым множеством ключевых слов: автореф. дис. канд. техн. наук: 05.13.19, 05.13.17 / П.Ю.Юрков. - Таганрог, 2006. - 16 с.). Существенные отсчеты масштаба непрерывного вейвлет-преобразования выбираются с использованием показательной аппроксимации функции масштаба (Голубинский А.Н., Асташов Р.А. К вопросу о выборе масштаба непрерывного вейвлет-преобразования для обработки речевых сигналов // Охрана, безопасность, связь - 2011: Материалы международной научно-практической конференции. Часть 1. - Воронеж: Воронежский институт МВД России, 2011. - С.64-68). Для детектирования эмоционального состояния применяется мера различимости между локальными спектрами НВП, что позволяет обеспечить повышение реальной и потенциальной точности оценки эмоционального состояния (Голубинский А.Н. Выявление эмоционального состояния человека по речевому сигналу на основе вейвлет-анализа // Вестник ВИ МВД России. - 2011. - №3. - С.144-153).

Заявляемый способ поясняется фиг.1, где схематически изображены основные блоки, реализующие способ выявления эмоционального состояния человека по голосу.

Блок-схема алгоритма выявления эмоционального состояния человека по голосу (фиг.1) включает источник речевого сигнала в цифровой или аналоговой форме, например микрофон (М) 1 и аналого-цифровой преобразователь (АЦП) 2, блок расчета существенных отсчетов масштаба непрерывного вейвлет-преобразования (БРСОМНВП) 3, блок расчета коэффициентов локального спектра непрерывного вейвлет-преобразования (БРКЛСНВП) 4, коммутатор 5, который работает следующим образом: нижнее положение переключателя - получение эталонных параметров голоса диктора, верхнее положение переключателя - детектирование эмоционального состояния, блок расчета мер различимости между локальными спектрами непрерывного вейвлет-преобразования (БРМРЛСНВП) 6, блок запоминания эталонных параметров голоса диктора (БЗЭПГД) 7, блок принятия решения об эмоциональном состоянии диктора (БПРЭСД) 8.

Предложенная блок-схема показывает работу в двух режимах: режиме обучения и режиме детектирования эмоционального состояния.

В режиме обучения речевой сигнал с микрофона 1 подают через АЦП 2 в блок 3, в котором на основе показательной аппроксимации функции масштаба вычисляются отсчеты масштаба НВП:

a m = a 0 2 Θ m = a 0 e θ m ,  m = 0 ,1 , ,M .                  ( 1 )

Константы в показателях (1) связаны выражением:

Θ=θ/ln(2).

Минимальное значение масштаба вейвлета:

,

где Δt - эффективный временной размер материнского вейвлета, для вейвлета Морле равный: ; fd - частота дискретизации; σ - параметр масштаба.

Номер наибольшего отсчета масштаба рассчитывается по формуле:

Здесь   - округление до ближайшего целого числа; fmin - минимальная существенная частота в спектре речевого сигнала;

,

где ξ - доминантная частота, принимаемая равной: ξ=5/σ.

Значение М-го отсчета масштаба рассчитывается по формуле:

.

Затем в блоке 4 осуществляется расчет коэффициентов локального спектра непрерывного вейвлет-преобразования по формуле:

здесь - коэффициенты дискретного преобразования Фурье для отсчетов xi, вычисляемые на основе алгоритма быстрого преобразования Фурье (Баскаков С.И. Радиотехнические цепи и сигналы: Учебник для вузов / С.И.Баскаков. - 4-е изд. - М.: Высшая школа, 2005. - С.389-395.); N - количество отсчетов; ψ(k,m) - преобразование Фурье от материнского вейвлета Морле:

После этого в блоке 7 осуществляется запоминание значений коэффициентов локального спектра непрерывного вейвлет-преобразования.

В режиме детектирования эмоционального состояния после процедуры расчета коэффициентов локального спектра непрерывного вейвлет-преобразования в блоке 6 осуществляется расчет меры различимости по формуле:

δ W q = m = 0 N a 1 n = 0 N b 1 ( E д Б в х ( m , n ) E д Б q ( m , n ) ) 2 m = 0 N a 1 n = 0 N b 1 ( E д Б 0 ( m , n ) ) 2 100 % .                      ( 4 )

Здесь E д Б в х - коэффициенты локального спектра непрерывного вейвлет-преобразования (в децибелах) входной реализации речевого сигнала; q = 1, Q ¯ , где Q - количество видов эмоциональных состояний человека (в базе данных), например: депрессия, тоска, печаль, норма, радость, страх, гнев; ЕдБ0(m,n) - локальный спектр непрерывного вейвлет-преобразования в логарифмическом масштабе для эмоции "норма".

Затем в блоке 8 осуществляется определение наименьшего значения меры различимости δ W min = min 4 [ δ W q ] . Если δWmin не превышает заданного порогового значения W0, то принимается решение, что входному речевому материалу соответствует эмоциональное состояние диктора, при котором наблюдалось δWmin.

Принципом детектирования какого-либо эмоционального состояния человека по его голосу, общим, для всех известных способов, является сравнение текущих значений некоторого набора параметров голосового сигнала, существенных для решения данной задачи, с «эталонными» значениями того же набора, однозначно характеризующими наличие данного эмоционального состояния. Вероятность соответствия текущего эмоционального состояния детектируемому состоянию будет тем выше, чем меньше значение меры различимости текущих и «эталонных» значений существенных параметров.

Достоверность способа детектирования эмоционального состояния диктора в общем случае обеспечивается эффективностью (прецизионностью) решающего критерия, состоящего из правила сравнения (решения) и меры различимости, т.е. в основном определяется прецизионностью меры различимости, которая в свою очередь обеспечивается:

- выбором существенных параметров как аргументов меры различимости;

- способом формирования значений существенных параметров, обеспечивающим высокую контрастность сопоставления текущего и заданного эмоционального состояния;

- способом формирования численного значения или вектора меры различимости.

Повышение вероятности правильного определения эмоционального состояния человека по его голосу в заявляемом способе обеспечивается:

- использованием в качестве существенных параметров коэффициентов локального спектра непрерывного вейвлет-преобразования, характеризующихся большой чувствительностью к изменению базовой функции, т.е. обладающих более существенными взаимными отличиями по сравнению с соответствующими значениями первичных параметров речевого сигнала (интенсивности, темпа, спектральной плотности мощности и др.);

- использованием вейвлета Морле в качестве материнского вейвлета в непрерывном вейвлет-преобразовании речевого сигнала, что повышает различимость существенных параметров;

- применением евклидовой невязки в качестве меры различимости, что позволяет однозначно и прецизионно сопоставлять текущее эмоциональное состояние диктора одновременно со всем набором детектируемых эмоциональных состояний по единственному текущему численному значению.

Похожие патенты RU2553413C2

название год авторы номер документа
СПОСОБ КОНТАКТНО-РАЗНОСТНОЙ АКУСТИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ 2011
  • Дворянкин Сергей Владимирович
  • Голубинский Андрей Николаевич
RU2451346C1
СИСТЕМА ЭМОЦИОНАЛЬНОЙ СТАБИЛИЗАЦИИ РЕЧЕВЫХ КОММУНИКАЦИЙ "ЭМОС" 2008
  • Баклаев Александр Вадимович
  • Струценко Алла Анатольевна
RU2408087C2
Биометрический способ идентификации абонента по речевому сигналу 2020
  • Мельник Сергей Владиславович
RU2742040C1
СПОСОБ ГИБРИДНОЙ ГЕНЕРАТИВНО-ДИСКРИМИНАТИВНОЙ СЕГМЕНТАЦИИ ДИКТОРОВ В АУДИО-ПОТОКЕ 2013
  • Хитров Михаил Васильевич
  • Пеховский Тимур Сахиевич
  • Шулипа Андрей Константинович
RU2530314C1
АНАЛИЗАТОР РЕЧИ, ОБНАРУЖИВАЮЩИЙ ЧАСТОТУ ОСНОВНОГО ТОНА, СПОСОБ АНАЛИЗА РЕЧИ И ПРОГРАММА АНАЛИЗА РЕЧИ 2006
  • Мицуёси Сундзи
  • Огата Каору
  • Монма Фумиаки
RU2403626C2
СИСТЕМА ИСКАЖЕНИЯ ГОЛОСА ДИКТОРА 2009
  • Котов Михаил Андреевич
  • Леднов Дмитрий Анатольевич
  • Меркулов Максим Николаевич
  • Хацкевич Андрей Валентинович
RU2403627C1
СПОСОБ ОБНАРУЖЕНИЯ ЭМОЦИЙ ПО ГОЛОСУ 2012
  • Саитов Игорь Акрамович
  • Басов Олег Олегович
  • Ягупов Владимир Александрович
RU2510955C2
СПОСОБ ОБНАРУЖЕНИЯ ЭМОЦИЙ, СПОСОБ ГЕНЕРИРОВАНИЯ ЧУВСТВИТЕЛЬНОСТИ И СИСТЕМА И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ ИХ ОСУЩЕСТВЛЕНИЯ 2001
  • Мицуеси Синдзи
RU2287856C2
СИСТЕМА ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ДИКТОРА 2009
  • Зыков Александр Павлович
  • Леднов Дмитрий Анатольевич
  • Меркулов Максим Николаевич
RU2385272C1
СПОСОБ ДИАГНОСТИКИ ПСИХОЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ПО ГОЛОСУ 2019
  • Макуха Владимир Карпович
  • Чухрова Марина Юрьевна
  • Фетисова Ольга Геннадьевна
  • Боровикова Дарья Владимировна
RU2718868C1

Реферат патента 2015 года СПОСОБ ВЫЯВЛЕНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА ПО ГОЛОСУ

Изобретение относится к системам анализа речи и может быть использовано для определения эмоционального состояния человека по голосу, применительно к задачам криминалистики, медицины, системам контроля и управления доступом и др. Технический результат заключается в повышении достоверности и воспроизводимости оценок эмоционального состояния диктора. Способ заключается в записи речевого сигнала и его последующей обработке, включающей в себя расчет коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости. Коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования. 1 з.п. ф-лы, 1 ил.

Формула изобретения RU 2 553 413 C2

1. Способ выявления эмоционального состояния человека (депрессия, тоска, печаль, норма, радость, страх, гнев) по голосу, заключающийся в записи речевого сигнала и его последующей обработке, включающей в себя расчет частотно-временных параметров в виде коэффициентов интегрального преобразования путем свертки речевого сигнала с ядром преобразования, и последующем анализе полученных коэффициентов на основе меры различимости, отличающийся тем, что коэффициентами интегрального преобразования являются коэффициенты локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала, и мерой различимости является евклидова невязка между локальными спектрами непрерывного вейвлет-преобразования, эмоциональное состояние выявляется по наименьшему из значений меры различимости для всех эмоциональных состояний человека в базе данных, а для исключения из анализа речевого сигнала с не соответствующим базе данных эмоциональным состоянием диктора проводится сравнение меры различимости с заданным пороговым значением.

2. Способ по п. 1, отличающийся тем, что при вычислении коэффициентов локального вейвлет-спектра непрерывного вейвлет-преобразования речевого сигнала используется вейвлет Морле.

Документы, цитированные в отчете о поиске Патент 2015 года RU2553413C2

СПОСОБ РАСПОЗНАВАНИЯ ФОНЕМ РЕЧИ И УСТРОЙСТВО ДЛЯ РЕАЛИЗАЦИИ СПОСОБА 2004
  • Гиголо Людмила Антоновна
  • Сахаров Виталий Олегович
RU2268504C9
RU 2012109382 A, 12.03.2012
СПОСОБ ОБНАРУЖЕНИЯ ЭМОЦИЙ, СПОСОБ ГЕНЕРИРОВАНИЯ ЧУВСТВИТЕЛЬНОСТИ И СИСТЕМА И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ ИХ ОСУЩЕСТВЛЕНИЯ 2001
  • Мицуеси Синдзи
RU2287856C2
RU 2007149237 A, 20.07.2009
УСТРОЙСТВО И СПОСОБЫ ДЛЯ ДЕТЕКТИРОВАНИЯ ЭМОЦИЙ 1998
  • Либерман Амир
RU2294023C2
JP 2008269065 A, 06.11.2008

RU 2 553 413 C2

Авторы

Голубинский Андрей Николаевич

Булгаков Олег Митрофанович

Асташов Роман Анатольевич

Николаенков Юрий Кимович

Даты

2015-06-10Публикация

2012-08-29Подача