Изобретение относится к средствам распознавания эмоциональных состояний человека по анализу голосоречевого сигнала, и может быть использовано в медицине, а именно в функциональной диагностике, в психологии, педагогике, социальной работе и в современных инфокоммуникационных системах, а также при массовых обследованиях детей с целью выявления неинвазивным методом психоэмоциональных нарушений: тревожности, депрессивности, агрессивности, а также может применяться в интеллектуальных инфокоммуникационных системах, для определения ряда кратковременных и долговременных эмоциональных состояний.
Современные исследования показывают, что на сегодняшний день в мире не уменьшается количество лиц, страдающих различными психологическими расстройствами: депрессией, тревожностью, агрессивностью. Подобные психоэмоциональные нарушения в значительной мере отражаются на речи человека, в частности, ребенка [Чухрова М.Г. Взаимосвязь психоэмоционального состояния младших школьников и их голосоречевых характеристик // Наука и социум / Мат. Всерос. Науч.-практ. конф. с междунар.участием. 1 марта 2018 г. - Новосибирск: Изд-во ЧУДПО СИПППиСР. - с. 99-104.], Их своевременное выявление способно предотвратить ряд осложнений и оказать эффективную и своевременную психологическую или врачебную помощь. Раньше подобные изменения голоса пациента определялись специалистом на слух. Однако данный способ является субъективным, зависит от профессионализма специалиста, а также имеет большую вероятность ошибки. К тому же очень тяжело отследить подобные изменения в динамике. С развитием технологий цифровой обработки сигнала появилась возможность переложить эту функцию на интеллектуальные системы обработки сигналов. Такой способ количественной оценки наличия и степени выраженности той или иной эмоциональной составляющей позволит выявлять ряд психоэмоциональных нарушений на ранней стадии и с высокой точностью, а также объективно оценивать динамику их изменений во времени, в том числе и в процессе проведения того или иного вида терапии.
Подобные методики обнаружения голоса также находят эффективное применение в ряде информационных и инфокоммуникационных технологиях, использующихся в различных специальных системах, в том числе и для русскоговорящих абонентов.
Известны способы диагностики психоэмоционального состояния по голосу (патенты RU 2068653 Способ оценки эмоциональной и стрессовой напряженности, Аракелов Геннадий Гургенович, Караваев Сергей Юрьевич, дата приоритета 10.11.1996 и RU 2073484 Способ определения эмоционального стресса и устройство для его осуществления, Юматов Е.А., Судаков К.В., Тараканов О.П. дата приоритета 20.02.1997). Методики, изложенные в патентах включают в себя регистрацию кожно-гальванической реакции, частоты сердечных сокращений и частоты дыхания. Определяется динамика изменения каждого из параметров, которая и предоставляет информацию о наличии у испытуемого эмоциональной напряженности.
Данные аналоги имеют ряд недостатков, заключающихся главным образом в том, что для обнаружения эмоций обязательным является использование датчиков, что делает невозможным использование данных методов в ряде современных информационных систем, работающих удаленно.
Известен способ диагностики психоэмоционального состояния по голосовому сигналу, предложенный В.П. Морозовым [В.П. Морозов. Невербальная коммуникация: Экспериментально-психологическое исследование. - М.: Изд-во «Институт психологии РАН», 2011. - 528 с.]. В основе данного способа лежит анализ ряда голосовых характеристик, среди которых изменение высокой певческой форманты (ВПФ), как спектральной характеристики, отображающей тембр голоса; изменение частоты основного тона (ЧОТ), как характеристики интонации и мелодики голоса; темпоритмические характеристики, такие как длительность фронтов нарастания и спада звука; сила голоса, как энергетическая характеристика сигнала.
Данный метод диагностики имеет ряд недостатков. Во-первых, необходимо постоянное присутствие специалиста, процесс комплексного акустического анализа сигнала не автоматизирован. Во-вторых, тембральные характеристики голоса оцениваются лишь одним параметров ВПФ, что не позволяет диагностировать ряд распространенных психоэмоциональных нарушений, таких как тревога, депрессия, агрессия, аутоагрессия, особенно распространенных не только среди взрослых, но и среди детей школьного и младшего школьного возраста.
Наиболее близким по технической сущности к заявляемому способу и выбранным в качестве прототипа является способ диагностики психоэмоционального состояния по голосу (патент RU 2510955 Способ обнаружения эмоций по голосу, Сайтов Игорь Акрамович, Басов Олег Олегович, Ягупов Владимир Александрович дата приоритета 12.03.2012), заключающийся в том, что обнаруживают интенсивности голоса и темпа, определяемого скоростью, с которой появляется голос, соответственно, и обнаруживают в виде величины времени интонацию, которая отражает рисунок изменения интенсивности в каждом слове, выполняемом голосом, на основе введенного голосового сигнала; получают первую величину изменения, указывающую изменение интенсивности обнаруженного голоса в направлении оси времени, и вторую величину изменения, указывающую изменение темпа голоса в направлении оси времени, и третью величину изменения, указывающую изменение интонации голоса в направлении оси времени, отличающийся тем, что вводят голосовой сигнал русскоязычного абонента, а затем обнаруживают интенсивности голоса и темпа; после того как получают третью величину измерения, обнаруживают ЧОТ голосового сигнала и получают четвертую величину изменения, указывающую изменение ЧОТ в направлении оси времени; генерируют сигналы, выражающие эмоциональное состояние гнева, страха, печали и удовольствия, соответственно, на основе указанных первой, второй, третьей и четвертой величин изменения.
Способ-прототип предусматривает распознавание эмоций на основе изменений значений ЧОТ во времени, интенсивности, и темпоритма.
Недостаток данного способа заключается в том, что проведенные исследования показывают [Чухрова М.Г. Взаимосвязь психоэмоционального состояния младших школьников и их голосоречевых характеристик // Наука и социум / Мат. Всерос. Науч.-практ. конф. с междунар. участием. 1 марта 2018 г. - Новосибирск: Изд-во ЧУДПО СИПППиСР. - с. 99-104.], что эмоциональное состояние человека главным образом влияет на целый ряд спектральных характеристик голосового сигнала, и не может быть оценено лишь частотой основного тона. Исследования показывают, что сигнал до 200-300 Гц несет в себе в первую очередь информацию о вербальной составляющей сигнала. Если же пропустить голосовой сигнал через цифровой фильтр, удаляющий частоты до 300 Гц, то полученный сигнал не будет нести вербальную (информационную) составляющую, а информация об эмоциональной составляющей, напротив, сохранится.
К еще одному недостатку способа-прототипа можно отнести тот факт, что изменение ЧОТ, не способно обнаружить в голосовом сигнале такие распространенные долговременные психоэмоциональные нарушения как тревога, депрессия, агрессия, аутоагрессия.
Техническим результатом изобретения является повышение точности определения эмоционального состояния говорящего, и выявление психоэмоциональных расстройств, такие, как тревожность, депрессивность, агрессивность, аутоагрессия.
В заявленном способе эта задача решается обнаруживают интенсивности голоса и темпа, определяемого скоростью, с которой появляется голос, соответственно, и обнаруживают в виде величины времени интонацию, которая отражает рисунок изменения интенсивности в каждом слове, выполняемом голосом, на основе введенного голосового сигнала; получают первую величину изменения, указывающую изменение интенсивности обнаруженного голоса в направлении оси времени, и вторую величину изменения, указывающую изменение темпа голоса в направлении оси времени, и третью величину изменения, указывающую изменение интонации голоса в направлении оси времени, отличающийся тем, что вводят голосовой сигнал русскоязычного абонента, обнаруживают интенсивности голоса и темпа; после того как получают третью величину измерения, обнаруживают ЧОТ голосового сигнала и получают четвертую величину изменения, указывающую изменение ЧОТ в направлении оси времени; дополнительно обнаруживают величину коэффициента голосовой гармонизации и получают пятую величину изменения, указывающую изменение коэффициента голосовой гармонизации в направлении оси времени, генерируют сигналы, выражающие эмоциональное состояние гнева, страха, печали и удовольствия, соответственно, а также такие психоэмоциональные нарушения, как тревога, депрессия, агрессия, аутоагрессия на основе указанных первой, второй, третьей, четвертой и пятой величин изменения.
Новая совокупность существенных признаков позволяет достичь указанного технического результата за счет обнаружения изменения коэффициента голосовой гармонизации (КГГ), как параметра, определяющего тембральные изменения голоса. Введения данного параметра позволяет определять ряд базовых кратковременных эмоциональных состояний (гнев, страх, печаль, удовольствие) в совокупности с четырьмя другими величинами, так и может автономно, вне зависимости от значений других величин, обнаружить в речи говорящего такие долговременные психоэмоциональные расстройства, как тревога, депрессия, агрессия и аутоагрессия.
Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного способа обнаружения эмоций, отсутствуют. Следовательно, заявленное изобретение соответствует условию патентоспособности «новизна».
Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».
На чертеже представлен вариант реализации системы обнаружения эмоций по голосу, согласно предлагаемому способу, которая включает в себя микрофон (1), аналогово-цифровой преобразователь (АЦП) (2), блок обработки сигнала (3), блок обнаружения интенсивности (4), блок обнаружения ЧОТ (5), блок обнаружения фонем (6), блок обнаружения слов (7), блок обнаружения коэффициента голосовой гармонизации (КГГ) (8), блок временного хранения данных (9), блок обнаружения изменения интенсивности (10), блок обнаружения изменения ЧОТ (11), блок обнаружения изменения темпа речи (12), блок обнаружения изменения тембра (13), блок диагностики психоэмоционального состояния (14).
Реализация заявленного способа заключается в следующем.
Голосовой сигнал поступает на микрофон 1, при помощи усилителя и АЦП 2 преобразуется в цифровой сигнал, который поступает в блок обработки сигналов 3. В данном блоке происходит цифровая обработка сигналов и вычисление необходимых параметров. После блока обработки сигналов 3 полученная информация анализируется каждым блоком 4-8 в отдельности, для получения совокупности акустических характеристик.
Блок 4 обнаружения интенсивности определяет интенсивность сигнала в каждый момент времени, заранее сегментированного блоком обработки сигналов 3. При этом интенсивность может определяться, как усредненная за данный промежуток времени величина, однако при этом данный блок обязательно учитывает характеристики микрофона 1 (чувствительность, диапазон, направленность), которые необходимы для точного определения интенсивности сигнала.
Блок 5 обнаружения ЧОТ производит быстрое преобразование Фурье (FastFourierTransmission - FFT) полученного после блока 3 сигнала, для получения спектра. Из полученного спектра выделяется частота, соответствующая первой гармонике сигнала - частота основного тона. Ее значение не усредняется, а считается после спектрального анализа всего массива, сегментированного блоком 3. Алгоритм поиска частоты основного тона может быть реализован, например, в соответствии с известным решением (патент №78977 дата приоритета 10.12.2008).
Блок 6 обнаружения фонем реализует сегментацию сигнала путем нахождения момента начала фонемы и фиксацию времени до появления следующей фонемы, что впоследствии определяет темпоритмический рисунок речи.
Блок 7 обнаружения слов реализует сегментацию словесной структуры сигнала и может быть реализован, например, в соответствии с решением, приведенным в прототипе (патент RU 2510955 Способ обнаружения эмоций по голосу, Сайтов Игорь Акрамович, Басов Олег Олегович, Ягупов Владимир Александрович дата приоритета 12.03.2012).
Блок 8 КГГ рассчитывает различные вариации коэффициента согласно патент RU 2433488 Способ выявления патологии голосоведения в речи, Воронин Евгений Михайлович, Дериглазов С.С, Ламтюгин Д.В., Макуха В.К., Марков А.В., Фетисова О.Г. дата приоритета 09.02.2010). Для этого необходимо получить спектр сигнала, поступившего на вход блока 8. Далее из спектра получить значения соответствующих гармоник. Отношение суммы определенного набора относительно высокочастотных гармоник к сумме определенного набора относительно низкочастотных гармоник и будет представлять собой значение данного коэффициента. При этом номера гармоник подбираются в зависимости от типа определяемого психоэмоционального расстройства. Так для депрессии и соответствующих ей психоэмоциональных состояний наиболее показательным является значение КГГ, где в качестве высокочастотных гармоник выбрана 4 гармоника, а в качестве низкочастотных 1 и 2. Введение в систему данного блока и характерной особенностью предлагаемого решения является возможность диагностирования некоторых долговременных психоэмоциональных расстройств в частности тревоги, депрессии, агрессии и аутоагрессии за счет расчета и отслеживания изменений во времени только данного коэффициента голосовой гармонизации, получаемого в блоке 108. В этом случае получение параметров блоков 4-7 не является обязательным, а лишь может уточнить точность определения кратковременных эмоций.
Блок 9 временного хранения данных предназначен для реализации возможности получения временной картины изменений получаемых параметров. За счет реализации такой динамической регистрации блоки 10-13 обнаруживают временные зависимости каждого из получаемых параметров, что непосредственно является объективными характеристиками эмоциональной составляющей голосоречевого сигнала. Так блок 11 обнаружения изменения ЧОТ позволяет получить объективную информацию об интонации голосового сообщения. Блок 12 определяет темпоритимические характеристики базируясь на временных интервалах, определяемых блоками 6 и 7. Блок 13 определяет изменение значения КГГ во времени, что позволяет получить картину изменений тембра голосового сигнала.
Блок 14 диагностики психоэмоционального состояния получает на вход зависимости изменений параметров блоков 10-13 от времени и на основании входных данных делается вывод о наличии в голосовом сообщении того или иного типа эмоции или психоэмоционального нарушения.
Заявленный способ обнаружения эмоций по голосу обеспечивает повышение точности определения кратковременного эмоционального состояния русскоговорящего человека, а также позволяет определить ряд долговременных психоэмоциональных нарушений, таких как тревога, депрессия, агрессия, аутоагрессия.
Для доказательства достижения заявленного технического результата приведены следующие экспериментальные исследования. Было протестировано 38 школьников младшего школьного возраста, среди которых, была контрольная группа (10 человек) школьников, не имеющих каких-либо психоэмоциональных расстройств, и экспериментальной группы имеющие следующие психоэмоциональных нарушения: тревога (6), депрессия (8), агрессия (7), аутоагрессия (7). Результаты оценивания согласно способу-прототипу и предлагаемому способу указывают на повышение точности определения данных психоэмоциональных нарушений взаявляемом способе и на возможность решения поставленной задачи изобретения.
Пример.
Анализ голосоречевого профиля в сравнении экспериментальной и контрольной групп представлен в табл. 1, 2. В табл. 1 представлены голосоречевые характеристики детей из контрольной группы, здоровый контингент, в возрасте от 6 до 9 лет, из них 10 мальчиков и 15 девочек.
В табл. 2 представлены голосоречевые характеристики детей из экспериментальной группы, в возрасте от 6 до 9 лет, из них 14 мальчиков и 11 девочек. Дети страдают различными формами психоэмоциональных нарушений: агрессивность, депрессивность, тревожность.
При сопоставлении результатов оценки голосоречевых характеристик в контрольной и экспериментальной выборках был установлен ряд различий, который касался всех исследуемых голосоречевых характеристик. Статистический анализ по методу Стьюдента показал достоверность выявленных различий на уровне р<0,005-0,001.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ РАСПОЗНАВАНИЯ ФУНКЦИОНАЛЬНОГО СОСТОЯНИЯ "ПСИХОЭМОЦИОНАЛЬНОЕ НАПРЯЖЕНИЕ" | 2021 |
|
RU2776392C1 |
СПОСОБ ОБНАРУЖЕНИЯ ЭМОЦИЙ ПО ГОЛОСУ | 2012 |
|
RU2510955C2 |
СИСТЕМА ЭМОЦИОНАЛЬНОЙ СТАБИЛИЗАЦИИ РЕЧЕВЫХ КОММУНИКАЦИЙ "ЭМОС" | 2008 |
|
RU2408087C2 |
СПОСОБ ОБНАРУЖЕНИЯ ЭМОЦИЙ, СПОСОБ ГЕНЕРИРОВАНИЯ ЧУВСТВИТЕЛЬНОСТИ И СИСТЕМА И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ ИХ ОСУЩЕСТВЛЕНИЯ | 2001 |
|
RU2287856C2 |
СПОСОБ ПСИХОТЕРАПЕВТИЧЕСКОГО УСТРАНЕНИЯ ФОБИИ, УСТРОЙСТВО И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ РЕАЛИЗАЦИИ СПОСОБА | 2023 |
|
RU2822327C1 |
СПОСОБ ВЫЯВЛЕНИЯ ЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА ПО ГОЛОСУ | 2012 |
|
RU2553413C2 |
Способ определения эмоционального состояния человека | 2019 |
|
RU2732213C1 |
СПОСОБ ОЦЕНКИ ДОСТОВЕРНОСТИ СООБЩАЕМОЙ ИНФОРМАЦИИ НА ОСНОВЕ АНАЛИЗА ДИНАМИКИ ПАРАМЕТРОВ НЕВЕРБАЛЬНОГО И ВЕРБАЛЬНОГО КОМПОНЕНТОВ ЭКСПРЕССИВНОЙ РЕЧИ | 2010 |
|
RU2438558C1 |
Способ определения эмоционального состояния человека | 2019 |
|
RU2700537C1 |
АНАЛИЗАТОР РЕЧИ, ОБНАРУЖИВАЮЩИЙ ЧАСТОТУ ОСНОВНОГО ТОНА, СПОСОБ АНАЛИЗА РЕЧИ И ПРОГРАММА АНАЛИЗА РЕЧИ | 2006 |
|
RU2403626C2 |
Изобретение относится к средствам распознавания эмоциональных состояний человека по анализу голосового сигнала. Технический результат заключается в повышении точности определения психоэмоционального состояния человека. Обнаруживают интенсивности голоса и темпа, определяемого скоростью, с которой появляется голос. Обнаруживают в виде величины времени интонацию, которая отражает рисунок изменения интенсивности в каждом слове, выполняемом голосом, на основе введенного голосового сигнала. Получают первую величину изменения, указывающую изменение интенсивности обнаруженного голоса в направлении оси времени, вторую величину изменения, указывающую изменение темпа голоса в направлении оси времени, и третью величину изменения, указывающую изменение интонации голоса в направлении оси времени. Обнаруживают частоту основного тона голосового сигнала и получают четвертую величину изменения, указывающую изменение частоты основного тона в направлении оси времени. Обнаруживают величину коэффициента голосовой гармонизации и получают пятую величину изменения, указывающую изменение коэффициента голосовой гармонизации в направлении оси времени. Генерируют сигналы, выражающие эмоциональное состояние гнева, страха, печали, удовольствия, тревоги, депрессии, агрессии, аутоагрессии. 1 ил., 2 табл.
Способ обнаружения эмоций по голосу, заключающийся в том, обнаруживают интенсивности голоса и темпа, определяемого скоростью, с которой появляется голос, соответственно, и обнаруживают в виде величины времени интонацию, которая отражает рисунок изменения интенсивности в каждом слове, выполняемом голосом, на основе введенного голосового сигнала; получают первую величину изменения, указывающую изменение интенсивности обнаруженного голоса в направлении оси времени, и вторую величину изменения, указывающую изменение темпа голоса в направлении оси времени, и третью величину изменения, указывающую изменение интонации голоса в направлении оси времени, отличающийся тем, что вводят голосовой сигнал русскоязычного абонента, обнаруживают интенсивности голоса и темпа; после того как получают третью величину измерения, обнаруживают частоту основного тона голосового сигнала и получают четвертую величину изменения, указывающую изменение частоты основного тона в направлении оси времени; дополнительно обнаруживают величину коэффициента голосовой гармонизации и получают пятую величину изменения, указывающую изменение коэффициента голосовой гармонизации в направлении оси времени, генерируют сигналы, выражающие эмоциональное состояние гнева, страха, печали и удовольствия соответственно, а также такие психоэмоциональные нарушения, как тревога, депрессия, агрессия, аутоагрессия, на основе указанных первой, второй, третьей, четвертой и пятой величин изменения.
СПОСОБ ВЫЯВЛЕНИЯ ПАТОЛОГИИ ГОЛОСОВЕДЕНИЯ В РЕЧИ | 2010 |
|
RU2433488C1 |
СПОСОБ ОБНАРУЖЕНИЯ ЭМОЦИЙ ПО ГОЛОСУ | 2012 |
|
RU2510955C2 |
Конвейер | 1949 |
|
SU78977A1 |
RU 2073484 C1, 20.02.1997 | |||
СПОСОБ ОЦЕНКИ ЭМОЦИОНАЛЬНОЙ И СТРЕССОВОЙ НАПРЯЖЕННОСТИ | 1995 |
|
RU2068653C1 |
US 7778730 B2, 17.08.2010 | |||
US 8204747 B2, 19.06.2012. |
Авторы
Даты
2020-04-15—Публикация
2019-06-19—Подача