Способ определения признаков паркинсонизма по голосу с использованием искусственного интеллекта Российский патент 2025 года по МПК A61B10/00 G16H10/60 G16H50/20 

Описание патента на изобретение RU2841464C2

Изобретение относится к области информационных и коммуникационных технологий (ИКТ), специально предназначенных для медицинской диагностики и мониторинга.

Уровень техники.

Из уровня техники известна система распознавания речи у людей с болезнью Паркинсона, основанная на интегрированном уменьшении размерности многообразия, патент на изобретение (CN111210846B, опуб. 05.07.2022). Изобретение представляет собой систему распознавания речи при болезни Паркинсона, основанную на интегрированном уменьшении многомерности и содержит: 1) блок сбора данных: обучающих, проверочных и тестовых данных; 2) модуль классификатора, который выполняет классификацию и идентификацию тестовых данных; 3) модуль вывода, который используется для вывода окончательного результата распознавания. Данное изобретение представляет собой способ извлечения речевых характеристик при помощи алгоритма LPP (Local Preserved Projection), который в большей степени сохраняет суть данных при уменьшении их размерности. После извлечения данных применяется один из двух предложенных алгоритмов машинного обучения: SVM (Support Vector Machine), RF (Random Forest); или однослойная нейронная сеть ELM (Extreme Leaning Machine).

Отличия от заявленного технического решения: упор на подготовку и извлечение характеристик из данных, меньшую роль играет модель классификации, поэтому выбраны нересурсозатратные алгоритмы машинного обучения (они не извлекают характеристики из данных самостоятельно) и однослойная нейронная сеть. Качество предложенного авторами подхода сильно зависит от качества работы с данными и в меньшей степени от выбранных алгоритмов классификации.

Из уровня техники также известны системы и методы скрининга неврологических и других заболеваний с использованием речевого поведения субъекта, патент на изобретение (US 20120265024 A1, опуб. 22.07.2014). В данном изобретении из записей речи и/или записей звука (фонем) при помощи алгоритма авторы представленного патента извлекают характеристики, по которым происходит сравнение данных пациента с эталонными данными. В качестве такого алгоритма авторы предлагают: статистический подход, распознавание паттернов и/или алгоритмы машинного обучения (Hidden Markov-models, SVM, neural networks).

Стоит отметить год предложенного решения (не патентования), к которому не было еще представлено современных нейросетевых архитектур, которые смогли бы качественно извлекать нужные признаки из записей пациентов.

Самое большое технологическое отличие в том, что заявляемое техническое решение имеет нейросетевые архитектуры для решения задачи диагностики пациентов, при тонкой настройке которых не потребуется вручную извлекать акустические характеристики из аудиозаписей. Следует отметить, что заявленное техническое решение используется в целях скрининговой диагностики по аудиозаписям у пациентов не только с болезнью Паркинсона, но и у пациентов с паркинсонизм-плюс синдромами, а также вторичным паркинсонизмом.

Следует отметить, что многие решения используют модели, обученные на очень малом количестве аудиозаписей с голосом субъектов (меньше 50 субъектов), чего не хватает для обучения более сложных алгоритмов, а также не является достаточно репрезентативной выборкой пациентов. Данные чаще всего не структурированы, в ходе аудиозаписей пациенты могут выполнять разные задания, и такие данные не всегда позволяют точно определить болезнь Паркинсона, в отличие от случая выполнения однотипных задач всеми пациентами (например, протяжное произнесение одной фонемы в течение некоторого времени).

Вышеуказанные технические решения, как и заявляемое изобретение, позволяют так или иначе проводить анализ аудиозаписей, однако принцип и порядок работы анализа существенно отличается от реализованного в настоящем изобретении.

Раскрытие изобретения

Для лучшего понимания настоящего изобретения ниже приведены и пояснены основные термины, использованные в настоящем описании изобретения. Если не определено отдельно, технические и научные термины в данной заявке имеют стандартные значения, общепринятые в научной и технической литературе.

С целью обеспечения достаточности раскрытия изобретения в отношении заявляемого технического решения ниже приведен перечень терминов, используемых в описании заявляемого изобретения.

АПИ (API) - программный интерфейс приложения, (набор классов, процедур, функций, структур или констант), которыми одна компьютерная система может взаимодействовать с другой системой, а также способ использования данных элементов с помощью какого-либо протокола.

Дизартрия - это расстройство речи, вызванное дискоординация совместной работы дыхательных мышц, голосовых связок, гортани, неба, языка, губ при нарушении иннервации речевого аппарата на любом уровне: от коры головного мозга до периферических нервов, а также на уровне мозжечка либо подкорковых ядер. При болезни Паркинсона развивается специфическая гипокинетическая дизартрия, которая характеризуется пониженной громкостью голоса, монотонностью, уменьшенным фундаментальным диапазоном частот, неточностью артикуляции согласных и гласных, поверхностным дыханием, короткими всплесками речи и нерегулярными паузами.

Семантический анализ - важная подзадача обработки естественного языка (Natural Language Processing, NLP), этап в последовательности действий алгоритма автоматического понимания текстов, заключающийся в выделении семантических отношений, формировании семантического представления текстов.

Фонация - произношение, произносительный процесс человеческой речи.

Артикуляция - совместная работа речевых органов, необходимая для произнесения звуков речи.

Просодия - Система произношения ударных и неударных, долгих и кратких слогов в речи.

Биомаркеры - это какой-либо параметр, который поддается достоверному измерению и по которому можно узнать что-либо о состоянии здоровья или смерти человека: например, о наличии заболевания, физиологического изменения, реакции на лечение или психологического расстройства.

Паркинсонизм-плюс синдромы - синдром, характеризующийся наличием у пациента паркинсонизма и других признаков, таких как раннее нарушение равновесия/ падения, плохая реакция на препараты леводопы, раннее развитие когнитивных нарушений и вегетативной недостаточности и др.

Машинное обучение - это наука о разработке алгоритмов и статистических моделей, которые компьютерные системы используют для выполнения задач без явных инструкций, полагаясь вместо этого на шаблоны и логические выводы.

Нейросеть / нейросетевая модель - это упрощенная модель работы нервной системы живых организмов, базовые блоки которой называются нейронами и обычно сгруппированы в слои.

Нейродегенеративные заболевания - это гетерогенная группа расстройств нервной системы, возникающих вследствие прогрессирующей дегенерации и гибели определенных групп нейронов, что приводит к нарушению работы синапсов, глиальных клеток и сетей, которые они вместе образуют.

Мел-спектрограмма - это обычная спектрограмма, где частота выражена не в Гц, а в мелах, переход к которым осуществляется с помощью применения мел-фильтров (треугольных функции, равномерно распределенных на мел-шкале) к исходной спектрограмме.

Под клиентским устройством понимается электронное устройство (смартфон, ноутбук, компьютер или иное устройство) обеспечивающее аудиозапись голоса, связь с сервером и вывод результатов. Устройство должно обеспечивать запись аудиоданных, удовлетворяющих следующим минимальным характеристикам:

- Формат PCM или WAV или OGG;

- Частота дискретизации 48 кГц;

- Число каналов 1 (моно);

- Разрядность квантования 16 бит (2 байта) на семпл;

- Порядок байт Little-Endian (обратный);

- Числа Signed Integer (знаковые);

- Битрейт Constant (постоянный), 768 kb/s.

Частота дискретизации аудио после конвертации может быть снижена до 16 кГц, данная частота является достаточной для решения многих задач, связанных с анализом речи.

Задача, на решение которой направлена заявляемое техническое решение, заключается в быстрой, удаленной и доступной диагностике и мониторинге болезни Паркинсона и других заболеваний с синдромом паркинсонизма на основе анализа данных голосовых аудиозаписей.

Техническим результатом изобретения является повышение точности проводимой диагностики и мониторинга, а также упрощение самой процедуры без потери качества.

Это достигается тем, что заявленный способ диагностики и мониторинга болезни Паркинсона и других заболеваний с синдромом паркинсонизма по голосу человека на основе искусственного интеллекта предусматривает следующие этапы: запись голоса или загрузка предзаписанной аудиозаписи субъекта через интерфейс клиентского электронного устройства, передача записи на сервер через веб-сервис и обработка ее нейросетью, которая затем выдает ответ с вероятностью наличия признаков болезни Паркинсона и/или паркинсонизма у субъекта, получение ответа нейросети на клиентское устройство в виде вероятности наличия паркинсонизма и классификации записи по двум или более классам, включающим, но не ограниченным метками «здоровый человек» или «признаки паркинсонизма».

Изобретение поясняется чертежами:

Фиг. 1 - Пример мел-спектрограмм фонемы (а) у здорового человека (а) и пациента с паркинсонизмом (болезнь Паркинсона) (б);

Фиг. 2 - Блок-схема примера работы способа.

Осуществление изобретения

Изобретение представляет из себя способ, в том числе включающий в себя веб-сервис, реализующий внутри обработку запросов и обращения к нейросетевой модели, с которым можно настроить интеграцию через REST API, либо использовать готовый веб-интерфейс, с которым можно взаимодействовать в любом современном браузере на десктопе или на смартфоне. Таким образом, изобретение можно представлять в виде мобильного приложения, виджета на веб-сайте, интегрировать с колл-центром, либо подключить в любое другое ПО, в том числе установленное в медицинских центрах. Сервер, который принимает запросы от клиентского устройства и производит обработку аудиозаписи и отправляет результаты на клиентское устройство. Требования к серверу: ОС должна поддерживать возможность работы с Docker и docker-compose (Ubuntu, Debian, CentOS, RHEL), минимальные аппаратные требования: 1 vCPU (процессор Intel или AMD с архитектурой x86_64), 3 GB RAM, 2 GB vRAM (видеокарта NVIDIA - любая модель из серий Ampere, Ada Lovelace, Turing, Volta)

- С помощью веб-интерфейса можно произвести аудиозапись голоса либо загрузить записанные ранее аудиофайлы произвольного формата, и получить результаты мгновенной диагностики. Аудиозаписи голоса пациентов, полученные различными способами при выполнении заданий на произвольную речь либо протягивание фонем, разработанных при участии врачей-паркинсонологов подаются на вход в запросах к веб-сервису, автоматически преобразовываются в аудио сэмплы с необходимой частотой дискретизации и битности. Далее сырой сигнал раскладывается в спектр при помощи преобразования Фурье, и результирующая спектрограмма аудио, приведенная к мел-шкале, фокусирующей внимание на части спектра с голосом, содержащая максимальную информацию о просодиях, артикуляции и прочих голосовых признаках, подается на вход в нейросетевую модель для классификации. Нейронная сеть извлекает признаки из спектрограммы аудио в неявном виде, что позволяет при достаточно большой обучающей выборке (от 1000 субъектов и более) достичь более точных результатов диагностики по сравнению с решениями, ограниченными на использование лишь известных заранее и извлеченных алгоритмически явных признаков.

- Также для исключения аномалий в предсказаниях, полученных на аудиозаписях, в которых присутствуют фрагменты с отсутствием речи (тишиной), в составе веб - сервиса участвует модель определения голосовой активности в аудио (Voice Activity Detector, сокращенно VAD), отмечающая и фильтрующая фрагменты, не содержащие звучание голоса пациента.

- Формирование датасета, определение минимальной длины аудиозаписей, а также состав заданий, которые необходимо выполнить субъектам разработаны с участием врачей неврологов-паркинсонологов.

- Сервер, включающий в себя веб-сервис возвращает ответ с прогнозом нейросетевой модели классификатора и сформированным на ее основе диагнозом. Помимо определения метки класса, к которому был отнесен субъект, веб - сервис возвращает степень уверенности модели в своем прогнозе, полученную как вещественное числовое значение от 0 до 1 после применения функции активации Softmax.

В предлагаемом способе классификаторы могут разделять пациентов, по крайней мере, на следующие классы - «здоровый человек» или «признаки паркинсонизма» с возможной детализацией типа паркинсонизма, стадийности и др. В способе выводы о болезни пациента могут быть представлены в виде одного или более заключений с указанием вероятности их достоверности.

Особенности и преимущества предлагаемого решения:

1. доступность (может быть интегрирован в доступную оболочку - чат-бот, сайт, мобильное приложение, протоколы колл-центра);

2. повсеместность использования (можно использовать в любой точке, имея смартфон и интернет);

3. массовость (можно использовать в качестве скринингового инструмента);

4. обучение нейронной сети на аудиозаписях с голосом носителей русского языка; обучение на большой выборке пациентов (более 1000 субъектов);

5. извлечение нейронной сетью неявных признаков из мел-спектрограмм аудио фрагментов с голосом, позволяющее достичь более высоких показателей качества по сравнению с решениями, использующими сжатые готовые вычисленные из аудиозаписей признаки, в которых может быть потеряна часть информации;

6. кроссплатформенность и универсальность сервиса: возможность установки на сервера и клиентские устройства с любыми системами, поддерживающими работу с Docker; возможность обработки аудиофайлов любого формата, содержащих голос пациента;

7. фокус на диагностике болезни Паркинсона, не исключающий расширения возможностей диагностики изобретения на другие виды нейродегенеративных заболеваний по аудио при дополнительном сборе релевантных данных и обучении дополнительных моделей.

Пример 1.

Представленное решение может быть использовано, по меньшей мере, в медицинских учреждениях (общего и специального назначения), исследовательских научных центрах, в телемедицине, а также непосредственно пациентами с неврологическими заболеваниями и людьми, желающими оценить состояние своего здоровья.

Заявляемый на регистрацию в качестве изобретения способ может быть осуществлен в виде интеграции в колл-центр.

В таком случае система будет работать следующим образом.

У пациента при звонке в колл-центр будет спрашиваться желание оценки его голоса на предмет наличия у него паркинсонизма (болезни Паркинсона или других заболеваний, ассоциированных с синдромом паркинсонизма). После получения согласия будет дана инструкция по необходимой записи, которая по окончанию будет передана в контур нейросети.

Ниже представлен пример преобразования полученной от пациента аудиограммы в мел-спектрограмму и визуальное сравнение с мел-спектрограммой здорового человека.

После анализа нейросеть возвращает ответ с определенной вероятностью наличия паркинсонизма у конкретного субъекта, который может быть отправлен различными способами: смс, электронным письмом или любым другим доступным способом.

Сервер возвращает ответ с прогнозом нейросетевой модели классификатора и сформированным на ее основе заключением. Помимо определения метки класса, к которому был отнесен субъект, сервер возвращает степень уверенности модели в своем прогнозе, полученную как вещественное числовое значение от 0 до 1 после применения функции активации Softmax. Пороговое значение, при котором формируется заключение «здоровый человек», составляет менее 0.5; при вероятности 0.5 и выше формируется заключение «признаки паркинсонизма».

Похожие патенты RU2841464C2

название год авторы номер документа
Способ синтеза речи с передачей достоверного интонирования клонируемого образца 2020
  • Тагунов Петр Владимирович
  • Гонта Владислав Александрович
RU2754920C1
СПОСОБ И СИСТЕМА ОЦЕНКИ КАЧЕСТВА ОБСЛУЖИВАНИЯ КЛИЕНТОВ НА ОСНОВЕ АНАЛИЗА ВИДЕО- И АУДИОПОТОКОВ С ПОМОЩЬЮ ИНСТРУМЕНТОВ МАШИННОГО ОБУЧЕНИЯ 2018
  • Маслов Алексей Юрьевич
RU2703969C1
СПОСОБ ПСИХОТЕРАПЕВТИЧЕСКОГО УСТРАНЕНИЯ ФОБИИ, УСТРОЙСТВО И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ РЕАЛИЗАЦИИ СПОСОБА 2023
  • Орлова Марина Сергеевна
RU2822327C1
СПОСОБ ДИАГНОСТИРОВАНИЯ ПАЦИЕНТА НА НАЛИЧИЕ ПРИЗНАКОВ РЕСПИРАТОРНОЙ ИНФЕКЦИИ ПОСРЕДСТВОМ CNN С МЕХАНИЗМОМ ВНИМАНИЯ И СИСТЕМА ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2021
  • Самсонов Павел Романович
  • Михайлов Дмитрий Михайлович
  • Чуманская Вера Васильевна
RU2758648C1
Способ диагностики признаков бронхолегочных заболеваний, сопутствующих заболеванию вирусом COVID-19 2021
  • Самсонов Павел Романович
  • Михайлов Дмитрий Михайлович
  • Чуманская Вера Васильевна
RU2758550C1
Неконтролируемое восстановление голоса с использованием модели безусловной диффузии без учителя 2023
  • Андреев Павел Константинович
  • Ященко Анастасия Сергеевна
  • Щекотов Иван Сергеевич
  • Бабаев Николас Андреевич
RU2823017C1
СПОСОБ АУДИОВИЗУАЛЬНОГО РАСПОЗНАВАНИЯ СРЕДСТВ ИНДИВИДУАЛЬНОЙ ЗАЩИТЫ НА ЛИЦЕ ЧЕЛОВЕКА 2022
  • Рюмина Елена Витальевна
  • Маркитантов Максим Викторович
  • Рюмин Дмитрий Александрович
  • Карпов Алексей Анатольевич
RU2791415C1
Платформа автоматизации контакт-центров с использованием речевой аналитики 2021
  • Вахрамеев Леонид Александрович
  • Дмитрин Юрий Владиславович
  • Обливальный Николай Дмитриевич
  • Черкасов Егор Игоревич
  • Юлдашева Ксения Константиновна
  • Питуганов Станислав Владимирович
  • Васёв Денис Германович
  • Вережников Владислав Андреевич
RU2787530C1
Способ диагностики и реабилитации пациентов с нарушениями голосо-речевой функции 2020
  • Фаттахова Марьям Яхъяевна
  • Фаттахов Яхъя Валиевич
  • Хабипов Рамиль Шарипзянович
  • Красножен Владимир Николаевич
RU2738660C1
ТЕХНОЛОГИЯ АНАЛИЗА АКУСТИЧЕСКИХ ДАННЫХ НА НАЛИЧИЕ ПРИЗНАКОВ ЗАБОЛЕВАНИЯ COVID-19 2021
  • Самсонов Павел Романович
  • Михайлов Дмитрий Михайлович
  • Чуманская Вера Васильевна
  • Дворянкин Сергей Владимирович
RU2758649C1

Иллюстрации к изобретению RU 2 841 464 C2

Реферат патента 2025 года Способ определения признаков паркинсонизма по голосу с использованием искусственного интеллекта

Изобретение относится к медицине. Способ определения признаков паркинсонизма по голосу с использованием искусственного интеллекта предусматривает этапы, на которых: используют запись голоса или предварительно записанную аудиозапись субъекта, осуществленную через интерфейс клиентского электронного устройства, передают запись на сервер через веб-сервис и обрабатывают нейросетью, обученной с использованием обучающей выборки по меньшей мере 1000 субъектов. Используют модель определения голосовой активности и фильтруют не содержащие звучание голоса фрагменты. Применяют функцию активации нейросети Softmax для определения степени уверенности в ответе. Формируют ответ нейросети о наличии признаков паркинсонизма у субъекта. Передают ответ на клиентское устройство в виде вероятности наличия паркинсонизма, классифицируя его по двум классам, включающим метки «здоровый человек» или «признаки паркинсонизма». Технический результат состоит в повышении точности проводимого мониторинга и упрощении процедуры. 2 ил.

Формула изобретения RU 2 841 464 C2

Способ определения признаков паркинсонизма по голосу с использованием искусственного интеллекта, предусматривающий этапы, на которых: используют запись голоса или предварительно записанную аудиозапись субъекта, осуществленную через интерфейс клиентского электронного устройства, передают запись на сервер через веб-сервис и обрабатывают нейросетью, обученной с использованием обучающей выборки по меньшей мере 1000 субъектов, используют модель определения голосовой активности и фильтруют не содержащие звучание голоса фрагменты, применяют функцию активации нейросети Softmax для определения степени уверенности в ответе, формируют ответ нейросети о наличии признаков паркинсонизма у субъекта, передают ответ на клиентское устройство в виде вероятности наличия паркинсонизма, классифицируя его по двум классам, включающим метки «здоровый человек» или «признаки паркинсонизма».

Документы, цитированные в отчете о поиске Патент 2025 года RU2841464C2

US 20220359091 A1, 10.11.2022
US 11495327 В2, 08.11.2022
US 20170293740 A1, 12.10.2017
US 20230230669 A1, 20.07.2023
WO 2021085947 A1, 06.05.2021
US 20140343955 A1, 20.11.2014
US 11348694 B2, 31.05.2022
CN 111210846 A, 29.05.2020
US 20120265024 A1, 18.10.2012
RU 2022132120 A, 10.06.2024.

RU 2 841 464 C2

Авторы

Хасанова Диана Магомедовна

Хасанов Ильдар Акрамович

Залялова Зулейха Абдуллазяновна

Сухачев Павел Сергеевич

Смирнова Анна Сергеевна

Даты

2025-06-06Публикация

2023-11-15Подача