СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ГОЛОСУ Российский патент 2023 года по МПК G10L17/22 

Описание патента на изобретение RU2789689C1

Изобретение относится к области техники анализа речи, в частности к системам ограничения несанкционированного доступа к материальным или информационным ресурсам, в системах связи экипажей самолетов с наземными службами, на основе биометрической информации о личности диктора, полученной на основе его голоса.

Известен способ верификации диктора по голосу, основанный на сравнении входного речевого сигнала диктора с заранее сохраненными эталонами, оценке меры их близости и принятии решения (см., например, патент RU 2399102, С2, МПК G10L 17/00, опуб. 10.09.2010).

Недостатком известной системы являются большие временные затраты на вычисление коэффициентов корреляции, что увеличивает время обработки, а анализ речевого сигнала без разделения его на участки снижает точность результатов из-за наличия в сигнале пауз и воздействия случайных шумов.

Наиболее близким к предложенному является способ аутентификации диктора по парольной фразе, представленный в RU 2422920 С2 МПК G10L 17/00, опуб. 27.08.2010.

Способ аутентификации диктора по парольной фразе включает посегментное сравнение входного речевого сигнала диктора с заранее сохраненными эталонами параметров эталонных фраз, произносимых заранее известными дикторами, для чего осуществляют сравнение параметрических описаний последовательных сегментов входного речевого сигнала с параметрическими описаниями последовательных сегментов из выбранных для сравнения с упомянутым эталоном с последующей аутентификацией диктора, при этом, в качестве упомянутых параметрических описаний берут матрицу переходов, построенную в соответствии с правилом, заключающимся в том, что строят последовательность особых точек, выделенных сравнением отсчета в сегменте с окружением отсчета, определенным посредством обобщенных коэффициентов линейного предсказания и порога Т, далее агрегируют последовательности особых точек в блоки длины L, строят матрицу переходов, аналогичную матрице переходов в цепи Маркова, по числу особых точек в блоке и сравнивают полученную матрицу с образцом эталонной матрицы с заданной точностью ε и принимают решение о правильности аутентификации диктора.

Недостатком известной системы является снижение вероятности аутентификации диктора, что обусловлено привязанностью к заранее созданным парольным фразам, а также сужение области применения, так как на фоне стационарных и нестационарных шумов, обладающих сплошным спектром, возникают сильные искажения парольных фраз.

Техническим результатом изобретения является повышение вероятности правильной аутентификации диктора, расширение области применения способа, за счет устойчивости к воздействию шума на анализируемый сигнал, а также снижение времени аутентификации диктора за счет переноса обработки сигнала из области спектра во временную область, позволяющее значительно уменьшить число этапов обработки исходного речевого сигнала.

Указанный технический результат достигается тем, что входной речевой сигнал диктора, фильтруют, сравнивают с заранее сохраненными эталонами, оценивают меру их различия и по результатам оценки принимают решение об аутентификации, согласно изобретению входной речевой сигнал преобразуют к цифровому виду, разделяют его на фреймы, т.е. отдельные временные участки, фреймы являются более подходящей единицей анализа данных, чем конкретные значения сигнала, так как анализировать волны намного удобней на некотором промежутке, чем в конкретных точках, фреймы располагают "внахлест", что позволяет сгладить результаты анализа фреймов, превращая их в некоторое "окно", движущееся вдоль исходного речевого сигнала, процесс разделения сигнала на фреймы представлен на фигуре 1, отдельно взятый фрейм представлен на фигуре 2, разделение сигнала на временные участки можно реализовать при помощи сдвигающих регистров, признак диктора однозначно описывается частотными идентификаторами, представляющими собой энергию сигнала на выходе полосового фильтра, заданной частоты и шириной полосы пропускания, далее каждый фрейм фильтруют при помощи N цифровых фильтров равномерно распределенных в частотном диапазоне речи диктора, при этом суммарная полоса пропускания фильтров равна ширине заданного частотного диапазона, а амплитудно-частотная характеристика каждого фильтра аналогична характеристике Мел-фильтра, банк Мел-фильтров представлен на фигуре 3, а АЧХ цифровых фильтров для получения идентификаторов представлены на фигуре 4, тем самым определяют частотные идентификаторы по аналогии с фильтрацией спектра набором из N Мел-фильтров, синтез таких цифровых фильтров и процесс получения набора идентификаторов подробно описан в статье «Алгоритм расчета Мел-спектральных коэффициентов для систем текстонезависимой идентификации абонента радиосети» [Д.С. Юдаков, А.П. Чернышев, С.В. Митрофанова // Научно-технический журнал «ВКС Теория и практика» // ВУНЦ ВВС «ВВА» №20, декабрь 2021 г.], синтез таких фильтров возможен на основе программируемых микроконтроллеров.

Предложенный способ формирования частотных идентификаторов, в отличие от применяемых в настоящее время, производит основную часть расчетов с временной реализацией сигнала, а не со спектром, что позволяет избавиться от операций, связанных с преобразованием сигнала к спектральному виду, фильтрации спектра и обратного преобразования к временному представлению доступному к восприятию на слух. Фильтрация во временной области позволит избавиться от ошибок, связанных с ограничением спектра гармонического сигнала, ввиду того, что реальные сигналы всегда имеют конечное время наблюдения, что показано в статье «Алгоритм формирования идентификаторов для автоматического текстонезависимого распознавания диктора»[Д.С. Юдаков, А.П. Чернышов, К.Ч. Колбая // Научно-технический журнал «Теория и техника радиосвязи»//АО Концерн «Созвездие» №4, 2020 г.].

Далее производят усреднение вычисленных идентификаторов для каждого из N фильтров по всему набору фреймов, усреднение осуществляется ввиду того, что количество значений каждого идентификатора определяется количеством используемых фреймов, что значительно увеличивает время на обработку результата, усреднение возможно осуществить на основе метода векторного квантования [https://en.wikipedia.org/wiki/Vector_quantization], и на их основе получают эталон голоса диктора, как набор идентификаторов полученных на выходе фильтров, набор из 10 идентификаторов представлен на фигуре 5, оценивают меру близости полученных частотных идентификаторов с заранее записанными эталонами, вычисленными по предложенному способу для набора дикторов заранее, данную процедуру можно осуществить используя метрику основанную на вычислении невязки между эталонным и входным сигналами [https://ru.wikipedia.org/wiki/Невязка] и, если мера близости лежит в заданных пределах, то принимают решение о том, что диктор идентифицирован, в противном случае принимается решение попытке несанкционированного доступа. Процедура идентификации напрямую связана с аутентификацией, устанавливающее подлинность лица, получающего доступ к системе, путем сопоставления сообщенного им идентификатора и предъявленного подтверждающего фактора.

При прохождении аутентификации, формируется команда на блок управления периферийными устройствами, которое позволяет запрограммировать определенное действие - например, открыть дверь, произвести расшифровку текста.

Способ может быть реализован, например, с помощью устройства, структурная схема которого приведена на фигуре 6, где обозначено: 1 - аналого-цифровой преобразователь сигнала, предназначенный для преобразования входного речевого сигнала в цифровую форму; 2 - блок деления на фреймы, предназначен для разделения оцифрованного сигнала на пересекающиеся временные участки; 3 - набор цифровых фильтров, предназначен для фильтрации сигнала на заданной частоте, с заданной полосой пропускания и получения значения энергии на выходе; 4 - блок усреднения, предназначен для вычисления среднего значения каждого идентификатора по набору фреймов; 5 - блок сравнения и принятия решения, производит сравнение полученных идентификаторов с сохраненными в базе эталонов и сравнение полученной разности с пороговым значением; 6 - база заранее вычисленных эталонов, представляет собой базу данных заранее вычисленных наборов идентификаторов для дикторов, подлежащих аутентификации.

Устройство работает следующим образом: входной речевой сигнал диктора поступает на вход аналого-цифрового преобразователя, где происходит его преобразование к цифровому представлению, далее цифровой сигнал при помощи сдвигающих регистров разделяется на отдельные временные участки (фреймы), затем, каждый фрейм поступает параллельно в набор цифровых фильтров, фильтры реализуются программным способом на однокристальной ЭВМ, далее происходит фильтрация на заданной частоте и с заданной полосой пропускания и определяется энергия сигнала на выходе каждого фильтра, что соответствует вычисленному частотному идентификатору, набор идентификаторов с выхода N фильтров однозначно определяет голосовой идентификатор диктора, далее сигнал поступает в блок усреднения, где каждый из вычисленных идентификаторов усредняется по количеству фреймов, данную операцию реализуют на основе метода векторного квантования программным способом при помощи ЭВМ, полученные частотные идентификаторы поступают в блок сравнения идентификаторов с эталонами, где происходит вычисление невязки между заранее вычисленным эталонным и входным сигналами и сравнение ее с пороговым уровнем, данная операция также реализуется программным способом при помощи ЭВМ, выходной сигнал блока определяет успешное прохождение аутентификации в случае превышения порога, либо отказ в доступе в случае если порог не был превышен.

Заявленное техническое решение соответствует критерию «новизна», предъявляемому к изобретениям, так как, в результате исследований заявителем не выявлены технические решения, обладающие совокупностью заявленных признаков, приводящих к реализации поставленных целей - созданию способа аутентификации диктора без привязки к парольной фразе, т.е. текстонезависимо, при учете идентификаторов, вычисленных во временной области с использованием набора цифровых фильтров.

Заявленное техническое решение соответствует критерию «изобретательский уровень», предъявляемому к изобретениям, так как для специалиста в заявленной области техники не являются очевидным полученные технические результаты, выражающиеся в том, что заявителем решена актуальная, не разрешенная до даты подачи настоящей заявки проблема, заключающаяся в необходимости создании надежного способа аутентификации диктора без использования парольной фразы, существовавшая в течение длительного периода времени, которая разрешена авторами посредством создания принципиально нового способа, заключающегося в вычислении при помощи цифровых фильтров частотных характеристик голоса диктора - идентификаторов, при этом под идентификатором понимается усредненный по набору фреймов идентификатор, характеризующий биометрические особенности голоса диктора. Таким образом, заявленное решение не вытекает явным образом из известного уровня техники, что также является дополнительным доказательством соответствия заявленного технического решения критерию «изобретательский уровень».

Заявленное техническое решение реализовано в лабораторных условиях ВУНЦ ВСС «ВВА» (г. Воронеж) и может быть реализовано на любом специализированном предприятии с использованием стандартного оборудования, что является доказательством соответствия заявленного технического решения критерию «промышленная применимость», предъявляемого к изобретениям.

Похожие патенты RU2789689C1

название год авторы номер документа
СПОСОБ ОЦЕНКИ ВАРИАТИВНОСТИ ПАРОЛЬНОЙ ФРАЗЫ (ВАРИАНТЫ) 2013
  • Хитров Михаил Васильевич
  • Дырмовский Дмитрий Викторович
RU2598314C2
СПОСОБ ПЕРЕОЗВУЧИВАНИЯ АУДИОМАТЕРИАЛОВ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2012
  • Бредихин Александр Юрьевич
RU2510954C2
Способ идентификации говорящего 1986
  • Рамишвили Гурам Соломонович
  • Саакян Роман Рачикович
  • Тушишвили Михаил Акакиевич
SU1453442A1
СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ПАРОЛЬНОЙ ФРАЗЕ 2009
  • Столов Евгений Львович
RU2422921C2
СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ПАРОЛЬНОЙ ФРАЗЕ 2009
  • Столов Евгений Львович
RU2422920C2
СПОСОБ ГИБРИДНОЙ ГЕНЕРАТИВНО-ДИСКРИМИНАТИВНОЙ СЕГМЕНТАЦИИ ДИКТОРОВ В АУДИО-ПОТОКЕ 2013
  • Хитров Михаил Васильевич
  • Пеховский Тимур Сахиевич
  • Шулипа Андрей Константинович
RU2530314C1
СПОСОБ ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО ПО ФОНОГРАММАМ ПРОИЗВОЛЬНОЙ УСТНОЙ РЕЧИ НА ОСНОВЕ ФОРМАНТНОГО ВЫРАВНИВАНИЯ 2009
  • Коваль Сергей Львович
RU2419890C1
СПОСОБ И УСТРОЙСТВО АВТОМАТИЧЕСКОЙ ВЕРИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ 2008
  • Голубинский Андрей Николаевич
RU2399102C2
СПОСОБ АВТОМАТИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ 1998
  • Бочкарев С.Л.
  • Иванов А.И.
  • Андрианов В.В.
  • Бочкарев В.Л.
  • Оськин В.А.
RU2161826C2
ТЕКСТОЗАВИСИМЫЙ СПОСОБ КОНВЕРСИИ ГОЛОСА 2010
  • Бредихин Александр Юрьевич
  • Петровский Александр Александрович
  • Сергейчев Николай Евгеньевич
RU2427044C1

Иллюстрации к изобретению RU 2 789 689 C1

Реферат патента 2023 года СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ГОЛОСУ

Изобретение относится к области вычислительной техники для анализа речи. Технический результат изобретения заключается в повышении вероятности правильной аутентификации диктора. Технический результат достигается за счет того, что входной речевой сигнал преобразуют при помощи аналого-цифрового преобразования к цифровому представлению, разделяют на временные участки - фреймы, осуществляют фильтрацию каждого фрейма в заданном частотном диапазоне набором N цифровых фильтров во временной области, при этом суммарная полоса пропускания которых равна ширине заданного частотного диапазона, а амплитудно-частотная характеристика каждого фильтра аналогична характеристике Мел-фильтра, результаты фильтрации усредняют по количеству фреймов и используют для оценки меры различия с эталоном. 6 ил.

Формула изобретения RU 2 789 689 C1

Способ аутентификации диктора по голосу, основанный на приеме входного речевого сигнала диктора, сравнении с заранее сохраненными эталонами, оценке меры их различия и по результатам оценки принятии решения о доступе, отличающийся тем, что входной речевой сигнал преобразуют при помощи аналого-цифрового преобразования к цифровому представлению, разделяют на временные участки - фреймы, осуществляют фильтрацию каждого фрейма в заданном частотном диапазоне набором N цифровых фильтров во временной области, при этом суммарная полоса пропускания которых равна ширине заданного частотного диапазона, а амплитудно-частотная характеристика каждого фильтра аналогична характеристике Мел-фильтра, результаты фильтрации усредняют по количеству фреймов и используют для оценки меры различия с эталоном.

Документы, цитированные в отчете о поиске Патент 2023 года RU2789689C1

СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ПАРОЛЬНОЙ ФРАЗЕ 2009
  • Столов Евгений Львович
RU2422920C2
СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ПАРОЛЬНОЙ ФРАЗЕ 2009
  • Столов Евгений Львович
RU2422921C2
Способ восстановления спиралей из вольфрамовой проволоки для электрических ламп накаливания, наполненных газом 1924
  • Вейнрейх А.С.
  • Гладков К.К.
SU2020A1
US 6931375 B1, 16.08.2005
Многоступенчатая активно-реактивная турбина 1924
  • Ф. Лезель
SU2013A1

RU 2 789 689 C1

Авторы

Юдаков Дмитрий Сергеевич

Чернышов Анатолий Павлович

Гребенюк Андрей Витальевич

Хакимов Тимерхан Мусагитович

Даты

2023-02-07Публикация

2022-04-12Подача