Биометрический способ идентификации абонента по речевому сигналу Российский патент 2021 года по МПК G10L17/00 G10L25/18 

Описание патента на изобретение RU2742040C1

Изобретение относится к области инфо-коммуникационных технологий (вычислительная техника и связь), в частности к автоматизированной системе идентификации и аутентификации личности по биометрическим и иным параметрам личности, и предназначена для решения задач предоставления доступа к специальной информации и/или операциям с ней на основе идентификации и верификации по голосу, либо по голосу и лицу, и через распознавание речи.

Известен (RU, патент 5995927, опубл. 30.11.1999) способ распознавания абонента на основе чисто стохастического подхода. В данном способе распознавание абонента выполняют путем построения и сравнения матриц ковариации признаковых описаний входного речевого сигнала и эталонов речевого сигнала известных абонентов.

Этот известный способ не пригоден для ситуации, когда используемые голосовые сообщения (пароли) очень коротки (5 секунд и менее), а также очень чувствителен к пропаданию сигнала на отдельных участках частотного речевого диапазона за счет окружающего шума и низкокачественных микрофонов.

Известен (RU, патент 2047912, опубл. 10.11.1995) способ распознавания изолированных слов речи с адаптацией к диктору, основанный на обработке с предискажениями входного речевого сигнала, дискретизации и последовательной сегментации речевого сигнала, кодировании сегментов дискретными элементами, вычислении энергетического спектра, измерении формантных частот и определении амплитуд и энергии в различных частотных полосах речевого сигнала, классификации артикуляторных событий и состояний, формировании и сортировке эталонов слов, вычислении расстояний между эталонами слов с реализацией распознаваемого слова, принятии решений о распознавании или отказе от распознавания слова с дополнением словаря эталонов в процессе адаптации к диктору. Предискажение входного речевого сигнала выполняют во временной области при дифференцировании со сглаживанием, квантование энергетического спектра выполняют в зависимости от дисперсии шума канала связи, формантные частоты определяют при нахождении глобального максимума логарифмического спектра и вычитании из этого спектра заданной частотно-зависимой функции, при классификации артикуляторных событий и состояний определяют доли периодического и шумового источников возбуждения при сравнении с порогом коэффициентов автокорреляции последовательности прямоугольных импульсов в нескольких частотных полосах, начало и конец артикуляторных движений и соответствующих им акустических процессов определяют при сравнении с порогом функции правдоподобия от значений коэффициентов автокорреляции, формантных частот и энергий в заданных частотных полосах, речевой сигнал сегментируют на интервалы между началом и концом акустических процессов, соответствующих специфическим артикуляторным движениям, и последовательно, начиная с гласных звуков, причем опознавание сегмента производят только в случае совпадения типов переходов на его левой и правой границах и заканчивают сегментацию при опознавании слева и справа по времени сегментов паузы между словами. Эталоны слов формируют в виде матриц с бинарными значениями правдоподобия признаков, а отказ от распознавания осуществляют при нормированной разности расстояния от неизвестной реализации до двух ближайших эталонов, принадлежащих разным словам, меньшей установленного порога.

Недостатками данного известного способа распознавания изолированных слов речи с адаптацией к диктору является слабая различительная сила данного способа при его использовании для распознавания дикторов по произнесению голосового пароля, так как данный способ не различает дикторов при произнесении ими паролей с совпадающим словесным составом.

Известен (RU, патент 2406163, опубл. 10.12.2010) способ аутентификации пользователя, содержащий этапы, на которых:

- сохраняют набор персональной информации в обслуживающей программе, причем этот набор персональной информации получен от пользователя во время ориентированного на обслуживание взаимодействия пользователя с обслуживающей программой;

- используют средство извлечения информации для осуществления доступа к упомянутому набору персональной информации;

- выполняют операцию аутентификации, которая основана на упомянутом наборе персональной информации и задействует по меньшей мере один динамический компонент, при этом операция аутентификации включает в себя передачу пользователю вопроса, который основывается, по меньшей мере частично, на этом наборе персональной информации, причем операция аутентификации сконфигурирована таким образом, чтобы приглашать пользователя дать ответ на этот вопрос в форме фрагмента речи;

- принимают от пользователя фрагмент речи;

- выполняют проверку на предмет того, что фрагмент речи является правильным ответом на упомянутый вопрос;

- используют компьютерный процессор, являющийся функциональным компонентом компьютера, для сравнения фрагмента речи с сохраненным профилем голоса; после чего предоставляют пользователю доступ к обслуживающей программе при условии того, что фрагмент речи является правильным ответом на упомянутый вопрос, и того, что фрагмент речи, по меньшей мере, в значительной степени соответствует сохраненному профилю голоса.

Недостатком известного технического решения являются узкие функциональные возможности, не позволяющие производить регистрацию и идентификацию людей в самых различных ситуациях, а также их идентификацию и распознавание голосов в режиме реального времени.

Известное техническое решение принято в качестве ближайшего аналога.

Техническая проблема, решаемая путем реализации разработанного способа, состоит в обеспечении возможности идентификации абонентов по голосовому портрету.

Технический результат, достигаемый при реализации разработанного способа, состоит в обеспечении возможности дистанционной идентификации абонента. В качестве голосового примера может быть использован любой фрагмент речи кроме пауз.

Идентификация производится не по огибающей сигнала, а по специально обработанному его цифровому представлению. Это существенно ускоряет процесс идентификации и дает возможным работать в реальном времени на сети связи с емкостью до 3000 абонентов. В канале связи нигде не передается информация о речевом сигнале в открытом виде - все передачи в открытых каналах используют шифрование. Это дает возможность эффективно применять данный алгоритм в облачных сервисах (распределенных инфо-коммуникационных системах, где информация хранится и обрабатывается в разных местах).

Для достижения указанного технического результата предложено использовать разработанный биометрический способ идентификации абонента по речевому сигналу. Согласно разработанному способу проводят предварительное определение набора характеристик речевого портрета абонента, установление указанных характеристик для различных абонентов, запись их в базу данных, определение речевого портрета обратившегося абонента, сравнение этого речевого портрета с речевыми портретами из базы данных и определение абонента, причем определение характеристик голоса абонента для составления речевого портрета речевого портрета проводят с использованием методов одновременного спектрального, временного и спектрально-временного анализа совместно с аналого-цифровым преобразованием с использованием Вейвлет-преобразования при этом в качестве указанных характеристик используют, характеристики, выбранные из группы, содержащей, по меньшей мере, среднее значение спектра речевого сигнала, нормализованные средние значения спектра, относительное время пребывания сигнала в полосах спектра, нормализованное время пребывания сигнала в полосах спектра, медианное значение спектра речи в полосах, относительная мощность спектра речи в полосах, вариацию огибающих спектра речи, нормализованные величины вариации огибающих спектра речи, коэффициенты кросскорреляции спектральных огибающих между полосами спектра, длительность сегмента фонемы, высоту сегмента фонемы, коэффициент формы сегмента фонемы, а также характеристики тональных участков звуковой волны, непериодических участков звуковой волны, участков, не содержащих речевых пауз и средней частоты пауз. А в процессе произнесения неизвестным абонентом речевого сигнала, определяют аналогичные характеристики и путем сравнения данных характеристик с записанными в базу данных определяют абонента.

При реализации разработанного способа произвольный фрагмент речевого сигнала длительностью в 120 сек преобразуют с использованием Вейвлет преобразования в цифровой код, который хранится в базе данных абонентов. По указанному фрагменту оценивают, по меньшей мере, следующие характеристики голосового сигнала абонента:

Среднее значение спектра речевого сигнала - среднее арифметическое между гармониками речевого сигнала, представляющими крайне верхнюю и крайне нижнюю. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Нормализованные средние значения спектра - значения, полученные из средних значений спектра, нормированные относительно средней гармоники. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Относительное время пребывания сигнала в полосах спектра - вектор числовых значений, соответствующих времени, когда сигнал находится в границах частотных диапазонов. Спектр речевого сигнала локализован в полосе 100 Гц - 4000 Гц. Эта полоса разбивается на неравномерные составляющие, по характерной окраске речи. Выделяются 8 полос. В каждой полосе речевой сигнал находится определенное время - это и есть составляющая вектора относительного пребывания сигнала в полосах частот. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Нормализованное время пребывания сигнала в полосах спектра - векторная величина, получающаяся из вектора относительного пребывания сигнала в полосах частот при нормировании среднего значения спектра речевого сигнала. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Медианное значение спектра речи в полосах - векторная характеристика распределения амплитуды речевого сигнала в полосах анализа спектра. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Относительная мощность спектра речи в полосах векторная характеристика распределения мощности речевого сигнала в полосах анализа спектра. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Вариация огибающих спектра речи - векторная характеристика рассчитывается на основе сравнения нескольких речевых сигналов одинаковой длины. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Нормализованные величины вариации огибающих спектра речи векторная характеристика рассчитывается на основе Вариация огибающих спектра речи при нормировании среднего значения спектра. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

Коэффициенты кросскорреляции спектральных огибающих между полосами спектра - векторная характеристика, для оценки совпадения огибающих. Вычисляется посредством обработки кода, полученного в результате Вейвлет предобразования.

В некоторых вариантах реализации разработанного способа по речевому фрагменту длинной 50 сек оценивают такие характеристики, как

- Длительность сегмента, фонемы

Высота сегмента

- Коэффициент формы сегмента

В некоторых вариантах реализации разработанного способа по речевому фрагменту в 120 сек оценивают такие характеристики голоса как:

- Коэффициент тональных участков звуковой волны

- Коэффициент непериодических участков звуковой волны

- Коэффициент участков, не содержащих речевых пауз

средняя частота пауз

средняя продолжительность пауз

Данные характеристики получаются при помощи обработки огибающей аналогового речевого сигнала специально сконструированным фильтром.

Каждой полученной характеристике присваивают четырехзначный цифровой код, с получением кодовой последовательность длиной 64. Данная последовательность называется речевым портретом, однозначно характеризующем абонента. Речевой портрет сохраняют в базе данных абонентов. Для каждого нового абонента вычисляют речевой портрет и сравнивают с имеющимися в базе. Сравнение делают по каждым четырем символам отдельно. Если по минимум 12 характеристикам значение попадает в установленный допуск, то принимается решение о совпадении речевых портретов и абонент идентифицируется по базе, а речевой портрет из распознаваемого сигнала добавляется в базу, как уточняющий. Всего для каждого абонента хранят, по меньшей мере, по три речевых портрета, если есть возможность их получить. Идентификацию проводят по каждому из них отдельно. Положительное решение (известность абонента) принимают при совпадении двух из трех.

Пример реализации.

1. Получаем речевой сигнал.

2. Выделяем произвольные фрагменты дительностью 50 с и 120 с. Фрагменты могут накладываться друг на друга.

3. Пропускаем сигналы 50 с и 120 с через специальный фильтр и получаем значения характеристик:

Длительность сегмента, фонемы - L1

Высота сегмента фонемы - L2

Коэффициент формы сегмента фонемы - L3

Коэффициент тональных участков звуковой волны - L4

Коэффициент непериодических участков звуковой волны - L5

Коэффициент участков, не содержащих речевых пауз - L6

Средняя частота пауз - L7

средняя продолжительность пауз - L8

Каждому значению присваивается четырехзначный двоичный код, соответствующий диапазону, в который оно попадает.

Формируется кодовое слово 32 шестнадцатиричных, состоящее из сегментов K1 - К8 - акустическая составляющая речевого портрета (АС РП)

4. Сегмент сигнала длительностью 120 с пропускаем через Вейвлет преобразователь и оцениваем характеристики:

Среднее значение спектра речевого сигнала - S1

Нормализованные средние значения спектра - S2

Относительное время пребывания сигнала в полосах спектра - S3

Нормализованное время пребывания сигнала в полосах спектра - S4

Медианное значение спектра речи - S5

Относительная мощность спектра речи в полосах - S6

Вариация огибающих спектра речи - S7

Нормализованные величины вариации огибающих спектра речи - S8

Каждое значение каждой характеристики укладывается в диапазон

0000 - FFFF (шестнадцатиричные). Значению присваивается четырехзначный шестнадцатиричный код, соответствующий диапазону, в который оно попадает.

Формируется кодовое слово, состоящее из 32 шестнадцатиричных символов сегментов К9 - К16 - спектральная составляющая речевого портрета (СС РП)

Кодовые слова объединяются в 64 разрядный речевой портрет РП. Например у нас получился РП

23AF 4257 ААЕЕ 2433 993F АВ01 32F1 FF32 - АС РП

207F 6857 А32Е 24А3 453F А351 77F1 F342 - СС РП

Речевой портрет пропускается через кодер и передается по сети связи.

В базе данных речевых портретов (БД РП) принятый сигнал декодируется и сравнивается с РП, хранящимися в базе

Например, мы приняли

23AF 4257 ААЕЕ 2433 993F АВ01 32F1 FF32 - АС РП

207F 6857 А32Е 24А3 453F А351 77F1 F342 - СС РП

И в БД РП имеется запись

23AF 4257 ААЕЕ 993F А 431 32 FA - АС РП

207F 6857A32F 24А3 453F 77FFF F388 - ССРП

Эта запись имеет 12 коэффициентов, отличающиеся на единицу или совпадающих.

Принимается решение об идентификации принятого РП и принятый РП добавляется к БД РП, как уточняющий для данного абонента.

Похожие патенты RU2742040C1

название год авторы номер документа
СПОСОБ ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО ПО ФОНОГРАММАМ ПРОИЗВОЛЬНОЙ УСТНОЙ РЕЧИ НА ОСНОВЕ ФОРМАНТНОГО ВЫРАВНИВАНИЯ 2009
  • Коваль Сергей Львович
RU2419890C1
СПОСОБ ГИБРИДНОЙ ГЕНЕРАТИВНО-ДИСКРИМИНАТИВНОЙ СЕГМЕНТАЦИИ ДИКТОРОВ В АУДИО-ПОТОКЕ 2013
  • Хитров Михаил Васильевич
  • Пеховский Тимур Сахиевич
  • Шулипа Андрей Константинович
RU2530314C1
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ 1994
  • Сорокин Виктор Николаевич
RU2047912C1
СПОСОБ РАСПОЗНАВАНИЯ СЛОВ РЕЧИ 2005
  • Гиголо Людмила Антоновна
  • Сахаров Виталий Олегович
RU2296376C2
СПОСОБ ОПРЕДЕЛЕНИЯ ПАРАМЕТРОВ ЛИНЕЙЧАТЫХ СПЕКТРОВ ВОКАЛИЗОВАННЫХ ЗВУКОВ И СИСТЕМА ДЛЯ ЕГО РЕАЛИЗАЦИИ 2007
  • Котов Михаил Андреевич
  • Леднов Дмитрий Анатольевич
  • Мельников Сергей Юрьевич
  • Федюкин Михаил Владимирович
  • Широкова Анна Михайловна
RU2364957C1
Устройство для обработки речевого сигнала 2018
  • Катанович Андрей Андреевич
  • Привалов Андрей Андреевич
  • Попов Павел Валерьевич
RU2701120C1
СИСТЕМА ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ДИКТОРА 2009
  • Зыков Александр Павлович
  • Леднов Дмитрий Анатольевич
  • Меркулов Максим Николаевич
RU2385272C1
СПОСОБ ВЕРИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ НА ОСНОВЕ АНАТОМИЧЕСКИХ ПАРАМЕТРОВ ЧЕЛОВЕКА 2010
  • Леонов Борис Иванович
  • Макаров Илья Сергеевич
  • Чепелев Дмитрий Николаевич
RU2421699C1
СПОСОБ АУТЕНТИФИКАЦИИ ДИКТОРА ПО ГОЛОСУ 2022
  • Юдаков Дмитрий Сергеевич
  • Чернышов Анатолий Павлович
  • Гребенюк Андрей Витальевич
  • Хакимов Тимерхан Мусагитович
RU2789689C1
СПОСОБ И УСТРОЙСТВО АВТОМАТИЧЕСКОЙ ВЕРИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ 2008
  • Голубинский Андрей Николаевич
RU2399102C2

Реферат патента 2021 года Биометрический способ идентификации абонента по речевому сигналу

Изобретение относится к области вычислительной техники и связи. Технический результат заключается в обеспечении возможности дистанционной идентификации абонента. Способ включает предварительное определение набора характеристик речевого портрета абонента, установление указанных характеристик для различных абонентов, запись их в базу данных, определение речевого портрета обратившегося абонента, сравнение этого речевого портрета с речевыми портретами из базы данных и определение абонента. Определение характеристик голоса абонента для составления речевого портрета проводят с использованием методов одновременного спектрального, временного и спектрально-временного анализа совместно с аналого-цифровым преобразованием с использованием Вейвлет-преобразования. В качестве голосового примера может быть использован любой фрагмент речи, кроме пауз. Идентификация производится не по огибающей сигнала, а по специально обработанному его цифровому представлению. Это существенно ускоряет процесс идентификации и дает возможность работать в реальном времени на сети связи с емкостью до 3000 абонентов.

Формула изобретения RU 2 742 040 C1

Биометрический способ идентификации абонента по речевому сигналу, включающий предварительное определение набора характеристик речевого портрета абонента, установление указанных характеристик для различных абонентов, запись их в базу данных, определение речевого портрета обратившегося абонента, сравнение этого речевого портрета с речевыми портретами из базы данных и определение абонента, отличающийся тем, что определение характеристик голоса абонента для составления речевого портрета проводят с использованием методов одновременного спектрального, временного и спектрально-временного анализа совместно с аналого-цифровым преобразованием с использованием Вейвлет-преобразования, при этом в качестве указанных характеристик используют характеристики, выбранные из группы, содержащей, по меньшей мере, среднее значение спектра речевого сигнала, нормализованные средние значения спектра, относительное время пребывания сигнала в полосах спектра, нормализованное время пребывания сигнала в полосах спектра, медианное значение спектра речи в полосах, относительную мощность спектра речи в полосах, вариацию огибающих спектра речи, нормализованные величины вариации огибающих спектра речи, коэффициенты кросскорреляции спектральных огибающих между полосами спектра, длительность сегмента фонемы, высоту сегмента фонемы, коэффициент формы сегмента фонемы, а также характеристики тональных участков звуковой волны, непериодических участков звуковой волны, участков, не содержащих речевых пауз и средней частоты пауз, а в процессе произнесения неизвестным абонентом речевого сигнала определяют аналогичные характеристики и путем сравнения данных характеристик с записанными в базу данных определяют абонента.

Документы, цитированные в отчете о поиске Патент 2021 года RU2742040C1

RU 94014278 A1, 20.10.1996
СПОСОБ И УСТРОЙСТВО АВТОМАТИЧЕСКОЙ ВЕРИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ 2008
  • Голубинский Андрей Николаевич
RU2399102C2
АУТЕНТИФИКАЦИЯ ПОЛЬЗОВАТЕЛЯ ПОСРЕДСТВОМ КОМБИНИРОВАНИЯ УСТАНОВЛЕНИЯ ЛИЧНОСТИ ГОВОРЯЩЕГО И ОБРАТНОГО ТЕСТА ТЬЮРИНГА 2005
  • Ван Куаньсань
RU2406163C2
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ 1994
  • Сорокин Виктор Николаевич
RU2047912C1
CN 107093430 A, 25.08.2017
US 20070299671 A1, 27.12.2007.

RU 2 742 040 C1

Авторы

Мельник Сергей Владиславович

Даты

2021-02-02Публикация

2020-08-07Подача