Устройство для обработки речевого сигнала Российский патент 2019 года по МПК G10L15/02 G10L15/28 

Описание патента на изобретение RU2701120C1

Изобретение относится к области кибернетики и вычислительной техники и может быть использовано в комплексных системах автоматического распознавания речевых сигналов.

Идентификация человека по голосу - один из традиционных способов распознавания, применяемый повсеместно. Можно легко узнать собеседника по телефону, не видя его. Также можно определить психологическое состояние по эмоциональной окраске голоса.

Одной из основных целей машинного автоматического распознавания голоса (речи) является создание ориентированного на человека интерфейса компьютерных систем.

Распознавание голоса происходит следующим образом: при помощи воспринимающих (микрофона) и оцифровывающих (дискретизирующих) устройств и машинной обработки фокусируется акустический (речевой) сигнал и преобразуется в цифровую форму. Затем цифровой сигнал разбивается на неделимые интервалы, называемые фонемами. Фонемы представляют собой элементарные единицы звука. Последовательность фонем составляет слоги, слоги составляют слова, слова составляют предложения, которые уже представляют сообщения, идеи и команды. В общем, фонема - это звук, образованный одной или несколькими буквами в их сочетании с другими буквами. Если целью процесса является лишь опознавание говорящего (что и означает термин «распознавание голоса»), то нет необходимости разбивать сигнал на фонемы. Можно также распознать слова и предложения, минуя все эти этапы.

После преобразования акустического сигнала в слова и предложения начинается этап обработки естественного языка. В процессе обработки лингвистической информации последовательности слов, на основании контекста, шаблонов речи и, возможно, априорных знаний о предмете разговора, разбиваются на логические единицы - фразы. Затем эти логические единицы анализируются и переводятся в действительные команды или сообщения, которые понятны компьютерной системе или конкретному приложению.

Так как голосовая идентификация бесконтактная и не требует от человека особых усилий, ведутся работы по созданию голосовых замков и систем ограничения доступа к информации. Интерес к этой области связи связан еще и с прогнозами повсеместного внедрения голосовых интерфейсов.

Сегодня существуют два основных вида технологий распознавания голоса. Один из них - это распознавание речи, зависящее от диктора, т.е. пользователь должен сначала научить систему распознавать его голос, и только после этого система может функционировать. Второй - это распознавание речи независящее от диктора, т.е. система способна распознать любую речь, независимо от того, кто говорит.

Известно устройство автоматического распознавания говорящего по голосу. Патент РФ на ПМ №102408 от 27.02.2011 г., а также Устройство автоматического распознавания речи. Катанович А.А., Ершов В.Н. Комплексы и системы связи ВМФ. Судостроение, СПб., 2014 г. 231 с.

Устройство содержит блок обработки речевого сигнала, в который входят микрофон, предварительный усилитель, высокочастотный усилитель, детектор огибающей и нормализатор уровня сигнала, при этом нормализатор уровня сигнала выполнен в виде схемы автоматического регулирования усиления.

Известна также «Комплексная система автоматического распознавания речевых сигналов». Патент РФ на ПМ №75074 от 20.07. 2008 г.

Система состоит: из аналого-цифрового блока обработки речевого сигнала, в который входит детектор огибающей, параллельно соединенный с детектором основного тона и нормализатором уровня, а также исполнительного блока, состоящего из устройств описания и верификации голосов, формирования эталонов, нормализации эталонов команд, распознавания команд, ключа и др. элементов.

Однако известные системы не полностью учитывают индивидуальные различия говорящих при распределении речевых команд и автоматическую верификацию голосов с целью контроля за личностью оператора, так как они не способны работать с высокой надежностью в условиях высоких и даже средних уровней шумов (при отношении сигнал/шум ниже 30 дБ). В качестве недостатка необходимо отметить также и большую размерность признакового описания реализаций, осуществляемых всеми тремя программами вместе, а также высокую стоимость.

Цель изобретения - расширение технических средств автоматического распознавания речевых сигналов.

Поставленная цель достигается за счет того, что в устройстве, состоящем из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, причем выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем (АЦП) и исполнительного блока, при этом исполнительный блок, состоит из первого цифрового колебательного фильтра (под цифровым колебательным фильтром здесь понимается цифро-аналоговый преобразователь (ЦАП), на выходе которого стоит полосовой фильтр с полосой пропускания равной полосе стандартного спектра человеческого голоса), линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра, при этом в первом цифровом колебательном фильтре число коэффициентов фильтра (функциональных элементов-резисторов резистивной матрицы ЦАП, Радиотехника: Энциклопедия / Под ред. Ю.Л. Мазора, Е.А. Мачусского, В.И. Правды. - М.: ДМК Пресс, 2016, с. 769) составляет от 10 до 12 (a1, …а12), выходы этих элементов соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки и при этом на первый вход первого цифрового колебательного фильтра подается тон и случайный шум.

На фиг. показана функциональная схема устройства, она содержит:

1 - детектор огибающей; 2 - нормализатор уровня;

3 - детектор основного тона; 4 - спектрально-полосовой анализатор;

5 - аналого-цифровой преобразователь;

6 - первый цифровой колебательный фильтр; 7 - линия задержки;

8 - устройство изменяемых коэффициентов;

9 - второй цифровой колебательный контур.

Работа устройства осуществляется следующим образом. Речевой сигнал через микрофон и усилитель (на фиг. не показано) поступает на вход детекторов огибающей 1, основного тона 3 и нормализатор уровня 2, а затем на спектрально полосовой анализатор 4, с которого он через аналого-цифровой преобразователь 5 - в цифровой колебательный фильтр 6.

Согласованные колебания звука имитируют периодическими ударами по некоторому колебательному звену (колоколу). Период ударов точно соответствует периоду основного тона голоса. Динамические характеристики колокола меняются, чтобы получить форму, близкую к голосовой фразе. В качестве колокола используется цифровой колебательный фильтр 6.

Число коэффициентов числового колебательного фильтра 6 колеблется от 10 до 12 (a1, …a12). Этого достаточно для качественного воспроизведения речи с сохранением индивидуальных особенностей. Поток команд на изменение коэффициентов поступает с устройства 8 на функциональные элементы коэффициентов, для изменения их номиналов и, соответственно, электрических характеристик. Коэффициенты линейного предсказателя вычисляются на выборке из 180-220 отсчетов («ударов»).

Вычисление параметров предсказателя (цифрового фильтра) находим решением системы из 10…12 линейных уравнений. Для того чтобы понизить вычислительную нагрузку частоту дискретизации понижаем до 8 кГц.

При имитации согласованных звуков на вход цифрового колебательного фильтра подается периодическая последовательность импульсов, промодулированных по амплитуде. В этом случае на входе второго колебательного фильтра 9 появляются периодические переходные процессы, повторяющие моделируемый звук. При моделировании шипящих на вход подают случайный шум нужной амплитуды.

При обучении системы на ее вход подают несколько образцов голоса пользователя. Они преобразуются в последовательность импульсов основного тона и соответствующую последовательность коэффициентов линейного предсказателя. Получается массив из коэффициентов и является тем биометрическим эталоном, который записывается в базу данных.

В аналоговой части системы происходит описание голосов верифицируемых операторов и распознаваемых команд. В операционной

части системы происходит установление принадлежности голоса оператора к классу «Свой» или «Чужой».

Таким образом, использование аппарата линейного предсказания уменьшает количество ошибок (пропуск чужого) до 0,00000001%.

Предложенная система также позволяет и существенно сократить объем запоминаемой информации (в 8-10 раз по сравнению с использованием индивидуальных эталонных изображений звуков).

Раздельная нормализация индивидуального различия говорящих (ИРГ) для различных групп сонорных звуков (гласных и сонантов) эффективна лишь в том случае, когда процедура классификации звуков из указанных групп осуществляется также раздельно, т.е. сначала определяется принадлежность неизвестного звука, а затем его место внутри найденной группы

Похожие патенты RU2701120C1

название год авторы номер документа
Спектрополосный анализатор для распознавания речевых команд 1982
  • Аврин Сергей Борисович
  • Копейкин Александр Борисович
  • Москаленко Геннадий Владимирович
  • Мочалов Владимир Андреевич
  • Петров Геннадий Михайлович
SU1076938A1
Спектрополосный анализатор для распознавания речевых команд 1983
  • Карпов Олег Николаевич
  • Дуранин Владимир Евгеньевич
  • Чугай Анатолий Александрович
  • Исаев Леонид Николаевич
  • Рябченко Андрей Евгеньевич
  • Карпов Андрей Олегович
  • Дьяченко Нина Андреевна
SU1180969A2
Анализатор речи 1990
  • Котенко Владимир Владимирович
  • Глушко Анатолий Петрович
  • Бернацкий Анатолий Иванович
  • Александров Сергей Николаевич
  • Свистунов Сергей Степанович
  • Даниленко Олег Валерьевич
SU1765843A1
Способ дикторонезависимого распознавания фонемы в речевом сигнале 2021
  • Лелейтнер Валерий Олегович
RU2763124C1
СИСТЕМА И СПОСОБ ПЕРЕВОДА РЕЧЕВОГО СИГНАЛА В ТРАНСКРИПЦИОННОЕ ПРЕДСТАВЛЕНИЕ С МЕТАДАННЫМИ 2014
  • Кнеллер Эммануил Григорьевич
  • Караульных Денис Владимирович
RU2589851C2
СПОСОБ ГИБРИДНОЙ ГЕНЕРАТИВНО-ДИСКРИМИНАТИВНОЙ СЕГМЕНТАЦИИ ДИКТОРОВ В АУДИО-ПОТОКЕ 2013
  • Хитров Михаил Васильевич
  • Пеховский Тимур Сахиевич
  • Шулипа Андрей Константинович
RU2530314C1
СПОСОБ И УСТРОЙСТВО АВТОМАТИЧЕСКОЙ ВЕРИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ 2008
  • Голубинский Андрей Николаевич
RU2399102C2
СПОСОБ ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО ПО ФОНОГРАММАМ ПРОИЗВОЛЬНОЙ УСТНОЙ РЕЧИ НА ОСНОВЕ ФОРМАНТНОГО ВЫРАВНИВАНИЯ 2009
  • Коваль Сергей Львович
RU2419890C1
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ 1994
  • Сорокин Виктор Николаевич
RU2047912C1
СПОСОБ СЛУХОРЕЧЕВОЙ РЕАБИЛИТАЦИИ И УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ 2013
  • Кочергин Анатолий Васильевич
  • Кочергин Андрей Анатольевич
  • Колигаев Олег Анатольевич
  • Колигаев Сергей Олегович
RU2525366C1

Иллюстрации к изобретению RU 2 701 120 C1

Реферат патента 2019 года Устройство для обработки речевого сигнала

Изобретение относится к области электротехники и может быть использовано в автоматизированных комплексах связи. Технический результат заключается в повышении надежности работы устройства в условиях высоких шумов. Устройство для обработки речевого сигнала состоит из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, и исполнительного блока. Выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем. Исполнительный блок состоит из первого цифрового колебательного фильтра, линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра. В первом цифровом колебательном фильтре число коэффициентов фильтра составляет от 10 до 12. Выходы элементов, определяющих величины коэффициентов, соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки. На первый вход первого цифрового колебательного фильтра подается основной тон речевого сигнала и случайный шум. 1 ил.

Формула изобретения RU 2 701 120 C1

Устройство для обработки речевого сигнала, состоящее из аналого-цифрового блока обработки речевого сигнала, который выполнен из детектора огибающей, параллельно соединенного с детектором основного тона и нормализатором уровня, который в свою очередь соединен со спектрально-полосовым анализатором, причем выходы детектора огибающей, детектора основного тона, спектрально-полосового анализатора соединены с аналого-цифровым преобразователем (АЦП), и исполнительного блока, отличающееся тем, что исполнительный блок состоит из первого цифрового колебательного фильтра, линии задержки, устройства изменяемых коэффициентов и второго цифрового колебательного фильтра, при этом в первом цифровом колебательном фильтре число коэффициентов фильтра составляет от 10 до 12 (а1…а12), выходы элементов, определяющих величины коэффициентов, соединены с десятью входами второго цифрового колебательного фильтра, с линией задержки и при этом на первый вход первого цифрового колебательного фильтра подается основной тон речевого сигнала и случайный шум.

Документы, цитированные в отчете о поиске Патент 2019 года RU2701120C1

Способ изготовления шлифовальных кругов 1953
  • Васильев А.И.
  • Караулов С.А.
  • Малый Е.А.
SU102408A1
Устройство для вулканизации камер пневматических шин 1947
  • Лиманов А.Г.
SU75074A1
СПОСОБ РАСПОЗНАВАНИЯ ЗВУКОВ 2000
  • Юрьев Д.Н.
RU2231830C2
СПОСОБ РАСПОЗНАВАНИЯ ЗВУКОВ 2000
  • Юрьев Д.Н.
RU2231133C2
US 8577675 B2, 02.11.2013
Способ приготовления мыла 1923
  • Петров Г.С.
  • Таланцев З.М.
SU2004A1
JP 3803029 B2, 02.08.2006
US 6366649 B1, 02.04.2002.

RU 2 701 120 C1

Авторы

Катанович Андрей Андреевич

Привалов Андрей Андреевич

Попов Павел Валерьевич

Даты

2019-09-24Публикация

2018-05-14Подача