СПОСОБ РАСПОЗНАВАНИЯ ЗВУКОВ Российский патент 2004 года по МПК G10L15/08 G10L101/23 

Описание патента на изобретение RU2231133C2

Изобретение относится к области приборостроения, а именно к области способов и устройств, применяемых для распознавания звуков.

Известен способ распознавания звуков (Винницкий А.С. Методы помехоустойчивого приема ЧМ и ФМ сигналов. М.: “Советское радио”, 1976, стр.80). Согласно известному способу звук преобразуют в электрический сигнал, представленный в комплексной форме. Определяют последовательность значений параметров и сравнивают полученную последовательность с соответствующими эталонными значениями.

Недостатком известного способа следует признать слабую разрешающую способность сходных по звучанию звуков.

Известен также способ распознания звуков (Дж.Д.Маркел. Линейное предсказание речи. М.:, “Связь”, 1980, с. 279-284). Согласно известному способу звук преобразуют в электрический сигнал, а электрический сигнал в свою очередь преобразуют в совокупность предсказаний сигнала, которую сравнивают с ранее полученными эталонами для принятия решения.

Недостатком известного способа следует признать низкую разрешающую способность сходных по звучанию звуков, а также зависимость точности распознания звука от его конкретного источника.

Техническая задача, решаемая посредством настоящего изобретения, состоит в разработке способа распознания звука, разрешающая способность которого не зависит от источника анализируемого звука.

Технический результат, получаемый в результате реализации изобретения, состоит в обеспечении возможности создания устройств распознавания речи, не зависящих от источника произносимых звуков.

Указанный технический результат достигается использованием следующей совокупности признаков. Первоначально фонему каждого звука записывают в форме амплитудно-частотной зависимости. Определяют частоты характерных для данной фонемы формант. Исследуемый звук записывают в форме электрического сигнала с разложением последнего в виде амплитудно-частотной характеристики. Для исследования полученной амплитудно-частотной характеристики используют набор узкополосных частотных фильтров. Указанный набор узкополосных частотных фильтров разделяют на группы, с частичным перекрытием диапазонов смежных частотных фильтров, причем набор узкополосых частотных фильтров полностью перекрывает весь диапазон звуковых частот. Указанные группы узкополосных частотных фильтров подключают к входам регистраторов формант, выходы регистраторов формант подключают к входу регистратору фонем. Сравнивают зарегистрированный набор формант с заранее определенными наборами формант для каждого звука и по итогам сравнения определяют записанный звук.

Способ может быть реализован с использованием программного обеспечения. Предпочтительно группы узкополосых частотных фильтров подобраны таким образом, что часть узкополосых частотных фильтров в группе соответствует частотам одной из формант конкретного звука, а остальные фильтры группы не соответствуют. Выход регистратора фонем может быть подключен к печатающему устройству. При этом при отсутствии сигналов от всех регистраторов печатающее устройство осуществляет при письме пробел. Выход регистратора фонем может быть подведен к записывающему, предпочтительно, на магнитный или оптический носитель, устройству. Обычно перед преобразованием звука в электрический сигнал производят регулирование уровня записи звука. При этом, предпочтительно, сравнивают величины амплитуд формант наиболее встречаемых и стабильных предварительно записанных фонем и формант записываемых фонем. Преимущественно, предварительно задают ширину групп узкополосых фильтров, предпочтительно, ширину групп задают с учетом речевых характеристик пользователя способа. Обычно, дополнительно к записыванию фонем записывают амплитудно-частотные характеристики служебных слов, посредством которых осуществляют управление записью звуков. В качестве регистратор формант и фонем предпочтительно используют сумматоры.

Изобретение может быть реализовано с использованием устройства, приведенного на чертеже. Устройство содержит приемник 1 звуков, выполненный с возможностью перевода звуковых колебаний в электрические и, предпочтительно, с возможностью усиливать или ослаблять уровень звуковых колебаний. Выход приемника 1 соединен с входами узкополосых фильтров 2. Выходы узкополосых фильтров 2 соединены с входами регистраторов 3 формант, причем к входам регистраторов 3 формант подключены, предпочтительно, выходы тех узкополосых фильтров 2, которые соответствуют частотным границам регистрируемых формант.

Количество подключенных к регистраторам формант узкополосных фильтров определяется возможностями сумматоров, используемых в качестве регистраторов формант. Выходы регистраторов 3 формант соединены с входами регистраторов 4 фонем, причем, предпочтительно, к входам регистраторов фонем подключены выходы регистраторов тех формант, которые входят в регистрируемые фонемы. Выходы регистраторов 4 фонем могут быть подключены к регистраторам букв 5, соответствующих указанным фонемам и/или их наборам. Для управления величиной звукового сигнала может быть использован автоматический регулятор 6 уровня, вход которого соединен с выходами наиболее употребительных и стабильных формант и/или фонем, а выход соединен с приемником 1 звуков.

Известно (см., например, Р.К.Потапова. Речь: коммуникация, информатика, кибернетика. М.: “Радио и связь”, 1997, стр. 310-324), каким образом проводят определение амплитудно-частотных характеристик звуков. Также известны (там же) форманты звуков. Это позволяет выбрать набор узкополосых фильтров, позволяющий выделить отдельные форманты всех фонем. Соответствующих всем звукам любого языка.

Например, для звука “о” в диапазоне частот 125-600 Гц энергия звука составляет 59%, в диапазоне 600-1600 Гц - 35%, в диапазоне 1600-3150 Гц - 4%, в диапазоне 3150-6300 Гц - 2. Для звука “с” соответственно в диапазоне 125-600 Гц - 11%, в диапазоне 600-1600 Гц - 3%, в диапазоне 1600-3150 Гц - 16%, в диапазоне 3150-6300 Гц - 70%. Аналогичные разложения величины энергии звука по частотным диапазонам (амплитудно-частотная характеристика звука) известны для всех звуков.

Это позволяет входы регистраторов фонем каждого звука соединить с выходами регистраторов соответствующих формант, а входы регистраторов формант с соответствующими узкополосными фильтрами, чтобы при одновременном попадании в регистратор фонемы сигналов всех составляющих ее формант зарегистрировать наличие соответствующего звука. Для регистрации буквы, которой соответствует набор фонем, необходимо поступление на регистратор указанной буквы сигналов, полного набора фонем.

Поскольку происходит регистрация изначально присущих характеристик звука вне зависимости от особенностей источника звука, обеспечена возможность создания устройств распознавания речи, не зависящих от источника произносимых звуков.

Похожие патенты RU2231133C2

название год авторы номер документа
СПОСОБ РАСПОЗНАВАНИЯ ЗВУКОВ 2000
  • Юрьев Д.Н.
RU2231830C2
Способ дикторонезависимого распознавания фонемы в речевом сигнале 2021
  • Лелейтнер Валерий Олегович
RU2763124C1
СПОСОБ ОПРЕДЕЛЕНИЯ ПАРАМЕТРОВ ЛИНЕЙЧАТЫХ СПЕКТРОВ ВОКАЛИЗОВАННЫХ ЗВУКОВ И СИСТЕМА ДЛЯ ЕГО РЕАЛИЗАЦИИ 2007
  • Котов Михаил Андреевич
  • Леднов Дмитрий Анатольевич
  • Мельников Сергей Юрьевич
  • Федюкин Михаил Владимирович
  • Широкова Анна Михайловна
RU2364957C1
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ 1994
  • Сорокин Виктор Николаевич
RU2047912C1
СИСТЕМА И СПОСОБ РАСПОЗНАВАНИЯ РЕЧИ 2011
  • Кочаров Даниил Александрович
  • Хомяков Александр Борисович
RU2466468C1
СИСТЕМА ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ДИКТОРА 2009
  • Зыков Александр Павлович
  • Леднов Дмитрий Анатольевич
  • Меркулов Максим Николаевич
RU2385272C1
СПОСОБ ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО ПО ФОНОГРАММАМ ПРОИЗВОЛЬНОЙ УСТНОЙ РЕЧИ НА ОСНОВЕ ФОРМАНТНОГО ВЫРАВНИВАНИЯ 2009
  • Коваль Сергей Львович
RU2419890C1
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа 2014
  • Титов Олег Николаевич
  • Афанасьев Андрей Алексеевич
  • Илюшин Михаил Владимирович
RU2606566C2
НАПРАВЛЕННЫЙ ПРИЕМ ЗВУКОВЫХ СИГНАЛОВ В МАЛОМ ТЕЛЕСНОМ УГЛЕ 2016
  • Горбунов Михаил Алексеевич
  • Крутяков Ювеналий Александрович
  • Крутякова Анастасия Алексеевна
  • Качалов Александр Юрьевич
  • Свобода Дмитрий Георгиевич
RU2623654C1
СИСТЕМА ИСКАЖЕНИЯ ГОЛОСА ДИКТОРА 2009
  • Котов Михаил Андреевич
  • Леднов Дмитрий Анатольевич
  • Меркулов Максим Николаевич
  • Хацкевич Андрей Валентинович
RU2403627C1

Реферат патента 2004 года СПОСОБ РАСПОЗНАВАНИЯ ЗВУКОВ

Изобретение относится к средствам для распознавания звуков. Его использование позволяет обеспечить технический результат в виде повышения разрешающей способности. В способе преобразуют звук в электрический сигнал с записью фонемы каждого звука в форме амплитудно-частотной зависимости, определяют частоты характерных для данной фонемы формант, электрический сигнал представляют в виде амплитудно-частотной характеристики, анализируют ее набором узкополосных частотных фильтров, который разделяют на группы с частичным перекрытием диапазонов смежных частотных фильтров, подключенных к входам регистраторов формант, выходы которых подключают к входу регистратора фонем, сравнивают зарегистрированный набор формант с заранее определенными наборами формант и определяют записанный звук, причем выходы регистратора фонем подключают к печатающему устройству, осуществляющему запись распознанных звуков. Технический результат достигается благодаря тому, что группы узкополосных частотных фильтров подбирают таким образом, что часть этих фильтров в группе соответствует частотам одной из формант конкретного звука, при отсутствии сигналов от всех регистраторов печатающее устройство записывает пробел, перед преобразованием звука в электрический сигнал регулируют уровень записи звука, сравнивая величины амплитуд формант наиболее встречаемых и стабильных предварительно записанных фонем и формант записываемых фонем. 1 ил.

Формула изобретения RU 2 231 133 C2

Способ распознавания звуков, включающий преобразование звука в электрический сигнал, причем предварительно фонему каждого звука записывают в форме амплитудно-частотной зависимости, определяют частоты характерных для данной фонемы формант, электрический сигнал представляют в виде амплитудно-частотной характеристики, анализируют указанную характеристику с использованием набора узкополосных частотных фильтров, причем указанный набор узкополосных частотных фильтров разделяют на группы, с частичным перекрытием диапазонов смежных частотных фильтров, при этом набор узкополосных частотных фильтров полностью перекрывает весь диапазон звуковых частот, указанные группы узкополосных частотных фильтров подключают к входам регистраторов формант, выходы регистраторов формант подключают к входу регистратора фонем, сравнивают зарегистрированный набор формант с заранее определенными наборами формант для каждого звука и по итогам сравнения определяют записанный звук, причем выход регистратора фонем подключают к печатающему устройству, осуществляющему запись распознанных звуков, отличающийся тем, что группы узкополосных частотных фильтров подбирают таким образом, что часть узкополосных частотных фильтров в группе соответствует частотам одной из формант конкретного звука, при отсутствии сигналов от всех регистраторов печатающее устройство осуществляет при записывании звуков пробел, перед преобразованием звука в электрический сигнал производят регулирование уровня записи звука, сравнивая величины амплитуд формант наиболее встречаемых и стабильных предварительно записанных фонем и формант записываемых фонем.

Документы, цитированные в отчете о поиске Патент 2004 года RU2231133C2

US 4852170 А, 25.07.1989
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ 1994
  • Сорокин Виктор Николаевич
RU2047912C1
СПОСОБ ЛЕКСИЧЕСКОЙ ИНТЕРПРЕТАЦИИ СЛИТНОЙ РЕЧИ И СИСТЕМА ДЛЯ ЕГО РЕАЛИЗАЦИИ 1997
  • Изилов Яков Юноевич
  • Изилов Роман Юноевич
  • Изилов Юно Романович
RU2119196C1
US 5640490 А, 17.06.1997
US 5708759 А, 13.01.1998
US 5893058 А, 06.04.1999
US 5313553 А, 17.05.1994.

RU 2 231 133 C2

Авторы

Юрьев Д.Н.

Даты

2004-06-20Публикация

2000-06-01Подача