Изобретение относится к приборостроению и может быть использовано для анализа, передачи и распознавания речи.
Известен способ спектрального представления вокализованной речи, включающий выделение огибающих колебатальных составляющих в совокупности спектральных полос и последующее суммирование этих огибающих l1.
Недостатком этого способа является расфазированность огибающих, снижающая эффективность таких много канальных нелинейных преобразований
Известен также способ спектрального представления вокализованной речи с использованием логической обработки быстрых приращений компресированных огибающих спёктрополосны колебательных составляющих. Эту логическую обработку осуществляет стохастический автомат, нечувствительность к шумам и искажениям сигнала достигается обучением автомата 2.
Недостатком этого способа является необходимость доучивания автомата при смене канала и диктора.,
Наиболее близким по технр1чбской сущности к предлагаемому является способ спектрального представления вокализованного речевого сигнала, включающий выделение и компрессирование огибающих колебательных компонент речевого сигнала в совокупности частотных полос и измерение амплитудного и фазового спектро Этот способ обеспечивает разделение влияний характеристик канала и голосового источника, а также ослабление влияния искажений, вносимых каналом, на определение свойств звуков речи з .
Недостатком известного способа является неоднозначность вьщеления параметров основного тона речи по кепстральным характеристикам, так как период основного тона проявляет ся на кепстре несколькими повторяющимися пиками, которые трудно идентифицировать.
Цель изобретения - повышение устойчивости к помехам и искажениям спектрального представления вокализ ванного речевого сигнала.
Поставленная цель достигается тем, что согласно способу спектрального представления вокализойанногр речевого сигнала, включающему выделение огибающих колебаний в различных частотных полосах речевого сигнала, компрессирование сигналов вьщеленных огибающих, а также формирование совокупности отсчетов амплитудного и фазового спектров речевого сигнала, при формировании совокупности отсчётов амплитудного и фазового спектров речевого сигна ла формируют совокупность отсчетов амплитудных и фазовых спектров сигналов компрессированных огибающих и вьщеляют отсчеты амплитудного и фазового спектров, соответствующих частоте первой гармоники основного тона речи, которые характеризуют глубину модуляции полосных колебаний первой гармоники основного тона речи.
Кроме того, для управления вьщелением отсчетов амплитудных и фазовых спектров, соответствующих частоте основного тона речи, попарно перемножают отсчеты амплитудйых спектров. Соответствующих разным полосам при одной частоте из диапазона частот основного, тона, накапливают результаты перемножения для каждой из этих частот и вьщеляю ту частоту которая соответствует наибольшему результату накопления и характеризует частоту основного тона речи.
. Каждую компрессированную полосную огибающую преобразуют как функцию времени, а затем отсчитывают значение ее спектров на частоте первой гармоники основного тона. Логарифмические характеристики компрессоров обеспечивают выделение глубины амплитудной модуляции, которая нечувствительна к среднему уровню в полосе, чем обеспечивается нечувствительность к частотным искажениям речевого сигнала с Точностью до разбиения на полосы.
Совокупность амплитудных спектров компрессированных огибающих полосных составляющих позволяет измерить основной тон речи без неоднозначноетен выбора, свойственных известным способам. Компрессированные кроссспектры огибающих не повреждаются шумами при неперекрывающихся полосах Эти кросс-спектры,накапливают по ризличным парам полос для каждой предполагаемой фиксированной частоты основного тона. Наибольший результат накопления достигается на фиксиро31
ванной частоте, ближайшей к первой гармонике основного тона. На этой фиксированной частоте выделяют амплитудные и фазовые спектральные составляющие. При этом фиксированные ;частоты располагают в диапазоне час:тот основного тона, компрессированны ;огибающие фильтруют в полосе, совпа1дающей с этим диапазоном; устраненйе пульсаций вне этого диапазона повышает текущую точность измерения указанных спектральных составляющих. На чертеже схематически представлен пример осуществления предлагаемого способа на аналого-цифровом препроцессоре.
Формирование описания вокализованной речи, поступившей на вход препроцессора, начинают с выделения огибающих колебательных компонент поступившего сигнала в совокупности частотных полос. Это выделение осуществляют в блоке 1 измерения аг/(плитудных спектров, компрессирование ;Выделеннык огибающих осуществляют в блоке 2 компрессирования, затем компрессированные огибающие фильтрую в полосе частот диапазона основного тона в блоке 3 фильтров. Далее измеряют амплитудный и фазовый спект ры каждой фильтрованной огибающей. Эти измерения производят для всех частотных полос в соответствующих блоках 4 и 5 измерения амплитудных и фазовых спектров. Число таких блоков равно числу полос, обычно для телефонного канала число частот994
ных полос составляет 15-20, число фиксированных тональных частот в диапазоне 75-300 Гц выбирают такого же порядка. Из совокупности значений текущих фазовых и амплитудных спектров, полученных по всем полосам, управляющими переключателями 6-9 вьщеляют спектральные составляющие, которые соответствуют частоте первой гармоники основного тона речи. Поиск этой частоты осуществляют в блоке 10 измерения частоты первой гармоники основного тона, где из совокупности
амплитудных спектров по разным фиксированным тональным частотам и по разным частотным полосам формируют
кросс-спектры, которые компрессирзтот, накапливают по всем сочетаниям пар полос при одинаковой фиксированной частоте и выбирают фиксированную частоту, соответствующую наибольшему результату накопления. Эту частоту, наиболее близкую к первой гармонике основного тона речи, выводят вместо со значениями текущих спектров на этой частоте. Таким образом, сформированное описание включает в себя амплитудньй и фазовый спектры на выбранной фиксированной частоте и значение этой фиксированной частоты.
Использование предложенного способа обеспечивает возможность ввода речи в системы автоматического диалога человек - машина при совме-, стном воздействии шумов и искажений в телефонном канале.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ ПЕРЕДАЧИ И ПРИЕМА ЗАКОДИРОВАННОЙ РЕЧИ | 2007 |
|
RU2343563C1 |
СИСТЕМЫ, СПОСОБЫ И УСТРОЙСТВА ДЛЯ ВЫСОКОПОЛОСНОГО ПРЕДЫСКАЖЕНИЯ ШКАЛЫ ВРЕМЕНИ | 2006 |
|
RU2491659C2 |
ТЕКСТОЗАВИСИМЫЙ СПОСОБ КОНВЕРСИИ ГОЛОСА | 2010 |
|
RU2427044C1 |
СПОСОБ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ФОНОГРАММАМ ПРОИЗВОЛЬНОЙ УСТНОЙ РЕЧИ | 1996 |
|
RU2107950C1 |
СПОСОБ И УСТРОЙСТВО ДЛЯ УЛУЧШЕНИЯ РЕЧЕВОГО СИГНАЛА В ПРИСУТСТВИИ ФОНОВОГО ШУМА | 2004 |
|
RU2329550C2 |
СИСТЕМЫ, СПОСОБЫ И УСТРОЙСТВА ДЛЯ ВЫСОКОПОЛОСНОГО ПРЕДЫСКАЖЕНИЯ ШКАЛЫ ВРЕМЕНИ | 2006 |
|
RU2376657C2 |
РЕШЕНИЕ ОТНОСИТЕЛЬНО НАЛИЧИЯ/ОТСУТСТВИЯ ВОКАЛИЗАЦИИ ДЛЯ ОБРАБОТКИ РЕЧИ | 2014 |
|
RU2636685C2 |
СПОСОБ АНАЛИЗА И СИНТЕЗА РЕЧИ | 2005 |
|
RU2296377C2 |
СИСТЕМЫ, СПОСОБЫ И УСТРОЙСТВО ШИРОКОПОЛОСНОГО РЕЧЕВОГО КОДИРОВАНИЯ | 2006 |
|
RU2381572C2 |
СИСТЕМЫ, СПОСОБЫ И УСТРОЙСТВА ДЛЯ УСТРАНЯЮЩЕЙ РАЗРЕЖЕННОСТЬ ФИЛЬТРАЦИИ | 2006 |
|
RU2413191C2 |
1. СПОСОБ СПЕКТРАЛЬНОГО -ПРЕДСТАВЛЕНИЯ ВОКАЛИЗОВАННОГО РЕЧЕВОГО СИГНАЛА, включающий вьщеление огибающих колебаний в различных .частбтных полосах речевогосигнала, компрессирование сигналов выделенных огибающих, а .также формирование совокупности отсчетов амплитудного и фазового спектров электрического сигнала, отличающийся тем, что, с целью поЕЬШ1ения устойчивости к помехам и искажениям, при формировании совокупности отсчетов амплитудного и фазового спектров речевого сигнала формируют совокупность отсчетов амплитудных и фазовых спектров сигналов компрессированных огибающих и выделяют отсчеты амплитудного и фазового спектров, соответствующих частоте первой гармоники основного тона речи, которые характеризуют глубину модуляции полосных колебаний первой гармоникой основного тона речи, 2. Способ по п. 1, отличающийся тем, что для управления выделением отсчетов амплитудных и фазовых спектров, соответствующих частоте основного тона, попарно перемножают отсчеты амплитудных спект. ров, соответствующих разным полосам при одной частоте из диапазона частот основного тона, накапливают результаты переь1ножения для каждой из этих частот и выделяют ту частоту, которая соответствует наибольшему результату накопления и характеризует частоту основного тона речи. СО )
Печь для непрерывного получения сернистого натрия | 1921 |
|
SU1A1 |
Вокодерная телефония | |||
Под ред | |||
А.А | |||
Пирогова, М,, Связь, 1974, с | |||
Ударно-вращательная врубовая машина | 1922 |
|
SU126A1 |
Аппарат для очищения воды при помощи химических реактивов | 1917 |
|
SU2A1 |
at al A Syntactic Procedure for the Recognition of Glottal Pulses in Cohtinuos Speech Patteru Recognition, Pergamon Press, vol 9, pp | |||
Водяные лыжи | 1919 |
|
SU181A1 |
Переносная печь для варки пищи и отопления в окопах, походных помещениях и т.п. | 1921 |
|
SU3A1 |
Вагонетка для движения по одной колее в обоих направлениях | 1920 |
|
SU179A1 |
Авторы
Даты
1984-08-30—Публикация
1982-12-21—Подача