Показать метаданные Скрыть метаданные

(19)

(11)

1 111 199

(13)

(51)

МПК

G10L19/02(2000-01-01)

(21) (22)

Заявка

3523423, 1982-12-21

(22)

дата подачи заявки

1982-12-21

(45)

опубликовано

1984-08-30

(72)

авторы

Кабанова Евгения ИльиничнаМахонин Вячеслав Андреевич

(56)

Документы, цитированные в отчете о поиске

Вокодерная телефонияПод редА.АПирогова, М,, Связь, 1974, сat al A Syntactic Procedure for the Recognition of Glottal Pulses in Cohtinuos Speech Patteru Recognition, Pergamon Press, vol 9, pp

Способ спектрального представления вокализованного речевого сигнала Советский патент 1984 года по МПК G10L19/02

Описание патента на изобретение SU1111199A1

Изобретение относится к приборостроению и может быть использовано для анализа, передачи и распознавания речи.

Известен способ спектрального представления вокализованной речи, включающий выделение огибающих колебатальных составляющих в совокупности спектральных полос и последующее суммирование этих огибающих l1.

Недостатком этого способа является расфазированность огибающих, снижающая эффективность таких много канальных нелинейных преобразований

Известен также способ спектрального представления вокализованной речи с использованием логической обработки быстрых приращений компресированных огибающих спёктрополосны колебательных составляющих. Эту логическую обработку осуществляет стохастический автомат, нечувствительность к шумам и искажениям сигнала достигается обучением автомата 2.

Недостатком этого способа является необходимость доучивания автомата при смене канала и диктора.,

Наиболее близким по технр1чбской сущности к предлагаемому является способ спектрального представления вокализованного речевого сигнала, включающий выделение и компрессирование огибающих колебательных компонент речевого сигнала в совокупности частотных полос и измерение амплитудного и фазового спектро Этот способ обеспечивает разделение влияний характеристик канала и голосового источника, а также ослабление влияния искажений, вносимых каналом, на определение свойств звуков речи з .

Недостатком известного способа является неоднозначность вьщеления параметров основного тона речи по кепстральным характеристикам, так как период основного тона проявляет ся на кепстре несколькими повторяющимися пиками, которые трудно идентифицировать.

Цель изобретения - повышение устойчивости к помехам и искажениям спектрального представления вокализ ванного речевого сигнала.

Поставленная цель достигается тем, что согласно способу спектрального представления вокализойанногр речевого сигнала, включающему выделение огибающих колебаний в различных частотных полосах речевого сигнала, компрессирование сигналов вьщеленных огибающих, а также формирование совокупности отсчетов амплитудного и фазового спектров речевого сигнала, при формировании совокупности отсчётов амплитудного и фазового спектров речевого сигна ла формируют совокупность отсчетов амплитудных и фазовых спектров сигналов компрессированных огибающих и вьщеляют отсчеты амплитудного и фазового спектров, соответствующих частоте первой гармоники основного тона речи, которые характеризуют глубину модуляции полосных колебаний первой гармоники основного тона речи.

Кроме того, для управления вьщелением отсчетов амплитудных и фазовых спектров, соответствующих частоте основного тона речи, попарно перемножают отсчеты амплитудйых спектров. Соответствующих разным полосам при одной частоте из диапазона частот основного, тона, накапливают результаты перемножения для каждой из этих частот и вьщеляю ту частоту которая соответствует наибольшему результату накопления и характеризует частоту основного тона речи.

. Каждую компрессированную полосную огибающую преобразуют как функцию времени, а затем отсчитывают значение ее спектров на частоте первой гармоники основного тона. Логарифмические характеристики компрессоров обеспечивают выделение глубины амплитудной модуляции, которая нечувствительна к среднему уровню в полосе, чем обеспечивается нечувствительность к частотным искажениям речевого сигнала с Точностью до разбиения на полосы.

Совокупность амплитудных спектров компрессированных огибающих полосных составляющих позволяет измерить основной тон речи без неоднозначноетен выбора, свойственных известным способам. Компрессированные кроссспектры огибающих не повреждаются шумами при неперекрывающихся полосах Эти кросс-спектры,накапливают по ризличным парам полос для каждой предполагаемой фиксированной частоты основного тона. Наибольший результат накопления достигается на фиксиро31

ванной частоте, ближайшей к первой гармонике основного тона. На этой фиксированной частоте выделяют амплитудные и фазовые спектральные составляющие. При этом фиксированные ;частоты располагают в диапазоне час:тот основного тона, компрессированны ;огибающие фильтруют в полосе, совпа1дающей с этим диапазоном; устраненйе пульсаций вне этого диапазона повышает текущую точность измерения указанных спектральных составляющих. На чертеже схематически представлен пример осуществления предлагаемого способа на аналого-цифровом препроцессоре.

Формирование описания вокализованной речи, поступившей на вход препроцессора, начинают с выделения огибающих колебательных компонент поступившего сигнала в совокупности частотных полос. Это выделение осуществляют в блоке 1 измерения аг/(плитудных спектров, компрессирование ;Выделеннык огибающих осуществляют в блоке 2 компрессирования, затем компрессированные огибающие фильтрую в полосе частот диапазона основного тона в блоке 3 фильтров. Далее измеряют амплитудный и фазовый спект ры каждой фильтрованной огибающей. Эти измерения производят для всех частотных полос в соответствующих блоках 4 и 5 измерения амплитудных и фазовых спектров. Число таких блоков равно числу полос, обычно для телефонного канала число частот994

ных полос составляет 15-20, число фиксированных тональных частот в диапазоне 75-300 Гц выбирают такого же порядка. Из совокупности значений текущих фазовых и амплитудных спектров, полученных по всем полосам, управляющими переключателями 6-9 вьщеляют спектральные составляющие, которые соответствуют частоте первой гармоники основного тона речи. Поиск этой частоты осуществляют в блоке 10 измерения частоты первой гармоники основного тона, где из совокупности

амплитудных спектров по разным фиксированным тональным частотам и по разным частотным полосам формируют

кросс-спектры, которые компрессирзтот, накапливают по всем сочетаниям пар полос при одинаковой фиксированной частоте и выбирают фиксированную частоту, соответствующую наибольшему результату накопления. Эту частоту, наиболее близкую к первой гармонике основного тона речи, выводят вместо со значениями текущих спектров на этой частоте. Таким образом, сформированное описание включает в себя амплитудньй и фазовый спектры на выбранной фиксированной частоте и значение этой фиксированной частоты.

Использование предложенного способа обеспечивает возможность ввода речи в системы автоматического диалога человек - машина при совме-, стном воздействии шумов и искажений в телефонном канале.

Иллюстрации к изобретению SU 1 111 199 A1

Реферат патента 1984 года Способ спектрального представления вокализованного речевого сигнала

1. СПОСОБ СПЕКТРАЛЬНОГО -ПРЕДСТАВЛЕНИЯ ВОКАЛИЗОВАННОГО РЕЧЕВОГО СИГНАЛА, включающий вьщеление огибающих колебаний в различных .частбтных полосах речевогосигнала, компрессирование сигналов выделенных огибающих, а .также формирование совокупности отсчетов амплитудного и фазового спектров электрического сигнала, отличающийся тем, что, с целью поЕЬШ1ения устойчивости к помехам и искажениям, при формировании совокупности отсчетов амплитудного и фазового спектров речевого сигнала формируют совокупность отсчетов амплитудных и фазовых спектров сигналов компрессированных огибающих и выделяют отсчеты амплитудного и фазового спектров, соответствующих частоте первой гармоники основного тона речи, которые характеризуют глубину модуляции полосных колебаний первой гармоникой основного тона речи, 2. Способ по п. 1, отличающийся тем, что для управления выделением отсчетов амплитудных и фазовых спектров, соответствующих частоте основного тона, попарно перемножают отсчеты амплитудных спект. ров, соответствующих разным полосам при одной частоте из диапазона частот основного тона, накапливают результаты переь1ножения для каждой из этих частот и выделяют ту частоту, которая соответствует наибольшему результату накопления и характеризует частоту основного тона речи. СО )

Документы, цитированные в отчете о поиске Патент 1984 года SU1111199A1

Печь для непрерывного получения сернистого натрия	1921	Настюков А.М. Настюков К.И.	SU1A1
Вокодерная телефония
Под ред
А.А
Пирогова, М,, Связь, 1974, с
Ударно-вращательная врубовая машина	1922	Симонов Н.И.	SU126A1
Аппарат для очищения воды при помощи химических реактивов	1917	Гордон И.Д.	SU2A1
at al A Syntactic Procedure for the Recognition of Glottal Pulses in Cohtinuos Speech Patteru Recognition, Pergamon Press, vol 9, pp
Водяные лыжи	1919	Бурковский Е.О.	SU181A1
Переносная печь для варки пищи и отопления в окопах, походных помещениях и т.п.	1921	Богач Б.И.	SU3A1
Вагонетка для движения по одной колее в обоих направлениях	1920	Бурковский Е.О.	SU179A1

SU 1 111 199 A1

Авторы

Кабанова Евгения Ильинична

Махонин Вячеслав Андреевич

Даты

1984-08-30—Публикация

1982-12-21—Подача