Способ обнаружения пауз в речевомСигНАлЕ Советский патент 1981 года по МПК G10L19/02 

Описание патента на изобретение SU836656A1

(54) СПОСОБ ОБНАРУЖЕНИЯ ПАУЗ В РЕЧЕВОМ СИГНАЛЕ

Похожие патенты SU836656A1

название год авторы номер документа
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ 1994
  • Сорокин Виктор Николаевич
RU2047912C1
Устройство для извлечения груп-пОВыХ ХАРАКТЕРиСТиК зВуКОВ РЕчи 1978
  • Богино Виталий Игнатьевич
  • Князев Евгений Павлович
  • Потапов Федор Григорьевич
  • Тарасов Виктор Алексеевич
  • Оргун Валерий Абрамович
SU809325A1
АППАРАТ ДЛЯ ЛЕЧЕНИЯ ЗАИКАНИЯ И ДЕФЕКТОВ РЕЧИ 2002
  • Броницкий И.В.
  • Максимов В.Ю.
  • Озеров В.И.
  • Юдин А.Д.
RU2230532C2
СПОСОБ АДАПТИВНОЙ ФИЛЬТРАЦИИ РЕЧЕВЫХ СИГНАЛОВ В СЛУХОВЫХ АППАРАТАХ 1993
  • Молчанов Александр Павлович
  • Бабкина Людмила Назаровна
RU2047946C1
СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА 1998
  • Архипов И.О.
  • Веркиенко Ю.В.
  • Гитлин В.Б.
  • Казаков В.С.
RU2174714C2
СПОСОБ ВЕРИФИКАЦИИ ПОЛЬЗОВАТЕЛЯ В СИСТЕМАХ САНКЦИОНИРОВАНИЯ ДОСТУПА 2007
  • Сорокин Виктор Николаевич
  • Цыплихин Александр Иванович
RU2351023C2
Способ обработки сигнала в слуховом аппарате 1990
  • Молчанов Александр Павлович
  • Бабкина Людмила Назаровна
SU1765903A1
СПОСОБ СЛУХОРЕЧЕВОЙ РЕАБИЛИТАЦИИ И УСТРОЙСТВО ДЛЯ ЕГО РЕАЛИЗАЦИИ 2013
  • Кочергин Анатолий Васильевич
  • Кочергин Андрей Анатольевич
  • Колигаев Олег Анатольевич
  • Колигаев Сергей Олегович
RU2525366C1
Способ идентификации говорящего 1986
  • Рамишвили Гурам Соломонович
  • Саакян Роман Рачикович
  • Тушишвили Михаил Акакиевич
SU1453442A1
МАГНИТОМЕТРИЧЕСКОЕ УСТРОЙСТВО ДЛЯ ОХРАННОЙ СИГНАЛИЗАЦИИ 2004
  • Звежинский Станислав Сигизмундович
  • Калмыков Юрий Викторович
  • Миткевич Владимир Станиславович
  • Наймушин Анатолий Викторович
  • Федяев Сергей Леонидович
RU2276410C1

Иллюстрации к изобретению SU 836 656 A1

Реферат патента 1981 года Способ обнаружения пауз в речевомСигНАлЕ

Формула изобретения SU 836 656 A1

I

Изобретение относится к области приборостроения, а именно к области акустики, и может быть использовано в кибернетике и связи при разработк систем автоматического распознавания речевых сигналов.

Известен способ обнаружения пауз в речевом сигнале, при использовании которого паузу в речевом сигнале можно обнаружить при анализе его описания, полученного путем формирования асимметричности огибающей речевого сигнала Г Однако, во-первых, помехоустоЙ7 чивость выделения пауз в речевом сигнале по известному способу остается по-прежнему невысокой. Вовторых, невозможность формирования этими способами сигнала не позволяет использовать технически легко выделяемые моменты достижения огибающей .своего нулевого уровн,я в качестве признаков пауз в речевом сигнале, так как временная огибакмца

в этом случае изменяет знак на противоположный и при смене одного группового признака фонем другим.

Наиболее близким по своей технической сущности к описываемому является способ обнаружения пауз в речевом сигнале, использующий коррекцию спектральных характеристик,, речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, раздельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение J.

5

Недостатком известного способа является трудность создания фазовых сдвигов одновременно во всем частотном диапазоне речевого сигнала, поэтому его огибающая будет иметь информационную полярность при наличии вречи лишь ограниченного числа групповых признаков,фонем, например только тональных или в сочетании с .сонорными, или же только шумных фонем. В остальных случаях огибающая будет иметь противоположную, помеховую полярность. Известны способом нельзя получить полную, сод%ржащую все звуки речи, помехоустойчивую временную огибающую рече вого сигнала, следовательно, некото рые паузы не могут быть надежно обн ружены на фоне маскирукяцей акустиче кой помехи, спектральный состав которой вызывает появление помеховой полярности огибающей. Целью изобретения является повыш ние надежности обнаружения пауз в р чевом сигнале. Указанная цель достигается тем, что в способе обнаружения пауз в речевом сигнале, использующем корре цию спектральных характеристик речё го сигнала, создание в нем фазовых сдвигов, сложение этого сигнала с амплитудно-частотным откорректированным сигналом, раздельное детекти рование положительных и отрицательных полуволн и их алгебраическое сложение, предварительно усиленный сигнал параллельно с частотно-зависимым усилением и последующим нелинейным преобразованием подвергают к компрессии, затем амплитудной коррек;1ии одновременно в нескольких ча тотньк областях, создают в них фазо вые сдвиги, разделяют полученные си налы на положительные иотрицательные полуволны и алгебраически их ск дывают, а затем регулирующий сигнал суммируют с нелинейно преобразованным сигналом и фильтруют. В.результ те получают регулирующую величину .предварительного усиления речевого сигнала - выходную огибающую, в которой зыделяют точки переходов чере свой нулевой уровень, определяющие моменты появления и исчезновения пауз в речевом сигнале,. На фиг, 1 представлена блок-схема устройства для реализации способа; на фиг, 2 - кривая разности интегралов полуволн выходного сигнала нелинейного преобразователя; на фиг. 3 - кривая соотнощения интегралов полуволн выходного сигнала операционного усилителя, на фиксированной частоте; на фиг, 4 - огигбающая слова начало, произнесенного на рабочем расстоянии (15 см) от микрофона без акуст|ических помех на фиг, 5а, б - огибающая того же 64 слова, произнесенного н,а фоне речевой помехи (речь мешающего диктора, находящегося на расстоянии 50 см от микрофона) . Дпя более помехоустойчивого обнаружения пауз в речевом сигнале обес печивают минимальный коэффициент усиления входного сигнала, позволяющий проводить его дальнейшие- преобразования и внешнее регулирование коэффициента усиления с перекрытием не менее, чем в два раза. Производят компрессию усиленного сигнала (например, по логарифмическому закону) для обеспечения.динамического диапазона 42-45 дБ; производят коррекцию спектральных характеристик компрессированного сигнала в перекрывающихся вбластях низких (1,5-3 кГц), средних (2,5-4,5 кГц) и высоких (4-8 кГц), осуществляя подъем спектральных составляющих в указанных областях на 2,8-3,2 дБ/окт; 3-4,8 дБ/окт. и 6 дБ/окт соответственно. . Кроме того, необходимо произвести в этих областях фазовые сдвиги составляющих {возможные их величины в пределах 15-20 ) для получения автосимметрии сигналов, осуществить разделение сигналов этих областей на положительные и отрицательные полуволны и алгебраически просуммировать полученные полуволны, каждую со своим весовым коэффициентом (значения весовых коэффициентов подбираются экспериментально. Предварительно усиленный речевой сигнал подвергают частотно-зависимому усилению с возрастанием амплитуды на 3 дБ/окт, Затем нелинейно преобразовывают этот сигнал. Для этого во-первых, ось симметрии сигнала cдвшkют фиксированно на 30-35% в сторонуJ совпадающую со знаком полярности вьщеляемой автоасимметрии алгебраической суммы полуволн фазосдвинутых сигналов, Во-вторых, в меньшей полуволне производят амплитудно-зависимое дифференцирование, осуществляя, таким образом, нелиней11ое увеличение (до ч 5-6) коэффициента диспропорции (величину отношения) интегралов большой и малой полуволн при превышении входным сигналом установленного значения. Сумр ируют нелинейно-преобразованный сигнал с алгебраической суммой полуволн фазосдвинутых сигналов. Производят сглаживание суммарного сигнала для получения выходной огибающей речевого сигнала. Используют выходную огибающую для регулирования коэффициента предварительного усиле ния увеличивая его при наличии информационной полярности огибающей. Далее выделяют точки перехода огибающей через нуль, фиксируя их как моменты появления и исчезновения паузы. В результате проделанньк операций получают описание речевого сигнала в виде низкочастотной аналоговой функции, одна полярность которой символизирует наличие распознаваемого речевого сообщения, момент перехода ее нулевого уровня означает появление обнаруживаемой паузы, а другая полярность сигналазирует о наличии акустических помех уровень которых в момент появления паузы речевого сигнала на 7-8 дБ и более ниже уровня речи распознаваемого диктора. , Устройство (фиг. 1) содержит последовательно соединенные регулируемый предварительный усилитель 1, компрессор 2, корректирующую схему 3 с тремя выходами, к каждому из которых подключена своя фазосдви гающая схема 4, 5 и 6, к выходам ко торых, в свою очередь, подключены детекторные пары 7, 8; 9, 10и 11, 12 для разделения положительных и о рицательных полуволй. Выходы детекторов 7-12 подключаются, каждый со своим весовым коэффициентом, к суммирующему входу операционного усили теля 13, играющего роль алгебраичес кого сумматора с интегрированием выходного сигнала. Выход операционного усилителя 13 соединен со входо нуль-органа 14, являющимся выходом устройства, а также с управляющим входом регулируемого предварительно го усилителя 1. Кроме того, к выход регулируемого усилителя подключена цепочка, состоящая из частотно-зависимого усилителя 15 и нелинейного преобразователя 16,выход которого соединен со вторым, дифференциальны входом операционного усилителя 13. В статике, при отсутствии речево го сигнала на выходе, выходное напряжение операционного усилителя 13, а значит, и нуль-органа 14 равно ну лю, и коэффициент передачи регулируемого предварительного усилителя 1 равен минимальному фиксированному значению (). Работа схемы в динамике. Речевой сигнал поступает с выхода регулируемого предварительного усилителя 1 на обработку одновременно по двум каналам. В одном канале речевой сигнал выравнивается.по амплитуде с помощью частотно-зависимого усилителя 15, так как шумные высокочастотные звуки (4-8 кГц) по сравнению с полутональными (2-4 кГц) и особенно низкочастотньии (1002000 Гц) звуками имеют низкую интенсивность. После он поступает на нелинейный преобразователь 16, у которого разность интегралов К положительной и отрицательной полярности выходного сигнала изменяется нелинейно в зависимости; от величины входного сигнала, т.е. К f () . Примерный вид этой зависимости изображен на фиг. 2. В другом канапе речевой сигнал сжимается компрессором 2, имеющим логарифмическую характеристику, и поступает на корректирующую схему 3, где усиливается в области низких частот на 3 дБ/окт; в области средних - на 6 дБ/окт; в области высоких частот на 8-9 дБ/окт. Затем сигналы этих областей подаются на фазосдвигающие и 6 для создания оптимальных фазовых сдвигов между гармоническими составляющими внутри выделенных областей с целью получения максимального эффекта автоасимметрии огибающей преобразованного речевого сигнала, после чего сигнал каждой области детектируется парами разнополярных детекторов 7-12. Полученным полуволнам присваиваются весовые коэффициенты и, затем они алгебраически складываются с помощью операционного усилителя 13 работающего дополнительно в режиме интегрирования выходного сигнала. На второй вход.операционного усилителя I3 подается сигнал с выхода нелинейного преобразователя 16. В результате взаимодействия сигналов, поступающих по двум входам, выходной сигнал операционного усилителя 13 изменяется по нелинейному закону в зависимости от величины входных сигналов. Например, на фиксированной частоте(4 кГц) соотношение -JP интегралов положительной jH отрицательной полярности выходIHOTO сигнала операционного усилителя 13 имеет вид, приведенный на фиг. 3. Подобного рода нелинейност объясняется следующим образом. При уровне входного сигнала, пр .котором речевой сигнал в канале нелинейного преобразования еще сим метричен, а в канале создания авто асимметрии огибающей еще недостато чен для появления эффекта асиммет рии, выходной сигнал операционного усилителя 13 равен нулю и коэффици ент передачи регулируемого предварительного усилителя I равен минимальному фиксированному значению. Когда выходной сигнал нелинейного преобразователя 16 достигает 6070% от своего максимально возможного значения, он становится несимметричен и, будучи поданным на инвертирующий вход операционного усилителя I3 и имея большую амплитуду по отношению к компрессирован ному сигналу, в котором начинает наблюдаться автоасимметрия, препят ствует росту последней и удерживает выходную огибакяцую операционного усилителя 13 в отрицательной, помеховой полярности. . Это происходит до тех пор, пока входной речевой Сигнал не дости гнет значения, при котором выходной сигнал нелинейного преобразователя 16 перестает увеличивать свою несимметричность (см. фиг. 2).Вследствие этого начинает преобладать сигнал автосимметрии на неинвер тирующем входе операционного усилителя 13 и выходная огибающая речево сигнала изменит свою полярность на информационную. Это, в свою очередь вызовет увеличение коэффициента передачи регулируемого предваритель ного усилителя I до максимального, и как следствие, увеличение скорос-ти роста амплитуд - информационной полярности огибающей речевого сигнала на выходе операционного усилителя 13. Дальнейшее увеличение амплитуды входного речевого сигнала ведет, к нелинейному (квадратичному) росту несимметричности сигнала на вых .де нелинейного преобразователя 16. .Б результате амплитуда информационной полярности уменьшается на 2530% от максимальной. Появление в речевом сигнале короткой паузы, вызванной смыканием 6 речевого тракта ц произношения II взрывных звуков ц, ч, п, т, к ведет к прохождению указанных процессов в обратном порядке. В результате выходная огибающая речевого сигнала или возвратится на короткое время в помеховую полярность, пересекая свой нулевой уровень, или вернется в исходное (нулевое) состояние и будет находиться там до тех пор, пока не кончится пауза и.вновь появившийся сигнал не выведет ее в информационную полярность. Моменты пересечения огибающей речевого сигнала нулевого уровня фиксируются нуль-органом 14 и на его выкоде, являющемся выходом устройства, появится дискретный сигнал, характеризующий время исчезновения и появления пауз в речевом сигнале. Если речевой сигнал отсутствует, но имеются различного рода, в том числе и речевые, помехи,;уровень которых на 7-8 дБ ниже уровня распознаваемой речи (в точке приема), нелинейно-преобразованный сигнал все еще больше автоасимметричного сигнала, поэтому полярность выходного сигнала операционного усилителя I3 находится в помеховой области и выходной сигнал нуль-органа 14 отсутствует. При этом коэффициент передачи регулируемого предварительного усилителя I поддерживается с помощью выходного сигнала операционного усилителя 13 на минимальном уровне, что способствует помехоустойчивому обнаружению пауз в речевом сигнале. На фиг. 4 приведена осциллограмма огибающей слова начало, произнесенного диктором в тишине на рабочем расстоянии(15 см) от микрофона, имеющем круговую диаграмму направленности. На фиг. 5а и 56 - осциллограммы того же слова, произнесенного на фоне другого, мешающего, диктора, который находился вне рабочей зоны оператора (на расстоянии 30 см), работающего с устройством обнаружения пауз в речевом сигнале. В приведенных осциллограммах положительная полярность огибающей .характеризует помеховую область, отрицательная - наличие речи распознаваемого диктора. Сравнивая осциллограммы, можно прийти к выводу, что устройство реагирует на мощные посторонние зву9ки речи, имеющие уровень на 8-9 дБ ниже уровня речи распознаваемого дик тора, и правильно классифицирует их как помеху, сохраняя способность надежного, помехоустойчивого обнаружения пауз (в данном случае перед глухим взрывным ч) в речевом сигнале.. Эффективность предпагаемого способа обнаружения пауз в речевом сигнале заключается в повышении надежности вьщелзния моментор появления фонетических, сематических и дыхательных пауз вследствие снижения на 10-13 дБ и более маскирующего действия акустических помех, когда помеха поступает на вход распознавающе системы совместно с анализируемым сигналом; снижения вероятности ложной тревоги из-за уменьшения чувствите-пьности к акустическим помехам в режиме кратковременного молчания диктора; сохранения всей информации из-за снижения порога селекции выделяемых пауз, что првьшает вероятност правильного распознавания речевой информации в целом при работе распознавакяцей системы .в реальных условиях с уровнем шумов 66-70 дБ без дополнительной акустической защиты. Формула изобретения Способ обнаружения пауз в речевом сигнале, использующий коррекцию 6 спектральных характеристик речевого сигнала, создание в нем фазовых сдвигов, сложение этого сигн an а с амплитудно-частотным откорректированным сигналом, раздельное детектирование положительных и отрицательных полуволн и их алгебраическое сложение, отличающийся тем, что, с целью повышения надежности обнаружения пауз, предварительно усиленный сигнал параллельно с частотно-зависимым усилением и последующим нелинейным преобразованием подвергают компрессии, затем амплитудной коррекции одновременно в нескольких частотных областях, создают в них фазовые сдвиги, разделяют полученные сигналы на положительные и отрицательные полуволны и алгебраически их складывают, а затем результирующий сигнал суммируют с нелинейно преобразованным сигналом и фильтруют, в результате получают регулирующую величину предварительного усиления речевого сигнала-выходкую огибающую, в которой вьщеляют точки переходов через свой нулевой уровень, определяющие моменты появления и исчезновения пауз в речевом сигнале. Источники информации, принятые во внимание при экспертизе 1.Патент США. № 3377428, кл. 179I 1968.. 2.Авторское свидетельство СССР по заявке № 2664124/18-10, кл. G 10 L 1/04, 28.02.79.

Вход

г %ш

Фиг.2

. Фиг.З

Фи.г.5а

Фuг.Sf

SU 836 656 A1

Авторы

Богино Виталий Игнатьевич

Гомжин Александр Михайлович

Князев Евгений Павлович

Каневец Юрий Яковлевич

Тарасов Виктор Алексеевич

Даты

1981-06-07Публикация

1979-07-16Подача