СПОСОБ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА Советский патент 1973 года по МПК G10L19/02 G10L15/02 

Описание патента на изобретение SU404122A1

1

Изобретение касается автоматической обработки речевого сигнала.

Известные способы обработки речевого сигнала характеризуются недостаточной надежностью распознавания звуков речи из-за значительной изменчивости соответствуюн1их им акустических сигналов. Частично эта изменчивость определяется помехами, накладываемыми на речевой сигнал в процессе его распространения по каналу связи, и описывается статистическими закономерностями. Основная же доля этой изменчнвости вносится за счет различия в геометрических размерах голосовых трактов разных людей. Известно, например, что длипы голосовых трактов колеблются в пределах 25%, что приводит, согласно акуСтической теории речеобразования, к соответствующему разбросу в значениях резонансных частот (формант). Влияние других геометрических параметров на свойства акустического сигиала значительно труднее поддается аналитической оценке, хотя и не менее велико. Наряду с изменчивостью геометрических размеров голосового тракта значительные вариации речевых сигналов, относящн.хся к одним и тем же звукам, создают инднвидуальные особенности произнопления, в частности темпа и громкости речи.

Попытки уменьшения влияния изменчивости речевых сигналов на результаты раснознавания путем более грубого нзмерения их параметров не дали должных результатов.

Нормализация речи но громкости и линейная нормализация по темпу также не дают

суш,ественных результатов. Это объясняется тем, что ряд геометрически.к параметров голосового тракта претерпевает не только «мешающие изменения при переходе от одного человека к другому, но и одновременно создает

информативную модуляцию речевого сигнала в процессе артикуляции.

Цель изобретения - сжатие речевой информации и повышение надежности распозиавания.

Для этого но предлагаемому способу па огибающей в каждой частотной полосе выделяют амплитуды частоты и времена, характерных точек, которые сравнивают со значениями этих же величин для соответствующих точек одного

из эталонных спектров, из результирующих сигналов сравнения формируют сигналы, нронорциональные параметрам преобразований мгновенного снектра текущего речевого сигнала к данному эталону, и классифицируют эти

сигналы.

Если представить речевой сигпал в виде двумерной функции S(co, /) как мгновенный взвешенный амплитудпо-частотпый спектр акустических колебапий речи, то искомый способ количественного опнсания уклонения

спектра 5ij((o,/) / - реализации r-ого звука

от эталона 5; (со, О состоит в аппроксимации преобразований S,-j(cu, О уравнениями конечных непрерывных групп преобразований (групп Ли) на плоскости, общая форма записи которых имеет вид

(.; «I. «2 -. а„)

f h(i ; и,, а ... , а„), где (со , /) - координаты некоторой точки на 5(j(co, t}; (со, t) - координаты соответственной ей точки на 5, (со, /); (ai, . .., а„) -параметры нреобразований.

Среди групп Ли различают два основных класса - примитивные и имнримитивные группы. К числу примитивных групн относятся группы, преобразования которых не связаны с каким-либо фиксированным направлением на ПЛОСКОСТИ, например группы движения, подобия. Максимальное число параметров в таких группах равно восьми (у проективной группы). Для импримитивпых групп характерно наличие некоторого преобладающего направлепия в плоскости (в каноническом виде- направление оси ш) и потому их преобразованиям свойственна некоторая анизотропность. Вместе с тем числом п параметров для большинства импримитивных групп не ограничено.

Следующие уравнения дают пример импримитивной группы:

Г (1) а, (О -J- /2

f a,t + а, + а,ш + + ... + а - Анизотропность преобразовапий проявляется очевидным образом и в асимметрии этих уравнений.

Наличие естественных разрывов в речевом сигнале, например смычек, позволяет использовать уравнения со сравнительна небольшим числом параметров за счет использования кусочной аппроксимации преобразований.

Параметры уравнений групп нреобразований вычисляются путем решения соответствующего уравнения для 5(со,/) путем подстановки в него координат соответственных точек на видеограммах эталона и текущей реализации некоторого звукосочетания. В качестве таких соответственных точек рациональио выбирать характерные, в чем-либо отличающиеся от других, точки, например точки локальных максимумов, миксимумов ее градиентов и т. д.

Параметры уравнений групп образуют д-мерное прострапство, в котором обычными методами теории раснознавания образов нроводятся разделяющие границы между звуками и звукосочетаниями. Тогда каждая фонема

описывается номером эталона 5,; (со, t и областью в пространстве параметров. Достоинствами такого способа обработки является возможность отделить случайные и неинформативные преобразования в речевых сигналах, причем число параметров преобразований можно сколь угодно приблизить к теоретически минимальному, а надежность раснознавания - за счет сохранения всей информации о 5(со,/) - к потенциально достижимой.

На чертеже изображена блок-схема устройства, реализующего предлагаемый способ.

Речевой сигнал поступает на микрофон 1, подвергается разложению на ряд частотных полос в гребенке полосовых фильтров 2, на

выходах которых стоят амплитудные детекторы 3, выделяющие огибающие в каждой полосе. Огибающие проходят через систему блоков 4, определяющих значения амплитуды, частоты и времени характерных точек разного

типа (локальные экстремумы, градиенты и т. д.), а через блок 5, определяющий тип эталона для текущего звука. Сигналы с выхода системы блоков 4 подаются в блок 6, в котором происходит вычисление параметров

уравнеиий преобразований. Начало и конец вычислений, а также тип .используемых уравнений определяются сигналами блока 5.

Сигналы из блока 6, пропорциональные параметрам преобразований, вместе с сигналом

из блока 5 о типе эталона поступают в канал связи, а в случае распозпавания - в блок решающего нравила 7, сигналы на выходе которого соответствуют распознанным звукам. Кроме того, в канал связи (или блок решающего правила) подается сигнал, цропорциональный частоте основного тона, выделенной детектором основного тона 8. Тип эталона определяется видом источника возбуждения (голосовой или шумовой) и числом формаит в

спектральном разрезе.

Предмет изобретения

Способ обработки речевого сигнала, согласно которому сигнал разлагают на ряд частотных полос, выделяют огибающие в каждой полосе и огибающую спектрального разреза, детектируют частоту основного тона, отличающийся тем, что, с целью сжатия речевой информации и повыщения надежности распознавания, на огибающей в каждой частотной полосе выделяют амплитуды, частоты и .времеиа характерных точек, которые сравнивают .со значениями этих же величии для соответствуюпдих точек одного из эталонных снектров, из результирующих сигналов формируют сигналы, пропорциональные нараметрам преобразований мгновенного спектра текущего речевого сигнала к данному эталону, и классифицируют сигналы.

Похожие патенты SU404122A1

название год авторы номер документа
СПОСОБ ПРЕОБРАЗОВАНИЯ РЕЧЕВБГХ СИГНАЛОВ 1973
  • Автор Изобретени
SU399908A1
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ 1994
  • Сорокин Виктор Николаевич
RU2047912C1
СПОСОБ ПЕРЕОЗВУЧИВАНИЯ АУДИОМАТЕРИАЛОВ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ 2012
  • Бредихин Александр Юрьевич
RU2510954C2
СПОСОБ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА В ЧАСТОТНОЙ ОБЛАСТИ 2010
  • Колоколов Александр Сергеевич
  • Павлова Марианна Иосифовна
RU2454735C1
СПОСОБ ОСУЩЕСТВЛЕНИЯ МАШИННОЙ ОЦЕНКИ КАЧЕСТВА ЗВУКОВЫХ СИГНАЛОВ 2005
  • Гусев Михаил Николаевич
  • Дегтярев Владимир Михайлович
  • Жарков Игорь Вениаминович
RU2312405C2
СПОСОБ КОНТАКТНО-РАЗНОСТНОЙ АКУСТИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ 2011
  • Дворянкин Сергей Владимирович
  • Голубинский Андрей Николаевич
RU2451346C1
УСТРОЙСТВО для ВЫЯВЛЕНИЯ ХАРАКТЕРНЫХ ТОЧЕК НА СПЕКТРАЛЬНЫХ РАЗРЕЗАХ РЕЧЕВЫХ СИЕНАЛОВ 1971
SU304615A1
СИСТЕМА И СПОСОБ ПЕРЕВОДА РЕЧЕВОГО СИГНАЛА В ТРАНСКРИПЦИОННОЕ ПРЕДСТАВЛЕНИЕ С МЕТАДАННЫМИ 2014
  • Кнеллер Эммануил Григорьевич
  • Караульных Денис Владимирович
RU2589851C2
СПОСОБ ИНДИВИДУАЛЬНОЙ КОРРЕКЦИИ ПАРАМЕТРОВ ТЕХНИЧЕСКИХ КАНАЛОВ ПЕРЕДАЧИ ОБРАЗОВАТЕЛЬНОГО КОНТЕНТА, ВОСПРИНИМАЕМОГО ОРГАНАМИ СЛУХА 2020
  • Стародубцев Юрий Иванович
  • Митрофанов Михаил Валерьевич
  • Атнагуллов Тимур Нагимович
  • Вершенник Елена Валерьевна
  • Бобовкин Антон Александрович
  • Головин Геннадий Алексеевич
RU2752755C1
СПОСОБ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ФОНОГРАММАМ ПРОИЗВОЛЬНОЙ УСТНОЙ РЕЧИ 1996
  • Байчаров Николай Владимирович
  • Карлин Игорь Петрович
  • Кураченкова Надежда Борисовна
  • Линьков Андрей Николаевич
  • Попов Николай Федорович
  • Савельев Юрий Иванович
  • Тимофеев Игорь Николаевич
  • Фесенко Анатолий Владимирович
RU2107950C1

Иллюстрации к изобретению SU 404 122 A1

Реферат патента 1973 года СПОСОБ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА

Формула изобретения SU 404 122 A1

SU 404 122 A1

Авторы

Авторы Изобретени

Даты

1973-01-01Публикация