Показать метаданные Скрыть метаданные

(19)

(11)

404 122

(13)

(51)

МПК

G10L19/02(2000-01-01)

G10L15/02(2000-01-01)

(21) (22)

Заявка

1624604,

(22)

дата подачи заявки

(45)

опубликовано

1973-01-01

(72)

авторы

Авторы Изобретени

СПОСОБ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА Советский патент 1973 года по МПК G10L19/02 G10L15/02

Описание патента на изобретение SU404122A1

Изобретение касается автоматической обработки речевого сигнала.

Известные способы обработки речевого сигнала характеризуются недостаточной надежностью распознавания звуков речи из-за значительной изменчивости соответствуюн1их им акустических сигналов. Частично эта изменчивость определяется помехами, накладываемыми на речевой сигнал в процессе его распространения по каналу связи, и описывается статистическими закономерностями. Основная же доля этой изменчнвости вносится за счет различия в геометрических размерах голосовых трактов разных людей. Известно, например, что длипы голосовых трактов колеблются в пределах 25%, что приводит, согласно акуСтической теории речеобразования, к соответствующему разбросу в значениях резонансных частот (формант). Влияние других геометрических параметров на свойства акустического сигиала значительно труднее поддается аналитической оценке, хотя и не менее велико. Наряду с изменчивостью геометрических размеров голосового тракта значительные вариации речевых сигналов, относящн.хся к одним и тем же звукам, создают инднвидуальные особенности произнопления, в частности темпа и громкости речи.

Попытки уменьшения влияния изменчивости речевых сигналов на результаты раснознавания путем более грубого нзмерения их параметров не дали должных результатов.

Нормализация речи но громкости и линейная нормализация по темпу также не дают

суш,ественных результатов. Это объясняется тем, что ряд геометрически.к параметров голосового тракта претерпевает не только «мешающие изменения при переходе от одного человека к другому, но и одновременно создает

информативную модуляцию речевого сигнала в процессе артикуляции.

Цель изобретения - сжатие речевой информации и повышение надежности распозиавания.

Для этого но предлагаемому способу па огибающей в каждой частотной полосе выделяют амплитуды частоты и времена, характерных точек, которые сравнивают со значениями этих же величин для соответствующих точек одного

из эталонных спектров, из результирующих сигналов сравнения формируют сигналы, нронорциональные параметрам преобразований мгновенного снектра текущего речевого сигнала к данному эталону, и классифицируют эти

сигналы.

Если представить речевой сигпал в виде двумерной функции S(co, /) как мгновенный взвешенный амплитудпо-частотпый спектр акустических колебапий речи, то искомый способ количественного опнсания уклонения

спектра 5ij((o,/) / - реализации r-ого звука

от эталона 5; (со, О состоит в аппроксимации преобразований S,-j(cu, О уравнениями конечных непрерывных групп преобразований (групп Ли) на плоскости, общая форма записи которых имеет вид

(.; «I. «2 -. а„)

f h(i ; и,, а ... , а„), где (со , /) - координаты некоторой точки на 5(j(co, t}; (со, t) - координаты соответственной ей точки на 5, (со, /); (ai, . .., а„) -параметры нреобразований.

Среди групп Ли различают два основных класса - примитивные и имнримитивные группы. К числу примитивных групн относятся группы, преобразования которых не связаны с каким-либо фиксированным направлением на ПЛОСКОСТИ, например группы движения, подобия. Максимальное число параметров в таких группах равно восьми (у проективной группы). Для импримитивпых групп характерно наличие некоторого преобладающего направлепия в плоскости (в каноническом виде- направление оси ш) и потому их преобразованиям свойственна некоторая анизотропность. Вместе с тем числом п параметров для большинства импримитивных групп не ограничено.

Следующие уравнения дают пример импримитивной группы:

Г (1) а, (О -J- /2

f a,t + а, + а,ш + + ... + а - Анизотропность преобразовапий проявляется очевидным образом и в асимметрии этих уравнений.

Наличие естественных разрывов в речевом сигнале, например смычек, позволяет использовать уравнения со сравнительна небольшим числом параметров за счет использования кусочной аппроксимации преобразований.

Параметры уравнений групп нреобразований вычисляются путем решения соответствующего уравнения для 5(со,/) путем подстановки в него координат соответственных точек на видеограммах эталона и текущей реализации некоторого звукосочетания. В качестве таких соответственных точек рациональио выбирать характерные, в чем-либо отличающиеся от других, точки, например точки локальных максимумов, миксимумов ее градиентов и т. д.

Параметры уравнений групп образуют д-мерное прострапство, в котором обычными методами теории раснознавания образов нроводятся разделяющие границы между звуками и звукосочетаниями. Тогда каждая фонема

описывается номером эталона 5,; (со, t и областью в пространстве параметров. Достоинствами такого способа обработки является возможность отделить случайные и неинформативные преобразования в речевых сигналах, причем число параметров преобразований можно сколь угодно приблизить к теоретически минимальному, а надежность раснознавания - за счет сохранения всей информации о 5(со,/) - к потенциально достижимой.

На чертеже изображена блок-схема устройства, реализующего предлагаемый способ.

Речевой сигнал поступает на микрофон 1, подвергается разложению на ряд частотных полос в гребенке полосовых фильтров 2, на

выходах которых стоят амплитудные детекторы 3, выделяющие огибающие в каждой полосе. Огибающие проходят через систему блоков 4, определяющих значения амплитуды, частоты и времени характерных точек разного

типа (локальные экстремумы, градиенты и т. д.), а через блок 5, определяющий тип эталона для текущего звука. Сигналы с выхода системы блоков 4 подаются в блок 6, в котором происходит вычисление параметров

уравнеиий преобразований. Начало и конец вычислений, а также тип .используемых уравнений определяются сигналами блока 5.

Сигналы из блока 6, пропорциональные параметрам преобразований, вместе с сигналом

из блока 5 о типе эталона поступают в канал связи, а в случае распозпавания - в блок решающего нравила 7, сигналы на выходе которого соответствуют распознанным звукам. Кроме того, в канал связи (или блок решающего правила) подается сигнал, цропорциональный частоте основного тона, выделенной детектором основного тона 8. Тип эталона определяется видом источника возбуждения (голосовой или шумовой) и числом формаит в

спектральном разрезе.

Предмет изобретения

Способ обработки речевого сигнала, согласно которому сигнал разлагают на ряд частотных полос, выделяют огибающие в каждой полосе и огибающую спектрального разреза, детектируют частоту основного тона, отличающийся тем, что, с целью сжатия речевой информации и повыщения надежности распознавания, на огибающей в каждой частотной полосе выделяют амплитуды, частоты и .времеиа характерных точек, которые сравнивают .со значениями этих же величии для соответствуюпдих точек одного из эталонных снектров, из результирующих сигналов формируют сигналы, пропорциональные нараметрам преобразований мгновенного спектра текущего речевого сигнала к данному эталону, и классифицируют сигналы.

Иллюстрации к изобретению SU 404 122 A1

Реферат патента 1973 года СПОСОБ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА

Формула изобретения SU 404 122 A1

SU 404 122 A1

Авторы