1
Изобретение касается автоматической обработки речевого сигнала.
Известные способы обработки речевого сигнала характеризуются недостаточной надежностью распознавания звуков речи из-за значительной изменчивости соответствуюн1их им акустических сигналов. Частично эта изменчивость определяется помехами, накладываемыми на речевой сигнал в процессе его распространения по каналу связи, и описывается статистическими закономерностями. Основная же доля этой изменчнвости вносится за счет различия в геометрических размерах голосовых трактов разных людей. Известно, например, что длипы голосовых трактов колеблются в пределах 25%, что приводит, согласно акуСтической теории речеобразования, к соответствующему разбросу в значениях резонансных частот (формант). Влияние других геометрических параметров на свойства акустического сигиала значительно труднее поддается аналитической оценке, хотя и не менее велико. Наряду с изменчивостью геометрических размеров голосового тракта значительные вариации речевых сигналов, относящн.хся к одним и тем же звукам, создают инднвидуальные особенности произнопления, в частности темпа и громкости речи.
Попытки уменьшения влияния изменчивости речевых сигналов на результаты раснознавания путем более грубого нзмерения их параметров не дали должных результатов.
Нормализация речи но громкости и линейная нормализация по темпу также не дают
суш,ественных результатов. Это объясняется тем, что ряд геометрически.к параметров голосового тракта претерпевает не только «мешающие изменения при переходе от одного человека к другому, но и одновременно создает
информативную модуляцию речевого сигнала в процессе артикуляции.
Цель изобретения - сжатие речевой информации и повышение надежности распозиавания.
Для этого но предлагаемому способу па огибающей в каждой частотной полосе выделяют амплитуды частоты и времена, характерных точек, которые сравнивают со значениями этих же величин для соответствующих точек одного
из эталонных спектров, из результирующих сигналов сравнения формируют сигналы, нронорциональные параметрам преобразований мгновенного снектра текущего речевого сигнала к данному эталону, и классифицируют эти
сигналы.
Если представить речевой сигпал в виде двумерной функции S(co, /) как мгновенный взвешенный амплитудпо-частотпый спектр акустических колебапий речи, то искомый способ количественного опнсания уклонения
спектра 5ij((o,/) / - реализации r-ого звука
от эталона 5; (со, О состоит в аппроксимации преобразований S,-j(cu, О уравнениями конечных непрерывных групп преобразований (групп Ли) на плоскости, общая форма записи которых имеет вид
(.; «I. «2 -. а„)
f h(i ; и,, а ... , а„), где (со , /) - координаты некоторой точки на 5(j(co, t}; (со, t) - координаты соответственной ей точки на 5, (со, /); (ai, . .., а„) -параметры нреобразований.
Среди групп Ли различают два основных класса - примитивные и имнримитивные группы. К числу примитивных групн относятся группы, преобразования которых не связаны с каким-либо фиксированным направлением на ПЛОСКОСТИ, например группы движения, подобия. Максимальное число параметров в таких группах равно восьми (у проективной группы). Для импримитивпых групп характерно наличие некоторого преобладающего направлепия в плоскости (в каноническом виде- направление оси ш) и потому их преобразованиям свойственна некоторая анизотропность. Вместе с тем числом п параметров для большинства импримитивных групп не ограничено.
Следующие уравнения дают пример импримитивной группы:
Г (1) а, (О -J- /2
f a,t + а, + а,ш + + ... + а - Анизотропность преобразовапий проявляется очевидным образом и в асимметрии этих уравнений.
Наличие естественных разрывов в речевом сигнале, например смычек, позволяет использовать уравнения со сравнительна небольшим числом параметров за счет использования кусочной аппроксимации преобразований.
Параметры уравнений групп нреобразований вычисляются путем решения соответствующего уравнения для 5(со,/) путем подстановки в него координат соответственных точек на видеограммах эталона и текущей реализации некоторого звукосочетания. В качестве таких соответственных точек рациональио выбирать характерные, в чем-либо отличающиеся от других, точки, например точки локальных максимумов, миксимумов ее градиентов и т. д.
Параметры уравнений групп образуют д-мерное прострапство, в котором обычными методами теории раснознавания образов нроводятся разделяющие границы между звуками и звукосочетаниями. Тогда каждая фонема
описывается номером эталона 5,; (со, t и областью в пространстве параметров. Достоинствами такого способа обработки является возможность отделить случайные и неинформативные преобразования в речевых сигналах, причем число параметров преобразований можно сколь угодно приблизить к теоретически минимальному, а надежность раснознавания - за счет сохранения всей информации о 5(со,/) - к потенциально достижимой.
На чертеже изображена блок-схема устройства, реализующего предлагаемый способ.
Речевой сигнал поступает на микрофон 1, подвергается разложению на ряд частотных полос в гребенке полосовых фильтров 2, на
выходах которых стоят амплитудные детекторы 3, выделяющие огибающие в каждой полосе. Огибающие проходят через систему блоков 4, определяющих значения амплитуды, частоты и времени характерных точек разного
типа (локальные экстремумы, градиенты и т. д.), а через блок 5, определяющий тип эталона для текущего звука. Сигналы с выхода системы блоков 4 подаются в блок 6, в котором происходит вычисление параметров
уравнеиий преобразований. Начало и конец вычислений, а также тип .используемых уравнений определяются сигналами блока 5.
Сигналы из блока 6, пропорциональные параметрам преобразований, вместе с сигналом
из блока 5 о типе эталона поступают в канал связи, а в случае распозпавания - в блок решающего нравила 7, сигналы на выходе которого соответствуют распознанным звукам. Кроме того, в канал связи (или блок решающего правила) подается сигнал, цропорциональный частоте основного тона, выделенной детектором основного тона 8. Тип эталона определяется видом источника возбуждения (голосовой или шумовой) и числом формаит в
спектральном разрезе.
Предмет изобретения
Способ обработки речевого сигнала, согласно которому сигнал разлагают на ряд частотных полос, выделяют огибающие в каждой полосе и огибающую спектрального разреза, детектируют частоту основного тона, отличающийся тем, что, с целью сжатия речевой информации и повыщения надежности распознавания, на огибающей в каждой частотной полосе выделяют амплитуды, частоты и .времеиа характерных точек, которые сравнивают .со значениями этих же величии для соответствуюпдих точек одного из эталонных снектров, из результирующих сигналов формируют сигналы, пропорциональные нараметрам преобразований мгновенного спектра текущего речевого сигнала к данному эталону, и классифицируют сигналы.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ ПРЕОБРАЗОВАНИЯ РЕЧЕВБГХ СИГНАЛОВ | 1973 |
|
SU399908A1 |
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ | 1994 |
|
RU2047912C1 |
СПОСОБ ПЕРЕОЗВУЧИВАНИЯ АУДИОМАТЕРИАЛОВ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2012 |
|
RU2510954C2 |
СПОСОБ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА В ЧАСТОТНОЙ ОБЛАСТИ | 2010 |
|
RU2454735C1 |
СПОСОБ ОСУЩЕСТВЛЕНИЯ МАШИННОЙ ОЦЕНКИ КАЧЕСТВА ЗВУКОВЫХ СИГНАЛОВ | 2005 |
|
RU2312405C2 |
СПОСОБ КОНТАКТНО-РАЗНОСТНОЙ АКУСТИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ | 2011 |
|
RU2451346C1 |
УСТРОЙСТВО для ВЫЯВЛЕНИЯ ХАРАКТЕРНЫХ ТОЧЕК НА СПЕКТРАЛЬНЫХ РАЗРЕЗАХ РЕЧЕВЫХ СИЕНАЛОВ | 1971 |
|
SU304615A1 |
СИСТЕМА И СПОСОБ ПЕРЕВОДА РЕЧЕВОГО СИГНАЛА В ТРАНСКРИПЦИОННОЕ ПРЕДСТАВЛЕНИЕ С МЕТАДАННЫМИ | 2014 |
|
RU2589851C2 |
СПОСОБ ИНДИВИДУАЛЬНОЙ КОРРЕКЦИИ ПАРАМЕТРОВ ТЕХНИЧЕСКИХ КАНАЛОВ ПЕРЕДАЧИ ОБРАЗОВАТЕЛЬНОГО КОНТЕНТА, ВОСПРИНИМАЕМОГО ОРГАНАМИ СЛУХА | 2020 |
|
RU2752755C1 |
СПОСОБ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ФОНОГРАММАМ ПРОИЗВОЛЬНОЙ УСТНОЙ РЕЧИ | 1996 |
|
RU2107950C1 |
Авторы
Даты
1973-01-01—Публикация