Показать метаданные Скрыть метаданные

(19)

(11)

290 186

(13)

(51)

МПК

G10L15/02(2000-01-01)

G10L19/02(2000-01-01)

(21) (22)

Заявка

1351350,

(22)

дата подачи заявки

(45)

опубликовано

1971-01-01

(72)

авторы

УСТРОЙСТВО ДЛЯ РАСПОЗНАВАНИЯ РЕЧЕВЫХ ОБРАЗОВ Советский патент 1971 года по МПК G10L15/02 G10L19/02

Описание патента на изобретение SU290186A1

Изобретение относится к области распознавания речевых образов и может быть исиользовано в качестве устройства ввода речевых команд в ЭВМ.

Известны устройства для раснознавання речевых образов, но они не учитывают сундествующую нестабильность речевых образов. Под нестабильностью здесь поннмаются нз.мепения в речевом образе, наблюдающиеся нри его повторном пронзношении одним и тем же диктором, при ироизиошеиии его различными дикторами (нанример, мужчиной и женщиной), дефекты речи, «проглатывание фонем и т. д.

В связи с нестабильностью речевых образов при разработке устройств для их расиознавания возникают такие затруднения, как нормализация ио длительности и установление объективиых нризнаков образов. Отсутствие четко установленных объективных крптернев разграннчення элементов речевого потока и отсутствие в этом потоке четких стационарных участков затрудняют сегментацию, т. е. выделение элемеитов речи (фонем, слогов).

Р1звестно устройство, выдающее заключение о принадлежности воспринятого речевого сигнала данной команде но сочетанию распознанных фонем (распознает десять цифр, нроизнесенных голосом). В нем распознаванне производится по огибающим частотных спектров

фонем. Эти огибающне выявляют формантные области, их ширины и средние частоты формант, а также дают раснределение средн&й нлотностн но частотам.

Устройство содержит анализатор мгновенного спектра и два распознающнх каскада, состоящих из последовательио соедииепных матриц эталонов, блоков раснознающих эле.ментов и блока индикации. Для каждой фонемы нутем многочисленных проб на опыге выбираются эталонные изображения спектров, по которым настранвают аниаратуру. Распознавание этих фонем осуществляется с помощью матрицы переменных омических сопротивлен Й. Входные спгналы подвергаются компрессии и то11КО 5рекции с целью иормировки.

Недостатком известного устройства является то, что оно не учнтывает нестабильность речевых образов н последовательность следования фонем. Кроме того, оно. не производит сегментацию речи.

При существующей иестабнльностн распознаваемых образов выделенне максн.мального сигнала является непрнемлелгым, так как нри этом о иринадлеж 1ости фонем делаются окончательные заключеппя, хотя в дальнейшем этн заключенпя могут оказаться ошпбочпыми. Ощибка при предварптельном апализе в

данном устройстве неизбежно приведет к ошибочному результату на его выходе.

Отсутствие сегментации фонем ириводит к ложным срабатываниям реле первого каскада (например, к последовательному срабатыванию двух реле при произнесении диктором одной фонемы или срабатыванию реле под воздействием смычных звуков), что приведет к ошибкам при распознавании.

Последовательность поступления фонем является важным фактором при распознавании. Так, многие современные устройства по распознаванию речевых образов учитывают информацию о вероятностной последовательности фонем с номош,ью блока использования лингвистической информации, существенно увеличивающего надежность распознавания.

Целью изобретения является увеличение количества распознаваемых образов и надежность их распознавания. Для этого делается попытка при предварительном анализе образа, т. е. при распознавании мелких элементов речевого потока (фонем и небольших звукосочетаний), не делать окончательного заключения о принадлежности данного элемента к данному классу, а «запомнить все классы, к которым с определенной вероятностью относится данный образ, причем запоминание производить с индексом вероятности принадлежности данного элемента к данному классу. Таким образом, замеияется нороговая логика типа «да - «иет (О нли 1) непрерывной логикой (-1,0) и 0+1) и учитывается корреляция сигнала во времени.Указанная цель достигается тем, что устройство дополнительно содержит матрицу эталонов дифференциальных нризнаков, блок выделения дифференциальных иризнаков н матрицу эталонов фонем, причем вертикальные щины матрицы эталонов дифференциальных признаков подключены к выходам анализатора мгновенного спектра, а горизоитальные - ко входам блока выделения дифференциальных признаков, горизонтальные шины матрицы эталонов фонем подключены к выходам блока выделения дифференциальных признаков, а вертикальные - к тормозящим входам распознающих элементов, выходы которых через переменные резисторы подключены к возбуждающим входам последующих распознающих элементов, образуя последовательные цени но числу распознаваемых команд, выходы последнего элемента каждой цепи подключены ко входал блока индикации.

Вместо реле, обладающих пороговой характеристикой зависимости выходиого сигнала от входного, в устройстве используются «нейроиообразные элементы (называемые далее нейронами) с характеристикой, имеющей зону нечувствительности, зону усиления и зону насыщения. Такая характеристика расиозиающих элементов иозволяет получать на выходе его сигнал, пропорциональный вероятности наличия в распознаваемом образе данного элемента речевого потока.

Матрицы переменных омических сопротивлений первого каскада настроены так, что }1ейроны первого каскада распознают не фонемы, а диффереициальные признаки фонем, что делает анализ речевого образа более гибким н позволяет в дальнейшем более полно анализировать имеющуюся информацию.

Выражение «иейрон распознает или «нейрон выделяет тот или иной элемент речевого потока означает то, что на выходе этого нейрона появляется сигнал при появлении на входе всего устройства того элемента речевого потока, который должен распознавать данный нейрон.

Для выделения дифференциальных иризнаков с положительным и отрицательным знаками в устройстве имеются две группы нейронов первого каскада и две соответствующие матрицы перемеиных омических сопротнвленнй.

Нейроны второго каскада имеют по два входа: возбуждающий и тормозящий. Сигнал на выходе каждого из нейронов второго каскада, производящих распозиавание фонем, не исчезает по прекращении входного сигнала (по окончании фонемы), а убывает во времепн по экспоненте с некоторой постоянной времени. Такая «кратковременная намять о принадлежности воспринятого звука к данной фонеме позволяет учитывать данные предварительного анализа при окончательном анализе образа и делать исправленпя ранее допущенных ошибок.

Нейроны второго каскада соединяются последовательно группами, каждая из которых образует цепочку. Сигнал в таких цепочках продвигается тактами от одного нейрона к другому согласно последовательности расположения фонем в слове.

Для каждого слова (комаиды), которое распознает устройство, необходимо наличие своей отдельной цеиочки. Описанные нейронные цепочки позволяют использовать информацию о порядке следования фонем, решают воирос сегментации и нормализации по длительности, реализуют использованне устройством лингвистической информации.

При выходе из строя какой-либо связи или нейрона первого каскада все устройство не выйдет из строя, а только снизит надежность распознавания. Если же ироизвести перенастройку сопротивления матриц, то можно практическн ликвидировать иолученные повре/кдения.

При выходе из строя одного из нейронов второго каскада устройство перестанет распознавать только одно слово (команду), в распознающую цепь которого входил вышедший из строя нейрон. Таким образом достигается достаточно высокая надел ность всего устройства при низкой надежности составляющих его элементов.

Выбор наиболее вероятного решения производится устройством сразу без иереброса всех возможных вариантов путем пропускания сигкала по «правильным путям н гашения его в остальных цепочках.

На чертеже изображена блок-схема устройства, где:

/ - вход устройства; 2 - анализатор мгновенного спектра, который представляет собой набор полосовых фильтров; 3, 4 - матрицы эталонов дифференциальных признаков; 5 - блок распознающих элементов первого каскада (выделяет дифференциальные признаки); 6 - дополнительный блок выдсленкп дифференциальных признаков; 7, 5 - матрицы эталонов фонем; 5 - блок распознающих элементов второго каскада; 10, 11, ..., п - распознающие элементы (нейронные цепи): 12, 13, ..., к - переменные резне горы; М - блок индикации.

Сигнал со входа / поступает в анализатор 2 мгновениого спектра, который представляет собой набор полосовых фильтров. С точки зрения как нростоты технического выполнения, так и полноты описания наиболее целесообразно разбиение на 72-16 полос, выбранных в соответствии со щкалой Кёнпга. Косвенным подтверждением этого являются результаты опытов но созданию полосовых вокодеров.

Выход фильтров подсоединяются к двум матрицам 3 и 4 переменных омических сопротивлений. Горизонтальные щины этих матриц (строки матриц) подключены ко входам двух блоков 5 и 6 выделения дифференциальных признаков первого каскада. Выходы нейронов, входящих в блоки выделения дифференциальных признаков, соединяются с горизонтальными щинами матриц 7 и 8 второго кгскада, которые являются матрицами эталонов фонем. Вертикальные щины этих матриц подключены ко входам блока 9 распознающих элементов второго каскада. Шины матрицы 7 подключены к возбуждающим входам распознающих элементов, а щины матрицы 8 - к тормозящим входам.

Цени нейронов 10, 11 п образуются за

счет резисторов 12, 13, ..., к, передающих сигнал с выхода одного нейрона на возбуждающий вход другого. Величиной соиротивления резисгоров 12, 13 ..., к регулируется амплитуда возбуждения, подаваемого с данного нейрона на последующий в цепи.

Количество цепей нейронов второго каскада определяется количеством распознаваемых устройством команд (речевых образов). Для распознавания каждой команды необходимо столько нейронов одной цепи, сколько фонем содерл ит данная команда.

Выход последнего в цепи нейрона подсоединяется к одному из входов блока индикации 14, который определяет выход с макспмальным сигналом, соответствующая определенной команде.

При произнесении диктором некоторой фонемы распознаваемой команды звуковые колебания, преобразуясь в микрофоне в электрические, после усиления и нормализации их по амплитуде иостунают на вход 1 полосовых

фильтров анализатора 2 спектра. Анализатор спектра разлагает колебания в мгновенный спектр, который представлен в устройстве в виде сочетания сигналов различной амплитуды на выходах полосовых фильтров анализатора спектра.

Выделение дифференциальных признаков пронзводится блоками 5 н 6 в результате анатнза мгновенного спектра с помощью матриц н 4 эталонов путе.м сравнения полученного спектра с эталонными значениями, которые находятся путем проб на некотором чнсле предварительных опытов. По ним настраиваются эталонов. Например, для выделения дифференцпального признака звонкости, который характеризуется наличием гармонических колебаний на ннзкнх частотах, необходимо уменьщить величины сопротивлений соответствующей строки матрицы на нижних частотах н увеличить на высоких.

Для выделения признака гласностн, который характеризуется наличием общего уровня энергии во всем спектре, необходимо, чтобы сопротпвления соответствующей строки матрины нмели некоторое среднее значение. Тогда в нервом случае снгнал на строке ноявится при наличии сигналов значительной амплитуды на выходах фильтров низкой частоты, а во втором - нрн налпч1т достаточно

больщих сигналов на выходах всех фильтров. Чем больще полученный спектр совпадает с эталонным значением спектра некоторого дифференцпального признака, тем больще вероятность того, что в полученном звуке пмеется данный дифференциальный нризнак, тем большая амплптуда на выходе соответствующ,его нейрона первого каскада. Таким образом, снгнал на выходе одного из нейронов блока 5 илн 6 пропорционален вероятности

наличия данного дифференциального признака в принятом речевом снгнале.

Анализ сигналов на выходах блоков 5 и 6 выделения дифференциальных признаков производится нейронами второго каскада с помощью матриц 7 н 8.

Сопротивления матрнцы 7 настранваются так, чтобы при появлении на выходе нейрона блока 5 сигнала о некотором дифференциальном признаке этот снгнал проходил на

возбуждающие входы соответствующих нейронов блока 9, распознающих фонемы, для которых этот признак характерен, с больщой амплитудой, т. е. чтобы этот сигиал проходил через малые сопротивления .матрицы 7. Если

выделенный признак не характерен для некогорой фонемы, то сигнал о его появлении не должеи попасть на возбуждающие входы соответствующих нейронов блока 9, т. е. соответствующие сопротивления матрицы должны

иметь больщую величину.

В матрице 8 сопротпвления настраиваются г:ротивоположным образом. При появлении дифференциального признака, характерного для фонемы, сигнал об этом признаке не ного нейрона, а при появлении нехарактерного нрнзнака - воздействует на тормозящий вход этого нейрона с большей амнлитудой.

Нанрнмер, дифференциальный нризнак гласности должен вызывать торможение па

всех нейронах второго каскада 10, 11 п,

раснознающих согласные, и возбужденне на всех нейронах 10, 11, ,,,. п, раснознаюищх гласные фонемы. Чем больше нолученное сочетание сигналов на выходах нейронов блоков 5 и 6 выделения дифференциальных иризиакоБ совнадает с некоторым эталонным значеннем, тем большая вероятность наличи;. данной фонемы в распознаваемом речевом образе в рассматриваемый момент времени и тем значительнее сигнал возбуждения нревь;шает сигнал торможения на соответствуюн ем нейроне блока 9. Амплитуда сигнала на выходе нейронов 10, 11, ..., п нропорциональна вероятности того, что поступивший на вход устройства речевой сигнал есть фонема, на распознавание которой настроены соиротивлени) вертикальных шин матриц 7 и 8 этого нейрона.

С выхода нейрона 10 {или //) через переменный резистор 12 (соответственно 13) сигнал, спадая по экспоненте во времени, поступает на столбец матрицы 7, соединенный с последуюш,им в цепи нейроном в течение некоторого времени (0,2-0,3 сек) после окончания данной фонемы.

Сопротивления матриц 7 и 5 подобраны так, что под воздейсгвием первой фонемы команды достаточно большой сигнал может гюявиться только на первых в цепи нейронах. Остальные нейроны цепей могут выдавать сигнал значительной амплитуды только нри о;:новременном иоступлении сигналов как of предыдушего в цепочке нейрона через резисторы 12, 13, ..., к, так и со столбцов матриц 7 и 8.

Распозиавапие комаид условно можно представить тактами, которые следуют cjгласно последовательности постуилеиия фонем. Фонема, пришедшая первой, вызовет сигнал на выходах первых в цепочках нейронов, настроенных на ее раснознавание. Фонема, пришедшая второй, заставит выдать сигнал только на вторые в цепях нейроны, которые, во-первых, получают возбуждение от предыдущих и. во-вторых, настроены на восприятие этой второй фонемы. Аналогичный процесс происходит до нейрона, последнего в

цени, выход которого подсоединен к одному из входов блока индикации 14.

Для учета нестабильности распознаваемых образов настройку неременных резисторов 12,

13, ..., к и матриц 7 и S можно произвести так, что даже при «проглатывании одной из фонем или сильном ее искажении сигнал в цепочке не затухает, а лишь уменьшает свою амплитуду.

Длительность «кратковременной памяти позволяет воздействовать не только на последующий нейрон цепочки, но и через этот второй нейрон воздействовать на третий в цепочке, т. е. как бы через один нейрон. В этом

отношении иродвижение сигнала по цепочкам протекает не тактамн, а скорее лавинообразно, когда по одним путям сигнал продвигается, все усиливаясь, а по другим - ослабевая или под воздействием тормозящих входов

резко обрываясь.

Если поданной на вход команде нет соответствующей це1И1, то на блоке индикации не зафиксируется ни одной команды, т. е. устройство не распознает команду.

Предмет и з о б . е т е н и я

Устройство для расиознавания речевых образов, содержащее анализатор мгновенного спектра и два раснознающих каскада, состоящих из последовательно соединенных матриц эталонов и блоков расиознающих элементов, ц блок индикации, отличающееся тем, что, с целью увеличения надежности распознавания, оно дополнительно содержит матрицу эталонов дифференциальных признаков, блок выделения дифференциальных признаков и матрицу эталонов фонем, причем вертикальные щины матрицы эталонов днфференциальных нрнзпаков нодключены к выходам аналнзатора мгновенного спектра, а горизонтальные - ко входам блока выделения лифференциалып 1х нризнаков, горизонтальные щины матрицы эталонов фонем нодключены к выходам блока выделения диффереипиальных признаков, а вертикальные - к тормозящим входам распознающих элементов, выходы которых через неременные резисторы юдключеиы к возбуждающим входам последующих распознающих элементов, образуя

последовательные цепи по числу распознаваемых команд, выходы последнего элемента каждой цени нодключены ко входам блока индикации.

Иллюстрации к изобретению SU 290 186 A1

Реферат патента 1971 года УСТРОЙСТВО ДЛЯ РАСПОЗНАВАНИЯ РЕЧЕВЫХ ОБРАЗОВ

Формула изобретения SU 290 186 A1

SU 290 186 A1

Даты

1971-01-01—Публикация