Изобретение относится к речевой акустике и может быть использовано при проектировании систем автоматического распознавания и синтеза звуковых волн, являющихся носителями речевой информации.
Известно устройство кодирования речевых сигналов, в котором в качестве признаков в системах распознавания речи предлагается использовать экстремальные значения речевых сигналов и интервалы времени между ними.
Однако такое представление зашумлен- ных сигналов, когда на полуволнах существует множество экстремумов, которые не несут важной информационной нагрузки, приводит к избытку информации.
Наиболее близким техническим ре- шением является способ построения динамических портретов, при котором
амплитудно-временное представление речевого сигнала разбивается на временные отрезки длиной 10 мс. Для каждого из этих отрезков определяют значение максимального отсчета и количество переходов функции через ноль. Таким образом звуковую волну представляют в виде последовательностей значений максимального отсчета на временном отрезке и количества переходов функции через ноль на этом отрезке.
Известный способ имеет следующие недостатки. Во-первых, произвольный выбор длины временного интервала лишает физического смысла такое представление звуковой волны и сводит его к субъективно- статистическому - не понятно, что же представляет собой отрезок звуковой волны на интервале, например, 10 мс, и почему именно такой длины выбран интервал.
-ч|
чэ ел ел
ел
Во-вторых, одна полуволна может иметь множество локальных экстремумов, и при произвольном разбиении амплитудно- временного представления на временные отрезки, локальные экстремумы данной полуволны могут войти в соседние интервалы, и таким образом искажается картина представления звуковой волны.
Проблему преобразования амплитудно- временного представления звуковой волны в виде последовательности отрезков, обладающих определенными физическими свойствами волнового процесса сводится к обоснованию выбора длины этих отрезков и отображению их физической сущности через определенные физические параметры волнового процесса.
Целью способа является повышение точности представления образа звуковой волны..
Поставленная цель достигается тем, что амплитудно-временное представление звуковой волны расчленяют на временные отрезки, представляющие собой элементарные составляющие волнового процесса и соответствующие полному колебанию функции, и преобразуют в последовательность значений длин полных колебаний и колебаний функции на них.
Представление звуковой волны в виде последовательности элементарных составляющих АВП,1 соответствующих полным колебаниям функции позволяет решить проблему выбора длин временных отрезков, с точки зрения физической сущности волнового процесса.
Длина временного отрезка определяется периодом полного колебания функции. Выбор величин, характеризующих элементарные составляющие волнового процесса, значений длин полных колебаний и колебаний функции на этих длинах, позволяет подойти к изучению речевого сообщения как волнового процесса, характеризующегося определенными параметрами, с точки зрения которых можно оценить источники звуковых волн. Функция U(t) соответствует образу волнового процесса, элементарной составляющей которого является полное колебание, то есть отрезок области определения функции U(t) на концах которого U(t)0, существует единственная точка t, принадлежащая отрезку, такая, что U(ti) 0.
Если обозначить через полное колебание функции U(t), а через р( Ki) - вектор-функцию признаков KI, то функция будет иметь вид tp(K)- (dt n), где di - длина полного колебания ki, a n колебание функции U(t) на Ki. т.е. n SUP{U(ti) - U(t2)}.
Vti, taCKi
5
0
5
Предлагаемое представление функции U(t) приводит к выбору исследуемых фрагментов функции, согласно ее физической сущности, соответствующей отражению
волнового процесса. Предлагаемое техническое решение поясняется чертежами.
На фиг. 1,2 приведены амплитудно-временное представление речевого сигнала и представление речевого сигнала в виде по0 следовательностей значений длин полных колебаний - штриховые линии 2 и колебаний функций АВП звуковых волн - штриховые линии 1 соответственно: на фиг.З приведена структурная схема устройства, реализующего АВП звуковых волн в виде последовательностей значений длин полных колебаний и колебаний функции на этих длинах.
На фиг.1,2 приведено представление речевого сигнала согласно предлагаемому способу. Такое представление используется при анализе речевых сообщений.
Устройство, реализующее способ (фиг.З), состоит из генератора эталонной частоты 1, счетчика 2, регистра 3, блока выделения нулей 4, блока выделения максимумов 5, блока выделения минимумов 6, сумматора 7, аналого-цифрового преобразователя 8, параллельных интерфейсов 9
0 и 10. Выход генератора 1 соединен с первым входом счетчика 2 и первым входом блока выделения нулей 4. Выход счетчика 2 соединен с первым входом регистра 3, выходы блока выделения нулей 4 соединены соот5 ветственно со вторыми входами счетчика 2, регистра 3, АЦП 8 и интерфейса 9. Выходы блоков выделения максимумов 5 и минимумов б соединены со входом сумматора 7, выход которого соединен с первым входом
0 АЦП 8. Второй выход АЦП 8 соединен со вторыми входами блоков выделения максимумов 5 и минимумов 6 и интерфейса 10. Блок выделения нулей 4 состоит из триггера готовности, триггера Шмитта, четырех одно5 вибраторов. Блоки выделения максимумов 5 и минимумов 6 состоят из детектора, ключа и одновибратора.
Устройство работает следующим образом. Входной сигнал поступает на второй
0 вход блока выделений нулей 4 и первые входы блоков выделения максимумов 5 и минимумов 6. Для выделения длины полного колебания используется генератор 1, счетчик 2 и регистр 3. В блоке выделения нулей
5 4 на выходе триггера Шмитта формируется последовательность прямоугольных импульсов, соответствующая моментам перехода через ноль. По переднему фронту этих импульсов формируется сигнал записи в регистр 3 текущего значения счетчика 2 и сигнал готовности к обмену интерфейса 9 с микропроцессорной системой, а также сигнал сброса счетчика 2. Для выделения амплитуды полного колебания используются блоки выделения максимумов 5 и минимумов 6, в которых за период полных колебаний на накопительных конденсаторах запоминаются амплитуды глобальных максимума и минимума, затем они суммируются по абсолютной величине в сумматоре 7 и поступают на вход АЦП 8. Запуск АЦП 8 осуществляется по переднему фронту импульсов, поступающих с триггера Шмитта блока выделения нулей 4. По завершению аналого-цифрового преобразования вырабатывается сигнал, по которому происходит разряд накопительных конденсаторов и формируется сигнал готовности к обмену
0
5
интерфейса 10с микропроцессорной системой.
Предлагаемый способ преобразования амплитудно-временного представления звуковых волн может применяться при анализе и синтезе речевых сообщений. Речевой сигнал представляется в виде последовательности значений длин полных колебаний и колебаний функции на них. При такое представлении объем памяти необходимой для хранения речевой информации по сравнению с традиционным АВП сокращается в 4 раза.
Информационное содержание, передаваемое звуковой волной может быть восстановлено путем синтеза по последовательности значений длин полных колебаний и колебаний функции на соответствующих длинах.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ РАСПОЗНАВАНИЯ СЛОВ РЕЧИ | 2005 |
|
RU2296376C2 |
СПОСОБ КОНТАКТНО-РАЗНОСТНОЙ АКУСТИЧЕСКОЙ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ | 2011 |
|
RU2451346C1 |
УСТРОЙСТВО ДЛЯ ПРИЕМА РЕЧЕВЫХ СИГНАЛОВ | 1993 |
|
RU2049426C1 |
СПОСОБ НАПРАВЛЕННОГО ПРИЕМА ГИДРОАКУСТИЧЕСКИХ СИГНАЛОВ | 1990 |
|
SU1840431A1 |
СПОСОБ ПЕРЕДАЧИ РЕЧЕВЫХ СИГНАЛОВ | 1993 |
|
RU2049456C1 |
Устройство для определения параметров электромиограммы | 1989 |
|
SU1717104A1 |
СПОСОБ ОЦЕНКИ ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА | 2012 |
|
RU2546311C2 |
СПОСОБ ВОССТАНОВЛЕНИЯ ФОРМЫ РЕЛЬЕФА МОРСКОГО ДНА ПРИ ДИСКРЕТНЫХ ИЗМЕРЕНИЯХ ГЛУБИН ПОСРЕДСТВОМ ГИДРОАКУСТИЧЕСКИХ СРЕДСТВ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2006 |
|
RU2326408C1 |
СПОСОБ РАСПОЗНАВАНИЯ ФОНЕМ РЕЧИ И УСТРОЙСТВО ДЛЯ РЕАЛИЗАЦИИ СПОСОБА | 2004 |
|
RU2268504C9 |
СПОСОБ ИДЕНТИФИКАЦИИ СИГНАЛА СЛУЧАЙНОГО ПРОЦЕССА И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 1995 |
|
RU2097917C1 |
Изобретение относится к речевой акустике и может быть использовано при проектировании систем автоматического распознавания и синтеза звуковых волн, являющихся носителями речевой информации. Цель изобретения - повышение точности представления образа звуковой волны. Поставленная цель достигается тем, что амплитудно-временное представление звуковой волны разделяют на временные отрезки, представляющие собой элементарные составляющие волнового процесса и соответствующие полному колебанию функции, и преобразуют в последовательность значений длин полных колебаний и колебаний функции на них. 3 ил.
Формула изобретения
Способ преобразования амплитудно- временного представления звуковой волны путем разбиения его на временные отрезки, отличающийся тем, что, с целью повышения точности представления образа
звуковой волны, амплитудно-временное представление звуковой волны разделяют на временные отрезки, соответствующие полным колебаниям функции и преобразуют в последовательность значений длин полных колебаний и колебаний функции на них.
Устройство кодирования речевых сигналов | 1975 |
|
SU559269A1 |
Печь-кухня, могущая работать, как самостоятельно, так и в комбинации с разного рода нагревательными приборами | 1921 |
|
SU10A1 |
Проблемы бионики, № 3, 1985, стр.6- 12. |
Авторы
Даты
1993-02-15—Публикация
1990-06-19—Подача