СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ АНАЛИЗА КОРРЕЛЯЦИОННЫХ ЗАВИСИМОСТЕЙ В РЕЧЕВОМ СИГНАЛЕ Российский патент 2012 года по МПК G10L19/00 

Описание патента на изобретение RU2445718C1

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при кодировании и обработке речевого сигнала.

В настоящее время достаточно большую часть телетрафика в различных приложениях составляет передача речевых сигналов. Большинство систем обработки и кодирования речи используют фиксированный сегмент анализа речевых данных, что является существенным недостатком данных устройств, в условиях перехода к системам с пакетной передачей и переменной скоростью кодирования.

При цифровом представлении речевого сигнала необходимо решить задачу качественной обработки и компактного представления речевых данных для их передачи по цифровым каналам связи. Решение этой задачи позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. При этом предполагается снизить скорость передачи речи при сохранении качественных показателей ее восприятия. Широкое распространение в инфокоммуникациях в настоящее время получили методы кодирования речевых данных с переменной скоростью передачи и асинхронным вводом в канал связи.

Кодирование с переменной скоростью передачи находит применение в конференцсвязи на основе протоколов IP-телефонии и видеоконференцсвязи, но постепенно оно начинает использоваться в большинстве наиболее важных приложений систем телекоммуникаций связанных с кодированием и передачей речевых сигналов (Быков С.Ф., Журавлев В.И., Шалимов И.А. Цифровая телефония: учеб. пособие для вузов - М.: Радио и связь, 2003. - 144 с.: ил.).

В кодеках речевых сигналов с переменной скоростью передачи, ориентированных на использование в системах связи основанных на принципе коммутации пакетов уместно говорить о снижении средней скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.

Известны и описаны различные способы кодирования и обработки речевых сигналов, отличающихся различным аналитическим представлением речевых данных при их синтезе (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.102-112, С.123-146, патенты RU №2233010 от 27.01.1999, US №6385577 от 07.05.2002).

В устройствах, реализующих данные способы, осуществляется обработка речевого сигнала и его эффективное кодирование, при этом сегмент анализа остается постоянным, что приводит к повышению скорости передачи речи. Анализ речевых фрагментов позволяет сделать вывод о том, что возможно использование более длинных сегментов анализа, особенно на сегментах, имеющих квазипериодическую вокализованную природу образования (Шалимов Игорь Анатольевич. Теоретико-информационные принципы компрессии речевого сигнала на основе его квазипериодических свойств: диссертация доктора технических наук: 05.13.17. Москва, 2005, 241 с. РГБ ОД, 71:06-5/528).

При анализе случайных дискретных сигналов используется автокорреляционная функция (1):

где S(i) - значение отсчета речевого сигнала.

При этом, необходимо учитывать требования стационарности для случайного речевого сигнала (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60).

Анализ корреляционной функции позволяет выделить важный показатель, характеризующий случайный речевой сигнал. Это интервал корреляции τкор, характеризующий промежуток времени для случайного речевого сигнала, мгновенные значения которого взаимосвязаны, следовательно, имеют одну структуру образования при формировании и эффективную полосу частот Fэф, определяющую полосу, в которой сосредоточено 90-95% мощности.

При нахождении интервала корреляции используется значение τx, при котором В(τx)=0, где τx - значение непрерывного аргумента автокорреляционной функции, полученное аппроксимацией полиномом 2-й степени значений B(j), рассчитанных по (1) до первого отрицательного значения B(j), определяющего область определения функции аппроксимации. Описание квадратичной аппроксимации данных достаточно подробно представлено в (Сербер Дж. Линейный регрессионный анализ. Перевод с англ. В.П.Носко, - М.: Мир, 1980. с.48-94). При этом, чем меньше интервал корреляции, тем шире спектр анализируемого сигнала. Математические модели и установленные соотношения между интервалом корреляции и эффективной полосой частот, в которой сосредоточена основная энергия сигнала, позволяют использовать их для анализа реальных речевых сигналов (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.56-60). Данный факт полностью соотносится с природой образования вокализованных и шумоподобных сигналов.

На фиг.1 и фиг.2 представлены временное представление, автокорреляционные функции и значение полученных интервалов корреляции при сдвиге сегмента анализа на 2,5 мс, относительно приходящего речевого сигнала при переходе между звуками "Ш","А" и "А", "Ш", и длительности сегмента анализа 20 мс. Данные рисунки получены при произношении звуков слитной речи с использованием микропроцессорной техники и программного обеспечения, сформированного с использованием пакета прикладных программ LabView. Аналого-цифровое преобразование речевого сигнала реализовано на временных интервалах в 160 мс с частотой дискретизации 8 кГц с использованием 8-битного квантователя.

Анализ фиг.1 и фиг.2 позволяет сделать вывод о том, что при сохранении формы образования речевых сигналов интервал корреляции не претерпевает существенных изменений. При этом сегмент анализа берется длиной 20 мс, сдвиг данного сегмента осуществляется на 2.5 мс от значения начальной границы сегмента, на 40 мс. Анализу подвергается последовательность данных, содержащих значения полученных интервалов корреляции сегмента. При этом граница сегмента анализа речевого сигнала формируется в момент кардинального изменения величины интервала корреляции, критерием принятия решения о смене структуры природы формирования речи является F-критерий (Фишера), в основе которого лежит формальный статистический тест для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95. Описание применения критерия Фишера, основанного на тесте Чоу для анализа последовательностей данных, рассмотрено в (Chow Gregory С.Tests of equality between sets of coefficients in two linear regressions [Текст] // Econometrica, - Vol.28 - №3 - 1960. - p.591-605), а также в (Эконометрика: Учебник / Под ред. И.И.Елисеевой. - М: Финансы и статистика, 2003. - 255-262 с.)

Таким образом, максимально возможный сегмент одновременно анализируемых данных составляет 60 мс, что связано с требованиями по задержке речевого сигнала при передаче, определяемыми рекомендаций G.114 Международного союза электросвязи. Если на протяжении 60 мс не произошло смены природы формирования речевого сигнала, то новый анализ начинают используя данные об интервалах корреляции предыдущего сегмента.

Использование такого подхода к формированию сегментов обработки речи позволяет выделять сегменты анализа, имеющие одинаковую природу формирования в речевом аппарате человека.

Наиболее близким по технической сущности является патент US №6073092 от 06.06.2000 г., заключающийся в том, что используют фиксированные сегменты речевого сигнала, на основании которых рассчитывают параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности, при этом входные отсчеты речевого сигнала разделяются на сегменты фиксированной длины (80, 160 или 320 отсчетов), для каждого из сегментов рассчитывают коэффициенты формирующей модели, а затем кодируют с использованием алгоритма линейного предсказания с возбуждением от кода. Недостатком прототипа является использование фиксированной длительности сегмента квазистационарности при использовании кодирования на основе линейного предсказания с возбуждением от кода, что не всегда соотносится с природой формирования речевого сигнала.

Согласно известному способу речевой сигнал подвергают аналого-цифровому преобразованию, после чего разделяют его на участки квазистационарности и подвергают кодированию на основе разновидности метода линейного предсказания.

Недостатком данного способа является достаточно большой объем анализируемых данных, что связано с фиксированной длиной сегмента анализа речи в процессе обработки и кодирования речевого сигнала.

В предлагаемом способе увеличение длительности сегмента анализа приведет к тому, что параметры формирующей (передаточной) функции системы обработки и сигнала возбуждения будут сохраняться на всем протяжении сегмента анализа, что приведет к сокращению средней скорости передачи речевого сигнала.

Анализ фиг.1 и фиг.2 показывает, что существенное изменение интервала корреляции происходит в моменты изменения структуры образования звуков речи, что также подтверждается исследованиями, представленными в (Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. - М.: Радио и связь, 1987. - 168 с.).

Задачей изобретения является уменьшение объема данных, выделяемых для кодирования речевого сигнала при переменной скорости передачи.

Эта задача решается тем, что в способе выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, на выходе аналого-цифрового преобразователя с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), основанный на формальном статистическом тесте для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95, при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции, критерием принятия решения о смене структуры природы формирования речи является F-критерий, если на протяжении 60 мс не произошло смены природы формирования речевого сигнала, то новый анализ начинают, используя данные об интервалах корреляции предыдущего сегмента.

Алгоритм функционирования предложенной системы, реализующей способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, представлен на фиг.3.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности "новизна".

Благодаря новой совокупности существенных признаков системы, обеспечивающих возможность вычисления автокорреляционной функции речевого сигнала до первого отрицательного отсчета, определения значения интервала корреляции, сдвига сегмента анализа на 2.5 мс, нового расчета автокорреляционной функции и интервала корреляции, формирования последовательности значений интервалов корреляции, анализа данной последовательности для определения границы сегмента, на основе F-критерия (Фишера), представляется возможным уменьшить объем данных при кодировании речевого сигнала, что приводит к получению необходимого и достаточного количества отсчетов для качественного представления речевого сигнала при эффективном кодировании речи.

Анализ существующих технических решений в данной и смежных областях техники показал, что введенные отличительные признаки в них отсутствуют и не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное техническое решение удовлетворяет критерию "изобретательский уровень".

Заявленное техническое решение поясняется чертежом (фиг.4) на котором показана функциональная схема устройства, реализующего способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале.

Устройство, реализующее данный способ, состоит из блока аналого-цифрового преобразования речевого сигнала 1 с частотой дискретизации 8 кГц и 256 уровнями квантования, выход которого соединен со входом блока сегментации речевого сигнала на участки длительностью 20 мс со сдвигом в 2,5 мс 2, выход которого соединен со входом блока вычисления автокорреляционной функции 3, выход которого соединен со входом блока вычисления интервала корреляции 4, выход которого соединен со входом блока накопления значений интервалов корреляций 5, выход которого соединен со входом блока вычисления F-критерия (Фишера) 6, выход которого соединен со входом блока накопления данных для реализации процедуры кодирования 7, на другой вход которого поступает сигнал со второго выхода блока сегментации речевого сигнала на участки длительностью 20 мс со сдвигом в 2,5 мс.

Процедура аналого-цифрового преобразования, выполняемая в блоке 1, достаточно подробно освещена в (Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Изд. дом «Вильямс», 2006. - с.157-210). Описание сегментирования и накопления речевого сигнала, выполняемые блоками 2, 5 и 7 представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - с.66-72). Функционирование блоков 3 и 4 подробно изложено в (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60). Операция, выполняемая блоком 6, подробно изложена в (Chow Gregory С. Tests of equality between sets of coefficients in two linear regressions [Текст] // Econometrica, - Vol.28 - №3 - 1960. - p.591-605), а также в (Эконометрика: Учебник / Под ред. И.И.Елисеевой. - М.: Финансы и статистика, 2003. - 255-262 с.).

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.

Устройство, реализующее заявленный способ, работает следующим образом. Речевой сигнал подается на блок 1, где осуществляется его аналого-цифровое преобразование, далее речевой сигнал в блоке 2 сегментируется на участки длительностью 20 мс и подается на блок 3, в котором производится вычисление автокорреляционной функции, анализ автокорреляционной функции в блоке 4 позволяет выявить интервал корреляции, информация с блока 4 о значении интервала корреляции поступает на блок 5, где реализуется накопление данных, далее в блоке 2 происходит сдвиг сегмента анализа на 2,5 мс от значения начальной границы сегмента, и производится итерационный расчет в блоках 3 и 4 и накопление в блоке 5, общий сдвиг сегмента составляет 40 мс, после этого информация с блока 5 о значениях интервалов корреляции поступает на блок 6, вычисляющий значения F-критерия Фишера и принимающего решение о моменте кардинального изменения величины интервала корреляции. Информация о принятом решении с блока 6 подается на блок 7, в котором производится формирование данных с целью их последующей обработки при низкоскоростном кодировании речи с переменной скоростью передачи.

К достоинствам способа следует отнести тот факт, что уменьшение объема данных при низкоскоростном кодировании речи приведет к снижению средней скорости передачи речевого сигнала по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.

Были проведены экспериментальные исследования для выявления возможности применения предлагаемого способа, которые показали уменьшение объема анализируемых данных речевого сигнала при низкоскоростном кодировании в среднем на 45-50%, что связано с выбором фиксированных значений параметров, описывающих передаточную функцию голосового тракта на вновь сформированном сегменте анализа, а также сигнала возбуждения формирующего фильтра при кодировании вокализованных сегментов речевого сигнала.

Приведенные технические решения показывают, что устройство, воплощающее изобретение, при его осуществлении, способно уменьшить объем данных при низкоскоростном кодировании речевого сигнала с переменной скоростью передачи, что приведет к снижению средней скорости передачи речи по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.

Похожие патенты RU2445718C1

название год авторы номер документа
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ ПОСЛЕДОВАТЕЛЬНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА 2018
  • Власов Роман Сергеевич
  • Кисляк Алексей Алексеевич
  • Титов Олег Николаевич
  • Любимов Денис Владимирович
RU2684576C1
СПОСОБ УМЕНЬШЕНИЯ ОБЪЕМА ДАННЫХ ПРИ ШИРОКОПОЛОСНОМ КОДИРОВАНИИ РЕЧЕВОГО СИГНАЛА 2010
  • Афанасьев Андрей Алексеевич
  • Трубицын Владимир Геннадьевич
  • Титов Олег Николаевич
RU2432624C1
СПОСОБ КОМПРЕССИИ РЕЧЕВОГО СИГНАЛА 2007
  • Поляков Андрей Николаевич
RU2380765C2
Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием 2021
  • Аладинский Виктор Алексеевич
  • Кузьминский Сергей Владиславович
  • Смирнов Павел Леонидович
RU2757860C1
СПОСОБ НИЗКОСКОРОСТНОГО КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА 2015
  • Афанасьев Андрей Алексеевич
  • Коробовский Евгений Сергеевич
RU2631968C2
СПОСОБ УЛУЧШЕНИЯ ВОСПРИЯТИЯ СИНТЕЗИРОВАННОЙ РЕЧИ ПРИ РЕАЛИЗАЦИИ ПРОЦЕДУРЫ АНАЛИЗА ЧЕРЕЗ СИНТЕЗ В ВОКОДЕРАХ С ЛИНЕЙНЫМ ПРЕДСКАЗАНИЕМ 2010
  • Афанасьев Андрей Алексеевич
  • Илюшин Михаил Владимирович
  • Титов Олег Николаевич
RU2445719C2
ОЦЕНКА ПЕРИОДА ОСНОВНОГО ТОНА 2007
  • Лааксонен Лассе
  • Рамо Ансси
  • Василаке Адриана
RU2421826C2
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ КВАЗИСТАЦИОНАРНОСТИ ПРИ АНАЛИЗЕ РЕЧЕВОГО СИГНАЛА В ВОКОДЕРАХ С ЛИНЕЙНЫМ ПРЕДСКАЗАНИЕМ 2009
  • Афанасьев Андрей Алексеевич
  • Габдулгазиев Станислав Рамзесович
  • Трубицын Владимир Геннадьевич
  • Ульянов Илья Владимирович
RU2400831C1
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ 1994
  • Сорокин Виктор Николаевич
RU2047912C1
Способ транскрибирования речи по цифровым сигналам с низкоскоростным кодированием 2023
  • Аладинский Виктор Алексеевич
  • Кузьминский Сергей Владиславович
  • Павлов Андрей Петрович
  • Смирнов Павел Леонидович
RU2801621C1

Иллюстрации к изобретению RU 2 445 718 C1

Реферат патента 2012 года СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ АНАЛИЗА КОРРЕЛЯЦИОННЫХ ЗАВИСИМОСТЕЙ В РЕЧЕВОМ СИГНАЛЕ

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при низкоскоростном кодировании речевого сигнала. Техническим результатом является уменьшение объема данных при низкоскоростном кодировании речевого сигнала, снижение средней скорости передачи речи по каналам цифровой связи. Указанный результат достигается тем, что в способе выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале на выходе аналого-цифрового преобразователя с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции. 4 ил.

Формула изобретения RU 2 445 718 C1

Способ выделения сегментов обработки речи на основе анализа корреляционных зависимостей в речевом сигнале, основанный на том, что на выходе аналого-цифрового преобразователя с частотой дискретизации 8 кГц и 256 уровнями квантования в речевом сигнале выделяют участок анализа 20 мс, вычисляют автокорреляционную функцию сегмента сигнала до первого отрицательного отсчета, после этого определяют значение интервала корреляции, используя аппроксимацию полиномом 2-й степени дискретных значений автокорреляционной функции, далее сдвигают сегмент анализа на 40 мс по 2,5 мс, после чего заново рассчитывают автокорреляционную функцию и интервал корреляции, данную операцию повторяют, формируя последовательность значений интервалов корреляции сегментов, после этого анализируют данную последовательность, используя F-критерий (Фишера), основанный на формальном статистическом тесте для оценки соотношения между уменьшением остаточной дисперсии и потерей числа степеней свободы при замене единого уравнения регрессии кусочно-линейной моделью (тест Чоу), при доверительной вероятности р=0,95, при этом границу сегмента анализа речевого сигнала формируют в момент кардинального изменения величины интервала корреляции, критерием принятия решения о смене структуры природы формирования речи является F-критерий, если на протяжении 60 мс не произошло смены природы формирования речевого сигнала, то новый анализ начинают, используя данные об интервалах корреляции предыдущего сегмента.

Документы, цитированные в отчете о поиске Патент 2012 года RU2445718C1

US 6073092 A, 06.06.2000
Головка для расточки и одновременной раскатки отверстий 1982
  • Кароткиян Эдуард Рубенович
SU1103955A1
JP 2005241997 A, 08.09.2005
СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ 1996
  • Нисигути Масаюки
  • Иидзима Казуюки
  • Матсумото Дзун
  • Омори Сиро
RU2233010C2
СПОСОБ АНАЛИЗА И СИНТЕЗА РЕЧИ 2005
  • Гусев Михаил Николаевич
  • Дегтярёв Владимир Михайлович
  • Ситников Валерий Валерьевич
RU2296377C2

RU 2 445 718 C1

Авторы

Афанасьев Андрей Алексеевич

Новиков Евгений Иванович

Трубицын Владимир Геннадьевич

Титов Олег Николаевич

Даты

2012-03-20Публикация

2010-08-31Подача