СПОСОБ УМЕНЬШЕНИЯ ОБЪЕМА ДАННЫХ ПРИ ШИРОКОПОЛОСНОМ КОДИРОВАНИИ РЕЧЕВОГО СИГНАЛА Российский патент 2011 года по МПК G10L19/00 

Описание патента на изобретение RU2432624C1

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при широкополосном кодировании речевого сигнала.

В настоящее время наиболее важной тенденцией является широкое использование информационных технологий в телекоммуникационных сетях связи. Переход к цифровой обработке сигналов и пакетной передаче данных позволил предоставить пользователям более широкий спектр инфокоммуникационных услуг. При этом достаточно большую часть телетрафика в различных приложениях составляет передача речевых сигналов.

Для повышения естественности и узнаваемости звучания синтезированного речевого сигнала в последние годы наблюдается тенденция к расширению спектральной области кодируемого сигнала до 7 кГц.

Переход к кодированию широкополосного речевого сигнала определен тем, что ранее в телефонных сетях ограничивали полосу частот речевого сигнала в диапазоне 300-3400 Гц. Это ограничение ухудшало качество речи в части естественности, разборчивости и узнаваемости диктора. Однако переход к цифровым сетям связи позволяет увеличить анализируемую полосу частот речевых сигналов. В настоящее время к кодированию и передаче широкополосной речи с диапазоном частот 50-7000 Гц возникает достаточно большой интерес, так как расширение низкочастотного диапазона вниз до 50 Гц способствует большей естественности, а высокочастотный диапазон 3400-7000 Гц улучшает разборчивость. Кодирование широкополосной речи находит применение в конференцсвязи на основе протоколов IP-телефонии и видеоконференцсвязи, но постепенно оно начинает использоваться в большинстве наиболее важных приложений систем телекоммуникаций, связанных с кодированием и передачей речевых сигналов (М.З.Лившиц, М.Парфенюк, А.А.Петровский. Широкополосный CELP-кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой // Цифровая обработка сигналов - 2005 - №2, с.20-35). При кодировании широкополосной речи частота дискретизации выбирается обычно 16000 Гц, в зависимости от реализации алгоритма кодирования (Peter Noll Speech and audio coding for multimedia communications/ Proceedings International Cost 254 workshop on intelligent communication technologies and applications, Neuchatel, Schweiz, In print, 1999).

Основной проблемой цифрового представления широкополосного речевого сигнала является задача качественного и компактного кодирования данных для их передачи по цифровым каналам связи. Решение этой проблемы позволит в условиях заданного критерия качества связи увеличить пропускную способность линейных трактов и каналов передачи. Часто в некоторых задачах кодирования речевого сигнала предполагается снизить скорость передачи при сохранении качественных показателей ее восприятия. В кодеках речевых сигналов с переменной скоростью передачи, ориентированных на использование в системах связи, основанных на принципе коммутации пакетов, уместно говорить о снижении средней скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.

Известны способы кодирования широкополосного речевого сигнала (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М.: Радио и связь, 2000 - С.167-175; патенты US №5235669 от 10.08.1993, RU 2326449 от 10.06.2008, US №2009/0292537 A1 от 26.11.2009).

В устройствах, реализующих данные способы, осуществляется анализ широкополосного речевого сигнала и его эффективное кодирование, при этом частота дискретизации всегда остается постоянной, что приводит к фиксированной, зачастую избыточной полосе частот.

Одной из ключевых характеристик при кодировании широкополосного речевого сигнала является понятие участка квазистационарности. Речевой сигнал не является стационарным на длительных участках времени, но возможно допущение о его стационарности на коротких промежутках времени. В существующих стандартах речевого кодирования с использованием линейного предсказания эти промежутки варьируются от 2,5 до 30 мс.

При анализе случайных дискретных сигналов используется автокорреляционная функция (1):

где S(i) - значение отсчета речевого сигнала.

Рассмотрим взаимосвязь между функцией автокорреляции речевого сигнала на участке квазистационарности и его спектральной плотностью мощности. Эти функции однозначно связанны со спектральными характеристиками речевого сигнала, а именно со спектральной плотностью мощности σ(ω). Между B(τ) и σ(ω) существует пара преобразований Фурье (2) и (3).

Представленная пара преобразований позволяет определить спектральную плотность мощности по автокорреляционной функции случайного речевого сигнала на основании теоремы А.Я.Хинчина и Н.Винера. При этом необходимо учитывать требования стационарности для случайного речевого сигнала (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60).

В соответствии с существующей связью между B(τ) и σ(ω) можно определить другие важные показатели, характеризующие случайный речевой сигнал. К ним можно отнести интервал корреляции τкор, характеризующий промежуток времени для случайного речевого сигнала, мгновенные значения которого взаимосвязаны, следовательно, имеют одну структуру формирования и эффективную полосу частот Fэф, определяющую полосу, в которой сосредоточено 90-95% мощности.

B(τ) и σ(ω) одного случайного сигнала однозначно определяют друг друга, то есть существует взаимосвязь между τкор и Fэф. Эта взаимосвязь устанавливается через произведение этих параметров (4).

Значение κ для различных моделей случайных сигналов имеет различные величины. При анализе речевых сигналов τкор принято κ=0,5, следовательно Fэф=0.5/τкор. Значение τкор определяется точкой первого перехода автокорреляционной функции через ноль.

Соотношение (4) указывает на явную связь между шириной спектра и шириной корреляции. Чем меньше интервал корреляции, тем шире спектр (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.56-60).

Математические модели и установленные соотношения между τкор и Fэф позволяют использовать их для анализа реальных речевых сигналов, при этом правомерность применения подтверждают результаты эксперимента.

Для речевого сигнала слитной русской речи, помимо возможности классификации активного участка на тоновой или шумовой, важной характеристикой является эффективная полоса частот Fэф, занимаемая речью. На фиг.1 и фиг.2 представлены временное представление, автокорреляционная функция и спектральное представление звуков “А” и “Ш” соответственно. Данные чертежи получены при произношении звуков слитной речи с использованием микропроцессорной техники и программного обеспечения, сформированного с использованием пакета прикладных программ LabView. Аналого-цифровое преобразование речевого сигнала реализовано на временных интервалах в 24 мс с частотой дискретизации 22050 Гц с использованием 16-битного квантователя.

Анализ графиков кратковременной спектральной плотности мощности речевого сигнала показывает, что в полосе частот от 3 до 7 кГц появляются всплески спектральной энергии только при произнесении некоторой части согласных звуков (например, “ш”, “с”, “ф”, “х”). Данный факт указывает на возможность адаптивного изменения границ спектральной области кодируемого речевого сигнала для минимизации объема обрабатываемых данных при реализации процедуры сжатия и сохранении качественных показателей речи не ниже требуемых. Изменение границ спектральной области кодируемого речевого сигнала можно реализовать с использованием процедуры децимации с дробными коэффициентами.

Соответствующие преобразования исходного дискретного сигнала с частотой дискретизации fд=1/T, T - интервал дискретизации исходного сигнала, в дискретный сигнал с частотой дискретизации fду=1/Tу, Tу - интервал дискретизации преобразованного дискретного сигнала, осуществляются системами интерполяции и децимации, характеризующимися коэффициентами интерполяции L=fду/fд=Т/Tу и децимации М=fд/fду=Tу/T (в простейшем случае - целочисленными) соответственно. Помимо систем интерполяции и децимации с целочисленными коэффициентами L и М существуют системы преобразования частоты дискретизации с рациональным коэффициентом L/M. Они формируются по принципу последовательного выполнения интерполяции и децимации, а следовательно являются многократными многоскоростными системами. Например, понижение частоты дискретизации в 1,25 раза может быть реализовано последовательным соединением системы интерполяции с коэффициентом L=4 и системы децимации с коэффициентом M=5, таким образом, реализуется система децимации с коэффициентом M=1,25. Процедуры многоскоростной обработки, интерполяция и децимация достаточно подробно описаны в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. Изд. 2-е испр. и перераб.- СПб.: БХВ - Петербург, 2005. - с.587-620). Таким образом, fду=fд/(2·Fэф).

Наиболее близким по технической сущности к заявленному изобретению является патент RU №2331933 от 20.08.2008, в котором производится кодирование широкополосного речевого сигнала на основе разновидности алгоритма линейного предсказания.

Различные варианты реализации алгоритмов кодирования речи на основе линейного предсказания представлены в (О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. - М.: Радио и связь, 2000. - С.102-166; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С.365-428).

Согласно известному способу широкополосный речевой сигнал подвергают аналого-цифровому преобразованию, после чего разделяют его на участки квазистационарности и подвергают кодированию на основе разновидности метода линейного предсказания.

Недостатком данного способа является достаточно большой объем анализируемых данных, что связано с высокой фиксированной частотой дискретизации речевого сигнала при широкополосном кодировании.

Использование такой частоты дискретизации не всегда является необходимым условием получения высокого качества синтезированной речи при кодировании, а ее фиксация на достаточно высоком уровне приводит к избыточному объему данных и соответственно достаточно высокой скорости передачи и высокой вычислительной сложности алгоритмов кодирования речевого сигнала. Анализ фиг.1 и фиг.2 показывает, что расширение эффективной полосы частот кодируемого широкополосного речевого сигнала необходимо для некоторых согласных звуков, что также подтверждается исследованиями, представленными в (Михайлов В.Г., Златоустова Л.В. Измерение параметров речи. - М.: Радио и связь, 1987. - 168 с.).

Задачей изобретения является уменьшение объема данных при широкополосном кодировании речевого сигнала.

Эта задача решается тем, что в способе уменьшения объема данных при широкополосном кодировании речевого сигнала на выходе аналого-цифрового преобразователя речевой сигнал разделяют на участки квазистационарности, на каждом из которых вычисляют автокорреляционную функцию сигнала, после этого определяют значение интервала корреляции и вычисляют эффективную полосу частот, далее рассчитываю коэффициент децимации и подвергают анализируемый сигнал децимации, получая на выходе системы децимации необходимое и достаточное количество отсчетов для представления речевого сигнала.

Алгоритм функционирования предложенной системы, реализующей способ уменьшения объема данных при широкополосном кодировании речевого сигнала, представлен на фиг.3.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности “новизна”.

Благодаря новой совокупности существенных признаков системы, обеспечивающих возможность вычисления автокорреляционной функции речевого сигнала, определение значения интервала корреляции, вычисление эффективной полосы частот, расчет коэффициента децимации, обработку речевого сигнала системой децимации, представляется возможным уменьшить объем данных при широкополосном кодировании речевого сигнала, что приводит к получению необходимого и достаточного количества отсчетов для качественного представления речевого сигнала при широкополосном кодировании.

Анализ существующих технических решений в данной и смежных областях техники показал, что введенные отличительные признаки в них отсутствуют и не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное техническое решение удовлетворяет критерию “изобретательский уровень”.

Заявленное техническое решение поясняется чертежом (фиг.4), на котором показана функциональная схема устройства, реализующего способ уменьшения объема данных при широкополосном кодировании речевого сигнала.

Устройство, реализующее данный способ, состоит из блока 1, выполняющего процедуру аналого-цифрового преобразования речевого сигнала, выход которого соединен со входом блока сегментации речевого сигнала на участки квазистационарности 2, выход которого соединен со входом блока вычисления автокорреляционной функции 3, выход которого соединен со входом блока вычисления интервала корреляции 4, выход которого соединен со входом блока вычисления коэффициента децимации 5, выход которого соединен со входом системы децимации 6, на другой вход которой поступает сигнал со второго выхода блока 2, выход которой соединен со входом блока накопления данных для реализации процедуры кодирования 7.

Процедура аналого-цифрового преобразования, выполняемая в блоке 1, достаточно подробно освещена в (Радзишевский А.Ю. Основы аналогового и цифрового звука. - М.: Изд. дом «Вильямс», 2006. - с.157-210). Описание сегментирования и накопления речевого сигнала, выполняемых блоками 2 и 7, представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - с.66-72). Функционирование блоков 3 и 4 подробно изложено в (А.Г.Зюко, Д.Д.Кловский, В.И.Коржик, М.В.Назаров. Теория электрической связи: Учебник для вузов / Под ред. Д.Д.Кловского. - М.: Радио и связь, 1998. - с.36-44, 56-60). Операции, выполняемые блоками 5 и 6, изложены в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. Изд. 2-е испр. и перераб. - СПб.: БХВ - Петербург, 2005. - С.587-620).

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.

Устройство, реализующее заявленный способ, работает следующим образом. Речевой сигнал подается на блок 1, где осуществляется его аналого-цифровое преобразование, далее речевой сигнал в блоке 2 сегментируется на участки квазистационарности и подается на блок 3, в котором производится вычисление автокорреляционной функции, анализ автокорреляционной функции в блоке 4 позволяет выявить интервал корреляции, информация с блока 4 о значении интервала корреляции поступает на блок 5, где реализуется вычисление коэффициента децимации, информация о данном значении подается на блок 6, в котором производится децимация речевого сигнала, поступающего с блока 2, с выхода блока 6 речевой сигнал, подвергнутый децимации, поступает в блок 7, где реализуется его накопление на участке квазистационарности с целью дальнейшей обработки при широкополосном речевом кодировании.

К достоинствам способа следует отнести тот факт, что уменьшение объема данных при широкополосном кодировании речи приведет к снижению средней скорости передачи речевого сигнала по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.

Были проведены экспериментальные исследования для выявления возможности применения предлагаемого способа, которые показали уменьшение объема анализируемых данных речевого сигнала при широкополосном кодировании в среднем на 40%.

Приведенные технические решения показывают, что устройство, воплощающее изобретение, при его осуществлении способно уменьшить объем данных при широкополосном кодировании речевого сигнала, что приведет к снижению средней скорости передачи речи по каналам цифровой связи, а также уменьшит количество требуемых вычислений при реализации процедуры кодирования.

Похожие патенты RU2432624C1

название год авторы номер документа
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ АНАЛИЗА КОРРЕЛЯЦИОННЫХ ЗАВИСИМОСТЕЙ В РЕЧЕВОМ СИГНАЛЕ 2010
  • Афанасьев Андрей Алексеевич
  • Новиков Евгений Иванович
  • Трубицын Владимир Геннадьевич
  • Титов Олег Николаевич
RU2445718C1
Способ и устройство классификации сегментов зашумленной речи с использованием полиспектрального анализа 2014
  • Титов Олег Николаевич
  • Афанасьев Андрей Алексеевич
  • Илюшин Михаил Владимирович
RU2606566C2
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ ПОСЛЕДОВАТЕЛЬНОГО СТАТИСТИЧЕСКОГО АНАЛИЗА 2018
  • Власов Роман Сергеевич
  • Кисляк Алексей Алексеевич
  • Титов Олег Николаевич
  • Любимов Денис Владимирович
RU2684576C1
СПОСОБ И УСТРОЙСТВО МНОГОУРОВНЕВОГО МАСШТАБИРУЕМОГО УСТОЙЧИВОГО К ИНФОРМАЦИОННЫМ ПОТЕРЯМ КОДИРОВАНИЯ РЕЧИ ДЛЯ СЕТЕЙ С КОММУТАЦИЕЙ ПАКЕТОВ 2009
  • Свириденко Владимир Александрович
RU2464651C2
СПОСОБ КОДИРОВАНИЯ ШИРОКОПОЛОСНОГО РЕЧЕВОГО СИГНАЛА 2009
  • Илюшин Михаил Владимирович
  • Басов Олег Олегович
  • Рыболовлев Александр Аркадьевич
RU2419169C1
СПОСОБЫ И УСТРОЙСТВА УПРАВЛЯЕМОГО ИСТОЧНИКОМ ШИРОКОПОЛОСНОГО КОДИРОВАНИЯ РЕЧИ С ПЕРЕМЕННОЙ СКОРОСТЬЮ В БИТАХ 2003
  • Желинек Милан
RU2331933C2
СИСТЕМЫ, СПОСОБЫ И УСТРОЙСТВО ШИРОКОПОЛОСНОГО РЕЧЕВОГО КОДИРОВАНИЯ 2006
  • Вос Кон Бернард
  • Кандхадай Анантхападманабхан А.
RU2381572C2
СПОСОБЫ И УСТРОЙСТВО КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ ЧАСТИ РЕЧЕВОГО СИГНАЛА ДИАПАЗОНА ВЫСОКИХ ЧАСТОТ 2006
  • Вос Кон Бернард
  • Кандхадай Анантхападманабхан А.
RU2402826C2
СПОСОБ ОСУЩЕСТВЛЕНИЯ ВЗАИМОДЕЙСТВИЯ МЕЖДУ АДАПТИВНЫМ МНОГОСКОРОСТНЫМ ШИРОКОПОЛОСНЫМ КОДЕКОМ (AMR-WB-КОДЕКОМ) И МНОГОРЕЖИМНЫМ ШИРОКОПОЛОСНЫМ КОДЕКОМ С ПЕРЕМЕННОЙ СКОРОСТЬЮ В БИТАХ (VBR-WB-КОДЕКОМ) 2003
  • Желинек Милан
  • Салами Редван
RU2351907C2
СИСТЕМЫ, СПОСОБЫ И УСТРОЙСТВА ДЛЯ ВЫСОКОПОЛОСНОГО ПРЕДЫСКАЖЕНИЯ ШКАЛЫ ВРЕМЕНИ 2006
  • Вос Кон Бернард
  • Кандхадай Анантхападманабхан А.
RU2491659C2

Иллюстрации к изобретению RU 2 432 624 C1

Реферат патента 2011 года СПОСОБ УМЕНЬШЕНИЯ ОБЪЕМА ДАННЫХ ПРИ ШИРОКОПОЛОСНОМ КОДИРОВАНИИ РЕЧЕВОГО СИГНАЛА

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций при широкополосном кодировании речевого сигнала. Техническим результатом является уменьшение объема данных при широкополосном кодировании речевого сигнала. Указанный технический результат достигается тем, что при кодировании широкополосного речевого сигнала на выходе аналого-цифрового преобразователя речевой сигнал разделяют на участки квазистационарности, на каждом из которых вычисляют автокорреляционную функцию сигнала, после этого определяют значение интервала корреляции и вычисляют эффективную полосу частот. Далее рассчитывают коэффициент децимации и подвергают анализируемый речевой сигнал децимации, получая на выходе системы децимации необходимое и достаточное количество отсчетов для представления речевого сигнала при широкополосном кодировании. 4 ил.

Формула изобретения RU 2 432 624 C1

Способ уменьшения объема данных при широкополосном кодировании речевого сигнала, основанный на том, что в системах кодирования широкополосного речевого сигнала на выходе аналого-цифрового преобразователя речевой сигнал разделяют на участки квазистационарности, отличающийся тем, что на каждом из них вычисляют автокорреляционную функцию сигнала, после этого определяют значение интервала корреляции и вычисляют эффективную полосу частот, далее рассчитывают коэффициент децимации и подвергают анализируемый речевой сигнал децимации, получая на выходе системы децимации необходимое и достаточное количество отсчетов для представления речевого сигнала при широкополосном кодировании.

Документы, цитированные в отчете о поиске Патент 2011 года RU2432624C1

СПОСОБ ПЕРЕДАЧИ И ПРИЕМА ЗАКОДИРОВАННОЙ РЕЧИ 2007
  • Волков Александр Степанович
  • Колядо Владимир Владимирович
  • Сулимов Юрий Васильевич
RU2343563C1
СПОСОБЫ И УСТРОЙСТВА УПРАВЛЯЕМОГО ИСТОЧНИКОМ ШИРОКОПОЛОСНОГО КОДИРОВАНИЯ РЕЧИ С ПЕРЕМЕННОЙ СКОРОСТЬЮ В БИТАХ 2003
  • Желинек Милан
RU2331933C2
KR 100634506 В1, 16.10.2006
Способ изготовления тары 1986
  • Коновалов Александр Яковлевич
SU1431962A1
WO 9508241 А2, 23.03.1995
US 2007162279 А1, 12.07.2007.

RU 2 432 624 C1

Авторы

Афанасьев Андрей Алексеевич

Трубицын Владимир Геннадьевич

Титов Олег Николаевич

Даты

2011-10-27Публикация

2010-04-21Подача