СПОСОБ СНИЖЕНИЯ СКОРОСТИ ПЕРЕДАЧИ НИЗКОСКОРОСТНЫХ ВОКОДЕРОВ С ЛИНЕЙНЫМ ПРЕДСКАЗАНИЕМ Российский патент 2013 года по МПК G10L19/08 

Описание патента на изобретение RU2495504C1

Изобретение относится к области цифровой связи, а именно к технике анализа-синтеза речи для уменьшения избыточности и может быть использовано в системах телекоммуникаций для эффективного кодирования речевых сигналов.

При цифровой обработке речевых сигналов эффективное кодирование речевых данных для их передачи по цифровым каналам связи является одной из основополагающих задач. Ее решение позволяет увеличить пропускную способность линейных трактов и каналов передачи при заданных критериях качества связи. Одним из принципов построения систем обработки и передачи речи выступает снижение скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.

Большинство известных способов кодирования речевых сигналов основываются на методе линейного предсказания. В его основе лежит модель речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал). При этом анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.

Известны способы обработки речевых сигналов в вокодерах с линейным предсказанием, основанные на анализе сигнала ошибки линейного предсказания (Маркел Дж.Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С.258-276; Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. - М.: Радио и связь, 1981. - С.365-428; О.И.Шелухин, Н.Ф.Лукьянцев. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.102-166).

В устройствах, реализующих данные способы, осуществляется анализ сигнала ошибки линейного предсказания с целью генерации сигналов возбуждения фильтра-синтезатора. Известно, что сигнал остатка предсказания является наилучшим сигналом возбуждения синтезирующего фильтра линейного предсказания (Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. - М.: Радио и связь, 1984. - с.172-182). При этом по каналу связи передается информация о коэффициентах формирующей модели, параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал.

Для эффективного представления сигнала возбуждения в таких устройствах используются различные способы снижения информативной избыточности данных последовательностей (патенты US №7289952 от 30.10.2007, US №7233896 от 10.07.2007, US №7133823 от 07.11.2006, US №5963897 от 05.10.1999, US №6757650 от 29.06.2004, RU №2163399 от 22.10.1997, RU №97117357 от 20.02.2001).

Недостатком данных способов является значительное расходование информационного ресурса на представление сигнала возбуждения при его передаче по каналу связи, и, следовательно, относительно высокая скорость передачи данных по каналам связи при эффективном кодировании речи.

Наиболее близким по технической сущности к заявленному изобретению является патент RU №2400832, в котором формирование сигнала возбуждения реализуется путем использования параметров синтезирующего фильтра, таким образом, что происходит отказ от передачи по каналу связи информации о сигнале возбуждения, при этом для формирования сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяют параметры синтезирующего фильтра, содержащие информацию о коэффициентах предсказания или линейных спектральных частотах, а также значение коэффициента усиления сигнала возбуждения, по данным параметрам рассчитывают амплитудно-частотную характеристику синтезирующего фильтра на фазовых углах его полюсов и формируют спектр амплитуд и фаз сигнала возбуждения, затем формируют сигнал возбуждения на основе данных о коэффициенте усиления и спектрах его амплитуд и фаз, который используют в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.

Недостатком данного способа является относительно невысокое качество синтезированного речевого сигнала, что связано с отсутствием при восстановлении оригинального сигнала возбуждения и случайностью распределения начальных фаз в спектре сигнала возбуждения.

Задачей изобретения является снижение скорости передачи низкоскоростных вокодеров с линейным предсказанием при эффективном кодировании речевых сигналов с сохранением качественных показателей синтезированного сигнала.

Эта задача решается тем, что в способе снижения скорости передачи в низкоскоростных вокодерах с линейным предсказанием предлагается заменить процедуру синтеза сигнала возбуждения на приемной стороне процедурой его идентификации. Для формирования сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта, а также значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по данным параметрам при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.

Известно, что нейроные сети хорошо решают задачи классификации и идентификации сигналов, в том числе и речевых. Для корректного функционирования нейронной сети - классификатора необходимо предварительное обучение нейронной сети на тестовых примерах (отрезках речевых сигналов) дикторов. В качестве нейронных сетей - классификаторов предлагается использовать нейронные сети на основе радиальных базисных функций (radial-basis function network - RBF), которые позволяют преобразовать пространство входных векторов (множество входных сигналов) большой размерности в пространство выходных векторов (множество выходных сигналов) иной, зачастую меньшей размерности. Архитектура таких сетей предполагает наличие трех слоев, выполняющих различные функции. Входной слой состоит из сенсорных элементов, на которые подаются сигналы, описывающие модель речеобразования. Второй слой является скрытым слоем, осуществляющим нелинейное преобразование входного пространства в скрытое. Использование скрытых нейронов, соединяемых связями с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций.

Основу функционирования радиальных сетей составляет теорема Т. Ковера о распознаваемости образов, в соответствии с которой нелинейные проекции векторов в некоторое многомерное пространство большей размерности могут быть линейно разделены с большей вероятностью, чем при их проекции в пространство с меньшей размерностью (Cover Т. Geometrical and statistical properties of systems of linear inequalities with applications in pattern recognition // IEEE Trans. Electronic Computers, 1965. - Vol.14. - Pp.326-334). Доказано, что множество векторов, случайным образом размещенных в многомерном пространстве, является φ-разделяемым с вероятностью 1 при условии соответственно большей размерности К этого пространства. Это означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции φi(х), гарантирует решение задачи классификации при построении трехслойной сети. Скрытый слой должен реализовать вектор φ(х), а выходной слой может состоять из единственного линейного нейрона, выполняющего суммирование выходных сигналов от скрытых нейронов. Сеть функционирует по принципу многомерной интерполяции, состоящей в отображении р различных входных векторов xi(i=1, 2, …, p) из входного N-мерного пространства во множество из р рациональных чисел di(i=1, 2, …, p). Для реализации этого процесса необходимо использовать р скрытых нейронов радиального типа и задать такую функцию отображения F(x), для которой выполняется условие интерполяции F(x)=di. Использование р скрытых нейронов, соединяемых связями с весами wi с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций. Взаимосвязь между входными и выходными сигналами сети может быть определена системой уравнений, линейных относительно весов wi, которая имеет вид

где φji=(||xj-xi||) определяет радиальную функцию с центром в точке xi с вынужденным вектором xj.

Подбор параметров радиальных функций и значений весов wi сети можно свести к минимизации целевой функции, которая записывается в форме

E = i = 1 P [ j = 1 K w j ϕ ( x i c i ) d i ] 2

где К представляет собой количество радиальных нейронов,

р - количество обучающих пар (xi, di),

xi - это входной вектор,

di - соответствующая ему ожидаемая величина.

Решение, представляющее аппроксимирующую функцию в многомерном пространстве в виде взвешенной суммы локальных базисных радиальных функций, может быть интерпретировано радиальной нейронной сетью, представленной на фиг.1.

Предложенная структура нейронной сети будет выполнять функцию классификатора как параметров, описывающих передаточную функцию голосового тракта, так и идентификатора векторов коэффициентов линейного предсказания.

Теоретические и экспериментальные исследования линейного предсказания речи показали, что ясно прослеживаются нелинейные корреляционные зависимости между остатком линейного предсказания и параметрами, описывающими передаточную функцию голосового тракта, которые являются параметрами модели синтеза речи в вокодере с линейным предсказанием. Корреляционные связи между вектором, содержащим параметры голосового тракта, и соответствующим вектором сигнала ошибки линейного предсказания, рассчитанным на интервале квазистационарности, позволяют избавиться от необходимости передачи по каналу связи сигналов возбуждения, являющихся входным сигналом фильтра-синтезатора речевого сигнала на приемной стороне. Данные зависимости можно использовать для понижения скорости передачи информационного потока по каналу связи, применяя на стороне анализа и синтеза специальным образом обученные нейронные сети, предназначенные для решения задачи идентификации соответствующего сигнала возбуждения.

Сущность предлагаемого способа заключается в следующем. При анализе сегмента речевого сигнала на передающей стороне создается вектор параметров описывающих передаточную функцию голосового тракта и вектор сигнала ошибки линейного предсказания. Данные вектора подаются на предварительно обученные нейронные сети RBF, которые выполняют функцию классификации входных сигналов, причем как для векторов остатка линейного предсказания, так и для векторов параметров, описывающих передаточную функцию голосового тракта, создаются отдельные нейронные сети одинаковой размерности слоев. Предварительная настройка весовых коэффициентов нейронных сетей производится методом «обучения с учителем» (используется гибридный алгоритм обучения радиальных сетей, описанный: Хайкин С. Нейронные сети: полный курс, 2-е издание. - М.: Издательский дом «Вильямс», 2006 - С.399-400). В ходе процесса классификации устанавливается однозначная взаимосвязь между кластерами векторов остатка линейного предсказания и кластерами векторов параметров голосового тракта для каждого сегмента речевого сигнала. По каналу связи передаются только параметры модели синтеза, коэффициент усиления и данные, характеризующие кодируемый речевой сигнал. Для формирования сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяют параметры для синтезирующего фильтра, содержащие информацию о параметрах голосового тракта, данных речевого сигнала, а также значение коэффициента усиления сигнала возбуждения. По данным параметрам обученная нейронная сеть RBF выделяет соответствующий им класс сигналов возбуждения, т.е. сигнала остатка линейного предсказания. Извлеченный при помощи нейронной сети сигнал возбуждения используют в синтезирующем фильтре липредера для формирования цифрового речевого сигнала на участке квазистационарности.

Блок-схема алгоритма функционирования предложенной системы, реализующей способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием, представлена на фиг.2.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».

Благодаря новой совокупности существенных признаков системы, обеспечивающих исключение информации о сигнале возбуждения из формата кадра передачи и его формирование на приеме по значениям параметров синтезирующей модели голосового тракта с использованием нейронной сети, достигается значительное снижение скорости передачи данных в канале связи.

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на достижение указанного технического результата. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Промышленная применимость введенных элементов обусловлена наличием элементной базы, на основе которой они могут быть выполнены.

Заявленное техническое решение поясняется чертежом (фиг.3), на котором показана функциональная схема устройства, реализующего способ снижения скорости передачи в низкоскоростных вокодерах с линейным предсказанием посредством использования нейросетевой классификации коэффициентов линейного предсказания и сигнала ошибки линейного предсказания.

Устройство, реализующее данный способ, состоит из блока анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания 1, который соединен с блоком нейросетевой классификации 2 и со вторым входом блока формирования кадра передачи 3. Выход блока 2 соединен с первым входом блока 3. На вход блока приема кадра передачи 4 поступает сигнал с выхода блока 3. Сигнал с выхода блока 4 подается на блок формирования сигнала возбуждения 5. Данный блок соединен с блоком синтеза речевого сигнала 6. На другие входы блока 6 поступают сигналы от блока 4.

Процедура анализа сегмента речевого сигнала и формирования векторов коэффициентов линейного предсказания и сигнала ошибки линейного предсказания, выполняемая в блоке 1, достаточно подробно описана в (Солонина А.И., Улахович Д.А., Арбузов С.М., Соловьева Е.Б. Основы цифровой обработки сигналов: Курс лекций. - СПб.: БХВ - Петербург, 2003. - с.425-446). Векторная классификация при помощи нейронных сетей RBF, применяемая в блоке 2, представлена в (Хайкин С. Нейронные сети: полный курс, 2-е издание.: Пер. с англ. - М.: Издательский дом «Вильямс», 2006. - С.371-408). Описание формирования и приема кадра передачи, выполняемых блоками 3 и 4, представлено в (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.79-87). Механизм нейросетевой идентификации для функционирования блока формирования сигнала возбуждения 5 представлен в (Осовский С. Нейронные сети для обработки информации / Пер. с. польского И.Д.Рудинского. - М.: Финансы и статистика, 2002. - С.129-158). Синтез речевого сигнала, осуществляемый в блоке 6, подробно рассмотрен в (Маркел Дж.Д., Грэй А.X. Линейное предсказание речи. - М.: Связь, 1980. - С.95-126).

Устройство, реализующее заявленный способ, работает следующим образом. Сегмент речевого сигнала поступает на блок 1, в котором происходит его анализ и формирование векторов сигналов ошибки линейного предсказания и коэффициентов линейного предсказания. Выделенные параметры с блока 1 поступают на блок нейросетевой классификации 2, в котором осуществляется классификация и кластеризация векторов на основе предварительно обученных на тестовых сигналах нейронных сетей класса RBF, а также на блок формирования кадра передачи 3. Параметры, характеризующие соответствующий кластер векторов коэффициентов линейного предсказания, объединяются с коэффициентом усиления и другими вспомогательными параметрами в блоке формирования кадра передачи 3. Данный сигнал поступает на блок приема кадра передачи 4, в котором происходит выделение информационной составляющей, описывающей вектор коэффициентов линейного предсказания. Информация о номере необходимого кластера поступает на блок 5, который использует обученную нейронную сеть RBF для формирования вектора сигнала ошибки линейного предсказания, являющегося сигналом возбуждения для синтезирующего фильтра приемной части вокодера с линейным предсказанием. В блоке синтеза речевого сигнала 6 происходит формирование речевого сигнала по данным о сигнале возбуждения, поступающим от блока 5, коэффициентам линейного предсказания и дополнительным параметрам, поступающим от блока 4, для формирования речевого сигнала, например значение коэффициента усиления.

К достоинствам способа следует отнести тот факт, что устранение из кадра передачи информации о сигнале возбуждения позволяет значительно снизить скорость передачи данных в канале связи, а также уменьшить вычислительную сложность алгоритма кодирования речевого сигнала на передающей стороне. Анализ кадра передачи существующих вокодеров (Быков С.В., Журавлев В.И., Шалимов И.А. Цифровая телефония: Учеб. пособие для вузов. - М.: Радио и связь, 2003. - С.134-136) свидетельствует о том, что приблизительно 50% в кадре передачи занимает информация о сигнале возбуждения.

Использование предлагаемого технического решения для снижения скорости передачи в вокодерах с линейным предсказанием позволяет понизить скорость передачи данных в канале связи на 40-50% от известных решений, либо перераспределить информационный ресурс, предоставляемый каналом связи, на формирование дополнительных сервисов абонентского обслуживания, при этом качественные показатели синтезированной речи повышаются на 0,3-0,5 балла по шкале MOS (MOS - Mean Opinion Scores - средняя экспертная оценка). Критерии оценки согласно шкале MOS подробно рассмотрены в (Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. М., Радио и Связь, 2000 г. - С.255-256).

Синтезированный речевом сигнал характеризуется высокими показателями разборчивости, естественностью и узнаваемостью говорящего.

Приведенные технические решения показывают, что устройство, воплощающее изобретение при его осуществлении, способно обеспечить более низкую скорость передачи данных за счет устранения из кадра передачи информации о сигнале возбуждения и формировании его на приеме по параметрам формирующей функции голосового тракта, используя нейронную сеть - классификатор.

Похожие патенты RU2495504C1

название год авторы номер документа
СПОСОБ НИЗКОСКОРОСТНОГО КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ РЕЧЕВОГО СИГНАЛА 2015
  • Афанасьев Андрей Алексеевич
  • Коробовский Евгений Сергеевич
RU2631968C2
СПОСОБ ФОРМИРОВАНИЯ СИГНАЛА ВОЗБУЖДЕНИЯ В НИЗКОСКОРОСТНЫХ ВОКОДЕРАХ С ЛИНЕЙНЫМ ПРЕДСКАЗАНИЕМ 2008
  • Афанасьев Андрей Алексеевич
  • Конышев Михаил Юрьевич
  • Ульянов Илья Владимирович
RU2400832C2
СПОСОБ СЖАТИЯ И ВОССТАНОВЛЕНИЯ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ СИСТЕМ КОДИРОВАНИЯ С ПЕРЕМЕННОЙ СКОРОСТЬЮ ПЕРЕДАЧИ 2009
  • Афанасьев Андрей Алексеевич
  • Габдулгазиев Станислав Рамзесович
  • Ульянов Илья Владимирович
RU2394284C1
СПОСОБ И УСТРОЙСТВО МНОГОУРОВНЕВОГО МАСШТАБИРУЕМОГО УСТОЙЧИВОГО К ИНФОРМАЦИОННЫМ ПОТЕРЯМ КОДИРОВАНИЯ РЕЧИ ДЛЯ СЕТЕЙ С КОММУТАЦИЕЙ ПАКЕТОВ 2009
  • Свириденко Владимир Александрович
RU2464651C2
СПОСОБ УЛУЧШЕНИЯ ВОСПРИЯТИЯ СИНТЕЗИРОВАННОЙ РЕЧИ ПРИ РЕАЛИЗАЦИИ ПРОЦЕДУРЫ АНАЛИЗА ЧЕРЕЗ СИНТЕЗ В ВОКОДЕРАХ С ЛИНЕЙНЫМ ПРЕДСКАЗАНИЕМ 2010
  • Афанасьев Андрей Алексеевич
  • Илюшин Михаил Владимирович
  • Титов Олег Николаевич
RU2445719C2
СПОСОБ И УСТРОЙСТВО ВОКОДИРОВАНИЯ ПЕРЕМЕННОЙ СКОРОСТИ ПРИ ПОНИЖЕННОЙ СКОРОСТИ КОДИРОВАНИЯ 1995
  • Эндрю П.Деджако
RU2146394C1
ТРАНСФОРМАЦИЯ ШКАЛЫ ВРЕМЕНИ КАДРОВ В ШИРОКОПОЛОСНОМ ВОКОДЕРЕ 2007
  • Капур Рохит
  • Диас Серафин Спиндола
RU2414010C2
СПОСОБ СОЗДАНИЯ КОДОВОЙ КНИГИ И ПОИСКА В НЕЙ ПРИ ВЕКТОРНОМ КВАНТОВАНИИ ДАННЫХ 2012
  • Рыжков Александр Павлович
  • Афанасьев Андрей Алексеевич
  • Катков Олег Николаевич
RU2504027C1
ИЗМЕНЕНИЕ МАСШТАБА ВРЕМЕНИ КАДРОВ В ВОКОДЕРЕ ПОСРЕДСТВОМ ИЗМЕНЕНИЯ ОСТАТКА 2006
  • Капур Рохит
  • Диас Спиндола Серафин
RU2371784C2
СПОСОБ ОПРЕДЕЛЕНИЯ ДЛИНЫ КАДРА ПЕРЕДАЧИ КОДЕКОВ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ В СЕТЯХ С ПАКЕТНОЙ КОММУТАЦИЕЙ НА ОСНОВЕ IP-ПРОТОКОЛА 2010
  • Афанасьев Андрей Алексеевич
  • Титов Олег Николаевич
RU2459373C1

Иллюстрации к изобретению RU 2 495 504 C1

Реферат патента 2013 года СПОСОБ СНИЖЕНИЯ СКОРОСТИ ПЕРЕДАЧИ НИЗКОСКОРОСТНЫХ ВОКОДЕРОВ С ЛИНЕЙНЫМ ПРЕДСКАЗАНИЕМ

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов. Техническим результатом предлагаемого способа является уменьшение скорости передачи данных по каналам связи при эффективном кодировании речевых сигналов с сохранением качественных показателей синтезированного сигнала. Поставленная цель в вокодере с линейным предсказанием достигается посредством отказа от передачи по каналу связи информации о сигнале возбуждения. Сигнал возбуждения идентифицируют непосредственно на приеме по данным о параметрах синтезирующей модели при помощи нейронной сети. По каналу связи передают информацию о коэффициентах формирующей модели, коэффициенте усиления, параметрах, характеризующих кодируемый речевой сигнал, которые рассчитывают на каждом квазистационарном сегменте анализа речевого сигнала. 3 ил.

Формула изобретения RU 2 495 504 C1

Способ формирования сигнала возбуждения низкоскоростных вокодеров с линейным предсказанием, использующий параметры синтезирующего фильтра таким образом, что по каналу связи передают только параметры синтезирующего фильтра, отличающийся тем, что на приемной стороне по параметрам синтезирующего фильтра производится процедура идентификации сигнала возбуждения, при этом из кадра передачи выделяют параметры, описывающие передаточную функцию голосового тракта, а также значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, по параметрам передаточной функции голосового тракта при помощи обученной нейронной сети идентифицируют сигнал ошибки линейного предсказания, который является сигналом возбуждения, и используют его в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.

Документы, цитированные в отчете о поиске Патент 2013 года RU2495504C1

СПОСОБ ФОРМИРОВАНИЯ СИГНАЛА ВОЗБУЖДЕНИЯ В НИЗКОСКОРОСТНЫХ ВОКОДЕРАХ С ЛИНЕЙНЫМ ПРЕДСКАЗАНИЕМ 2008
  • Афанасьев Андрей Алексеевич
  • Конышев Михаил Юрьевич
  • Ульянов Илья Владимирович
RU2400832C2
RU 97117357 A, 10.08.1999
US 7289952 B2, 30.10.2007
US 7233896 B2, 19.06.2007
US 7133823 B2, 07.11.2006.

RU 2 495 504 C1

Авторы

Афанасьев Андрей Алексеевич

Рыжков Александр Павлович

Даты

2013-10-10Публикация

2012-06-25Подача