Способ передачи речевых файлов по зашумленному каналу и устройство для его реализации Российский патент 2021 года по МПК G10L19/05 G10L21/02 H04L1/00 

Описание патента на изобретение RU2754497C1

Изобретение относится к области цифровой вычислительной техники, в частности, к передаче речевых файлов по зашумленному каналу. Заявленные способ и устройство могут найти применение при передаче речевых команд, синтезируемых роботом, когда разборчивость выходит на передний план.

В настоящее время имеется большое количество работ, посвященных улучшению качества аудио сигнала в режиме помех. В них предполагается знание параметров вероятностной модели шума, которые должны быть установлены перед процедурой очистки.

Из исследованного уровня техники заявителем выявлен: Ramesh Nuthakki, A Sreenivasa Murthy, Naik D C. «Single channel speech enhancement using a newbinary mask in power spectral domain», Proceedings of the 2nd International conference on Electronics, Communication and Aerospace Technology (ICECA 2018) IEEE Conference Record # 42487. Рамеш Нутхакки, А. Шриниваса Мурти, Наик Д. К. «Улучшение речи в одном канале с использованием новой двоичной маски в спектральной области мощности», Труды 2-й Международной конференции по электронике, коммуникационным и аэрокосмическим технологиям (ICECA 2018) Запись конференции IEEE № 42487.

Сущность известного технического решения по отношению к заявленному способу является исправление спектра сигнала для подавления шума, путем умножения на функцию специального вида.

Недостатком известного технического решения является использование аддитивной модели шума и необходимость определения параметров этого шума, поскольку вид конструируемой функции зависит от этих параметров.

Из исследованного уровня техники заявителем выявлен

Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee «A Regression Approach to Speech Enhancement Based on Deep Neural Network», IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 23, NO. 1, JANUARY 2015, pp.7-18. Юн Сюй, Цзюнь Ду, Ли-Ронг Дай и Чин-Хуэй Ли «Регрессионный подход к улучшению речи на основе глубокой нейронной сети», IEEE / ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, VOL. 23, НЕТ. 1, ЯНВАРЬ 2015, стр. 7-18. Сущностью известного технического решения по отношению к заявленному способу является использование регрессии на основе нейронной сети для очистки спектра зашумленного сигнала. Сеть обучается на паре зашумленный/чистый сигнал, используя логарифм от мощности спектра в качестве входных и выходных данных. После этого тренированная сеть применяется к аналогичным параметрам сигнала, требующего очистки. Сам сигнал восстанавливается по полученному спектру.

Недостатком известного технического решения является сложность процедуры, поскольку используется глубокое обучение, требующее значительных ресурсов (авторы использовали базу, насчитывающую 100 ч. звучания). Кроме того, модель работает с четырьмя видами шума, что в реальной ситуации ограничивает область применения метода.

Из исследованного уровня техники заявителем не выявлены устройства, аналогичные заявленному техническому решению по конструкции.

Заявителем выявлены устройства, аналогичные заявленному техническому решению по назначению.

Так, известны искусственные нейронные сети, используемые для восстановления зашумленного речевого сигнала [https://docs.exponenta.ru/R2019a/audio/examples/denoise-speech-using-deep-learning-networks.html]. Сущностью известного технического решения является удаление шума из речевых сигналов при улучшении качества и разборчивости речи. Этот пример демонстрирует удаление шума стиральной машины от речевых сигналов с помощью нейронных сетей, построенных с помощью глубокого обучения.

Недостатком известного технического решения является то, что для его реализации требуется мощный компьютер, что является достаточно затратным.

Задачей заявленного технического решения является разработка способа передачи речевых файлов по зашумленному каналу и устройства для его реализации, позволяющие улучшить речевой сигнал в пункте приема, когда в качестве модели шума в канале принята вероятность инвертирования любого бита в канале, где – константа, причем не делается никаких предположений о совместной вероятности одновременного возникновения нескольких событий.

Техническим результатом заявленного технического решения является увеличение разборчивости принятого сообщения.

Сущностью заявленного технического решения является способ передачи речевых файлов по зашумленному каналу, заключающийся в том, что для передачи преобразованного сигнала

подсчитывают коэффициенты регрессии , для чего выбирают файл из списка, на основе которого будут получены коэффициенты,

отыскивают точные значения порогов ,

выбирают длину фрагмента и находят ,

разбивают файл на непересекающиеся фрагменты длины

0 to P do

| - заменяют каждый элемент его модулем,

|) - разбивают элементы фрагмента на 4 кластера и находят центры этих кластеров,

- находят максимум и стандартное отклонение,

EndFor

,[

,[

,[

End,

зная коэффициенты регрессии, а также максимальное значение и стандартное отклонение элементов фрагмента, оценивают значения порогов по формуле (2)

(2)

исходный сигнал преобразуется в ступенчатую форму согласно формуле (1)

, (1)

областью значений функции в формуле (1) является множество, состоящее из чисел при передаче в канал эти числа превращаются в двоичное представление чисел соответственно путем прибавления числа 3, то есть для кодирования каждого числа требуется три бита;

далее для приема преобразованного сигнала

выбирают один из набора файлов, предназначенных для передачи по зашумленному каналу и по этому файлу осуществляют настройку системы,

берут фрагмент длины из этого файла и берут результат преобразования согласно формуле (1) этого фрагмента , в котором каждый элемент принадлежит множеству

заменяют каждый элемент его трех битовым представлением, получают последовательность

длиной

выбирают окно нечетной длины , которое движется вдоль фрагмента , при очередном положении этого окна элементы попадают внутрь окна,

сопоставляют последовательности элемент исходного фрагмента , где , отвечающий середине последовательности ;

далее преобразовывают последовательность в битовую форму,

в результате получают набор битовых последовательностей длины и отвечающих им сигналов из исходного файла, при этом допускается одновременное присутствие последовательностей и сигналов из нескольких фрагментов данного файла,

используя линейную регрессию, получают набор коэффициентов таких, что

(3)

эти коэффициенты без ошибок передают на пункт приема и используют для восстановления отсчетов исходного файла по формуле (3), сдвигая каждый раз битовый поток на три позиции.

Устройство передачи речевых файлов по зашумленному каналу для реализации способа по п.1, состоящее из двух составных частей – пункта передачи и пункта приема,

при этом пункт передачи состоит из:

источника синхроимпульсов Sync1;

источника отсчетов речевого файла Data1;

блока 1 – элемента “И” с входами “In1.1”, “In2.1” и выходом “Out1.1”;

блока 2 – регистра сдвига длины , с возможностью подбора значения N в момент проектирования, синхровходом “S2” возможностью синхронизации по переднему фронту, входом “In1.2” , выходом “Out1.2” с первых разрядов и выходом “Out2.1” с последнего разряда регистра;

блока 3 – двоичного N –разрядного счетчика по модулю , счетным входом “S3”, работающим по переднему фронту импульса, и выходом “Out1.3” со всех разрядов;

блока 4 – элемента ИЛИ-НЕ с N-разрядным входом “In1.4” и выходом “Out1.4”;

блока 5 – вычислительного устройства с N-разрядным входом “In1.5”, входами “In2.5“ , “In3.5”, “Start5” и выходами “Out1.5”, “Out2.5”, с возможностью подсчета порогов для текущего фрагмента;

блока 6 – комбинационной схемы с входами “In1.6”, “In2.6” и выходом “Out1.6”, с возможностью реализации преобразования текущего сигнала в трех битовый код на основе известных порогов;

блока 7 – буфера канала передачи данных с синхровходом “S7” по заднему фронту и входами “In1.7” и “Start7”

при этом вход “In1.1” блока 1 и вход “In2.5” блока 5 соединены с источником синхроимпульсов Sync1;

выход “Out1.1” блока 1 соединен с синхровходами блоков 2,3 и 7;

вход “In1.2” блока 2 соединен с источником отсчетов речевого файла Data1, выход “Out1.2” блока 2 соединен с входом “In1.5” блока 5, а выход “Out2.5” блока 5 соединен с входом “In1.6” блока 6;

выход “Out1.3” блока 3 соединен с входом “In1.4” блока 4;

выход “Out1.4” блока 4 соединен с входами “Start5” блока 5 и “Start7” блока 7;

вход “In3.5” блока 5 осуществлен с возможностью поступления коэффициентов регрессии, вычисленных согласно п.1,

вход “In2.6” блока 6 осуществлен с возможностью поступления найденных порогов с выхода “Out1.5” блока 5,

вход “In2.1” блока 1 соединен с выходом “Out2.5” блока 5;

вход “In1.7” блока 7 осуществлен с возможностью поступления трех битового кода с выхода “Out1.6” блока 6;

при этом пункт приема состоит из:

источника синхроимпульсов Sync2;

блока 8 – буфера канала с синхровходом “S8”, с возможностью работы по переднему фронту синхроимпульса, с выходом “Out1.8”,

блока 9 – сдвигового регистра длиной с возможностью выбора значения в процессе проектирования, с возможностью работы по переднему фронту синхроимпульса на входе “S9”, с входом “In1.9” и выходом “Out1.9” со всех разрядов регистра;

блока 10 – вычислительного устройства, с возможностью срабатывания по переднему фронту синхроимпульса на входе “S10” и восстановления поврежденного сигнала, с входами “In1.10” для загрузки коэффициентов регрессии Coef2, и “In2.10” для загрузки разрядов регистра и выходом “Out1.10”;

блока 11 – делителя частоты, состоящего из:

блока 11.1 – двухразрядного счетчика, считающему по переднему фронту импульса на входе “S11”, с выходами “Out1.11”,”Out2.11” с разрядов счетчика и входом сброса Reset, при этом источник синхроимпульсов Sync2 соединен с счетным входом “S11” счетчика;

блока 11.2 -- двухвходового элемента ИЛИ-НЕ, входы которого соединены с выходами “Out1.11.1”,”Out2.11.1” счетчика 11.1, и выходом “Out1.11”, совпадающим с выходом делителя частоты 11;

блока 11.3 -- двухвходового элемента И, входы которого, соединены с выходами “Out1.11.1”,”Out2.11.1” счетчика 11.1, а выход соединен с входом Reset счетчика 11.1 ;

блока 12 – выходного буфера, с возможностью срабатывания по переднему фронту синхроимпульса на входе “S12”, с входом “In1.12”,

при этом

источник синхроимпульсов Sync2 соединен с синхровходами блоков 8,9,11;

выход “Out1.8” блока 8 соединен с входом “In1.9” блока 9;

вход “In2.10” блока 10 осуществлен с возможностью поступления сигнала разрядности с выхода “Out1.9” блока 9,

вход “In1.12” блока 12 соединен с выходом “Out1.10” блока 10;

синхровходы блоков 10 и 12 соединены выходом “Out1.11” блока 11.

Заявленное техническое решение иллюстрируется Фиг.1 – Фиг.6.

На Фиг.1 приведена схема устройства, расположенного в пункте передачи, где:

Sync1 – источник прямоугольных синхроимпульсов;

Data1 – источник отсчетов речевого файла;

1 – блок 1 - элемент “И” с входами In1.1, In2.1 и выходом Out1.1;

2 – блок 2 - регистр сдвига длины , где значение N подбирается в момент проектирования, с входом In1.2, входом синхроимпульса S2, выходом Out1.2 с первых разрядов и выхода Out.2.2 с последнего разряда;

3 – блок 3 - двоичный N –разрядный счетчик, считающий по модулю синхроимпульсы, поступающие на вход S3, выход Out1.3 c N разрядов;

4 – блок 4 - элемент ИЛИ-НЕ с N-разрядным входом In1.4 и выходом Out1.4;

5 – блок 5 - вычислительное устройство с N-разрядным входом In1.5, входами In2.5, In3.5 для загрузки коэффициентов по шине Coef1, Start N , выходом чисел в плавающем формате Out1.5 и выходом Out2.5;

6 – блок 6 - комбинационная схема с входами In1.6, входом чисел в плавающем формате In2.6 и выходом Out1.6;

7 – блок 7 - буфер канала передачи данных с входами In1.7 входом синхроимпульса S7, работающего по заднему фронту и входа Start7.

На Фиг.2 приведено устройство в пункте приема, где:

Sync2 – источник синхроимпульсов;

8 – блок 8 - буфер канала с входом S8 и выходом Out1.8;

9 – блок 9 - сдвиговый регистр длиной значение выбирается в процессе проектирования, входами S9, In1.9 и -разрядным выходом Out1.9;

10 – блок 10 - вычислительное устройство с входами S10, In1.10, загружающего коэффициенты с шины Coef2, –разрядного входа In2.10 и выхода Out1.10;

11 – блок 11 - делитель частоты, схема которого приведена на Фиг4, с входом S11 и выходом Out1.11;

12 – блок 12 - выходной буфер с входами S12 In1.12.

На Фиг.3 приведено преобразование исходной последовательности синхронизации делителем частоты, где:

Sync2 – последовательность синхроимпульсов,

Out1.11 output – вид сигнала на выходе делителя частоты блока 11.

На Фиг.4 приведена схема делителя частоты блока 11, где

Sync2 – источник синхроимпульсов;

11.1 – блок 11.1 - двухразрядный счетчик, с входами S11, Reset и выходами Out1.11.1, Out2.11.1 с разрядов счетчика;

11.2 – блок 11.2 - элемент ИЛИ-НЕ с двумя входами;

11.3 – блок 11.3 - элемент И с двумя входами.

На Фиг.5 приведена Таблица 1, в которой представлены результаты сравнения двух речевых файлов, с их ступенчатыми версиями. Разница двух фрагментов одного файла оценивается с помощью отношения сигнал/шум (SNR) в децибелах (dB) согласно формуле (4). В эксперименте использованы два файла: Фл1 - мужчина русский, Фл2 - женщина татарка, частота стробирования 44100Hz, длина фрагмента равна 512. Ступенчатые версии строятся с помощью функций регрессии (Рег), каждая из которых основана на одном из указанных файлов. В Таблицу 1 помещены медианы значений SNR, найденные по 600 фрагментам из каждого файла.

На Фиг.6 приведена Таблица 2, в которой представлены результаты сравнения речевых файлов с их образами на выходе зашумленного канала. Разница двух фрагментов одного файла оценивается с помощью SNR в децибелах. Величина означает вероятность инвертирования любого бита в канале при передаче. Приведены медианы SNR по 600 фрагментам в каждом файле без применения и с применением процедуры восстановления поврежденного сигнала. Восстановление сигнала осуществляется с помощью функций регрессии, построенной по одному из файлов, значение параметра в функции регрессии равно 151.

Заявленный технический результат достигается тем, что исходный речевой сигнал превращается в ступенчатую функцию и в пункт приема заранее передаются коэффициенты регрессии, позволяющие оценить первоначальный сигнал по интервалу значений ступенчатой функции. При этом экспериментально показано, что коэффициенты регрессии, вычисленные на основе файлов, принадлежащих одному диктору, годятся для восстановления речевых сигналов, созданных другим диктором.

Заявленное техническое решение реализуется посредством двух составных частей, установленных в пункте передачи в пункте приема соответственно, и двух программ, с помощью которых производят вычисление коэффициентов регрессии.

Часть 1 - пункт передачи.

Математическая модель 1.

Математическая модель заявленного устройства имеет следующий вид.

Пусть речевой сигнал задан в виде последовательности отсчетов

Выбирают три порога и превращают исходный сигнал в ступенчатую функцию согласно формуле

(1)

Здесь – знак сигнала.

Речевой сигнал разбивают на непересекающиеся фрагменты фиксированной длины, и для каждого фрагмента используют свои пороги.

Прямое вычисление оптимальных порогов является трудоемкой задачей и становится неприемлемым в процессе передачи. Для ускорения вычислений вместо точных значений порогов используют их оценки, полученные с помощью линейной регрессии. Коэффициенты регрессии находят с помощью программы, реализующей приведенный ниже Алгоритм 1. Алгоритм 1 использует стандартные функции kmeans (кластеризация) и LinearRegression (линейная регрессия). По набору аргументов и набору нужных значений некоторой функции функция ], порождает коэффициенты, с помощью линейной комбинации которых по аргументу можно найти оценку нужного значения функции

Пакетом, в котором реализованы эти функции, является пакет SCIKIT [Pedregosa, F. et al.: Scikit-learn: machine learning in Python. Journal of Machine Learning Research,12, pp. 2825--2830 (2011)].

Алгоритм 1. Подсчет коэффициентов регрессии .

Выбирают файл из данного списка, на основе которого будут получены коэффициенты.

Отыскание точных значений порогов осуществляют согласно [Girod, B.: Image and Video Compression. \url{https://web.stanford.edu/class/ee398a/handouts/lectures/05-Quantization.pdf. Cited 29 Sep. 2020}].

1. Выбирают длину фрагмента и находят

2. Разбивают файл на непересекающиеся фрагменты длины

3. 0 to p do:

a. | (Заменяют каждый элемент его модулем)

b. |) (Разбивают элементы фрагмента на 4 кластера и находят центры этих кластеров)

c.

d. (Находят максимум и стандартное отклонение)

e.

f.

4. EndFor

,[

,[

,[

5. End

Зная коэффициенты регрессии, а также максимальное значение и стандартное отклонение элементов фрагмента, можно оценить значения порогов по формуле

(2)

Исходный сигнал преобразуется в ступенчатую форму согласно формуле (1)

(1)

Область значений функции в (1) является множество, состоящее из чисел . При передаче в канал к этим числам прибавляют 3, что превращает их в одно из чисел множества В канал передается двоичное представление нужного значения, то есть для кодирования каждого числа потребуется три бита.

Согласно (1), в результате перехода к ступенчатой функции все фрагменты порождаемого файла имеют одинаковые максимальные значения. Это свойство не нарушает разборчивости речи.

Схема устройства, расположенного в пункте передачи, представлено на Фиг.1.

Базой устройства является блок 5, который строится на основе микропроцессора. Он работает следующим образом. Перед началом работы в него через шину Coef1 помещают коэффициенты , значения которых подсчитывают согласно Алгоритму 1. Эти коэффициенты могут варьироваться в зависимости от свойств речевого файла, но возможно использование постоянных коэффициентов. Все определяется желаемым качеством восстановленного сигнала на приемном пункте. Примером могут служить команды робота с пункта передачи, и в этом случае использование постоянных коэффициентов вполне обосновано. В неактивном режиме на выходе “Out2” сигнал равен 1. Устройство активизируется, когда на вход “Start5” приходит последовательность “0,1”, в результате чего на выходе “Out2.5” появляется сигнал 0. После окончания вычислений на этом выходе снова сигнал 1, но только после прихода нулевого сигнала основного синхроимпульса на вход “In2.5”. После прихода сигнала активации загружается текущее содержание первых разрядов регистра сдвига через шину “In1.5”. Пусть это фрагмент .

1. Находят Mx=max(Frag) – максимальное значение и Std=std(Frag) – стандартное отклонение.

2. Подсчитывают

3.

4. , а на выходе “Out2.5” появляется сигнал 1 после прихода нулевого сигнала на вход “In2”.

Устройство на Фиг.1 работает следующим образом.

Перед началом работы регистр блок 2 заполнен нулями; счетчик блок 3 находится в нулевом состоянии, и на выходе “Out1.4” блока 4 находится 1; на входе “Start5” в блоке 5 сигнал 1, блок не активен, а на выходе “Out2.5” находится 1; на входе “Start7” блока 7 находится 1 и блок не активен, для его активизации на вход “Start7” должна поступить последовательность 0,1.. Блок 1 является открытым, и после начала синхронизации синхроимпульсы приходят на входы регистра 2, который заполняется отсчетами речевого файла, и на синхровход “S3” счетчика 3, который одновременно является и счетным входом, в результате чего меняются состояния счетчика. Достигнув состояния , при поступлении следующего синхроимпульса счетчик переходит в нулевое состояние. В момент появления нулевого состояния счетчика 3 первые разрядов регистра 2 заполнены сигналами речевого файла, активируется блок 5, на выходе “Out2.5” которого появляется 0, что блокирует дальнейшее поступление синхроимпульсов и активируется блок 7, который остается в активном состоянии до окончания передачи файла. После окончания вычислений в блоке 5 на выходе “Out1.5” этого блока и на входе “In2.6” блока 6 устанавливаются значения порогов , сигнал на выходе “Out2.5” блока 5 равен 1, что открывает поступление синхроимпульсов в схему. После появления переднего фронта синхроимпульса на входе регистра 2 в его последний разряд засылают сигнал речевого файла, который передается на вход “In1.6” блока 6. Внутри блока 6 поступивший сигнал сначала преобразуется согласно (1) в одно из значений из множества которое затем превращается в трех битовый код на выходе “Out1.6” блока 6. После появления заднего фронта синхроимпульса на входе блока 7 трех битовый сигнал попадает в буфер канала. После этого процесс продолжается до появления очередного нулевого состояния счетчика. Длина синхроимпульса должна превышать время срабатывания блока 6 для формирования очередного трех битового сигнала.

Часть 2 - пункт приема.

Математическая модель 2.

Выше показано, каким образом исходный файл превращается в поток битов, в котором каждому отсчету отвечают 3 бита. Повышение разборчивости достигается в рамках следующей математической модели. Имеется набор файлов, предназначенных для передачи по зашумленному каналу.

Алгоритм 2.

1. Выбираем один из файлов, и по этому файлу осуществляется настройка системы.

2. Берем фрагмент длины из этого файла и результат преобразования согласно (1) этого фрагмента , в котором каждый элемент принадлежит множеству

3. Заменяем каждый элемент его битовым представлением. В результате получаем последовательность

длиной

4. Выбираем окно нечетной длины , которое движется вдоль фрагмента . Пусть при некотором положении этого окна элементы попали внутрь окна.

Сопоставляем последовательности элемент исходного фрагмента , где , отвечающий середине последовательности . После этого преобразовываем последовательность в битовую форму.

5. В результате таких операций получаем набор битовых последовательностей длины и отвечающих им сигналов из исходного файла. Допускается одновременное присутствие последовательностей и сигналов из нескольких фрагментов данного файла.

6. Используя линейную регрессию, получаем набор коэффициентов таких, что

. (3)

7. Конец алгоритма

Таким образом, возникает возможность исправлять ошибки при передаче сигнала по зашумленному каналу с помощью формулы (3), сдвигая каждый раз битовую последовательность на три позиции. Коэффициенты регрессии без ошибок передают на пункт приема и используют для восстановления отсчетов исходного файла по формуле (3), сдвигая каждый раз битовый поток на три позиции при обработке всех файлов из заданного множества, хотя сами коэффициенты вычисляют по одному файлу.

Устройство в пункте приема.

Устройство представлено на Фиг.2.

Битовая последовательность синхронно поступает из буфера канала 8 в сдвиговый регистр 9 длиной ; сигнал синхронизации, проходя через делитель частоты 11, поступает на вход “S10” вычислительного устройства 10, куда предварительно помещены коэффициенты регрессии Coef2 через вход “In1.10” и который осуществляет вычисления согласно (3); результаты вычислений помещаются в выходной буфер 12.

Устройство работает следующим образом. Первоначально регистр 9 и буфер 12 заполнены нулями. Делитель частоты 11 преобразует исходную последовательность синхронизации так, как указано на Фиг.3.

Очередные 3 бита помещают в регистр 9, первоначально заполненный нулями. После этого начинает работать блок 10. Через вход “In2.10” содержимое регистра помещают в вычислительное устройство 10, и результат вычислений после следующего синхроимпульса поступает в буфер вывода 12. Если в результате шума на выходе канала появляется последовательность 1,1,1, которой не соответствует никакой исходный сигнал, это не отражается на работе вычислителя.

Делитель частоты (блок 11) работает следующим образом. Как только состояние “Out1.11.1”,”Out2.11.1” счетчика 11.11, считающего импульсы по переднему фронту, становится равным (1,1), единичный сигнал с блока 11.3 поступает на вход Reset счетчика 11.1 и обнуляет его состояние. После этого на выходе блока 11.2 появляется 1, и это значение сохраняется до поступления следующего синхроимпульса.

Далее заявителем приведено осуществление заявленного устройства.

Работоспособность устройства была проверена с помощью программного комплекса, разработанного авторами и являющегося неотъемлемой частью заявленного технического решения. В качестве речевых файлов были использованы фрагменты речи нескольких дикторов, выступавших в новостных программах телевидения. Файлы записаны с частотой 44100 Hz, 16 бит на отсчет. Качество приближения оригинального файла Orig с помощью файла Aprr оценивалось по стандартной формуле

(4)

где – дисперсия.

Коэффициент C подбирают таким образом, чтобы евклидовы длины сигналов сравнялись, а результат получается в децибелах.

Файлы выбраны специально таким образом, чтобы речевые сигналы отличались как можно больше. В качестве Appr выбирали сигнал, порожденный формулой (1), а пороги вычисляли по формуле (2), при этом варьировались коэффициенты регрессии, сформированные по файлу Фл1 или Фл2.

На Фиг.5 приведена Таблица 1, в которой представлены результаты обработки двух речевых файлов, с их ступенчатыми версиями. Разница двух фрагментов одного файла оценивают с помощью отношения сигнал/шум (SNR) в децибелах (dB) согласно формуле (4). В эксперименте использованы два файла: Фл1 - мужчина русский, Фл2 - женщина татарка, частота стробирования 44100Hz, длина фрагмента равна 512. Ступенчатые версии строят с помощью функций регрессии (Рег), каждая из которых основана на одном из указанных файлов. В Таблицу 1 помещены медианы значений SNR, найденные по 600 фрагментам из каждого файла.

Как видно из данных, приведенных в Таблице 1, выбор коэффициентов регрессии не влияет на полученный результат.

Восстановление поврежденного сигнала в результате шума в канале, когда каждый бит инвертируется с вероятностью , продемонстрировано в Таблице 2 на Фиг.6. Разница двух фрагментов одного файла оценивают с помощью SNR в децибелах. Величина означает вероятность инвертирования любого бита в канале при передаче. Для каждого файла показаны оценки медианы SNR по 600 фрагментам для трех вероятностей: сначала без режима улучшения, затем с улучшением согласно формуле (3). Восстановление сигнала осуществляется с помощью функций регрессии, построенной по одному из файлов, значение параметра в функции регрессии равно 151.

Из данных, приведенных в Таблице 2, можно сделать вывод, что отношение сигнал/шум увеличивается, т.е. таким образом идет подавление шума после применения предложенной процедуры улучшения сигнала.

Таким образом, из описанного можно сделать вывод, что заявителем достигнуты поставленные задачи и заявленный технический результат, а именно – разработан способ и создано устройство, позволяющие улучшить речевой сигнал в пункте приема, когда в качестве модели шума в канале принята вероятность инвертирования любого бита в канале, где - константа, причем не делается никаких предположений о совместной вероятности нескольких событий. При этом увеличена разборчивость принятого сообщения.

Заявленное техническое решение соответствует критерию «новизна», предъявляемому к изобретениям, так как при определении уровня техники не выявлено техническое решение, которому присущи признаки, идентичные (то есть совпадающие по исполняемой ими функции и форме выполнения этих признаков) совокупности признаков, перечисленных в формуле изобретения, включая характеристику назначения.

Заявленное техническое решение соответствует критерию «изобретательский уровень», предъявляемому к изобретениям, поскольку не выявлены технические решения, имеющие признаки, совпадающие с отличительными признаками заявленного изобретения, и не установлена известность влияния отличительных признаков на указанный технический результат.

Заявленное техническое решение соответствует критерию «промышленная применимость», предъявляемому к изобретениям, так как может быть изготовлено с использованием известных материалов, комплектующих изделий, стандартных технических устройств и оборудования.

Похожие патенты RU2754497C1

название год авторы номер документа
Устройство для мажоритарного выбора сигналов 1988
  • Мощицкий Сергей Семенович
  • Тимонькин Григорий Николаевич
  • Соколов Сергей Алексеевич
  • Ткаченко Сергей Николаевич
  • Ткаченко Владимир Антонович
  • Харченко Вячеслав Сергеевич
SU1619278A1
ПРЕОБРАЗОВАТЕЛЬ ПОСЛЕДОВАТЕЛЬНОГО ДВОИЧНОГО КОДА В ПАРАЛЛЕЛЬНЫЙ КОД 2001
  • Киселев Е.Ф.
  • Кузнецов С.А.
  • Палочкин Ю.П.
RU2188502C1
Устройство цифровой двумерной свертки 1988
  • Донченко Сергей Евгеньевич
  • Матвеев Юрий Николаевич
  • Очин Евгений Федорович
  • Романов Юрий Федорович
  • Юсупов Кабулджан Мусинович
SU1647585A1
УСТРОЙСТВО ДЛЯ ВВОДА ИНФОРМАЦИИ 2001
  • Киселев Е.Ф.
  • Сидоров Е.В.
RU2202121C2
Устройство для сопряжения группы абонентов с каналом связи 1990
  • Дорошенко Валерий Владимирович
  • Каленик Сергей Тимофеевич
  • Ларин Василий Михайлович
  • Обрученков Виктор Петрович
SU1774342A1
ПРЕОБРАЗОВАТЕЛЬ ПАРАЛЛЕЛЬНОГО КОДА В ПОСЛЕДОВАТЕЛЬНЫЙ 2000
  • Киселев Е.Ф.
  • Кузнецов С.А.
  • Зуев А.И.
RU2187887C2
ПРЕОБРАЗОВАТЕЛЬ ПОСЛЕДОВАТЕЛЬНОГО ДВОИЧНОГО КОДА В ПАРАЛЛЕЛЬНО-ПОСЛЕДОВАТЕЛЬНЫЙ КОД 2001
  • Киселев Е.Ф.
  • Крюков Ю.В.
  • Тимофеев С.С.
RU2220502C2
УСТРОЙСТВО ДЛЯ ВВОДА ИНФОРМАЦИИ 2001
  • Киселев Е.Ф.
  • Крюков Ю.В.
  • Тимофеев С.С.
  • Ремешков Ю.И.
RU2207614C1
Устройство для обмена данными между оперативной памятью и периферийными устройствами 1990
  • Рымарчук Александр Григорьевич
  • Чеховских Людмила Васильевна
SU1829038A1
Устройство для мажоритарного выбора сигналов 1989
  • Ткаченко Владимир Антонович
  • Ткаченко Сергей Николаевич
  • Тимонькин Григорий Николаевич
  • Харченко Вячеслав Сергеевич
  • Соколов Сергей Алексеевич
  • Мощицкий Сергей Семенович
SU1656539A1

Иллюстрации к изобретению RU 2 754 497 C1

Реферат патента 2021 года Способ передачи речевых файлов по зашумленному каналу и устройство для его реализации

Изобретение относится к области цифровой вычислительной техники, в частности к передаче речевых файлов по зашумленному каналу. Заявленные способ и устройство могут найти применение при передаче речевых команд, синтезируемых роботом, когда разборчивость выходит на передний план. Техническим результатом является увеличение разборчивости принятого сообщения. В заявленном способе передачи речевых файлов по зашумленному каналу для передачи преобразованного сигнала выбирают длину фрагмента , разбивают файл на непересекающиеся фрагменты длины , заменяют каждый элемент его модулем, разбивают элементы фрагмента на 4 кластера и находят центры этих кластеров, максимум и стандартное отклонение, рассчитывают коэффициенты регрессии. На основе полученных значений оценивают значения порогов , с использованием которых исходный сигнал преобразуют в ступенчатую форму, и передают в канал сигнал, преобразовав его в двоичный код. Для приема преобразованного сигнала осуществляют настройку системы: фрагмент файла длины и преобразуют в ступенчатую форму, заменяют каждый элемент его трехбитовым представлением, выбирают окно нечетной длины , которое движется вдоль фрагмента, получают набор коэффициентов линейной регрессии, передают эти коэффициенты без ошибок на пункт приема и используют их для восстановления отсчетов исходного файла. Устройство для реализации способа состоит из пункта передачи и пункта приема. Пункт передачи состоит из источника синхроимпульсов, источника отсчетов речевого файла, элемента “И”, регистра сдвига длины , двоичного N-разрядного счетчика по модулю , элемента ИЛИ-НЕ, вычислительного устройства с возможностью подсчета порогов для текущего фрагмента, комбинационной схемы с возможностью преобразования текущего сигнала в трехбитовый код на основе известных порогов и буфера канала передачи данных. Пункт приема состоит из источника синхроимпульсов, буфера канала, сдвигового регистра длиной вычислительного устройства с возможностью восстановления поврежденного сигнала, делителя частоты и выходного буфера. 2 н.п. ф-лы, 6 ил.

Формула изобретения RU 2 754 497 C1

1. Способ передачи речевых файлов по зашумленному каналу, заключающийся в том, что для передачи преобразованного сигнала

подсчитывают коэффициенты регрессии , для чего выбирают файл из списка, на основе которого будут получены коэффициенты,

отыскивают точные значения порогов ,

выбирают длину фрагмента и находят ,

разбивают файл на непересекающиеся фрагменты длины

0 to P do

| - заменяют каждый элемент его модулем,

|) - разбивают элементы фрагмента на 4 кластера и находят центры этих кластеров,

- находят максимум и стандартное отклонение,

EndFor

,[

,[

,[

End,

зная коэффициенты регрессии, а также максимальное значение и стандартное отклонение элементов фрагмента, оценивают значения порогов по формуле (2)

(2)

исходный сигнал преобразуется в ступенчатую форму согласно формуле (1)

, (1)

областью значений функции в формуле (1) является множество, состоящее из чисел , при передаче в канал эти числа превращаются в двоичное представление чисел соответственно путем прибавления числа 3, то есть для кодирования каждого числа требуется три бита;

далее для приема преобразованного сигнала

выбирают один из набора файлов, предназначенных для передачи по зашумленному каналу, и по этому файлу осуществляют настройку системы,

берут фрагмент длины из этого файла и берут результат преобразования согласно формуле (1) этого фрагмента , в котором каждый элемент принадлежит множеству

заменяют каждый элемент его трехбитовым представлением, получают последовательность

длиной

выбирают окно нечетной длины , которое движется вдоль фрагмента , при очередном положении этого окна элементы попадают внутрь окна,

сопоставляют последовательности элемент исходного фрагмента , где , отвечающий середине последовательности ;

далее преобразовывают последовательность в битовую форму,

в результате получают набор битовых последовательностей длины и отвечающих им сигналов из исходного файла, при этом допускается одновременное присутствие последовательностей и сигналов из нескольких фрагментов данного файла,

используя линейную регрессию, получают набор коэффициентов таких, что

(3)

эти коэффициенты без ошибок передают на пункт приема и используют для восстановления отсчетов исходного файла по формуле (3), сдвигая каждый раз битовый поток на три позиции.

2. Устройство передачи речевых файлов по зашумленному каналу для реализации способа по п.1, состоящее из двух составных частей – пункта передачи и пункта приема,

при этом пункт передачи состоит из:

источника синхроимпульсов Sync1;

источника отсчетов речевого файла Data1;

блока 1 – элемента “И” с входами “In1.1”, “In2.1” и выходом “Out1.1”;

блока 2 – регистра сдвига длины , с возможностью подбора значения N в момент проектирования, синхровходом “S2” с возможностью синхронизации по переднему фронту, входом “In1.2”, выходом “Out1.2” с первых разрядов и выходом “Out2.1” с последнего разряда регистра;

блока 3 – двоичного N-разрядного счетчика по модулю , с счетным входом “S3”, работающим по переднему фронту импульса, и выходом “Out1.3” со всех разрядов;

блока 4 – элемента ИЛИ-НЕ с N-разрядным входом “In1.4” и выходом “Out1.4”;

блока 5 – вычислительного устройства с N-разрядным входом “In1.5”, входами “In2.5“, “In3.5”, “Start5” и выходами “Out1.5”, “Out2.5”, с возможностью подсчета порогов для текущего фрагмента;

блока 6 – комбинационной схемы с входами “In1.6”, “In2.6” и выходом “Out1.6”, с возможностью реализации преобразования текущего сигнала в трехбитовый код на основе известных порогов;

блока 7 – буфера канала передачи данных с синхровходом “S7” по заднему фронту и входами “In1.7” и “Start7”,

при этом вход “In1.1” блока 1 и вход “In2.5” блока 5 соединены с источником синхроимпульсов Sync1;

выход “Out1.1” блока 1 соединен с синхровходами блоков 2,3 и 7;

вход “In1.2” блока 2 соединен с источником отсчетов речевого файла Data1, выход “Out1.2” блока 2 соединен с входом “In1.5” блока 5, а выход “Out2.5” блока 5 соединен с входом “In1.6” блока 6;

выход “Out1.3” блока 3 соединен с входом “In1.4” блока 4;

выход “Out1.4” блока 4 соединен с входами “Start5” блока 5 и “Start7” блока 7;

вход “In3.5” блока 5 осуществлен с возможностью поступления коэффициентов регрессии, вычисленных согласно п.1,

вход “In2.6” блока 6 осуществлен с возможностью поступления найденных порогов с выхода “Out1.5” блока 5,

вход “In2.1” блока 1 соединен с выходом “Out2.5” блока 5;

вход “In1.7” блока 7 осуществлен с возможностью поступления трехбитового кода с выхода “Out1.6” блока 6;

при этом пункт приема состоит из:

источника синхроимпульсов Sync2;

блока 8 – буфера канала с синхровходом “S8”, с возможностью работы по переднему фронту синхроимпульса, с выходом “Out1.8”,

блока 9 – сдвигового регистра длиной с возможностью выбора значения в процессе проектирования, с возможностью работы по переднему фронту синхроимпульса на входе “S9”, с входом “In1.9” и выходом “Out1.9” со всех разрядов регистра;

блока 10 – вычислительного устройства, с возможностью срабатывания по переднему фронту синхроимпульса на входе “S10” и восстановления поврежденного сигнала, с входами “In1.10” для загрузки коэффициентов регрессии Coef2, и “In2.10” для загрузки разрядов регистра и выходом “Out1.10”;

блока 11 – делителя частоты, состоящего из:

блока 11.1 – двухразрядного счетчика, считающего по переднему фронту импульса на входе “S11”, с выходами “Out1.11”, ”Out2.11” с разрядов счетчика и входом сброса Reset, при этом источник синхроимпульсов Sync2 соединен с счетным входом “S11” счетчика;

блока 11.2 – двухвходового элемента ИЛИ-НЕ, входы которого соединены с выходами “Out1.11.1”, ”Out2.11.1” счетчика 11.1, и выходом “Out1.11”, совпадающим с выходом делителя частоты 11;

блока 11.3 – двухвходового элемента И, входы которого соединены с выходами “Out1.11.1”, ”Out2.11.1” счетчика 11.1, а выход соединен с входом Reset счетчика 11.1;

блока 12 – выходного буфера, с возможностью срабатывания по переднему фронту синхроимпульса на входе “S12”, с входом “In1.12”,

при этом

источник синхроимпульсов Sync2 соединен с синхровходами блоков 8,9,11;

выход “Out1.8” блока 8 соединен с входом “In1.9” блока 9;

вход “In2.10” блока 10 осуществлен с возможностью поступления сигнала разрядности с выхода “Out1.9” блока 9,

вход “In1.12” блока 12 соединен с выходом “Out1.10” блока 10;

синхровходы блоков 10 и 12 соединены выходом “Out1.11” блока 11.

Документы, цитированные в отчете о поиске Патент 2021 года RU2754497C1

КОДИРОВАНИЕ РЕЧИ С ФУНКЦИЕЙ ИЗМЕНЕНИЯ КОМФОРТНОГО ШУМА ДЛЯ ПОВЫШЕНИЯ ТОЧНОСТИ ВОСПРОИЗВЕДЕНИЯ 1999
  • Экудден Эрик
  • Хаген Роар
  • Йоханссон Ингемар
RU2237296C2
СПОСОБ И УСТРОЙСТВО ДЛЯ КВАНТОВАНИЯ ИНФОРМАЦИОННОГО СИГНАЛА 2005
  • Шуллер Геральд
  • Вабник Штефан
  • Ширшфельд Йенс
  • Физель Вольфганг
RU2337413C2
СПОСОБ ВЫДЕЛЕНИЯ СЕГМЕНТОВ ОБРАБОТКИ РЕЧИ НА ОСНОВЕ АНАЛИЗА КОРРЕЛЯЦИОННЫХ ЗАВИСИМОСТЕЙ В РЕЧЕВОМ СИГНАЛЕ 2010
  • Афанасьев Андрей Алексеевич
  • Новиков Евгений Иванович
  • Трубицын Владимир Геннадьевич
  • Титов Олег Николаевич
RU2445718C1
СПОСОБ ОБРАБОТКИ РЕЧЕВОГО/ЗВУКОВОГО СИГНАЛА И УСТРОЙСТВО 2015
  • Лю Цзэсинь
  • Мяо Лэй
RU2651184C1
ДАВЫДОВ Г.В., КАВАН Д.М., ШАМГИН Ю.В
Оценка разборчивости речи в зашумленном помещении // Доклады Белорусского государственного университета информатики и радиоэлектроники, 2012, N 4 (66), сс
Прибор, замыкающий сигнальную цепь при повышении температуры 1918
  • Давыдов Р.И.
SU99A1
YONG XU, JUN DU, LI-RONG DAI, CHIN-HUI

RU 2 754 497 C1

Авторы

Латыпов Рустам Хафизович

Столов Евгений Львович

Даты

2021-09-02Публикация

2020-11-17Подача