Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием Российский патент 2021 года по МПК G10L15/20 G10L19/08 

Описание патента на изобретение RU2757860C1

Изобретение относится к области автоматической оценки качества речевых сигналов и может быть внедрено в системах контроля состояния цифровых телефонных радиолиний, использующих передачу сигналов с низкоскоростным кодированием речи (НСКР), при разработке вокодеров для оценки качества синтезируемых речевых сигналов, а также использовано на этапе анализа исходных данных при автоматическом распознавании речевых сообщений, передаваемых по цифровым линиям связи.

Заявленное техническое решение повышает эффективность средств аналогичного назначения при отсутствии исходного (сравниваемого) сигнала и исключении процедуры декодирования цифровых потоков, содержащих сообщения с НСКР.

Известен способ машинной оценки качества передачи речи (см. Патент РФ №2435232, МПК G10L 15/14, опубл. 27.11.2011, бюл. 33), в котором осуществляют загрузку звукового сигнала в оперативную память компьютера, выделяют в сигнале фрагменты активной и неактивной фаз, вычисляют спектры для каждой фазы, которые разделяют на критические полосы, рассчитывают значения спектральных параметров для каждой критической полосы как в спектральной, так и во временной областях, исключают из обработки фрагменты активной фазы, соответствующие тональному набору, до деления на критические полосы, осуществляют многоуровневую психоакустическую фильтрацию спектров, полученные параметры обрабатываемого сигнала сравнивают с ассоциациями, хранящимися в базе данных, и выбирают ассоциации, наиболее близкие по всем параметрам к обрабатываемому сигналу, а оценку качества речи определяют как сумму взвешенных значений степеней близости, получают значение машинной оценки качества речевого сигнала путем сравнения параметров обрабатываемого сигнала с параметрами моделей речи, хранящимися в базе ассоциаций.

Недостатком аналога является необходимость преобразования исследуемого сигнала в цифровой поток (ЦП) с импульсно-кодовой модуляцией (ИКМ). Данное преобразование для сигналов с низкоскоростным кодированием заключается в декомпрессия сжатого ЦП в приемной части вокодера, которое помимо существенных временных и вычислительных затрат неизбежно вызывает искажения в синтезируемом ЦП формата ИКМ, возрастающие при ухудшении качества канала радиосвязи. Другим недостатком аналога является конечное число ассоциаций (эталонных описаний), к одной из которых относят анализируемый сигнал, что предполагает сравнение образа входного сигнала со всеми эталонными описаниями. Недостаточное число эталонных описаний (например, не более трех эталонных описаний) не позволит оценивать качество речевого сигнала с требуемой точностью, а необоснованное увеличение их числа приведет к многократному увеличению вычислительных затрат.

Наиболее близким к заявленному является способ (прототип) распознавания новых протоколов низкоскоростного кодирования речи (см. Патент РФ №2667462, МПК: G06K9/00, Н04 В1/06, опубл. 19.09.2018, бюл. №26), заключающийся в том, что принимают цифровой информационный поток Y в течение интервала времени ΔT, на основе принятого потока Y формируют нормированную автокорреляционную функцию А, по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции А принимают решение о наличии блочной структуры в цифровом информационном потоке Y, по интервалам между экстремумами автокорреляционной функции А делят цифровой информационный поток Y на информационные блоки объемом Nб бит каждый, последовательно присваивают информационным блокам порядковые номера k=1,2,…, К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу YK×L, L=Nб, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, поочередно выделяют столбцы из матрицы YK×L с номерами по каждому столбцу информационной матрицы YK×L вычисляют значение математического ожидания появления определенных импульсов, формируют вектор вычисленных значений математического ожидания последовательным размещением полученных значений математического ожидания в соответствии с их порядковыми номерами на основе сформированного вектора значений математического ожидания m(0) путем последовательного циркулярного сдвига его значений на величину L - 1 формируют набор М векторов значений математического ожидания формируют эталонные векторы значений математического ожидания mj эт, j=1,2,…,J, по каждому цифровому информационному потоку Yj эт, соответствующему j-му известному протоколу НСКР, каждый вектор значений математического ожидания оцениваемого протокола НСКР последовательно сравнивают с эталонными векторами значений математического ожидания mj эт, j=1,2,…,J, вычисляют значение вероятности правильного распознавания j-го протокола НСКР по каждому вектору значений математического ожидания принимают решение в пользу j-го протокола НСКР, для которого обеспечивается максимальное значение вероятности правильного распознавания

Способ-прототип обеспечивает повышение точности и скорости распознавания протоколов НСКР в условиях воздействия помех. При этом о качестве речевых сигналов с низкоскоростным кодированием косвенно можно судить по величине вероятности правильного распознавания исследуемого ЦП у и соответствующего ему эталонного образа, при условии, что оба образа принадлежат к одному классу - известному j-му протоколу НСКР.

В качестве недостатка прототипа следует отметить отсутствие точного соответствия между используемой мерой отличия ЦП у от эталонного описания и какой-либо мерой качества речевого сигнала.

Целью заявленного технического решения является разработка способа автоматической оценки качества сигналов с низкоскоростным кодированием речи без преобразования исследуемого ЦП у с НСКР к формату ИКМ, обеспечивающего установление функциональной (аналитической) зависимости между значениями дивергенции и выбранных мер качества речевого сигнала.

Поставленная цель достигается тем, что в известном способе автоматической оценки качества речевых сигналов с низкоскоростным кодированием, заключающемся в том, что принимают бинарный информационный цифровой поток у объемом NЦП бит в течение интервала времени ΔT, формируют на основе у нормированную автокорреляционную функцию а, принимают решение о наличии блочной структуры в информационном потоке у по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции а, делят информационный ЦП у на информационные блоки объемом Nб бит каждый по интервалам между экстремумами автокорреляционной функции а, присваивают информационным блокам последовательно порядковые номера k=1,2,…,К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу Y размеров К × Z, Z=Nб, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, выделяют из матрицы Y столбцы yz, z=1,2,…,Z, определяют значения математического ожидания (МО) mz по каждому столбцу yz, формируют вектор значений МО последовательным размещением значений МО mz, формируют обучающую выборку {yjw}W, w=1,2,…,W, W - объем обучающей выборки, которая состоит из набора цифровых потоков yjw, сформированных по заданному j-му протоколу НСКР и соответствующих максимально возможной субъективной оценке еj mах качества речевого сигнала, формируют эталонный ЦП уjэт путем последовательной конкатенации цифровых потоков yjw из состава обучающей выборки, формируют прямоугольную эталонную информационную матрицу Yj эт, строками которой являются последовательно размещенные друг под другом ЦП уj эт, вычисляют по эталонной матрице Yj эт эталонный вектор значений МО mj эт, вектор МО m оцениваемого потока НСКР последовательно сравнивают с эталонными векторами МО mj эт, принимают решение о наиболее вероятной принадлежности оцениваемого потока НСКР, в случае принятия решения о использовании неизвестного протокола НСКР при формировании ЦП у оценку качества речевого сигнала прекращают, в противном случае на основе матрицы Y вычисляют ковариационную матрицу С, формируют образ информационного ЦП у в виде совокупности (m, С), вычисляют квадратную эталонную ковариационную матрицу Сj эт, формируют эталонный образ в виде совокупности (mj эт, Сj эт), искажают эталонный ЦП уj эт введением фиксированного числа ошибочных бит пропорционально значению вероятности битовой ошибки G - количество уровней вероятности битовых ошибок в пределах от минимального Рош(1) до максимального Pош(G) значений, формируют набор эталонных цифровых потоков, искаженных битовыми ошибками, по каждому ЦП аналогично составляют матрицу совокупность которых образует набор искаженных эталонных матриц, вычисляют соответствующие им векторы значений и ковариационные матрицы составляют образы (), искаженные битовыми ошибками, осуществляют последовательное сравнение эталонного образа (mj эт, Сj эт) и каждого из G образов ( ), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними, устанавливают соответствие между значениями дивергенции и значениями оценки качества речевого сигнала, полученными на основе экспериментального или экспериментально-аналитического подходов, приводят соответствие между полученными наборами и значений к непрерывной функциональной зависимости вида еj=ƒ(νj) методом интерполяции степенным многочленом, осуществляют сравнение образа (m, С) исследуемого информационного ЦП у с НСКР и эталонного образа (mj эт, Сj эт) путем вычисления значения дивергенции νj, получают значение оценки еj качества сигнала с НСКР путем вычисления степенного многочлена вида ej=ƒ(νj) подстановкой в него известного ранее вычисленного значения νj, при выполнении условия νjj (1) значение оценки качества сигнала с НСКР соответствует величине ej max максимальной оценки качества речевого сигнала, при выполнении условия νjj (G) значение оценки качества сигнала с НСКР соответствует величине еj min минимальной оценки качества речевого сигнала.

Благодаря новой совокупности существенных признаков в заявленном способе обеспечивается автоматическая оценка качества речевых сигналов с низкоскоростным кодированием за счет сравнения образа (m, С) входной реализации у и эталонного образа (mj эт, Сj эт) с помощью меры различия, которая представлена дивергенцией νj.

Заявленный способ поясняется чертежами, на которых показаны:

на фиг. 1 - порядок формирования эталонного ЦП уj эт;

на фиг. 2 - порядок формирования прямоугольной эталонной информационной матрицы Yj эт;

на фиг. 3 - алгоритм оценки качества речевых сигналов с низкоскоростным кодированием;

на фиг. 4 - зависимость значений eзj разборчивости звуков речи от вероятности битовой ошибки Рош в речевых сигналах с низкоскоростным кодирование, сформированных по j-му протоколу LPC-10-2400 (STANAG 4197);

на фиг. 5 - табличная форма представления соответствия (3);

на фиг. 6 - результаты формирования соответствия (3) для j-го протокола LPC-10-2400 (STANAG 4197) при G=8;

на фиг. 7 - графическая зависимость значений eзj разборчивости звуков речи от дивергенции νj между исследуемым и эталонным образами, соответствующих j-му протоколу LPC-10-2400 (STANAG 4197).

Качество речи - величина, характеризующая субъективную оценку звучания речи в испытуемом тракте по пятибалльной шкале в сравнении с эталонным трактом. Одним из важных показателей качества речи является ее разборчивость - относительное количество правильно принятых элементов речи (звуков, слогов, слов, фраз), выраженное в процентах от общего числа переданных элементов. Между различными показателями качества речи установлены функциональные взаимосвязи, что позволяет получать значения требуемых показателей, в том числе и субъективные оценки звучания речи.

Оценку качества речевых сигналов осуществляют при анализе свойств речевого сигнала и его источника, а также для определения эффективности системы передачи речевых сообщений в целом или свойств отдельных ее элементов, в том числе средств НСКР (см. ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - М.: Госстандарт России, 1997. - 24 с. ). Субъективные методы оценки качества речи требуют участия групп подготовленных экспертов, автоматизация в них касается процессов ввода и статистической обработки результатов артикуляционного тестирования. Объективные методы оценки качества основаны на анализе каких-либо параметров и характеристик исследуемого процесса, что позволяет полностью автоматизировать процесс оценки качества речевых сигналов. В известных методах автоматической оценки качества речи предполагается определение параметров речевого сигнала, представляемого в формате ИКМ, и выбор (с некоторой точностью) соответствующих им значений оценок качества речи. В этом случае на этапе обучения осуществляется построение психофизической шкалы и ее математическое или графическое описание, которое далее используется на этапе исследования принимаемых речевых сигналов (см. Михайлов В.Г., Златоустова Л.В. Измерение параметров речи / Под ред. М.А. Сапожкова. - М.: Радио и связь, 1987. - 168 с.; Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. О.И. Шелухина. - М.: Радио и связь, 2000. - 456 с.).

При исследовании качества речевых сигналов, передаваемых через системы радиосвязи диапазонов ВЧ/ОВЧ с использованием НСКР, рассматривают предположение о нормальных акустических условиях при формировании речевого сигнала по ГОСТ 7153 (см. ГОСТ Р 51061-97 Системы низкоскоростной передачи речи по цифровым каналам. Параметры качества речи и методы измерений. - М.: Госстандарт России, 1997. - 24 с.). При этом основное внимание уделяется исследованию качества сигналов, формируемых на выходе декодера. Результаты исследований представляют в виде зависимости значений ОКРС от вероятности битовой ошибки Рош в ЦП, переданном через канал связи.

Таким образом, автоматическая оценка качества речевых сигналов с низкоскоростным кодированием, передаваемых с помощью средств радиосвязи, обеспечивает снижение вычислительных затрат, что определяет необходимость решения этой технической задачи.

Положительный эффект в предлагаемом способе достигается за счет сравнения образа (m, С) входного ЦП у с НСКР, который сформирован в соответствии с известным j-м протоколом, и единственного эталонного образа (mjэт, Сj эт) j-го класса, полученного на основе обучающей выборки с максимальным значением оценки качества речевого сигнала еj mах, при использовании меры различия между ними, в качестве которой выступает дивергенция.

На основе функциональной зависимости еj=ƒ(νj), формируемой на этапе обучения и описываемой аналитически степенным многочленом, при известном значении дивергенции νj между образом (m, С) исследуемого ЦП у с НСКР и одним эталонным образом (mj эт, Сj эт) j-го класса, обеспечивается вычисление значения оценки качества исследуемого ЦП у с НСКР, сформированного по j-му протоколу, без преобразования к формату ИКМ.

Реализация заявленного способа может быть осуществлена следующим образом (см. фиг. 3). До этапа ввода исходных данных целесообразно определить значения параметров ΔT, Nm информационного ЦП у, установить длительность интервала его анализа, определяемую величиной К - числом строк в прямоугольной информационной матрице Y, а также набор значений {Nб}, определить значение J, выбрать значение G и сформировать соответствующее количество обучающих выборок (yjw}W.

Далее на подготовительном этапе (в режиме «Обучение») по обучающим выборкам {yjw} (j=1, 2,…,J) формируют эталонные цифровые потоки {Уjэт}J путем последовательной конкатенации цифровых потоков {yJw}J (см. фиг. 1). Последние реализуются по j-м протоколам НСКР и имеют максимальное значение ej mах оценки качества речевого сигнала. Далее составляют эталонные матрицы {Yjэт}J и соответствующие им эталонные описания J известных протоколов НСКР вида (mj эт, Сj эт) (см. фиг. 2).

Устанавливают пределы изменения значений от минимального значения Рош(1), которое соответствует минимально ощутимому снижению качества речевого сообщения, до максимального значения Pош(G), при котором уже невозможно восстановление речевого сообщения. Количество G уровней (значений) вероятности битовых ошибок определяет точность построения психофизической шкалы и, как следствие, точность оценки качества речевых сигналов с НСКР. Вместе с тем, при использовании экспериментального или экспериментально-аналитического подходов к оценке качества речевых сигналов необходимо выбрать достаточное количество 6≤G≤10 уровней вероятности битовых ошибок, например, на основе метода равномерного приближения. Последний обеспечивает минимизацию наибольшего значения абсолютной ошибки интерполяции (см. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров: Пер. с англ. - М.: Наука, 1970. - 720 с.).

В соответствии со значениями вероятности битовой ошибки в эталонный ЦП уj эт вводят фиксированное количество nош битовых ошибок, определяемое выражением

где Nэ - количество символов (бит) в эталонном ЦП уj эт.

Формируют G цифровых потоков с объемом Nэ каждый, в которых ошибочные символы принимают значение «1», а остальные символы имеют значение «0». Распределение ошибочных символов в - равновероятное. Формируют G цифровых потоков , искаженных битовыми ошибками, путем поэлементного сложения эталонного ЦП уj эт по модулю 2 с каждым из G цифровых потоков :

где ⊕ - операция сложения по модулю 2.

На основе цифровых потоков , искаженных битовыми ошибками, формируют набор искаженных эталонных матриц . Далее вычисляют соответствующие им векторы значений МО и ковариационные матрицы (см. Аладинский В.А., Кузьминский С.В. Метод формирования признаков распознавания протоколов низкоскоростного кодирования речи // Наукоемкие технологии. - М.: Радиотехника. №12, 2015. - С. 20-25; Патент РФ №2667462, МПК G10L 19/008, Н03М 13/03, опубл. 19.09.2018, бюл. 26). На их основе составляют информационные образы ( ), искаженные битовыми ошибками. После этого осуществляют последовательное сравнение эталонного образа (mjэт, Сjэт) и образов ( ), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними:

где , - значения следов матриц Аj, Bj размерности N; ann(j), bnn(j) - соответствующие элементы диагоналей матриц Aj, Вj;

(⋅)T - операция транспонирования.

На основе экспериментального (прямого) или экспериментально-аналитического (косвенного) подходов устанавливают соответствие между значениями оценки качества речи и значениями дивергенции :

Экспериментальный подход при формировании соответствия (4) заключается в разделении каждой матрицы на элементы декодировании цифровых потоков с помощью синтезатора приемной части вокодера к формату ИКМ и оценке качества этих речевых сигналов, подвергнутых искажению в канале связи. Оценку осуществляют на основе какого-либо известного субъективного либо объективного методов, например, PESQ (см. Recommendation ITU-T P.862. Perceptual Evaluation of Speech Quality. Geneva, 2001.-30 p.).

Экспериментально-аналитический (косвенный) подход реализуется при наличии априорных сведений о функциональной зависимости еjj(Pош) значений оценки качества речевых сигналов, синтезируемых в приемной части вокодера в соответствии с j-м протоколом НСКР, которые приведены в стандартах (см. Recommendation ITU-R F.1112-1. Digitized speech transmissions for systems operating below about 30 MHz. - Radiocommunication Study Group 8, Question ITU-R 164/9. 1995 - 15 p.) или представлены разработчиками (см. Бабкин В.В. Защита от ошибок и интерполяция потерь пакетов в низкоскоростных речевых кодеках // Электросвязь, №11, 2009. - С.47-49.) от вероятности битовой ошибки Рош. Зависимость еj=fj(Pош) может быть представлена в графической или аналитической формах, что позволяет получить G значений оценки качества речи при известных величинах Далее осуществляют интерполяцию полученного в (4) соответствия из G сопоставленных друг другу значений дивергенции и оценок качества речи с помощью многочлена наименьшей степени. В результате получают (одним из известных способов) интерполяционную формулу степени не более (G-1) вида:

где a0j - свободный член; - коэффициент степенного многочлена для j-го протокола НСКР.

Регистрируют полученные результаты и выводят сообщение «Обучение завершено».

В режиме «Оценка качества речевых сигналов» рассматривают матрицу Y (подход распространяется и на подобные ей матрицы Yj эт, ) как систему случайных величин (СВ). Текущий символ уkz (i), i=1,2,…, I - порядковый номер элемента (символа) алфавита случайной величины объемом I, которой является дискретной случайной величиной с объемом алфавита I=2 и принимает значение 1 при i=1 или 0 при i=2.

Определяют численные характеристики системы СВ Y={y1, y2, …, yn, …, yz, …, yZ), где yz={ylz,y2z,…,ykn,…,ykz,…,yKz) - столбец исследуемой матрицы Y, которыми являются значения МО m и ковариационная матрица С.

Вычисляют значение МО mz столбца yz, состоящего из К двоичных символов ykz, по следующей формуле (см. Вентцель Е.С., Овчаров Л.А. Теория вероятностей и ее инженерные приложения. - М.: Наука, 1988. - 480 с. - ISBN 5-02-013748-0):

где pz(i) - вероятность появления i-го значения ykz(i) в столбце yz.

Так как уkz(2)=0, то mz=1⋅pz(1)+0⋅pz(2)=pz(1). Вычисляют вероятность pz(1) появления значения 1 в yz по формуле:

где Sz(1) - количество символов ykz со значением 1 в yz.

Вычисляют последовательно значения МО по столбцам yz матрицы Y, формируют набор

Определяют ковариационную матрицу С размерности Z, которая включает значения коэффициента ковариации

где М[⋅] - математическая операция вычисления МО; - столбцы (векторы), содержащие центрированные СВ:

n, z - порядковые номера столбцов уn и yz СВ Y;

mn, mz - столбцы (векторы) размерности К, содержащие только значения mn, mz соответственно.

Составляют образ входного информационного ЦП у с НСКР, описываемого набором (m, С).

Проверяют гипотезы о том, что входной информационный ЦП у сформирован по одному из J заданных (известных) протоколов НСКР. При подтверждении одной из гипотез считают, что при формировании ЦП у применен j-й протокол НСКР, в противном случае выводят сообщение «Протокол НСКР: не установлен, оценка качества: нет» и прекращают оценку качества речевого сигнала.

Вычисляют по формуле (3) значения дивергенции νj между образом ЦП у, представленным набором (m, С), и эталонным образом (mj эт, Сj эт).

Считают, что при выполнении условия νjj (1) значение оценки качества сигнала с НСКР соответствует максимальной оценке качества речевого сигнала еj mах. В противном случае, при выполнении условия νjj (G), значение оценки качества сигнала с НСКР соответствует минимальной величине ej min. При невыполнении рассмотренных условий рассчитывают по найденному значению дивергенции νj согласно (5) значение еj оценки качества.

Выводят сообщение «Протокол НСКР: j-й, оценка качества: еj». После этого завершают оценку качества сигнала с низкоскоростным кодированием.

Имитационное моделирование заявленного способа автоматической оценки качества речевых сигналов с низкоскоростным кодированием проведено на примере исследования сигналов, сформированных на основе известного протокола НСКР LPC-10-2400 (STANAG 4197), который широко применяется на линиях радиосвязи диапазона высоких частот. По имеющейся обучающей выборке {yjw}W был сформирован эталонный ЦП уjэт, составлена эталонная матрица yjэт и соответствующее эталонное описание вида (mjэт, Сjэт)

В настоящее время известны данные о зависимости значений eзj разборчивости звуков речи от вероятности битовой ошибки Рош в речевых сигналах с низкоскоростным кодированием (см. Recommendation ITU-R F.1112-1. Digitized speech transmissions for systems operating below about 30 MHz. - Radiocommunication Study Group 8, Question ITU-R 164/9. 1995 - 15 p.), сформированных по протоколу LPC-10-2400 (STANAG 4197). Последние приведены в графической форме (см. фиг. 4). В режиме «Обучение» был реализован экспериментально-аналитический (косвенный) подход для G=8, в результате чего получены значения в процентах оценки качества речи при выбранных величинах (см. фиг. 4).

Для формирования соответствия вида (4) из эталонного ЦП уj эт на основе выражений (1) и (2) и G=8 сформированы цифровые потоки искаженные битовыми ошибками, и соответствующие им матрицы На основе матриц составлены искаженные образы ( ) и реализовано вычисление (выражение 3) соответствующих значений дивергенции между эталонным и искаженными образами.

Выполнена интерполяция полученного соответствия (4), представленного строками 2 и 3 (см. фиг. 4). В результате расчетов получена интерполяционная формула вида

в которой члены со степенями >3 не приведены ввиду малости величин Последнее косвенно указывает на избыточность выбранного значения G=8. В графической форме зависимость вида (11) приведена на фиг. 7. Представленная интерполяционная формула позволяет оценивать качество речевых сигналов с низкоскоростным кодированием по протоколу LPC-10-2400 (STANAG 4197) с точностью не хуже 5%, что было установлено при исследовании цифровых потоков, сформированных по протоколу LPC-10-2400 (STANAG 4197), с известными значениями eзj качества речевых сигналов.

Похожие патенты RU2757860C1

название год авторы номер документа
Способ распознавания новых протоколов низкоскоростного кодирования 2020
  • Аладинский Виктор Алексеевич
  • Гатилов Игорь Леонидович
  • Кузьминский Сергей Владиславович
  • Смирнов Павел Леонидович
  • Чубатый Дмитрий Николаевич
RU2748935C1
Способ распознавания протоколов низкоскоростного кодирования речи 2017
  • Аладинский Виктор Алексеевич
  • Вещунин Евгений Андреевич
  • Кузьминский Сергей Владиславович
  • Смирнов Павел Леонидович
RU2667462C1
Способ распознавания протоколов низкоскоростного кодирования 2016
  • Аладинский Виктор Алексеевич
  • Кузьминский Сергей Владиславович
  • Смирнов Павел Леонидович
  • Чубатый Дмитрий Николаевич
RU2610285C1
Способ транскрибирования речи по цифровым сигналам с низкоскоростным кодированием 2023
  • Аладинский Виктор Алексеевич
  • Кузьминский Сергей Владиславович
  • Павлов Андрей Петрович
  • Смирнов Павел Леонидович
RU2801621C1
Способ селекции цифровых потоков 2018
  • Аладинский Виктор Алексеевич
  • Кузьминский Сергей Владиславович
  • Лебедев Валерий Дмитриевич
  • Смирнов Павел Леонидович
RU2701465C1
СПОСОБ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ ЧЕЛОВЕКА С ИСПОЛЬЗОВАНИЕМ АКУСТИЧЕСКИХ СИГНАЛОВ, СНИМАЕМЫХ С ТЕЛА ЧЕЛОВЕКА 2003
  • Бочкарев С.Л.
  • Андрианов В.В.
  • Бочкарев И.В.
RU2263358C2
СПОСОБ ВЕКТОРНОГО КВАНТОВАНИЯ ПАРАМЕТРОВ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ 2009
  • Иванов Владимир Алексеевич
  • Саитов Игорь Акрамович
  • Басов Олег Олегович
  • Суботенко Александр Владимирович
  • Басов Владимир Олегович
RU2408088C2
УСТРОЙСТВО ОПРЕДЕЛЕНИЯ ВЫСОКОТОЧНОГО ОТНОСИТЕЛЬНОГО МЕСТОПОЛОЖЕНИЯ ДВИЖУЩЕГОСЯ ОБЪЕКТА ПО СИГНАЛАМ СПУТНИКОВЫХ РАДИОНАВИГАЦИОННЫХ СИСТЕМ 1998
  • Фридман А.Е.
RU2143123C1
СПОСОБ ОПРЕДЕЛЕНИЯ ДЛИНЫ КАДРА ПЕРЕДАЧИ КОДЕКОВ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ В СЕТЯХ С ПАКЕТНОЙ КОММУТАЦИЕЙ НА ОСНОВЕ IP-ПРОТОКОЛА 2010
  • Афанасьев Андрей Алексеевич
  • Титов Олег Николаевич
RU2459373C1
Способ и устройство высокоэффективного сжатия мультимедийной информации большого объема по критериям ее ценности для запоминания в системах хранения данных 2016
  • Свириденко Владимир Александрович
RU2654126C2

Иллюстрации к изобретению RU 2 757 860 C1

Реферат патента 2021 года Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием

Изобретение относится к вычислительной технике для обработки аудиоданных. Технический результат заключается в обеспечении автоматической оценки качества сигналов НСКР без преобразования исследуемого цифрового потока (ЦП) к формату импульсно-кодовой модуляции (ИКМ), обеспечивающего установление функциональной (аналитической) зависимости между значениями дивергенции и выбранных мер качества речевого сигнала. Технический результат достигается за счет сравнения образа (m, С) входного ЦП у с НСКР, который сформирован в соответствии с известным j-м протоколом, и единственного эталонного образа (mj эт, Сj эт) j-го класса, j=1,2,…,J, полученного на основе обучающей выборки с максимальным значением оценки качества речевого сигнала ejmах. В качестве меры различения между ними использована дивергенция νj. Здесь m, mj эт - векторы математического ожидания анализируемого ЦП и j-го эталонного образа соответственно, С, Cj эт - ковариационные матрицы анализируемого ЦП и j-го эталонного образа. На основе функциональной зависимости еj=ƒ(νj), формируемой на этапе обучения и описываемой аналитически степенным многочленом, при известном значении дивергенции vj между образом (m, С) и одним эталонным образом (mj эт, Сj эт) j-го класса обеспечивается вычисление значения оценки качества исследуемого ЦП у с НСКР, сформированного по j-му протоколу, без преобразования к формату ИКМ. 7 ил.

Формула изобретения RU 2 757 860 C1

Способ автоматической оценки качества речевых сигналов с низкоскоростным кодированием, заключающийся в том, что принимают бинарный информационный цифровой поток (ЦП) у объемом Nцп бит в течение интервала времени ΔT, формируют на основе у нормированную автокорреляционную функцию а, принимают решение о наличии блочной структуры в информационном потоке у по регулярным с равными интервалами Δτ экстремумам автокорреляционной функции а, делят информационный ЦП у на информационные блоки объемом Nб бит каждый по интервалам между экстремумами автокорреляционной функции а, присваивают информационным блокам последовательно порядковые номера k=1,2,…,К, начиная с первого информационного блока, формируют прямоугольную информационную матрицу Y размеров К × Z, Z=Nб, строками которой являются последовательно размещенные друг под другом информационные блоки в соответствии с их порядковыми номерами k=1,2,…, К, выделяют из матрицы Y столбцы yz, z=1,2,…, Z, определяют значения математического ожидания (МО) mz по каждому столбцу yz, формируют вектор значений МО m=(m1,m2,…,mz,…,mz) последовательным размещением значений МО mz, формируют обучающую выборку {yjw}W, w=1,2,…,W, W - объем обучающей выборки, которая состоит из набора цифровых потоков yjw, сформированных по заданному j-му протоколу НСКР и соответствующих максимально возможной субъективной оценке еjmах качества речевого сигнала, формируют эталонный ЦП уj эт путем последовательной конкатенации цифровых потоков yjw из состава обучающей выборки, формируют прямоугольную эталонную информационную матрицу Yjэт, строками которой являются последовательно размещенные друг под другом ЦП уjэт, вычисляют по эталонной матрице Yjэт эталонный вектор значений МО mjэт, вектор МО m оцениваемого потока низкоскоростного кодирования речи (НСКР) последовательно сравнивают с эталонными векторами МО mjэт, принимают решение о наиболее вероятной принадлежности оцениваемого потока НСКР, отличающийся тем, что в случае принятия решения об использовании неизвестного протокола НСКР при формировании ЦП у оценку качества речевого сигнала прекращают, в противном случае дополнительно на основе матрицы Y вычисляют ковариационную матрицу С, формируют образ информационного ЦП у в виде совокупности (m, С), вычисляют квадратную эталонную ковариационную матрицу Сjэт, формируют эталонный образ в виде совокупности (mj эт, Сj эт), искажают эталонный ЦП уjэт введением фиксированного числа ошибочных бит пропорционально значению вероятности битовой ошибки G - количество уровней вероятности битовых ошибок в пределах от минимального Рош(1) до максимального Рош(G) значений; формируют набор эталонных цифровых потоков, искаженных битовыми ошибками, по каждому ЦП аналогично составляют матрицу совокупность которых образует набор искаженных эталонных матриц, вычисляют соответствующие им векторы значений и ковариационные матрицы составляют образы (), искаженные битовыми ошибками, осуществляют последовательное сравнение эталонного образа (mj эт, Сj эт) и каждого из G образов (), искаженных битовыми ошибками, путем вычисления значения дивергенции между ними, устанавливают соответствие между значениями дивергенции и значениями оценки качества речевого сигнала, полученными на основе экспериментального или экспериментально-аналитического подходов, приводят соответствие между полученными наборами и значений к непрерывной функциональной зависимости вида еj=ƒ(νj) методом интерполяции степенным многочленом, осуществляют сравнение образа (m, С) исследуемого информационного ЦП у с НСКР и эталонного образа (mj эт, Сj эт) путем вычисления значения дивергенции νj, получают значение оценки еj качества сигнала с НСКР путем вычисления степенного многочлена вида еj=ƒ(νj) подстановкой в него известного ранее вычисленного значения νj, при выполнении условия νjj (1) значение оценки качества сигнала с НСКР соответствует величине ejmax максимальной оценки качества речевого сигнала, при выполнении условия νjj(G) значение оценки качества сигнала с НСКР соответствует величине ej min минимальной оценки качества речевого сигнала.

Документы, цитированные в отчете о поиске Патент 2021 года RU2757860C1

Способ распознавания протоколов низкоскоростного кодирования речи 2017
  • Аладинский Виктор Алексеевич
  • Вещунин Евгений Андреевич
  • Кузьминский Сергей Владиславович
  • Смирнов Павел Леонидович
RU2667462C1
СПОСОБ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД УПРАВЛЕНИЯ 2003
  • Тампель Иван Борисович
  • Татарникова Марина Юрьевна
RU2271578C2
Способ восстановления спиралей из вольфрамовой проволоки для электрических ламп накаливания, наполненных газом 1924
  • Вейнрейх А.С.
  • Гладков К.К.
SU2020A1
Способ получения цианистых соединений 1924
  • Климов Б.К.
SU2018A1
Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем 1924
  • Волынский С.В.
SU2012A1

RU 2 757 860 C1

Авторы

Аладинский Виктор Алексеевич

Кузьминский Сергей Владиславович

Смирнов Павел Леонидович

Даты

2021-10-21Публикация

2021-04-09Подача