СПОСОБ ОЦЕНКИ ШУМА В АУДИОСИГНАЛЕ, СРЕДСТВО ОЦЕНКИ ШУМА, АУДИОКОДЕР, АУДИОДЕКОДЕР И СИСТЕМА ДЛЯ ПЕРЕДАЧИ АУДИОСИГНАЛОВ Российский патент 2018 года по МПК G10L25/03 G10L19/00 G10L21/02 

Описание патента на изобретение RU2666474C2

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Изобретение относится к области обработки аудиосигналов, в частности, относится к подходу к оценке шума в аудиосигнале, например, в аудиосигнале, подлежащем кодированию, или в аудиосигнале, который был декодирован. В вариантах осуществления изобретения описаны способ оценки шума в аудиосигнале, средство оценки шума, аудиокодер, аудиодекодер и система для передачи аудиосигналов.

УРОВЕНЬ ТЕХНИКИ

В области обработки аудиосигналов, например, для кодирования аудиосигналов или для обработки декодированных аудиосигналов возникают ситуации, когда требуется оценить шум. Например, в PCT/EP2012/077525 и PCT/EP2012/077527, включенных в настоящий документ путем ссылки, описано использование средства оценки шума, например, средства оценки шума на основе статистики минимумов для оценки спектра фонового шума в частотной области. Сигнал, который подают в алгоритм, уже преобразован на поблочной основе в частотную область, например, с использованием быстрого преобразования Фурье (FFT) или любого другого подходящего банка фильтров. Кадрирование обычно идентично кадрированию кодека, то есть, можно повторно использовать преобразования, уже существующие в кодеке, например, в кодере EVS (усовершенствованные услуги телефонии), в котором преобразование FFT используют для предварительной обработки. В целях оценки шума вычисляют спектр мощности для FFT. Этот спектр группируют в полосы на основании психоакустических характеристик, и в полосе накапливают элементы дискретизации спектра мощности для формирования значения энергии для каждой полосы. В конце концов, с помощью этого подхода получают набор значений энергии, который также часто используют для психоакустической обработки аудиосигнала. Для каждой полосы имеется свой собственный алгоритм оценки шума, то есть, в каждом кадре значение энергии данного кадра обрабатывают с использованием алгоритма оценки шума, который анализирует изменение сигнала во времени и выдает оценку уровня шума для каждой полосы в любом данном кадре.

Выборочное разрешение, используемое для высококачественных речевых и аудиосигналов, может составлять 16 бит, то есть, такой сигнал имеет отношение сигнал-шум (SNR), равное 96 дБ. Вычисление спектра мощности представляет собой преобразование сигнала в частотную область и вычисление квадрата каждого элемента дискретизации по частоте. Из-за использования квадратичной функции требуется иметь динамический диапазон, равный 32 бита. Суммирование нескольких элементов дискретизации спектра мощности по частоте в полосы потребует дополнительный запас по динамическому диапазону, поскольку распределение энергии в полосе в действительности неизвестно. В результате, для функционирования средства оценки шума в процессоре потребуется динамический диапазон, превышающий 32 бита, как правило, около 40 бит.

В устройствах, обрабатывающих аудиосигналы, которые функционируют, потребляя энергию, полученную от блока накопления энергии типа батареи, например, в портативных устройствах типа мобильных телефонов, с точки зрения срока службы батареи очень важно обеспечить энергосберегающую обработку аудиосигналов. Согласно известным подходам такая обработка аудиосигналов выполняется процессорами с фиксированной точкой, которые, как правило, поддерживают обработку данных в формате 16 или 32 бита с фиксированной точкой. Минимальная сложность обработки достигается при использовании обработки 16-битных данных, в то время как для обработки 32-битных данных уже потребуются некоторые дополнительные ресурсы. Для обработки данных с динамическим диапазоном 40 бит потребуется расщепление данных на две части, а именно, мантиссу и порядок, с каждой из которых необходимо иметь дело при модификации данных, что, в свою очередь, приводит как к увеличению сложности вычислений, так и повышению расхода памяти.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

Исходя из уровня техники, описанного выше, задача настоящего изобретения состоит в создании подхода к эффективной оценке шума в аудиосигнале с использованием процессора с фиксированной точкой во избежание ненужного использования дополнительных вычислительных ресурсов.

Данная задача решается объектом изобретения, определенным в независимых пунктах формулы изобретения.

Настоящее изобретение обеспечивает способ оценки шума в аудиосигнале, причем способ содержит этапы, на которых определяют значения энергии для аудиосигнала, преобразуют значение энергии в логарифмическую область и оценивают уровень шума для аудиосигнала на основании преобразованного значения энергии.

Настоящее изобретение обеспечивает средство оценки шума, содержащее детектор, выполненный с возможностью определения значения энергии для аудиосигнала, преобразователь, выполненный с возможностью преобразования значения энергии в логарифмическую область, и средство оценки, выполненное с возможностью оценки уровня шума для аудиосигнала на основании преобразованного значения энергии.

Настоящее изобретение обеспечивает средство оценки шума, выполненное с возможностью функционирования согласно предложенному в изобретении способу.

Согласно вариантам осуществления изобретения, логарифмическая область содержит логарифмическую область по основанию 2.

Согласно вариантам осуществления, оценка уровня шума содержит выполнение заданного алгоритма оценки шума на основании преобразованного значения энергии непосредственно в логарифмической области. Оценку шума можно выполнить, используя алгоритм на основе статистики минимумов, описанный в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001. В других вариантах осуществления могут быть использованы альтернативные алгоритмы оценки шума типа средства оценки шума на основе MMSE, описанного в работе T. Gerkmann и R. C. Hendriks, ʺUnbiased MMSE-based noise power estimation with low complexity and low tracking delayʺ, 2012, или алгоритм, описанный в работе L. Lin, W. Holmes, и E. Ambikairajah, ʺAdaptive noise estimation algorithm for speech enhancementʺ, 2003.

Согласно вариантам осуществления определение значения энергии содержит получение спектра мощности аудиосигнала посредством преобразования аудиосигнала в частотную область, группирование спектра мощности в полосы на основании психоакустических характеристик и накопление элементов дискретизации спектра мощности в полосе для формирования значения энергии для каждой полосы, причем значение энергии для каждой полосы преобразуют в логарифмическую область, и при этом уровень шума оценивают для каждой полосы на основании соответствующего преобразованного значения энергии.

Согласно вариантам осуществления аудиосигнал содержит множество кадров, причем значение энергии для каждого кадра определяют и преобразуют в логарифмическую область, и для каждой полосы оценивают уровень шума на основании преобразованного значения энергии.

Согласно вариантам осуществления, значение энергии преобразуют в логарифмическую область следующим образом:

где - минимальное (x),

- значение энергии полосы n в логарифмической области по основанию 2,

- значение энергии полосы n в линейной области,

- разрешение/точность.

Согласно вариантам осуществления оценка уровня шума на основании преобразованного значения энергии обеспечивает логарифмические данные, причем способ дополнительно содержит использование этих логарифмических данных непосредственно для дополнительной обработки или преобразование этих логарифмических данных обратно в линейную область для дополнительной обработки.

Согласно вариантам осуществления логарифмические данные преобразуют непосредственно в данные передачи в случае выполнения передачи в логарифмической области, и при преобразовании логарифмических данных непосредственно в данные передачи используют функцию сдвига вместе со справочной таблицей или аппроксимацию, например, .

Настоящее изобретение обеспечивает постоянный компьютерный программный продукт, содержащий машиночитаемый носитель, на котором хранятся команды, которые при их выполнении компьютером осуществляют способ согласно изобретению.

Настоящее изобретение также обеспечивает аудиокодер, содержащий средство оценки шума согласно изобретению.

Настоящее изобретение также обеспечивает аудиодекодер, содержащий средство оценки шума согласно изобретению.

Настоящее изобретение обеспечивает систему для передачи аудиосигналов, причем эта система содержит аудиокодер, выполненный с возможностью создания кодированного аудиосигнала на основании полученного аудиосигнала, и аудиодекодер, выполненный с возможностью приема кодированного аудиосигнала, для декодирования кодированного аудиосигнала и вывода, декодированного аудиосигнала, причем по меньшей мере одно из аудиокодера или аудиодекодера содержит средство оценки шума согласно изобретению.

Настоящее изобретение основано на выводах авторов изобретения о том, что в отличие от стандартных подходов, в которых алгоритм оценки шума выполняется на линейных данных энергии, в целях оценки уровней шумов в аудио/речевом материале можно выполнять алгоритм также и на основании логарифмических входных данных. Для оценки шума требование к точности данных не очень высоко, например, при использовании оценки значений для формирования комфортного шума (как описано в PCT/EP2012/077525 или PCT/EP2012/077527, которые включены в настоящий документ путем ссылки) было обнаружено, что достаточно получить грубую оценку уровня шума для каждой полосы, то есть независимо от того, превышает ли оценка уровня шума, например, 0,1 дБ, он не будет значительно ощущаться в конечном сигнале. Таким образом, хотя возможно потребуется 40 бит для покрытия динамического диапазона данных, точность данных для сигналов со средним/высоким уровнем в стандартных подходах гораздо выше, чем это реально необходимо. На основании этих новых результатов согласно вариантам осуществления ключевым элементом изобретения является преобразование значения энергии для каждой полосы в логарифмическую область (предпочтительно в логарифмическую область по основанию 2) и выполнение оценки шума, например, на основе алгоритма статистики минимумов или любого другого подходящего алгоритма непосредственно в логарифмической области, что позволяет представлять значения энергии в 16-битном формате, а это, в свою очередь, позволяет обеспечить более эффективную обработку, например, используя процессор с фиксированной точкой.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Ниже описаны варианты осуществления настоящего изобретения с обращением к сопровождающим чертежам, на которых:

Фиг. 1 - упрощенная блок-схема системы для передачи аудиосигналов, в которой реализуется подход согласно изобретению к оценке шума в аудиосигнале, подлежащем кодированию, или в декодированном аудиосигнале;

Фиг. 2 - упрощенная блок-схема средства оценки шума согласно варианту осуществления, который можно использовать в кодере аудиосигнала и/или декодере аудиосигнала; и

Фиг. 3 - блок-схема, иллюстрирующая подход к оценке шума в аудиосигнале согласно изобретению в соответствии с вариантом осуществления изобретения.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Ниже подробно описаны варианты осуществления подхода согласно изобретению, причем следует заметить, что элементы на сопровождающих чертежах, имеющие одинаковые или близкие функциональные возможности, обозначены одинаковыми ссылочными позициями.

На фиг. 1 представлена упрощенная блок-схема системы для передачи аудиосигналов, которая реализует подход согласно изобретению на стороне кодера и/или на стороне декодера. Система по фиг. 1 содержит кодер 100, принимающий на входе 102 аудиосигнал 104. Кодер включает в себя кодирующий процессор 106, получающий аудиосигнал 104 и создающий кодированный аудиосигнал, который обеспечивается на выходе 108 кодера. Кодирующий процессор может быть запрограммирован или построен для обработки последовательных аудиокадров аудиосигнала и для реализации подхода к оценке шума в аудиосигнале 104, подлежащем кодированию, согласно изобретению. В других вариантах осуществления кодер не обязательно является частью системы передачи; то есть он может представлять собой автономное устройство, формирующее кодированные аудиосигналы, или он может быть частью передатчика аудиосигнала. Согласно одному варианту осуществления кодер 100 может содержать антенну 110, позволяющую осуществлять беспроводную передачу аудиосигнала, как показано ссылочной позицией 112. В других вариантах осуществления кодер 100 может выводить кодированный аудиосигнал, обеспечиваемый на выходе 108, используя проводную соединительную линию, как показано, например, под ссылочной позицией 114.

Система по фиг. 1, кроме того, содержит декодер 15, имеющий вход 152, принимающий кодированный аудиосигнал, подлежащий обработке декодером 150, например, через проводную линию 114 или через антенну 154. Декодер 150 содержит декодирующий процессор 156, работающий с кодированным сигналом и обеспечивающий декодированный аудиосигнал 158 на выходе 160. Декодирующий процессор может быть запрограммирован или построен для обработки, предназначенной для реализации подхода согласно изобретению к оценке шума в декодированном аудиосигнале 104. В других вариантах осуществления декодер не обязательно должен быть частью системы передачи, а может представлять собой автономное устройство для декодирования кодированных аудиосигналов или может быть частью приемника аудиосигнала.

На фиг. 2 показана упрощенная блок-схема средства 170 оценки шума согласно одному варианту осуществления. Средство 170 оценки шума может быть использовано в кодере аудиосигнала и/или декодере аудиосигнала, показанных на фиг. 1. Средство 170 оценки шума включает в себя детектор 172 для определения значения 174 энергии для аудиосигнала 102, преобразователь 176 для преобразования значения 174 энергии в логарифмическую область (см. преобразованное значение 178 энергии) и средство 180 оценки для оценки уровня 182 шума для аудиосигнала 102 на основании преобразованного значения 178 энергии. Средство 170 оценки может быть реализовано процессором общего назначения или множеством процессоров, запрограммированных или построенных для реализации функциональных возможностей детектора 172, преобразователя 176 и средства 180 оценки.

Ниже подробно описаны варианты осуществления подхода согласно изобретению, который может быть реализован по меньшей мере в одном процессоре (кодирующем процессоре 106 и/или декодирующем процессоре 156 по фиг. 1) или средством 170 оценки по фиг. 2.

На фиг. 3 показана блок-схема подхода согласно изобретению к оценке шума в аудиосигнале. После приема аудиосигнала на первом шаге S100 определяют значение 174 энергии для аудиосигнала, которое затем на шаге S102 преобразуют в логарифмическую область. На шаге S104 на основании преобразованного значения 178 энергии выполняют оценку шума. Согласно вариантам осуществления на шаге S106 определяют, требуется ли дополнительная обработка данных оценки шума, которые представлены логарифмическими данными 182, в логарифмической области. В случае, когда необходима дополнительная обработка в логарифмической области (да, на шаге S106), на шаге S108 выполняют обработку логарифмических данных, представляющих оценку шума; например, выполняют преобразование логарифмических данных в параметры передачи в том случае, когда передача происходит также в логарифмической области. В противном случае (нет, на шаге S106) логарифмические данные 182 преобразуют обратно в линейные данные на шаге S110, которые обрабатывают на шаге S112.

Согласно вариантам осуществления определение на шаге S100 значения энергии для аудиосигнала может быть выполнено согласно стандартным подходам. Сначала вычисляют спектр мощности преобразования FFT, примененного к данному аудиосигналу, а затем группируют полосы на основании психоакустических характеристик. Далее аккумулируют элементы дискретизации спектра мощности в полосе для формирования значения энергии для каждой полосы, чтобы получить набор значений энергии. В других вариантах осуществления возможно вычисление спектра мощности на основе любого подходящего спектрального преобразования типа MDCT (модифицированное дискретное косинусное преобразование), CLDFB (комплексный банк фильтров с низкой задержкой) или комбинации из нескольких преобразований, охватывающих разные части спектра. На шаге S100 определяют значение 174 энергии для каждой полосы, а затем значение 174 энергии для каждой полосы преобразуют на шаге S102 в логарифмическую область, согласно вариантам осуществления в логарифмическую область по основанию 2. Энергию полос можно преобразовать в логарифмическую область по основанию 2 следующим образом:

где - минимальное (x),

- значение энергии полосы n в логарифмической области по основанию 2,

- значение энергии полосы n в линейной области,

- разрешение/точность.

Согласно вариантам осуществления выполняют преобразование в логарифмическую область по основанию 2, которое обеспечивает преимущество, заключающееся в том, что целочисленную логарифмическую функцию по основанию 2 обычно можно вычислить очень быстро, например за один цикл, на процессорах с фиксированной точкой, используя функцию «норма», которая определяет количество начальных нулей в числе с фиксированной точкой. Иногда необходима более высокая точность, чем (целочисленный) log2, которая выражается в приведенной выше формуле константой N. Эта чуть более высокая точность может быть обеспечена посредством использования простой справочной таблицы, содержащей старшие значащие биты, после команды «норма» и аппроксимации, что относится к общим подходам, обеспечивающим несложные логарифмические вычисления, когда допустима более низкая точность. В приведенной выше формуле добавлена константа «1» в логарифмической функции по основанию 2 для того, чтобы преобразованные значения энергии гарантированно оставались положительными. Согласно вариантам осуществления это может оказаться важным в том случае, когда средство оценки шума основано на статистической модели энергии шума, так как выполнение оценки шума на отрицательных значениях нарушает принцип построения модели и приводит к непредвиденным результатам функционирования средства оценки.

Согласно варианту осуществления в вышеприведенной формуле N установлено равным 6, что эквивалентно 26=64 битам динамического диапазона. Это превышает вышеописанный динамический диапазон, равный 40 бит, и, следовательно, является достаточным. При обработке данных целью является использование 16-битных данных, что позволяет использовать 9 бит для мантиссы и один бит для знака. Этот формат обычно обозначается как формат «6Q9». В альтернативном варианте, поскольку можно рассматривать только положительные значения, бит знака можно опустить и использовать для мантиссы, оставляя для нее всего 10 бит (такой формат называется форматом «6Q10»).

Подробное описание алгоритма на основе статистики минимумов можно найти в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001. По существу, он заключается в отслеживании минимумов сглаженного спектра мощности в скользящем временном окне заданной длины для каждой спектральной полосы, как правило, в течение пары секунд. Этот алгоритм также включает в себя компенсацию смещения для повышения точности оценки шума. Кроме того, для улучшения отслеживания изменяющегося во времени шума можно использовать локальные минимумы, вычисленные на гораздо более коротком временном окне, вместо использования исходных минимумов, при условии, что это вызывает умеренное увеличение оценок энергии шума. Допустимая величина увеличения определена в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001, в виде параметра noise_slope_max. Согласно одному варианту осуществления используют алгоритм оценки шума на основе статистики минимумов, который обычно выполняется на линейных данных энергии. Однако, согласно полученным авторами изобретения новым результатам, в целях оценки уровней шума в аудиоматериале или речевом материале данный алгоритм может работать вместо этого с логарифмическими входными данными. Хотя сама обработка сигнала остается неизменной, потребуется минимальное количество возвратов, что выражается в уменьшении параметра noise_slope_max для обеспечения возможности работы с уменьшенным динамическим диапазоном логарифмических данных по сравнению с линейными данными. До сих пор полагалось, что алгоритм на основе статистики минимумов или другие подходящие способы оценки шума должны выполняться на линейных данных, то есть, полагалось, что логарифмическое представление в действительности здесь не подходит. В отличие от этого традиционного предположения, авторы изобретения установили, что оценку шума действительно можно выполнять на основании логарифмических данных, что позволяет использовать входные данные, которые представлены только в 16-битном формате, что, как следствие, значительно упрощает реализации с фиксированной точкой, так как большинство операций может выполняться в 16-битном формате, и лишь для некоторых частей алгоритма все же требуется 32-битный формат. Например, в алгоритме на основе статистики минимумов компенсация смещения основана на дисперсии входной мощности, хотя для статистики четвертого порядка, как правило, все же требуется 32-битное представление.

Как было описано выше в связи с фиг. 3, результат процесса оценки шума можно дополнительно обработать различными путями. Согласно вариантам осуществления, первый путь состоит в непосредственном использовании логарифмических данных 182, как показано на шаге S108, например, путем непосредственного преобразования логарифмических данных 182 в параметры передачи, если эти параметры также передаются в логарифмической области, что часто встречается. Второй путь заключается в обработке логарифмических данных 182, в ходе которой их преобразуют обратно в линейную область для дальнейшей обработки, например, используя функцию сдвига, что обычно выполняется очень быстро и, как правило, занимает только один цикл работы процессора вместе со справочной таблицей, или посредством использования аппроксимации, например:

Далее со ссылками на кодер описан подробный пример реализации подхода согласно изобретению к оценке шума на основании логарифмических данных; однако, как подчеркивалось выше, подход согласно изобретению также можно применить к сигналам, которые были декодированы в декодере, как это описано, например, PCT/EP2012/077525 или PCT/EP2012/077527, содержание которых включено в настоящий документ путем ссылки. В нижеследующем варианте осуществления описана реализация подхода согласно изобретению к оценке шума в аудиосигнале в аудиокодере типа кодера 100 по фиг. 1. В частности, далее описан алгоритм обработки сигнала, используемый в кодере EVS (усовершенствованные услуги телефонии) для реализации подхода согласно изобретению к оценке шума в аудиосигнале, полученном EVS кодером.

Положим, что входные блоки отсчетов аудио длительностью 20 мс представлены в 16-битном едином формате PCM (импульсно-кодовой модуляции). Положим, что имеется четыре частоты дискретизации, например, 8000, 16000, 32000 и 48000 отсчетов/с, а скорости передачи в битах для кодированного битового потока могут составлять 5,9, 7,2, 8,0, 9,6, 13,2, 16,4, 24,4, 32,0, 48,0 64,0, или 128,0 кбит/с. Также может быть обеспечен межоперационный режим AMR-WB (Адаптивный многоскоростной широкополосный кодек) со скоростями передачи в битах для кодированного битового потока 6,6, 8,85, 12,65, 14,85, 15,85, 18,25, 19,85, 23,05, или 23,85 кбит/с.

В последующем описании для математических выражений приняты следующие обозначения:

- указывает наибольшее целое число, меньшее или равное x: , и ;

- указывает суммирование;

если не задано иное, то log(x) обозначает логарифм по основанию 10 для всего последующего описания.

Кодер получает полнодиапазонный (FB), сверхширокополосный (SWB), широкополосный (WB) или узкополосный (NB) сигналы, дискретизированные с частотой 48, 32, 16 или 8 кГц. Аналогичным образом, на выходе декодера может быть сигнал с частотой 48, 32, 16 или 8 кГц, типа FB, SWB, WB или NB. Для указания частоты входной дискретизации в кодере или частоты выходной дискретизации в декодере используют параметр R (8, 16, 32 или 48).

Входной сигнал обрабатывают, используя кадры длительностью 20 мс. Задержка кодека зависит от частоты дискретизации на входе и выходе. При WB входе и WB выходе общая логарифмическая задержка составляет 43,75 мс. Она состоит из одного 20-миллисекундного кадра, 1,85-миллисекундной задержки входных и выходных фильтров передискретизации, 10 мс на опережение кодера, 1-миллисекундной задержки постфильтрации и 10 мс на декодере, что позволяет выполнить дополнительную операцию перекрытия для кодирования преобразования на более высоком уровне. Для NB входа и NB выхода более высокие уровни не используют, но используют 10-миллисекундную задержку декодера для улучшения рабочих характеристик кодека при наличии стираний кадров и для сигналов музыки. Общая алгоритмическая задержка для NB входа и NB выхода составляет 43,85 мс (один 20-миллисекндый кадр, 2 мс на входном фильтре передискретизации, 10 мс на опережение кодера, 1,85 мс на выходном фильтре передискретизации и 10-милискундная задержка в декодере). Если выход ограничен уровнем 2, то задержка кодека может быть сокращена на 10 мс.

В общие функциональные возможности кодера входят следующие разделы: общая обработка, режим кодирования с линейным предсказанием и кодовым возбуждением (CELP), режим кодирования с модифицированным дискретным косинусным преобразованием (MDCT), коммутация режимов кодирования, вспомогательная информация о маскировании стирания кадров, операция DTX/CNG (прерывистая передача/формирование комфортного шума), межоперационная опция AMR-WB и кодирование, ориентированное на канал.

Согласно настоящему варианту осуществления подход согласно изобретению реализован в разделе операции DTX/CNG. Кодек снабжен алгоритмом обнаружения активности сигнала (SAD) для классификации каждого входного кадра как активного или неактивного. Это поддерживает операцию прерывистой передачи (DTX), в которой для аппроксимации и обновления статистики фонового шума с переменной скоростью передачи в битах используют модуль формирования комфортного шума в частотной области (FD-CNG). Таким образом, скорость передачи в течение периодов неактивного сигнала является переменной и зависит от оцененного уровня фонового шума. Однако частота обновления CNG также может быть фиксированной путем применения командного линейного параметра.

Чтобы иметь возможность создания искусственного шума, похожего на реальный входной фоновый шум в плане спектрально-временных характеристик, для формирования FD-CNG используют алгоритм оценки шума для отслеживания значений энергии фонового шума на входе кодера. Затем оценки этого шума передают в качестве параметров в виде кадров SID (дескриптор ввода паузы) для обновления амплитуды случайных последовательностей, формируемых в каждой частотной полосе на стороне декодера во время неактивных фаз.

Работа средства оценки шума FD-CNG основана на подходе, содержащем гибридный спектральный анализ. Низкие частоты, соответствующие базовой полосе частот, подвергаются анализу на основе FFT с высоким разрешением, в то время как остальные более высокие частоты анализируют с помощью методики CLDFB, который характеризуется значительно меньшим спектральным разрешением, составляющим 400 Гц. Заметим, что CLDFB также используют в качестве средства передискретизации для понижения частоты дискретизации входного сигала до базовой частоты дискретизации.

Однако на практике размер кадра SID ограничен. Для сокращения количества параметров, описывающих фоновый шум, значения энергий на входе усредняют по группам спектральных полос, называемых ниже участками.

1. Энергии спектральных участков

Энергии участков вычисляют отдельно для полос FFT и CLDFB. Энергии , соответствующие участкам FFT, и энергии , соответствующие участкам CLDFB, сводят затем в единый массив размером , который служит входом в средство оценки шума, описанное ниже (см. раздел «2. Оценка шума FD-CNG»).

1.1 Вычисление энергий участков FFT

Энергии участков для частот, покрывающих базовую полосу, получают в виде

где и - средние значения энергии в критической полосе i для первого и второго окон анализа соответственно. Количество участков для FFT, захватывающих базовую полосу, находится в диапазоне от 17 до 21 в соответствии с использованной конфигурацией (см. «1.3. Конфигурации кодера FD-CNG»). Для компенсации фильтра верхних частот используют уменьшенные спектральные веса , которые определены в виде

1.2. Вычисление энергий участков CLDFB

Энергии участков для частот, превышающих базовую полосу, вычисляют как

где и индексы первой и последней полосы CLDFB в i-м участке соответственно; - общая энергия j-й полосы CLDFB, и - коэффициент масштабирования. Константа 16 относится к количеству временных слотов в CLDFB. Количество участков зависит от использованной конфигурации, как это описано ниже.

1.3. Конфигурации кодера FD-CNG

В приведенной ниже таблице перечислены количество участков и их верхние границы для разных конфигураций FD-CNG в кодере.

Скорости передачи в битах[
кбит/с]

[Гц]
[Гц]
NB 17 0 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3975 WB 20 0 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375 20 1 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375 8000 21 0 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375, 7975 SWB/FB 20 4 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375 8000, 10000, 12000, 14000 21 3 100, 200, 300, 400, 500, 600, 750, 900, 1050, 1250, 1450, 1700, 2000, 2300, 2700, 3150, 3700, 4400, 5300, 6375, 7975 10000, 12000, 16000

Таблица 1. Конфигурации оценки шума FD-CNG в кодере

Для каждого участка , соответствует частоте последней полосы в i-м участке. Индексы и первой и второй полосы в каждом спектральном участке можно получить как функцию конфигурации базового участка следующим образом:

где - частота первой полосы в первом спектральном участке. Таким образом, FD-CNG формирует некоторый комфортный шум только выше 50 Гц.

2. Оценка шума FD-CNG

FD-CNG основан на средстве оценки шума для отслеживания энергии фонового шума, присутствующего во входном спектре. По большей части это основано на алгоритме статистики минимумов, описанном в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001. Однако для уменьшения динамического диапазона входных энергий и упрощения реализации алгоритма оценки шума с фиксированной точкой, перед средством оценки шума используют нелинейное преобразование (см. «2.1. Сжатие динамического диапазона для входных энергий»). Затем выполняют обратное преобразование результирующих оценок шума для восстановления исходного динамического диапазона (см. «2.3. Расширение динамического диапазона для оцененных энергий шума»).

2.1. Сжатие динамического диапазона для входных энергий

Входные энергии обрабатывают, используя нелинейную функцию, и квантуют с разрешением 8 бит следующим образом:

2.2. Отслеживание шума

Подробное описание алгоритма на основе статистики минимумов можно найти в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2001. По существу, этот алгоритм заключается в отслеживании минимумов сглаженного спектра мощности в скользящем временном окне заданной длины для каждой спектральной полосы, как правило, за пару секунд. Этот алгоритм также включает в себя компенсацию смещения для повышения точности оценки шума. Кроме того, для улучшения отслеживания изменяющегося во времени шума можно использовать локальные минимумы, вычисленные в гораздо более коротком временном окне, вместо исходных минимумов, при условии, что это приводит к умеренному увеличению оцененных значений энергии шума. Допустимая величина увеличения определена в работе R. Martin, ʺNoise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statisticsʺ, 2011, в виде параметра noise_slope_max.

Основные выходы блока отслеживания шума представляют собой оценки , . Для получения сглаженных переходов в комфортном шуме можно использовать рекурсивный фильтр первого порядка, то есть .

Кроме того, выполняют усреднение входной энергии на последних 5 кадрах. Это используют для применения верхнего предела для в каждом спектральном участке.

2.3. Расширение динамического диапазона для оцененных значений энергии шума

Оцененные значения энергии шума обрабатывают, используя нелинейную функцию для компенсации вышеописанного сжатия динамического диапазона:

Согласно настоящему изобретению описан усовершенствованный подход к оценке шума в аудиосигнале, который позволяет упростить средство оценки шума, особенно для аудио/речевых сигналов, которые обрабатывают на процессорах, в которых используется арифметика с фиксированной точкой. Этот подход согласно изобретению позволяет уменьшить динамический диапазон, используемый для средства оценки шума, при обработке аудио/речевого сигнала, например, в среде, описанной в PCT/EP2012/077527, которая относится к формированию комфортного шума с высоким спектрально-временным разрешением, или в PCT/EP2012/077527, которая относится к добавлению комфортного шума для моделирования фонового шума при низкой скорости передачи бит. В описанных сценариях используется средство оценки шума, функционирующее на основе алгоритма на основе статистики минимумов для повышения качества фонового шума или для формирования комфортного шума для зашумленных речевых сигналов; например, речь при наличии фонового шума, что является очень распространенной ситуацией при разговоре по телефону, и представляет собой одну из тестовых категорий EVS кодека. EVS кодек согласно стандарту будет использовать процессор с фиксированной арифметикой, причем данный подход согласно изобретению позволяет упростить обработку благодаря уменьшению динамического диапазона сигнала, который используют для средства оценки шума на основании статистики минимумов, путем обработки значения энергии для аудиосигнала в логарифмической области, а не в линейной области.

Хотя некоторые аспекты предложенной концепции были описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует шагу способа, или признаку шага способа. Аналогичным образом, аспекты, описанные в контексте шагов способа, также представляют описание соответствующего блока, изделия или признака соответствующего устройства.

В зависимости от требований конкретной реализации варианты осуществления изобретения можно реализовать аппаратными или программными средствами. Такую реализацию можно осуществить с использованием носителя цифровых данных, например, гибкого диска, DVD, диска Blue-Ray, компакт-диска CD, памяти ROM, PROM, EPROM, EEPROM или флеш-памяти, содержащего запомненные электрически считываемые управляющие сигналы, которые совместно действуют (или способны совместно действовать) с программируемой компьютерной системой таким образом, чтобы выполнялся соответствующий способ. Следовательно, носитель цифровых данных может представлять собой машиночитаемый носитель.

Некоторые варианты осуществления согласно изобретению содержат несущий сигнал, содержащий считываемые электронным путем управляющие сигналы, которые способны совместно действовать с программируемой компьютерной системой, с тем чтобы выполнялся один из описанных здесь способов.

В общем, варианты осуществления настоящего изобретения можно реализовать в виде компьютерного программного продукта с программным кодом, причем программный код реализует выполнение способов, когда компьютерный программный продукт выполняется компьютером. Программный код может запоминаться, например, в машиночитаемом несущем сигнале.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных здесь способов в машиночитаемом несущем сигнале.

Другими словами, один из вариантов осуществления данного способа согласно изобретению, таким образом, представляет собой компьютерную программу, содержащую программный код для выполнения одного из описанных здесь способов, когда компьютерная программа выполняется компьютером.

Следующий вариант осуществления предложенных в изобретении способов таким образом представляет собой сигнал, несущий данные (или носитель цифровых данных, или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из описанных здесь способов.

Еще один вариант осуществления данного способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из описанных здесь способов. Этот поток данных или последовательность сигналов может быть выполнен, например, с возможностью его передачи через соединение для обмена данными, например, через Интернет.

Следующий вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное (или адаптированное) с возможностью выполнения одного из описанных здесь способов.

Другой вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из описанных здесь способов.

В некоторых вариантах осуществления программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) можно использовать для выполнения некоторых или всех функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления вентильная матрица, программируемая пользователем, может действовать совместно с микропроцессором для выполнения одного из описанных здесь способов. В общем случае способы предпочтительно выполняются каким-либо аппаратным устройством.

Вышеописанные варианты осуществления являются лишь иллюстрацией принципов настоящего изобретения. Очевидно, что специалисты в данной области техники без труда предложат различные модификации и варианты компоновок и отдельных описанных здесь деталей. Таким образом, здесь предполагается, что изобретение ограничено только объемом независимых пунктов формулы изобретения, но не конкретными деталями, представленными в целях описания и объяснения раскрытых здесь вариантов осуществления.

Похожие патенты RU2666474C2

название год авторы номер документа
ГЕНЕРИРОВАНИЕ КОМФОРТНОГО ШУМА С ВЫСОКИМ СПЕКТРАЛЬНО-ВРЕМЕННЫМ РАЗРЕШЕНИЕМ ПРИ ПРЕРЫВИСТОЙ ПЕРЕДАЧЕ АУДИОСИГНАЛОВ 2013
  • Ломбар Антони
  • Дитц Мартин
  • Вильде Штефан
  • Равелли Эммануэль
  • Сетиаван Панджи
  • Мультрус Маркус
RU2650025C2
ГЕНЕРИРОВАНИЕ ШУМА В АУДИОКОДЕКАХ 2012
  • Сетиаван Панджи
  • Вильде Штефан
  • Ломбар Антони
  • Дитц Мартин
RU2585999C2
ГЕНЕРАТОР МНОГОКАНАЛЬНЫХ СИГНАЛОВ, АУДИОКОДЕР И СООТВЕТСТВУЮЩИЕ СПОСОБЫ, ОСНОВАННЫЕ НА ШУМОВОМ СИГНАЛЕ МИКШИРОВАНИЯ 2021
  • Равелли, Эммануэль
  • Кине, Ян Фредерик
  • Фукс, Гийом
  • Корсе, Срикантх
  • Мультрус, Маркус
  • Фотопоулоу, Элени
RU2809646C1
АУДИОКОДЕК, ИСПОЛЬЗУЮЩИЙ СИНТЕЗ ШУМА В ТЕЧЕНИЕ НЕАКТИВНОЙ ФАЗЫ 2012
  • Сетиаван Панджи
  • Шмидт Константин
  • Вильде Штефан
RU2586838C2
УЛУЧШЕНИЕ ПЕРЦЕПЦИОННОЙ ХАРАКТЕРИСТИКИ ДУБЛИРОВАНИЯ ПОЛОСЫ СПЕКТРА И СВЯЗАННЫХ СПОСОБОВ КОДИРОВАНИЯ ВЫСОКОЧАСТОТНОГО ВОССТАНОВЛЕНИЯ ПУТЕМ АДАПТИВНОГО ДОБАВЛЕНИЯ МИНИМАЛЬНОГО УРОВНЯ ШУМА И ОГРАНИЧЕНИЯ ПОДСТАНОВКИ ШУМОВ 2000
  • Лильерюд Ларс Густаф
  • Черлинг Кристофер
  • Экстранд Пер
  • Хенн Фредрик
RU2226032C2
РЕГУЛИРОВКА УРОВНЯ ВО ВРЕМЕННОЙ ОБЛАСТИ ДЛЯ ДЕКОДИРОВАНИЯ ИЛИ КОДИРОВАНИЯ АУДИОСИГНАЛОВ 2014
  • Шрайнер Штефан
  • Борзум Арне
  • Нойзингер Маттиас
  • Яндер Мануэль
  • Ловассер Маркус
  • Нойгебауэр Бернхард
RU2608878C1
ГАРМОНИЧЕСКОЕ РАСШИРЕНИЕ ПОЛОСЫ АУДИОСИГНАЛОВ 2015
  • Субасингха Субасингха Шаминда
  • Кришнан Венкатеш
  • Атти Венкатраман С.
  • Раджендран Вивек
RU2651218C2
СПОСОБ И УСТРОЙСТВО ДЛЯ КОДИРОВАНИЯ МНОЖЕСТВЕННЫХ АУДИОСИГНАЛОВ И СПОСОБ И УСТРОЙСТВО ДЛЯ ДЕКОДИРОВАНИЯ СМЕСИ МНОЖЕСТВЕННЫХ АУДИОСИГНАЛОВ С УЛУЧШЕННЫМ РАЗДЕЛЕНИЕМ 2016
  • Былен, Джагдас
  • Озеров, Алексей
  • Перес, Патрик
RU2716911C2
ПСИХОАКУСТИЧЕСКАЯ МОДЕЛЬ ДЛЯ АУДИООБРАБОТКИ 2020
  • Дэвидсон, Грант Э.
  • Филдер, Луи Д.
  • Винтон, Марк С.
RU2826044C1
УПРАВЛЕНИЕ ФАЗОВОЙ КОГЕРЕНТНОСТЬЮ ДЛЯ ГАРМОНИЧЕСКИХ СИГНАЛОВ В ПЕРЦЕПЦИОННЫХ АУДИОКОДЕКАХ 2013
  • Диш Саша
  • Херре Юрген
  • Эдлер Бернд
  • Нагель Фредерик
RU2612584C2

Иллюстрации к изобретению RU 2 666 474 C2

Реферат патента 2018 года СПОСОБ ОЦЕНКИ ШУМА В АУДИОСИГНАЛЕ, СРЕДСТВО ОЦЕНКИ ШУМА, АУДИОКОДЕР, АУДИОДЕКОДЕР И СИСТЕМА ДЛЯ ПЕРЕДАЧИ АУДИОСИГНАЛОВ

Изобретение относится к области обработки аудиосигналов. Технический результат – обеспечение эффективной оценки шума в аудиосигнале. Данный способ оценки шума в аудиосигнале заключается в том, что оценивают (S100) значение энергии для аудиосигнала и преобразуют (S102) его в логарифмическую область. Уровень шума для аудиосигнала оценивают (S104) на основании преобразованного значения энергии. 6 н. и 5 з.п. ф-лы, 3 ил., 1 табл.

Формула изобретения RU 2 666 474 C2

1. Способ оценки шума в аудиосигнале (102), причем способ содержит этапы, на которых:

определяют (S100) значение (174) энергии для аудиосигнала (102);

преобразуют (S102) значение (174) энергии в логарифмическую область по основанию 2; и

оценивают (S104) уровень (182) шума для аудиосигнала (102) на основании преобразованного значения (178) энергии непосредственно в логарифмической области по основанию 2,

причем значение (174) энергии преобразуют (S102) в логарифмическую область по основанию 2 следующим образом:

где - минимальное (x),

- значение энергии полосы n в логарифмической области по основанию 2,

- значение энергии полосы n в линейной области,

- разрешение квантования.

2. Способ по п. 1, в котором оценка (S104) уровня шума содержит этап, на котором выполняют заданный алгоритм оценки шума, такой как алгоритм на основе статистики минимумов.

3. Способ по п. 1, в котором определение (S100) значения (174) энергии содержит этапы, на которых получают спектр мощности аудиосигнала (102) посредством преобразования аудиосигнала (102) в частотную область, группируют спектр мощности в полосы на основании психоакустических характеристик и накапливают элементы дискретизации спектра мощности в полосе для формирования значения (174) энергии для каждой полосы, причем значение (174) энергии для каждой полосы преобразуют в логарифмическую область по основанию 2, при этом уровень шума оценивают для каждой полосы на основании соответствующего преобразованного значения (174) энергии.

4. Способ по п. 3, в котором аудиосигнал (102) содержит множество кадров, причем значение (174) энергии для каждого кадра определяют и преобразуют в логарифмическую область по основанию 2, и для каждой полосы кадра оценивают уровень шума на основании преобразованного значения (174) энергии.

5. Способ по п. 1 в котором оценка (S104) уровня шума на основании преобразованного значения (178) энергии обеспечивает логарифмические данные, причем способ дополнительно содержит этапы, на которых:

используют (S108) логарифмические данные непосредственно для дополнительной обработки; или

преобразуют (S110, S112) логарифмические данные обратно в линейную область для дополнительной обработки.

6. Способ по п. 5, в котором

логарифмические данные преобразуют (S108) непосредственно в данные передачи в случае выполнения передачи в логарифмической области, и

при преобразовании (S110) логарифмических данных непосредственно в данные передачи используют функцию сдвига вместе со справочной таблицей или аппроксимацию, например, .

7. Машиночитаемый носитель, содержащий сохраненные на нем команды, которые при их выполнении компьютером осуществляют способ по одному из пп. 1-6.

8. Устройство (170) оценки шума, содержащее:

детектор (172), выполненный с возможностью определения значения (174) энергии для аудиосигнала (102);

преобразователь (176), выполненный с возможностью преобразования значения (174) энергии в логарифмическую область по основанию 2; и

средство (180) оценки шума аудиосигнала, выполненное с возможностью оценки уровня (182) шума для аудиосигнала (102) на основании преобразованного значения (178) энергии непосредственно в логарифмической области по основанию 2, причем значение (174) энергии преобразуют (S102) в логарифмическую область по основанию 2 следующим образом:

где - минимальное (x),

- значение энергии полосы n в логарифмической области по основанию 2,

- значение энергии полосы n в линейной области,

- разрешение квантования.

9. Аудиокодер (100), содержащий устройство (170) оценки шума по п.8.

10. Аудиодекодер (150), содержащий устройство (170) оценки шума по п.8.

11. Система для передачи аудиосигналов (102), причем система содержит:

аудиокодер (100), выполненный с возможностью формирования кодированного аудиосигнала (102) на основании принятого аудиосигнала (102); и

аудиодекодер (150), выполненный с возможностью приема кодированного аудиосигнала (102), декодирования кодированного аудиосигнала (102) и вывода декодированного аудиосигнала (102),

причем по меньшей мере одно из аудиокодера и аудиодекодера содержит устройство (170) оценки шума по п. 8.

Документы, цитированные в отчете о поиске Патент 2018 года RU2666474C2

US 7873511 B2, 18.01.2011
СИСТЕМА АДАПТИВНОЙ ФИЛЬТРАЦИИ АУДИОСИГНАЛОВ ДЛЯ УЛУЧШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ ПРИ НАЛИЧИИ ШУМА 1996
  • Торбьерн В. Сельве
RU2163032C2
УЛУЧШЕНИЕ ПЕРЦЕПЦИОННОЙ ХАРАКТЕРИСТИКИ ДУБЛИРОВАНИЯ ПОЛОСЫ СПЕКТРА И СВЯЗАННЫХ СПОСОБОВ КОДИРОВАНИЯ ВЫСОКОЧАСТОТНОГО ВОССТАНОВЛЕНИЯ ПУТЕМ АДАПТИВНОГО ДОБАВЛЕНИЯ МИНИМАЛЬНОГО УРОВНЯ ШУМА И ОГРАНИЧЕНИЯ ПОДСТАНОВКИ ШУМОВ 2000
  • Лильерюд Ларс Густаф
  • Черлинг Кристофер
  • Экстранд Пер
  • Хенн Фредрик
RU2226032C2
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз 1924
  • Подольский Л.П.
SU2014A1
Способ приготовления лака 1924
  • Петров Г.С.
SU2011A1
Способ определения прочности льда в торосах и стамухах 2019
  • Ковалёв Сергей Михайлович
  • Харитонов Виктор Витальевич
  • Шушлебин Александр Иванович
RU2717261C1
EP 1990799 A1, 12.11.2008
УСТРОЙСТВО ДЛЯ АВТОМАТИЧЕСКОГО РЕГУЛИРОВАНИЯ ТЕХНОЛОГИЧЕСКОГО ПРОЦЕССА СЕЛЬХОЗМАШИНЫ 2014
  • Измайлов Андрей Юрьевич
  • Гончаров Николай Тимофеевич
  • Афонина Ирина Ивановна
  • Хорошенков Вячеслав Кузьмич
RU2573765C1

RU 2 666 474 C2

Авторы

Шуберт Беньямин

Яндер Мануэль

Ломбард Антони

Дитц Мартин

Мультрус Маркус

Даты

2018-09-07Публикация

2015-07-21Подача