Показать метаданные Скрыть метаданные

(19)

(11)

2 589 298

(13)

(51)

МПК

G10L19/02(2013-01-01)

G10L21/232(2013-01-01)

G10L21/28(2013-01-01)

(21) (22)

Заявка

2014153295/08, 2014-12-29

(24)

Дата начала отсчета патента

2014-12-29

(22)

дата подачи заявки

2014-12-29

(45)

опубликовано

2016-07-10

(72)

авторы

Вашкевич Максим ИосифовичАзаров Илья СергеевичБредихин Александр ЮрьевичПетровский Александр Александрович

(73)

патентообладатели

Бредихин Александр Юрьевич

(56)

Документы, цитированные в отчете о поиске

US 6876968 B2, 05.04.2005

СПОСОБ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ И ИНФОРМАТИВНОСТИ ЗВУКОВЫХ СИГНАЛОВ В ШУМОВОЙ ОБСТАНОВКЕ Российский патент 2016 года по МПК G10L19/02 G10L21/232 G10L21/28

Описание патента на изобретение RU2589298C1

Область техники

Изобретение относится к вычислительной технике, системам мультимедиа и может быть использовано в мобильных мультимедийных устройствах.

Предшествующий уровень техники

Прослушивание различных звуковых сигналов (таких как музыкальные произведения или речевые сообщения) в шумовой обстановке (Фиг. 1) часто бывает затруднительным, поскольку акустический шум v[n] при соответствующей интенсивности маскирует полезный сигнал x[n]. Здесь под термином «Полезный сигнал» понимается сигнал без акустического шума, который «Слушатель» воспринимает как выходной сигнал y[n] блока обработки (фиг. 1) через громкоговоритель в обстановке агрессивного акустического шума. Полезным сигналом x[n] может быть сигнал мультимедийных воспроизводящих устройств, сигнал в системах видеоконференций, громкой связи, IP - телефонии и т.п. В системах связи различного назначения полезный сигнал x[n] - это сигнал дальнего диктора, приходящий из сети, а «Слушатель» - ближний диктор, для которого восприятие сигнала дальнего диктора x[n] затруднено акустическим шумом v[n] окружающей обстановки, в которой он находится. Схема восприятия акустической информации в шумовой обстановке и соответствующие спектрограммы проиллюстрированы фигурами 1 и 2. Например, при покрытии чистого речевого сигнала шумом метрополитена этот речевой сигнал едва может быть идентифицирован (фиг. 2, в).

Обеспечение комфортного прослушивания и достаточной разборчивости в данной обстановке сравнительно легко достигается путем акустического усиления полезного сигнала x[n], что позволяет вывести его из-за порога маскирования шумом v[n].

Большинство звуковоспроизводящих устройств имеет возможность ручной регулировки громкости, которая позволяет слушателю адаптировать режим воспроизведения к различной шумовой обстановке. Однако в контексте повышения разборчивости ручное управление громкостью имеет следующие ограничения:

- ручная регулировка не всегда доступна для оперативной реакции на изменение шумовой обстановки;

- для сигналов, имеющих широкий динамический диапазон, имеющих тихие и громкие фрагменты, нельзя подобрать фиксированный коэффициент усиления, поскольку увеличение громкости, достаточное для прослушивания тихих звуков, приводит к тому, что громкие звуки становятся слишком громкими (возможно превышающими болевой порог);

- усиление выполняется одинаково для всех частотных составляющих сигнала без учета спектральной плотности мощности маскирующего шума.

Известные системы редактирования шума (Phillips С Loizou "Speech enhancement theory and practice" 1st ed. Boca Raton, FL.: CRC, 2007. Releases Taylor & Francis), осуществляющие фильтрацию шума сигнала микрофона ближнего диктора до передачи в сеть. Однако часто требуется повысить разборчивость сигнала дальнего диктора (полезного сигнала x[n]) для ближнего диктора, находящегося в шумной акустической обстановке, когда шум прослушивается без какой-либо возможности быть подавленным.

В 1960-х и 1970-х годах некоторые исследования были сделаны по этой теме, например, (Russell J. Niederjohn and James H. Grotelueschen, "The enhancement of speech intelligibility in high noise levels by highpass filtering followed by rapid amplitude compression," in Proc. of ICASSP, Aug. 1976, vol. 24, pp. 277-282). Для повышения разборчивости речи у ближнего диктора-слушателя предлагается выполнять высокочастотную фильтрацию чистого сигнала дальнего диктора (полезного сигнала x[n]), чтобы усилить более высокие форманты, сопровождаемую амплитудной компрессией, чтобы защититься от искажений белого шума и уменьшить мощность шумовой среды соответственно. Способ предназначен для обработки исключительно речевых сигналов и предполагает наличие в сигнале специфических для речи характеристик, таких как формантные частоты и вокализованные фрагменты. Известный способ не применим к обработке неречевых звуковых сигналов (например, музыкальных произведений).

Существует известное техническое решение задачи повышения разборчивости речи в акустических шумах, основанное на максимизации индекса разборчивости SII (Speech Intelligibility Index), в котором повышение индекса разборчивости SII достигается путем модификации спектра речевого сигнала - полезного сигнала x[n] с учетом спектральной плотности мощности сигнала шума v[n]. (US, №2011/0224976), (В. Sauert and P. Vary, "Near end listening enhancement optimized with respect to speech intelligibility," Proc. 17th European Signal Processing Conference (EUSIPCO), pp. 1844-1849, 2009). Индекс разборчивости речи SII является стандартизированной объективной мерой, которая отражает действительную разборчивость речи для различных неблагоприятных условий прослушивания (American National Standard. Methods for the Calculation of the Speech Intelligibility Index. ANSI S3.5-1997, 1997).

Данная мера разборчивости разработана исключительно для анализа речевых сигналов и не может в исходном виде применяться к произвольным звуковым (например, музыкальным записям) потому, что критерием разборчивости речи является способность идентифицировать отдельные слоги речевого сообщения. Музыкальное же произведение (сообщение) имеет неслоговую структуру и воспринимается слуховой системой при помощи совсем иных интерпретационных механизмов.

Известен способ повышения разборчивости речевого сигнала - полезного сигнала x[n] в шумах с сохранением исходной энергии речевого сигнала (Zorila, Т.-С. Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression / T.-C. Zorila, V. Kandida, Y. Stylianou // In Proc. Interspeech, 2012. - Portland, Oregon, 2012. - P. 635-638.).

Способ состоит из двух последовательных этапов, которые осуществляют адаптивное изменение формы спектральной огибающей и расширение/компрессия динамического диапазона. Этот способ обработки основывается на результатах исследования влияния формантной структуры чистой (незашумленной) речи на разборчивость. Адаптивное изменение формы спектральной огибающей выполняется путем подчеркивания формантной структуры речи и уменьшения наклона спектральной огибающей корректирующим фильтром. Степень обработки зависит от уровня вокализованности речевого фрагмента - чем ближе он к гласному звуку, тем сильнее вносимый эффект. Данный способ повышения разборчивости речевого сигнала - полезного сигнала x[n] в шумовой обстановке выполняется в блоке обработки (фиг. 1) и состоит из следующих шагов.

Шаг 1. Вычисляется вероятность P_v[n] (или степень) вокализованности текущего речевого фрейма - «полезного сигнала» x[n]

где α=1/max(P_v[n]) является нормирующим множителем, rms[n] - среднеквадратичное значение отсчетов сигнала, z[n] - число переходов через ноль, n - номер отсчета, n=1, 2…N. Статистические оценки rms[n] и z[n] выполняются на одном фрейме речевого сигнала с центром в n-м отсчете сигнала и продолжительностью 8,3 мс либо 4,5 мс в зависимости от того, обрабатывается мужской голос или женский. Фреймы набираются с шагом 10 мс.

Шаг 2. Каждый фрейм речевого сигнала x[n] длиной N отсчетов умножается на окно Хэннинга и вычисляется дискретное преобразование Фурье. Используя амплитудный спектр, оценивается спектральная огибающая сигнала E[ω_k], где ω_k - угловая частота, k - индекс частотной составляющей. Коррекция огибающей выполняется при помощи трех последовательных фильтров , причем H_S[ω_k] и H_p[ω_k] являются адаптивными фильтрами, а H_r[ω_k] - фильтром с постоянными параметрами. Для получения частотной характеристики фильтра H_S[ω_k] вычисляется наклон спектральной огибающей T[ω_k] при помощи следующего выражения:

где , c_m - кепстральные коэффициенты с индексами m. Затем вычисляется искомая частотная характеристика фильтра

Значение параметра β принимается равным 0.25 для малых соотношений сигнал/шум, однако оно может быть уменьшено для менее интенсивных шумов v[n].

Частотная характеристика второго адаптивного фильтра H_p[ω_k] вычисляется следующим образом:

где ω₀=0,125π при частоте дискретизации 16 кГц. Значение коэффициента g может быть постоянным (например, 0,3) либо может изменяться в зависимости от соотношения сигнал/шум.

Частотная характеристика фильтра с постоянными параметрами H_p[ω_k] рассчитывается таким образом, чтобы усилить энергию сигнала в диапазоне от 1 кГц до 4 кГц на 12 дБ и ослабить частоты ниже 500 Гц на 6 дБ/октава.

Измененный амплитудный спектр объединяется с исходным фазовым спектром и вычисляется обратное преобразование Фурье. После этого фреймы полученного сигнала суммируются с перекрытием и формируется обработанный сигнал - полезный сигнал x[n] с измененной формой спектральной огибающей, подчеркивающей формантную структуру речевого сигнала.

Шаг 3. Выполняется расширение и компрессия динамического диапазона сигнала х[n], полученного на предыдущем шаге. Для этого вычисляется его амплитудная огибающая при помощи преобразования Гильберта. Затем выполняется компрессия с коротким временем отпускания (примерно 2 мс) и почти мгновенным временем срабатывания:

где a _r=0,15 и а _а=0,0001. Затем сглаженная амплитудная огибающая переводится в децибелы , где индекс in обозначает огибающую входного сигнала компрессора, и при помощи кривой амплитудной характеристики (фиг. 3) компрессора вычисляются значения огибающей e_out[n] на его выходе. Величина е₀ является опорной величиной, соответствующей 0 дБ.

Амплитудная характеристика компрессора (зависимость уровня амплитудной огибающей e_out[n] на выходе компрессора от уровня на входе e_in[n]) показывает, что при низких значениях амплитуды входного сигнала x[n] (менее -30 дБ) усиления не происходит - выходной уровень равен входному. При умеренных значениях амплитудной огибающей входного сигнала (от -30 до 0 дБ) происходит его усиление - соответствующая область кривой является областью расширения. При высоких значениях амплитудной огибающей входного сигнала x[n] (более 0 дБ) выполняется ослабление - это область компрессии.

Коэффициент усиления сигнала x[n] вычисляется следующим образом:

При этом выходной сигнал y[n] блока обработки (фиг. 1) формируется путем умножения обработанного сигнала x[n] с измененной формой спектральной огибающей, подчеркивающей формантную структуру речевого сигнала, на полученный коэффициент усиления y[n]=g[n]x[n] и нормирования его для сохранения исходной энергии.

Анализ данного способа повышения разборчивости речевых сигналов - полезных сигналов x[n] в шумовой обстановке показывает, что способ предназначен для обработки исключительно речевых сигналов и предполагает наличие в сигнале специфических для речи характеристик, таких как формантные частоты и вокализованные фрагменты, а также подразумевает возможность произвести классификацию диктора (мужчина либо женщина). Способ не применим к обработке неречевых звуковых сигналов (например, музыкальных произведений). Способ сохраняет исходную энергию речевого сигнала, вследствие чего невозможно обеспечить удовлетворительную разборчивость при низких соотношениях сигнал/шум. Даже при наличии идеальных условий (в полной тишине) в обрабатываемый сигнал вносятся искажения. Способ лишь ограниченно учитывает интенсивность шума v[n] и совсем не учитывает его кратковременные спектральные и динамические характеристики. В результате способ плохо применим для нестационарных шумов v[n].

Известен способ повышения разборчивости речевого сигнала - полезного сигнала x[n] путем усиления спектральных составляющих речевого сигнала таким образом, чтобы для каждой из них обеспечивалось требуемое соотношение сигнал/шум. (US №8645129). В общем, алгоритм обработки в этом способе сводится к следующим шагам:

Шаг 1. В блоке обработки (фиг. 1) вычисляются спектры полезного x[n] и шумового сигналов v[n] при помощи кратковременного преобразования Фурье.

Шаг 2. Вычисляются соотношения сигнал/шум для каждой спектральной составляющей и требуемые коэффициенты усиления (коэффициенты вычисляются независимо друг от друга).

Шаг 3. Спектральные составляющие полезного сигнала x[n] умножаются на соответствующие им коэффициенты и переводятся во временную область при помощи обратного преобразования Фурье для формирования выходного сигнала y[n] блока обработки.

Недостатком этого способа является то, что в результате обработки в полезном сигнале x[n] происходит выравнивание амплитуды тихих звуков с потерей их относительной громкости, что приводит к неестественному звучанию. Усиление спектральных компонент выполняется независимо друг от друга, что приводит к потере естественной огибающей обрабатываемого сигнала. Еще одним ограничением способа является то, что он не предназначен для обработки музыкальных произведений, поскольку целью является повышение разборчивости речевого сигнала, имеющего менее широкий динамический диапазон, чем музыкальный диапазон.

Наиболее близким к предлагаемому способу является способ повышения разборчивости речи (Sauert, В. Near end listening enhancement: speech intelligibility improvement in noisy environments / B. Sauert, P. Vary // ICASSP 2006: proc. of the International Conference on Acoustic, Speech, and Signal Processing. - Toulouse, France, 2006. - P. 493-496).

В этом техническом решении входной речевой сигнал блока обработки (фиг. 1) - «полезный акустический сигнал» x[n]. Речевой x[n] и шумовой v[n] сигнал делятся на фреймы длиной N отсчетов с перекрытием в половину длины фрейма (один фрейм соответствует 20 мс): , где i - индекс фрейма обработки. Каждый фрейм умножается на окно Хэннинга и переводится в частотную область при помощи дискретного преобразования Фурье. В результате формируются кратковременные спектры речевого и шумового сигналов, обозначенные далее и соответственно, где Ω_µ - дискретная частота и µ - индекс частоты. Спектр речевого сигнала x[n] умножается на коэффициенты усиления и вычисляется измененная амплитуда :

Коэффициенты усиления принимают значения большие или равные единице и вычисляются таким образом, чтобы обеспечить соотношение сигнал/шум для каждого частотного отсчета не ниже заданной величины. Таким образом, выполняется ограничение минимального выходного уровня сигнала y[n] на выходе блока обработки в зависимости от уровня шума v[n]. После умножения на коэффициенты усиления полученный образ Фурье с измененной амплитудой , переводится во временную область при помощи обратного преобразования Фурье. Из полученных фреймов формируется выходной сигнал блока обработки y[n] методом сложения с перекрытием.

Компрессор-ограничитель уровня выходного сигнала блока обработки y[n] имеет два входа - спектр полезного сигнала x[n] и спектр сигнала шума v[n]. На выходе блока обработки имеем сигнал y[n] с измененной амплитудой - сигнал на входе громкоговорителя, который воспринимает «Слушатель» (фиг. 1). Обработка сигналов полезного x[n] и шума v[n] в блоке обработки ведется последовательно - фрейм за фреймом.

Шаг 1. Вычисляются средние значения спектральной плотности мощности речевого (полезного) сигнала x[n] и шума v[n], обозначенные соответственно и :

где α_s, α_N∈[0,1] являются коэффициентами экспоненциального усреднения и рекомендуется использовать следующие значения α_S=0,996 и α_N=0,96.

Шаг 2. Вычисляются коэффициенты усиления

где ξ - заданное минимальное соотношение сигнал/шум и G_max - ограничение максимального усиления.

Шаг 3. Ограничение максимальной амплитуды спектральных составляющих выходного сигнала y[n] для предотвращения превышения болевого порога

где - максимально допустимые значения амплитуды спектральных составляющих.

Описанный выше способ позволяет повысить разборчивость речи - полезного сигнала x[n], но без учета комфорта восприятия, естественности и натуральности звучания выходного сигнала y[n] на фоне шумов. В результате данное решение применимо в каналах речевой связи, однако неприменимо для прослушивания при внешнем шуме музыкальных произведений, таких как музыка с речевым сопровождением, например песни, или без речевого сопровождения, например пьесы, симфонии и т.п. В известном способе предполагается, что требуемая разборчивость получается при достижении некоторого заданного минимального соотношения сигнал/шум для всех звуков слышимого динамического диапазона. Для чего используется компрессор-ограничитель минимального выходного уровня сигнала y[n] (фиг. 4). Использование ограничителя минимального выходного уровня сигнала y[n] с постоянным выходным уровнем в области ограничения (фиг. 4, точка К на амплитудной характеристике компрессора-ограничителя является точкой перегиба характеристики) приводит к потере натуральности звучания, поскольку в области ограничения теряется градация тихих звуков - на выходе все звуки становятся одной интенсивности. В то же время для сохранения динамических оттенков и повышения натуральности звучания необходимо использовать изменяющийся (от тихого к громкому) выходной уровень в области ограничения.

Можно отметить, что в этом техническом решении усиление каждого частотного отсчета спектра сигнала x[n] выполняется независимо друг от друга. Это приводит к потере относительной громкости между частотными составляющими сигнала, теряется форма его спектральной огибающей и в результате сильно искажается тембр, как показано на фиг. 5.

Спектральный анализ полезного сигнала x[n] и шума v[n] в данном способе выполняется с равным частотным разрешением по всей шкале частот (обусловлено применением дискретного преобразования Фурье) без учета особенностей частотного разрешения слуховой системы слушателя.

Таким образом, этот известный способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке заключается в том, что полезный сигнал x[n], поступающий в блок обработки, и шумовой v[n] сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы длиной по N отсчетов с перекрытием в половину длины фрейма, где N - размер фрейма, а n - номер отсчета сигнала во фрейме, n=1, 2…N, обработку фреймов производят в блоке обработки фрейм за фреймом, каждый фрейм умножают на окно Хэннинга и производят декомпозицию полезного сигнала x[n] и шумового сигнала v[n] акустической обстановки на частоты и амплитуды путем дискретного преобразования Фурье, в результате чего формируют кратковременные спектральные зависимости полезного сигнала и шумового сигнала акустической обстановки, изменяют динамический диапазон полезного сигнала и шумового сигнала акустической обстановки в компрессоре блока обработки, для чего кратковременные спектральные зависимости полезного сигнала x[n] умножают на коэффициенты усиления g[n]≥1, обеспечивающие заданное соотношение сигнал/шум для каждого частотного отсчета n, после изменения динамического диапазона производят композицию измененных кратковременных спектральных зависимостей полезного сигнала путем обратного преобразования Фурье, получая скорректированные фреймы, из которых формируют путем сложения с перекрытием выходной сигнал y[n], который из блока обработки передают в окружающее пространство.

Раскрытие изобретения

Решаемая изобретением задача - повышение технико-эксплуатационных характеристик, расширение функциональных возможностей мобильных мультимедийных устройств (смартфонов и планшетов), мультимедийных воспроизводящих устройств, систем видеоконференций, громкой связи, IP - телефонии, колл-центров, усовершенствование слуховых аппаратов, корректирующих звуковой сигнал (во время телефонного разговора и при прослушивании аудиоконтента) в агрессивной акустической шумовой обстановке.

Технический результат, который может быть получен при реализации способа, - повышение разборчивости и натуральности звучания аудиокомпозиции при прослушивании в акустической шумовой обстановке за счет снижения эффекта маскирования полезного звукового сигнала нестационарными акустическими шумами при помощи использования частотно-зависимого адаптивного усиления.

Для решения поставленной задачи с достижением указанного технического результата в известном способе повышения разборчивости и информативности звуковых сигналов в шумовой обстановке, заключающемся в том, что полезный сигнал x[n], поступающий в блок обработки, и шумовой сигнал v[n] акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы длиной по N отсчетов, где N - размер фрейма, an- номер отсчета сигнала во фрейме, n=1, 2…N, обработку фреймов производят в блоке обработки фрейм за фреймом, производят декомпозицию полезного сигнала x[n] и шумового сигнала v[n] акустической обстановки, в компрессоре блока обработки изменяют динамический диапазон полезного сигнала x[n] шумового сигнала v[n] акустической обстановки в компрессоре блока обработки, после изменения динамического диапазона производят композицию полезного сигнала, получая скорректированные фреймы, из которых формируют путем сложения выходной сигнал y[n], который из блока обработки передают в окружающее пространство, согласно изобретению в блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию субполос полезного сигнала, при субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала x[n] и сигнала шума v[n] акустической обстановки для расчета коэффициентов усиления в каждой субполосе, в качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона, которым изменяют динамический диапазон полезного сигнала, для чего сигналы в субполосах полезного сигнала умножают на коэффициенты усиления в соответствии с амплитудной характеристикой адаптивного компрессора динамического диапазона в каждой субполосе, при этом положение точки перегиба на амплитудной характеристике адаптивного компрессора динамического диапазона, разделяющей динамический диапазон полезного сигнала на область компрессии и на область - без усиления, обуславливают уровнем энергии субполосного сигнала шума акустической обстановки, и в соответствии с амплитудной характеристикой области компрессии адаптивного компрессора динамического диапазона в каждой субполосе полезного сигнала определяют коэффициент усиления на основе уровня энергии субполосных сигналов полезного сигнала, после субполосной композиции банками фильтров синтеза измененных амплитудных зависимостей полезного сигнала из скорректированных фреймов формируют путем сложения со стыковкой выходной сигнал y[n].

Возможны дополнительные варианты осуществления способа, в которых целесообразно, чтобы:

- в качестве банка фильтров использовали М-канальный неравнополосный косинусно-модулированный банк фильтров;

- для устранения артефактов в выходном сигнале в блоке обработки для каждого фрейма полезного сигнала выполняли интерполяцию коэффициентов усиления адаптивного компрессора динамического диапазона с задержкой на размер фрейма обработки, причем состыкованные для соседних фреймов коэффициенты усиления представляют в виде кусочно-линейной функции, получая плавную регулировку уровня громкости выходного сигнала блока обработки.

Таким образом, существенными отличиями заявленного способа является то, что:

- декомпозицию полезного сигнала x[n] и шумового v[n] сигнала производят не путем дискретного преобразования Фурье, а композицию (синтез) не обратным преобразованием Фурье, а банками фильтров анализа и банками фильтров синтеза, которыми производят субполосную обработку,

- используют не компрессор-ограничитель уровня выходного сигнала y[n], а адаптивный компрессор динамического диапазона, в котором положение точки K перегиба на его амплитудной характеристике компрессора, разделяющей динамический диапазон входного сигнала x[n] на область компрессии и на область - без усиления, обуславливают уровнем энергии шумового сигнала v[n];

- выходной сигнал y[n] формируют не путем сложения с перекрытием из скорректированных фреймов, а их сложением со стыковкой.

Достоинством предложенного способа повышения разборчивости и информативности звуковых сигналов в шумовой обстановке является улучшение восприятия различных звуковых (в том числе речевых) сигналов на фоне акустических шумов v[n], причем сохранение натуральности и естественности звучания является основным преимуществом. При обработке усиливаются лишь те фрагменты полезного сигнала x[n], которые маскируются шумом v[n]. В полной тишине в полезный сигнал x[n] не вносится никаких изменений. Динамический диапазон полезного сигнала x[n] сужается при помощи адаптивного (к шуму) компрессора. В результате обеспечивается хорошая слышимость в полезном сигнале x[n] как изначально тихих, так и громких звуков без превышения допустимой громкости и с сохранением относительных градаций от тихого к громкому. Субполосная декомпозиция полезного сигнала x[n] и шума v[n] выполняется на основе банка фильтров (неравнополосного), адаптированного к неравномерной частотной шкале слухового восприятия. Обработка во временной области, а не в частотной, как в ближайшем аналоге, обеспечивает сохранение оригинальной формы спектральной огибающей сигнала в каждой из частотных полос банка фильтров, в отличие от ближайшего аналога, где осуществляется переход в частотную область и обратно на основе дискретного преобразования Фурье. Энергия выходного сигнала y[n] непосредственно зависит от энергии шума v[n], что позволяет обеспечить хорошую слышимость звука даже при очень низких соотношениях сигнал/шум. Усиление полезного сигнала x[n] выполняется в соответствии с кратковременными спектральными и динамическими характеристиками шума v[n], что делает изложенный способ пригодным для использования в условиях нестационарных шумов v[n].

Краткий перечень чертежей

Фиг. 1 - Схема восприятия акустической информации в шумовой обстановке;

Фиг. 2 - Частотно-временное представление сигнала (спектрограммы): а) чистый речевой сигнал; б) сигнал шума метрополитена; в) сумма сигналов речи и шума для отношения сигнал-шум - 5 дБ;

Фиг. 3 - Амплитудная характеристика компрессора, предшествующий уровень;

Фиг. 4 - Амплитудная характеристика компрессора-ограничителя уровня выходного сигнала y[n], предшествующий уровень;

Фиг. 5 - Входной и выходной спектры полезного акустического сигнала x[n] для случая белого шума v[n], предшествующий уровень;

Фиг. 6 - Субполосная декомпозиция полезного сигнала x[n], шума v[n] и формирование выходного сигнала y[n] в блоке обработки;

Фиг. 7 - Амплитудная характеристика адаптивного компрессора динамического диапазона (АКДД);

Фиг. 8 - Принцип интерполяции коэффициентов g^i-1, g⁽ⁱ⁾ и g⁽ⁱ⁺¹⁾ для получения g⁽ⁱ⁾[n] для соседних фреймов в адаптивном компрессоре динамического диапазона АКДД;

Фиг. 9 - Блок-схема алгоритма работы блока обработки;

Фиг. 10 - Принцип задания неравнополосного банка фильтров на основе деформации частотной оси;

Фиг. 11 - Амплитудно-частотная характеристика неравнополосного 5-канального банка фильтров, аппроксимирующая шкалу критических частотных полос (психоакустическую частотную шкалу Барков);

Фиг. 12 - Частотно-временное представление сигнала (спектрограммы): а) выходной сигнал y[n] на выходе блока обработки; б) шум v[n] метрополитена; в) сигнал, который воспринимает слушатель: сумма выходного сигнала y[n] и шума v[n],

Фиг. 13 - Сравнение среднего значения индекса разборчивости SII для речевых сигналов до и после обработки предложенным способом.

Лучший вариант осуществления изобретения

В блоке обработки (фиг. 1) выполняется субполосная декомпозиция, согласно фигуре 6, полезного сигнала x[n] и сигнала шума v[n], принятого из микрофона. Чтобы учесть спектральные особенности шума v[n] окружающей обстановки и выполнить усиление только тех частотных областей полезного сигнала x[n], которые маскируются шумом, в предлагаемом способе может использоваться неравнополосный косинусно-модулированный банк фильтров. Банк фильтров позволяет выполнить субполосную декомпозицию сигналов схожую с той, которая выполняется улиткой уха человека и, в отличие от ближайшего аналога, осуществлять обработку сигналов во временной области, что позволяет избежать ошибок при переходе из частотной области во временную. Банки фильтров анализа для полезного сигнала x[n] и шумового сигнала v[n] выполнены одинаково. В каждом канале выполняется корректировка громкости для повышения уровня разборчивости и информативности полезного сигнала x[n] с учетом шума v[n] окружающей среды. Для обработки субканальных сигналов используется адаптивный компрессор динамического диапазона (АКДД). В каждом канале обработка ведется независимо. Формирование выходного сигнала y[n] блока обработки (фиг. 1) выполняется с помощью банка фильтров синтеза (фиг. 6). Процесс обработки сигналов полезного x[n] и шума v[n] в блоке обработки (фиг. 1, фиг. 6) ведется фрейм за фреймом.

Адаптивный компрессор динамического диапазона (АКДД) имеет два входа - для полезного сигнала x[n], и сигнала шума v[n], и один выход y[n] - сигнал на входе громкоговорителя, который воспринимает «Слушатель». Целью АКДД является расчет таких коэффициентов усиления g[n], которые не позволят шуму маскировать полезный сигнал во всем частотном диапазоне изменения шумового сигнала v[n]:

y[n]=x[n]·g[n].

Одной из особенностей работы АКДД является то, что для избежания появления артефактов в выходном сигнале y[n] коэффициенты усиления g[n], состыкованные для соседних фреймов, должны представлять собой кусочно-линейную функцию без разрывов. Исходя из этого требования создается специальная характеристика адаптивного к шуму v[n] компрессора динамического диапазона (АКДД), работа которого складывается из следующих шагов:

Шаг 1. Канальные сигналы полезного х⁽ⁱ⁾[n] и шума v⁽ⁱ⁾[n], n=0, 1…N, где i - индекс фрейма, a N - размер фрейма (число отсчетов сигнала во фрейме) поступают на входы соответствующих АКДД (фиг. 6).

Шаг 2. В АКДД для шумового сигнала v⁽ⁱ⁾[n] сохраняется значение уровня энергии шума для предыдущего кадра , новое значение уровня энергии шума рассчитывается следующим образом:

, где 0<ε<1 коэффициент экспоненциального усреднения, величина которого определяет скорость сходимости процедуры усреднения.

Шаг 3. Значение используется для корректировки амплитудной характеристики АКДД (фиг. 7).

Положение точки перегиба K амплитудной характеристики АКДД (фиг. 7) меняется в зависимости от текущего уровня шума X_nos для каждого фрейма. Если уровень шума X_nos увеличивается, то точка K смещается вверх по диагонали (обозначенной пунктирной линией на фигуре 7 самым мелким штрих пунктиром). Если уровень энергии входного сигнала выше X_nos+ΔG, то в АКДД не происходит усиления сигнала, в противном случае уровень энергии выходного сигнала блока обработки рассчитывается, используя нижнее колено амплитудной характеристики АКДД (расположенное в области компрессии). Константы ΔG и ΔR являются настроечными параметрами и характеризуют степень вносимого эффекта компрессии. Параметры подбираются исходя из характеристик микрофона, используемого для регистрации шума и, например, если полезный сигнал x[n] - сигнал проигрывателя, качества записи данного сигнала.

Шаг 4. Определяется для i-го фрейма полезного сигнала x[n] коэффициент усиления (целевой). При этом в АКДД рассчитывается уровень энергии фрейма полезного сигнала x[n].

Это значение используется для расчета уровня выходного сигнала y[n]:

где - амплитудная характеристика АКДД (фиг. 7).

Коэффициент усиления определяется для i-го фрейма следующим образом:

Шаг 5. Выполняется интерполяция коэффициентов усиления g[n] для получения "плавной" регулировки уровня громкости выходного сигнала y[n].

Коэффициент g⁽ⁱ⁾ связывается с серединой фрейма, поэтому для расчета всех коэффициентов g⁽ⁱ⁾[n] необходимо знать значение коэффициента усиления для следующего фрейма g⁽ⁱ⁺¹⁾. Это приводит к тому, что в АКДД вносится задержка на размер фрейма, т.е. для того, чтобы рассчитать усиление текущего фрейма, нужно дождаться следующего фрейма, поэтому обработать и вывести текущий фрейм можно только с опозданием на один на фрейм сигнала. На фиг. 8 поясняется принцип интерполяции коэффициентов g^i-1, g⁽ⁱ⁾ и g⁽ⁱ⁺¹⁾ для получения g⁽ⁱ⁾[n].

Применяется линейная интерполяция значений коэффициентов усиления на все отсчеты полезного сигнала x[n], попадающие в диапазон между центрами предыдущего и следующего кадров.

Шаг 6. Формирование уровня отсчетов выходного сигнала y[n] блока обработки путем масштабирования уровня отсчетов полезного сигнала x[n] на соответствующий коэффициент g⁽ⁱ⁾[n] для i-го фрейма полезного сигнала x[n]:

Шаг 7. Конец работы АКДД.

Таким образом, алгоритм работы блока обработки следующий (фиг. 9).

При поступлении полезного сигнала x[n] и шумового сигнала v[n] акустической обстановки в блоке принятия решений «Начать обработку композиции?» производится запуск работы по выходу «Да» программного обеспечения блока обработки. В результате производится ввод фреймов полезного сигнала x⁽ⁱ⁾[n] и шумового сигнала v⁽ⁱ⁾[n] акустической обстановки, где i - индекс фрейма, а n - номер отсчета. Далее производится расчет энергии шума V⁽ⁱ⁾. В соответствии со значением энергии шума производится корректировка амплитудной характеристики АКДД. Согласно со скорректированной характеристикой АКДД определяется коэффициент усиления g⁽ⁱ⁾. Далее производится интерполяция коэффициентов усиления g⁽ⁱ⁾[n] для согласования соседних фреймов и устранения артефактов выходного сигнала y⁽ⁱ⁾[n]. Затем коэффициенты усиления g⁽ⁱ⁾[n] применяются к фрейму входного полезного сигнала х⁽ⁱ⁾[n], в результате формируется фрейм выходного сигнала y⁽ⁱ⁾[n], и осуществляется его вывод. В блоке принятия решения «Композиция закончена?» принимается решение по выходу «Да» на окончание работы, а по выходу «Нет» информация передается на ввод следующих фреймов полезного сигнала х⁽ⁱ⁾[n] и шумового сигнала v⁽ⁱ⁾[n] для продолжения обработки.

Субполосная декомпозиция полезного сигнала x[n] и сигнала шума v[n] для расчета маскирующего эффекта шумом v[n] полезного сигнала x[n] может быть эффективно выполнена с использованием 5-канального неравнополосного косинусно-модулированного банка фильтров (НКМБФ), который аппроксимирует шкалу критических частотных полос (психоакустическая частотная шкала Барков) восприятия человеком акустической информации.

Число субполос для реализации предложенного способа определяется качеством формируемого выходного сигнала и вычислительной сложностью реализации банка фильтров. Данный банк фильтров образуется из своего равнополосного аналога путем применения фазового преобразования, т.е. замены всех элементов задержки на фазовые звенья , где z - оператор Z преобразования. M-канальный НКМБФ задается передаточными функциями канальных фильтров анализа H_k(z) и синтеза F_k(z) следующим образом:

где М - число каналов в банке (количество критических частотных полос), , , , k - номер канала банка, - мнимая единица, а верхняя черта означает комплексно-сопряженное число. Здесь H(z) - фильтр нижних частот с конечной импульсной характеристикой (КИХ) порядка N и частотой среза ω_с=π/2М, на основе которого формируются передаточные функции канальных фильтров анализа H_k(z) и синтеза F_k(z). С целью уменьшения вычислительной сложности НКМБФ используется фазовое звено A(z) первого порядка, передаточная функция которого определяется как

, где α - коэффициент передаточной функции фазового звена A(z), определяющий его фазочастотную характеристику:

Замена приводит к деформации оси частот и получению неравнополосного банка фильтров. Как видно из фиг. 10, степень деформации частотной оси зависит от одного параметра α - коэффициента передаточной функции фазового звена A(z), определяющего фазочастотную характеристику данного звена. Регулируя коэффициент α, можно изменять ширину полос банка фильтров (фиг. 10). В предложенном способе использовался 5-канальный НКМБФ. Банк фильтров аппроксимирует шкалу Барков; деформация частотной оси задается выбором коэффициента α=0,7452, амплитудно-частотная характеристика которого показана на фиг. 11, причем все пять субполосных фильтров, обозначенные на фиг. 11 как 1, 2, …, 5 обеспечивают ослабление в полосе непропускания не менее -70 дБ. При этом погрешность восстановления сигнала банком синтеза не более 0,001 дБ для коэффициентов децимации/интерполяции в каналах банков анализа/синтеза со следующими значениями {21,7,3,1,1}.

Был проведен эксперимент по повышению разборчивости полезного сигнала x[n] в агрессивной шумовой обстановке для варианта, когда полезный сигнал x[n] является речевым и шумовой сигнал v[n] акустической обстановки - шум метро (согласно фиг. 2). При этом частота дискретизации была задана 44,1 кГц. Шумовой сигнал v[n] акустической обстановки и его спектрограмма показаны на фиг. 126). На фиг. 12в) проиллюстрирован полученный эффект предложенного способа. Как видно из фиг. 12а) полезный сигнал х[n] на выходе блока обработки - выходной сигнал y[n] не имеет никаких артефактов при отсутствии шумового сигнал v[n]. Анализ спектрограммы (фиг. 12в) сигнала на выходе громкоговорителя, который представляет собой сумму выходного сигнала y[n] и шума v[n], и который воспринимает слушатель, показывает, что полезный сигнал х[n] (речевой сигнал) можно идентифицировать после обработки согласно предлагаемому способу (для сравнения см. фиг. 2в). Таким образом, полезный сигнал х[n] продолжает быть слышимым даже при высокой интенсивности шумового сигнала v[n] акустической обстановки. В приведенном примере отношение сигнал - шум равно 5 дБ.

Предложенный способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке экспериментально проверялся при различных отношениях сигнал шум (ОСШ), во всех случаях измерялась разборчивость речевого сигнала (измерялся индекс разборчивости SII) на фоне шумового сигнала v[n] для метрополитена разной интенсивности до обработки, когда выходной сигнал у[n] равнялся полезному сигналу x[n] и после обработки банками фильтров и АКДД (фиг. 6). Полученные результаты экспериментов изображены на фиг. 13.

В агрессивной шумовой обстановке (ОСШ < -20 дБ) предложенный способ обеспечивает удовлетворительную разборчивость, а при снижении интенсивности шума (ОСШ > 0 дБ) - хорошую. Необработанный сигнал имеет заметно меньшую разборчивость для ОСШ < 0 дБ и становится неразборчивым уже при ОСШ < -10 дБ.

При расчете среднего значения индекса разборчивости SII анализируется эквивалентный уровень спектра речевого сигнала x[n] и эквивалентный уровень спектра шумового сигнала v[n] в каждой из критических полос, вносящих вклад в разборчивость. Эквивалентный уровень рассчитывается, как усредненная по времени мощность сигнала в критической полосе, поделенная на ширину полосы. Поскольку в рассмотренном способе раздельно доступна обработка полезного сигнала х[n] и шумового сигнала v[n], то SII можно вычислить достаточно легко. Величина SII принимает значение от 0 до 1. Если SII больше 0,75, то разборчивость считается хорошей, если же SII имеет значение меньше 0,45, то воспринимаемый слушателем сигнал недостаточно разборчив.

Кроме того, заявленный способ экспериментально проверялся при прослушивании музыкальной композиции (песни) в автомобиле с открытыми окнами. Все шумы от дороги, ям, торможения, работы жесткой подвески в выходном сигнале v[n] удаляются, при этом окружающий шум постепенно перестает восприниматься слуховым аппаратом пользователя. Громкость возрастает плавно, звуковое давление комфортное, на слуховой аппарат пользователя изменение громкости значительного влияния не оказывает.

При кратковременном резком увеличении окружающего шума не происходит сбоя алгоритма, ситуация отрабатывается достаточно плавно, скрывая резкое возрастание шума за счет подстройки частот шумового сигнала v[n] и соответственного увеличения громкости полезного сигнала y[n]. Создается полное впечатление прослушивания музыкальной композиции в автомобиле с закрытыми окнами.

Промышленная применимость

Наиболее успешно заявляемый способ для повышения разборчивости и информативности звуковых сигналов в шумовой обстановке, промышленно применим в мобильных мультимедийных устройствах (смартфонах и планшетах), мультимедийных воспроизводящих устройствах, системах видеоконференций, громкой связи, IP - телефонии, колл-центрах, при усовершенствовании слуховых аппаратов, корректирующих звуковой сигнал, во время телефонного разговора и при прослушивании аудиоконтента) в агрессивной акустической шумовой обстановке.

Иллюстрации к изобретению RU 2 589 298 C1

Реферат патента 2016 года СПОСОБ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ И ИНФОРМАТИВНОСТИ ЗВУКОВЫХ СИГНАЛОВ В ШУМОВОЙ ОБСТАНОВКЕ

Изобретение относится к средствам повышения разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке. Технический результат заключается в повышении разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке за счет снижения эффекта маскирования полезного звукового сигнала нестационарными акустическими шумами при помощи использования частотно-зависимого адаптивного усиления. Полезный сигнал, поступающий в блок обработки, и шумовой сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы. В блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию измененных амплитудных зависимостей полезного сигнала после обработки компрессором. При субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала и сигнала шума акустической обстановки. В качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона (АКДД), которым изменяют динамический диапазон полезного сигнала. Сигналы в субполосах полезного сигнала умножают на коэффициенты усиления. 2 з.п. ф-лы, 13 ил.

Формула изобретения RU 2 589 298 C1

1. Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке, заключающийся в том, что полезный сигнал, поступающий в блок обработки, и шумовой сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы, обработку фреймов производят в блоке обработки фрейм за фреймом, производят декомпозицию полезного сигнала и шумового сигнала акустической обстановки, в компрессоре блока обработки изменяют динамический диапазон полезного сигнала и шумового сигнала акустической обстановки, после изменения динамического диапазона производят композицию измененного полезного сигнала, получая скорректированные фреймы, из которых формируют путем сложения выходной сигнал, который из блока обработки передают в окружающее пространство, отличающийся тем, что в блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию измененных субполос полезного сигнала, при субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала и сигнала шума акустической обстановки для расчета коэффициентов усиления в каждой субполосе, в качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона, которым изменяют динамический диапазон полезного сигнала, для чего сигналы в субполосах полезного сигнала умножают на коэффициенты усиления в соответствии с амплитудной характеристикой адаптивного компрессора динамического диапазона в каждой субполосе, при этом положение точки перегиба на амплитудной характеристике адаптивного компрессора динамического диапазона, разделяющей динамический диапазон полезного сигнала на область компрессии и на область - без усиления, обуславливают уровнем энергии субполосного сигнала шума акустической обстановки и в соответствии с амплитудной характеристикой области компрессии адаптивного компрессора динамического диапазона в каждой субполосе полезного сигнала определяют коэффициент усиления на основе уровня энергии субполосных сигналов полезного сигнала, после субполосной композиции банками фильтров синтеза измененных амплитудных зависимостей полезного сигнала из скорректированных фреймов формируют путем сложения со стыковкой выходной сигнал.

2. Способ по п. 1, отличающийся тем, что в качестве банка фильтров используют М-канальный неравнополосный косинусно-модулированный банк фильтров, где М-количество каналов не менее пяти.

3. Способ по п. 1, отличающийся тем, что для устранения артефактов в выходном сигнале в блоке обработки для каждого фрейма полезного сигнала выполняют интерполяцию коэффициентов усиления адаптивного компрессора динамического диапазона с задержкой на размер фрейма обработки, причем состыкованные для соседних фреймов коэффициенты усиления представляют в виде кусочно-линейной функции, получая плавную регулировку уровня громкости выходного сигнала блока обработки.

Документы, цитированные в отчете о поиске Патент 2016 года RU2589298C1

Способ приготовления лака	1924	Петров Г.С.	SU2011A1
ГЕНЕРАТОР ИМПУЛЬСОВ	2000	Воскресенский А.В.	RU2191466C2
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок	1923	Григорьев П.Н.	SU2008A1
US 6876968 B2, 05.04.2005
СИСТЕМА АДАПТИВНОЙ ФИЛЬТРАЦИИ АУДИОСИГНАЛОВ ДЛЯ УЛУЧШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ ПРИ НАЛИЧИИ ШУМА	1996	Торбьерн В. Сельве	RU2163032C2
РАСЧЕТ И РЕГУЛИРОВКА ВОСПРИНИМАЕМОЙ ГРОМКОСТИ И/ИЛИ ВОСПРИНИМАЕМОГО СПЕКТРАЛЬНОГО БАЛАНСА ЗВУКОВОГО СИГНАЛА	2007	Сифельдт Алан Джеффри	RU2426180C2
УСТРОЙСТВО ИЗМЕРЕНИЯ МАКСИМАЛЬНОЙ РАЗБОРЧИВОСТИ РЕЧИ	2005	Железняк Владимир Кириллович	RU2278424C1

RU 2 589 298 C1

Авторы

Вашкевич Максим Иосифович

Азаров Илья Сергеевич

Бредихин Александр Юрьевич

Петровский Александр Александрович

Даты

2016-07-10—Публикация

2014-12-29—Подача

название	год	авторы	номер документа
СПОСОБ КОМПЕНСАЦИИ ПОТЕРИ СЛУХА В ТЕЛЕФОННОЙ СИСТЕМЕ И В МОБИЛЬНОМ ТЕЛЕФОННОМ АППАРАТЕ	2013	Бредихин Александр Юрьевич Вашкевич Максим Иосифович Азаров Илья Сергеевич Петровский Александр Александрович	RU2568281C2
СПОСОБ МОДИФИКАЦИИ ГОЛОСА С ВИЗУАЛЬНОЙ И ЗВУКОВОЙ ОБРАТНОЙ СВЯЗЬЮ	2024	Бредихин Александр Юрьевич Паньшин Игорь Анатольевич	RU2836637C1
ТЕКСТОЗАВИСИМЫЙ СПОСОБ КОНВЕРСИИ ГОЛОСА	2010	Бредихин Александр Юрьевич Петровский Александр Александрович Сергейчев Николай Евгеньевич	RU2427044C1
СПОСОБ ПЕРЕОЗВУЧИВАНИЯ АУДИОМАТЕРИАЛОВ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ	2012	Бредихин Александр Юрьевич	RU2510954C2
СПОСОБ КОДИРОВАНИЯ ШИРОКОПОЛОСНОГО РЕЧЕВОГО СИГНАЛА	2009	Илюшин Михаил Владимирович Басов Олег Олегович Рыболовлев Александр Аркадьевич	RU2419169C1
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБРАБОТКИ ЗВУКОВОГО СИГНАЛА	2010	Ниемисто Риита Элина Брегович Роберт Думитреску Богдан Мюллюла Вилле Микаель	RU2517315C2
СПОСОБ МОДИФИКАЦИИ ГОЛОСА И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ (ВАРИАНТЫ)	2015	Вашкевич Максим Иосифович Азаров Илья Сергеевич Лихачев Денич Сергеевич Бредихин Александр Юрьевич Петровский Александр Александрович	RU2591640C1
СПОСОБ АДАПТИВНОЙ ФИЛЬТРАЦИИ РЕЧЕВЫХ СИГНАЛОВ В СЛУХОВЫХ АППАРАТАХ	1996	Молчанов А.П. Бабкина Л.Н.	RU2111732C1
ЭФФЕКТИВНАЯ ФИЛЬТРАЦИЯ БАНКОМ КОМПЛЕКСНО-МОДУЛИРОВАННЫХ ФИЛЬТРОВ	2006	Виллемоес Ларс	RU2453986C2
ЭФФЕКТИВНАЯ ФИЛЬТРАЦИЯ БАНКОМ КОМПЛЕКСНО-МОДУЛИРОВАННЫХ ФИЛЬТРОВ	2011	Виллемоес Ларс	RU2507678C2