Изобретение относится к способу и устройству для обработки ослабления опережающего эха при декодировании цифрового звукового сигнала.
В передачу цифровых звуковых сигналов по телекоммуникационным сетям, являющимся, например, стационарными или мобильными сетями, или для хранения этих сигналов, вовлечены процессы сжатия (или кодирования источника), реализующие системы кодирования, обычно являющиеся системами временного кодирования, относящиеся к типу линейного предсказания, или частотного кодирования, относящиеся к типу преобразования.
Способ и устройство - предметы изобретения - таким образом, находятся в пределах сжатия звуковых сигналов, в частности, цифровых звуковых сигналов, кодируемых посредством преобразования частот.
Фигура 1 представляет в качестве иллюстрации принципиальную схему кодирования и декодирования цифрового звукового сигнала посредством преобразования, включающую анализ/синтез путем перекрытия/сложения в соответствии с предшествующим уровнем техники.
Некоторые музыкальные последовательности, такие, как ударные инструменты, и некоторые сегменты речи, такие, как взрывные согласные звуки (/k/, /t/ и т.д.) отличаются чрезвычайно резкой атакой, что отражается в очень быстрых переходах и очень сильным изменением динамического диапазона сигнала в интервале нескольких дискретных значений. Пример перехода дан на фигуре 1, начиная от дискретного значения 410.
Для обработки кодирования/декодирования входной сигнал подразделяют на несколько блоков дискретных значений длиной L, границы которого представлены на фигуре 1 вертикальными пунктирными линиями. Входной сигнал обозначен как х(n), где n - индекс дискретного значения. Разбиение на последовательные блоки (или кадры) в результате приводит к определению блоков XN(n)=[x(N.L)…x(N.L+L-1)]=[xN(0)…xN(L-1)], где N - индекс блока (или кадра), L - длина кадра. На фигуре 1 L=160 дискретных значений. В случае модифицированного дискретного косинусного преобразования MDCT, совместно анализируют два блока XN(n) и XN+1(n), что дает блок преобразованных коэффициентов, связанных с кадром с индексом N, а анализирующее окно является синусоидальным.
Деление на блоки, также называемые кадрами, применяемое при кодировании с преобразованием, полностью независимо от звукового сигнала и переходов, которые поэтому могут возникать в любой из точек анализирующего окна. Тогда после декодирования с преобразованием реконструированный сигнал подвергается воздействию «шума» (или искажения), вызванного операцией квантования (Q)/обратного квантования (Q-1). Этот шум кодирования распределен во времени относительно равномерным образом по всей временной среде преобразованного блока, то есть по всей длине окна длиной 2L дискретных значений (с перекрытием в L дискретных значений). Энергия шума кодирования обычно пропорциональна энергии блока и является функцией битовой скорости кодирования/декодирования.
Для блока, содержащего атаку (такого, как блок 320-480 по фигуре 1), энергия сигнала является высокой, и шум поэтому также имеет высокий уровень.
При кодировании с преобразованием уровень шума кодирования, как правило, ниже такового у сигнала для сегментов с высокой энергией, следующих непосредственно за переходом, но этот уровень выше такового у сигнала для сегментов с менее высокой энергией, в особенности, в части, предшествующей переходу (дискретные значения 160-410 по фигуре 1). Для вышеупомянутой части отношение сигнал/шум является отрицательным и результирующее снижение качества может показаться чрезвычайно раздражающим при прослушивании. Опережающее эхо представляет собой наименование, данное шуму кодирования перед переходом, а запаздывающее эхо представляет собой наименование, данное шуму, следующему за переходом.
Как видно на фигуре 1, опережающее эхо оказывает влияние на кадр, предшествующий переходу, а также на кадр, в котором происходит переход.
Психоакустические эксперименты показали, что человеческое ухо выполняет предварительное временное маскирование звуков, являющихся достаточно ограниченными, порядка нескольких миллисекунд. Шум, предшествующий атаке, или опережающее эхо, слышен тогда, когда длительность опережающего эха больше длительности предварительного маскирования.
Человеческое ухо также выполняет последующее маскирование с большей длительностью, от 5 миллисекунд до 60 миллисекунд, при переходе от последовательностей с высокой энергией к последовательностям с низкой энергией. Поэтому величина, или уровень, неудобства, допустимая для запаздывающего эха, является более высокой, чем для опережающего эха.
Более критично, явление опережающего эха становится тем более раздражающим, когда значимой является длина блоков в выражении количества дискретных значений. Так, хорошо известно, что при кодировании с преобразованием для стационарных сигналов, чем больше увеличивается длина преобразования, тем больше становится эффективность кодирования. При фиксированной частоте дискретизации и при фиксированной битовой скорости передачи данных, если увеличивается количество точек окна (то есть длина преобразования), то будет больше битов, приходящихся на кадр, для кодирования частотных лучей, считающихся психоакустической моделью полезными, и отсюда преимущество использования блоков большой длины. Кодирование MPEG ААС (Перспективное звуковое кодирование), например, использует окно большой длины, содержащее фиксированное количество дискретных значений, 2048, т.е. 64 мс по длительности, если частота дискретизации составляет 32 кГц; здесь проблемой опережающего эха управляют, делая возможным переключение от этих длинных окон к 8 коротких окон через промежуточные окна (называемые переходными окнами), что требует некоторой задержки при кодировании для обнаружения присутствия перехода и адаптации окон. Длина этих коротких окон поэтому составляет 256 дискретных значений (8 мс при 32 кГц). При низкой битовой скорости передачи данных по-прежнему можно получить слышное опережающее эхо в несколько мс. Переключение окон делает возможным ослабление опережающего эха, но не его устранение. Кодеры с преобразованием для разговорных приложений, такие, как ITU-T G.722.1, G.722.1C или G.719, часто используют длину кадра 20 мс и окно с длительностью 40 мс при 16, 32 или 48 кГц (соответственно). Можно отметить, что кодер ITU-T G.719 содержит механизм переключения окон с обнаружением переходных процессов, однако при низкой битовой скорости передачи данных (как правило, 32 кбит/с) опережающее эхо уменьшается не полностью.
Для того чтобы уменьшить вышеупомянутое раздражающее воздействие явления опережающего эха, были предложены различные решения на уровне кодера и/или декодера.
Уже было упомянуто переключение окон; оно влечет за собой передачу вспомогательной информации для идентификации типа окон, используемых в текущем кадре. Другое решение состоит в применении адаптивной фильтрации. В зоне, предшествующей атаке, реконструируемый сигнал рассматривают как сумму исходного сигнала и шума квантования.
Соответствующая методика фильтрации была описана в статье, озаглавленной «High Quality Audio Transform Coding at 64 kbits», IEEE Trans, on Communications, T. 42, №11, ноябрь 1994 г., опубликованной Y. Mahieux и J.P. Petit.
Реализация такой фильтрации влечет за собой знание параметров, некоторые из которых, такие, как коэффициенты предсказания и дисперсия сигнала, искаженного опережающим эхом, оцениваются в декодере исходя из дискретных значений, содержащих шум. В отличие от этого, такая информация, как энергия исходного сигнала может быть известна только кодеру и, следовательно, должна передаваться. Это влечет за собой передачу дополнительной информации, что, при условии ограниченной битовой скорости передачи данных, уменьшает относительный ресурс, выделенный кодированию с преобразованием. Если принятый блок содержит резкое изменение динамического диапазона, к нему применяется обработка фильтрации.
Вышеупомянутый процесс фильтрации не делает возможным отыскание исходного сигнала, но обеспечивает сильное уменьшение опережающего эха. Однако это влечет за собой передачу декодеру дополнительных параметров.
В отличие от предыдущих решений, были предложены методики уменьшения опережающего эха без специальной передачи информации. Например, в статье В. , S. Ragot, М. Gartner, Н. Taddei, «Рrе-echo reduction in the ITU-T G.729.1 embedded coder», EUSIPCO, Лозанна, Швейцария, август 2008 г., представлен обзор уменьшения опережающего эха в контексте иерархического кодирования.
Типичный пример способа ослабления опережающего эха в отсутствие вспомогательной информации описан в заявке на патент Франции №08 56248. В этом примере коэффициенты ослабления определяют для подблока в подблоках с низкой энергией, предшествующих подблоку, в котором обнаружен переход или атака.
Коэффициент ослабления g(k) в k-м подблоке вычисляют, например, как функцию отношения между энергией подблока с самой сильной энергией и энергией рассматриваемого k-го подблока.
где - убывающая функция со значениями от 0 до 1, и k - номер подблока. Возможны и другие функции коэффициента g(k) например, такие, как функция энергии En(k) в текущем подблоке и энергии En(k-1) в предыдущем подблоке.
Если в подблоках, рассматриваемых в текущем кадре, энергия подблоков мало изменяется относительно максимальной энергии, то ослабление не является необходимым; коэффициенту g(k) присваивают значение коэффициента ослабления, запрещающее ослабление, то есть 1. Иначе коэффициент ослабления лежит между 0 и 1.
В большинстве случаев, прежде всего, когда опережающее эхо является раздражающим, кадр, предшествующий кадру с опережающим эхом, имеет равномерную энергию в сегменте с низкой энергией (как правило, фоновый шум). Исходя из опыта, ни полезным, ни даже желательным для энергии сигнала после обработки ослабления опережающего эха не является ее становление менее высокой, чем средняя энергия (приходящаяся на подблок) сигнала, предшествующего зоне обработки - как правило, чем таковая для предыдущего кадра, обозначаемая или таковая для второй половины предыдущего кадра, обозначаемая
Для подблока с индексом к, подлежащего обработке, можно вычислить предельное значение коэффициента ослабления, обозначаемое limg(k) для того, чтобы получить в точности такую же энергию, как средняя энергия, приходящаяся на подблок из сегмента, предшествующего подблоку, подлежащему обработке. Это значение, разумеется, ограничено, максимумом, равным 1, поскольку оно представляет значения ослабления, представляющие здесь интерес. Конкретнее, здесь определено следующее:
где средняя энергия предыдущего сегмента аппроксимирована значением
Полученное таким образом значение limg(k) служит нижним пределом при окончательном вычислении коэффициента ослабления для подблока, и поэтому его используют следующим образом:g(k)=max(g(k),lomg(k))
Коэффициенты ослабления (или коэффициенты передачи) g(k) определенные для подблоков, можно затем сгладить посредством сглаживающей функции, применяемой для дискретных значений одно за другим во избежание резких изменений коэффициента ослабления на границах блоков.
Например, можно сначала определить коэффициент передачи для дискретного значения как кусочно-постоянную функцию:
gpre(n)=g(k), n=kL', …, (k+1)L'-1,
где L' представляет длину подблока.
Эту функцию затем сглаживают в соответствии со следующим уравнением:
gpre(n):=αgpre(n-1)+(1-α)gpre(n), n=0, …, L-1
где условие gpre(-1) - это последний коэффициент передачи, полученный для последнего дискретного значения предыдущего подблока, α - коэффициент сглаживания, как правило, α=0,85.
Также возможны и другие сглаживающие функции, такие, как, например, линейный плавный переход по u дискретных значений:
где - несглаженное ослабление, и gpre(n) - сглаженное ослабление, при n=-(u-1), …, -1 - это последние u-1 коэффициентов ослабления, полученные для последних дискретных значений предыдущего подблока. Можно, например, принять u=5.
Когда коэффициенты gpre(n) вычислены таким образом, ослабление опережающего эха на сигнале, реконструируемом в текущем кадре, xrec(n), осуществляют путем умножения каждого дискретного значения на соответствующий коэффициент:
Xrec,g(n)=gpre(n)xrec(n) n=0, …, L-1
где xrec,g(n) - сигнал, декодируемый и подвергаемый постобработке посредством уменьшения опережающего эха.
Фигуры 2 и 3 иллюстрируют реализацию способа ослабления так, как это описано в вышеупомянутой и ранее подытоженной патентной заявке на предшествующем уровне техники.
В этих примерах сигнал дискретизирован при 32 кГц, длина кадра L=640 дискретных значений, и каждый кадр разделен на 8 подблоков по К=80 дискретных значений.
В части а) фигуры 2 представлен кадр исходного сигнала, дискретизированный при 32 кГц. Атака (или переход) в сигнале расположен в подблоке, начинающемся под индексом 320. Этот сигнал был закодирован кодером с преобразованием MDCT типа с низкой битовой скоростью передачи данных (24 кбит/с).
В части b) фигуры 2 проиллюстрирован результат декодирования без обработки опережающего эха. Опережающее эхо можно наблюдать, начиная от дискретного значения 160 в подблоках, предшествующих подблоку, содержащему атаку.
Часть с) показывает тенденцию коэффициента ослабления опережающего эха (непрерывная линия), полученную по способу, описанному в вышеупомянутой патентной заявке на предшествующем уровне техники. Пунктирная линия представляет этот коэффициент перед сглаживанием. Следует отметить, что положение атаки оценено около дискретного значения 380 (в блоке, ограниченном дискретными значениями 320 и 400).
Часть d) иллюстрирует результат декодирования после применения обработки опережающего эха (умножения сигнала b) на сигнал с)). Как видно, на самом деле, опережающее эхо не было ослаблено. Фигура 2 также показывает, что сглаженный коэффициент не возвращается к 1 в момент атаки, что предполагает уменьшение амплитуды атаки. Воспринимаемое воздействие этого уменьшения является очень небольшим, но его, тем не менее, можно избежать. Фигура 3 иллюстрирует тот же пример, что и фигура 2, в котором перед сглаживанием коэффициент ослабления был принудительно приравнен 1 для нескольких дискретных значений подблока, предшествующего подблоку, в котором расположена атака. Часть с) фигуры 3 приводит один из примеров такой коррекции.
В этом примере значение коэффициента 1 было задано для последних 16 дискретных значений подблока, предшествующего атаке, начиная с индекса 364. Таким образом, функция сглаживания постепенно увеличивает коэффициент так, чтобы он имел значение 1 в момент атаки. Тогда амплитуда атаки сохраняется, что проиллюстрировано в части d) по фигуре 3, однако несколько дискретных значений опережающего эха не ослабляются.
В примере по фигуре 3 уменьшение опережающего эха посредством ослабления не делает возможным уменьшение опережающего эха до уровня атаки по причине сглаживания коэффициента передачи.
Другой пример с теми же установками, что и на фигуре 3, проиллюстрирован на фигуре 4. Эта фигура представляет два кадра для того, чтобы лучше показать сущность сигнала перед атакой. Здесь энергия исходного сигнала перед атакой является более сильной (часть а)), чем в случае, иллюстрируемом фигурой 3, а сигнал перед атакой является слышным (дискретные значения 0-850). В части b), в зоне 700-850 можно наблюдать опережающее эхо на сигнале, декодированном без обработки опережающего эха. В соответствии с разъясненной выше процедурой ограничения ослабления, энергия сигнала в зоне опережающего эха ослабляется до средней энергии сигнала, предшествующего зоне обработки. В части с) видно, что коэффициент ослабления, вычисленный с учетом ограничения энергии, близок к 1, и что в части d) после применения умножения на обработку опережающего эха (умножения сигнала b) на сигнал с)) опережающее эхо по-прежнему присутствует, несмотря на надлежащую регулировку уровня сигнала в зоне опережающего эха. Это опережающее эхо, фактически, можно четко различить на форме сигнала, где видно, что на сигнал в этой зоне наложена высокочастотная составляющая.
Высокочастотная составляющая является четко слышной и раздражающей, а атака является менее четкой (часть d) фигуры 4).
Объяснение этого явления таково: в случае очень резкой, импульсивной атаки (такой, как показанная на фигуре 4), спектр сигнала (в кадре, содержащем эту атаку), является более белым и поэтому также содержит много высоких частот. Поэтому шум квантования также является рассеянным, относительно плоским по частотам (белым) и состоящим из высоких частот, что не так в случае сигнала, предшествующего зоне опережающего эха. Поэтому происходит резкое изменение в спектре при переходе от одного кадра к другому, что в результате приводит к слышному опережающему эху, несмотря на то, что энергия была задана на надлежащем уровне.
Это явление еще раз представлено на фигурах 5а и 5b, которые, соответственно, показывают спектрограммы исходного сигнала на фигуре 5а, соответствующего сигналу, представленному в части а) фигуры 4, и спектрограмму сигнала с ослаблением опережающего эха в соответствии с предшествующим уровнем техники на фигуре 5b, соответствующей сигналу, представленному в части d) фигуры 4.
В заключенной в рамку части на фигуре 5b четко видно по-прежнему слышное опережающее эхо.
Поэтому существует потребность в усовершенствованной методике ослабления опережающего эха при декодировании, делающей возможным ослабление нежелательных высоких частот и, в более общем смысле, паразитного опережающего эха точно, универсально и в отсутствие какой-либо вспомогательной информации, передаваемой кодером.
Настоящее изобретение улучшает ситуацию, имеющуюся на предшествующем уровне техники.
С этой целью, настоящее изобретение рассматривает способ обработки ослабления опережающего эха в цифровом звуковом сигнале, декодированном в соответствии с декодированием с преобразованием. Этот способ таков, что он включает следующие этапы:
- разложение декодированного сигнала на, по меньшей мере, два подсигнала в соответствии с предварительно определенным критерием разложения;
- вычисление коэффициентов ослабления, приходящегося на подсигнал и на дискретное значение из предварительно определенной зоны опережающего эха;
- ослабление опережающего эха в зоне опережающего эха каждого из подсигналов путем применения к подсигналам коэффициентов ослабления; и
- получение подвергнутого ослаблению сигнала путем объединения подвергнутых ослаблению подсигналов.
Таким образом, указанный способ делает возможным точное управление ослаблением, подлежащим применению к каждому из подсигналов. Эти подсигналы содержат составляющие, служащие признаками особых характеристик декодированного сигнала в соответствии с выбранным критерием разложения. Таким образом, можно адаптировать величину ослабления, подлежащего применению к этим различным характеристикам. Тогда ослабление опережающего эха в этом декодированном сигнале является более точным и более эффективным.
Различные частные варианты осуществления, упоминаемые ниже в данном документе, можно добавлять в этапы оговоренного выше способа независимо или в сочетании друг с другом.
В первом варианте осуществления предварительно определенным критерием является частотный критерий.
Таким образом, ослабление точно адаптируют к частотным характеристикам декодированного сигнала.
В одном из частных вариантов осуществления разложение декодированного сигнала для получения первого подсигнала выполняют путем первой фильтрации прохождения нижних частот или верхних частот.
Поэтому первый подсигнал содержит низкочастотные составляющие в случае фильтрации прохождения нижних частот или высокочастотные составляющие - в случае фильтрации прохождения верхних частот. Ослабление для этого первого подсигнала адаптируется к его частотным составляющим.
В соответствии с одним из возможных вариантов осуществления, разложение сигнала для дальнейшего получения второго подсигнала выполняют путем второй фильтрации прохождения верхних частот или нижних частот, дополняющей первую фильтрацию.
Поэтому второй подсигнал содержит высокочастотные составляющие в случае дополнительной фильтрации прохождения верхних частот или низкочастотные составляющие - в случае дополнительной фильтрации прохождения нижних частот. Ослабление для этого, второго подсигнала также адаптируется к его частотным составляющим.
В соответствии с другим возможным вариантом осуществления, второй подсигнал получают путем вычитания первого подсигнала из декодированного сигнала с тем, чтобы избежать второй фильтрации для получения второго подсигнала. Это, таким образом, уменьшает сложность этапа разложения в этом способе.
В частности, фильтрация представляет собой фильтрацию с конечной импульсной характеристикой и с нулевой фазой передаточной функции:
c(n)z-1+(1-2с(n))+c(n)z,
где с(n) - коэффициент, лежащий между 0 и 0,25.
Этот тип фильтрации обладает низкой сложностью.
В одной из разновидностей вариантов осуществления разложение декодированного сигнала выполняют путем фильтрации QMF и PQMF для получения подсигналов в подполосах.
Таким образом, получают несколько подсигналов, при этом каждый подсигнал представлен в отличающейся полосе частот. Результирующее ослабление, таким образом, делает возможным учет спектрального распределения опережающего эха. Затем ослабление адаптируют к этим спектральным характеристикам.
Во втором варианте осуществления предварительно определенным критерием является критерий периодичности сигнала.
В этом варианте осуществления ослабление адаптируют к характеристикам периодичности сигнала. Например, первый подсигнал содержит периодичные составляющие синусоидального типа, а второй подсигнал содержит составляющие шума.
В соответствии с одним из возможных вариантов осуществления, зону опережающего эха определяют в соответствии со следующими этапами:
- обнаружение положения атаки в декодированном сигнале перед этапом разложения;
- определение зоны опережающего эха, предшествующей обнаруженному положению атаки, в декодированном сигнале перед этапом разложения или в подсигналах после этапа разложения.
Таким образом, этап обнаружения положения атаки является объединенным для всех подсигналов и, таким образом, делает возможным уменьшение сложности обработки. Этап определения зоны опережающего эха также можно объединять в интересах низкой сложности, или его можно осуществлять в подсигналах для хорошего компромисса между низкой сложностью и адаптацией сигнала.
В соответствии с другим возможным вариантом осуществления, зону опережающего эха определяют в соответствии со следующими этапами:
- обнаружение положения атаки в каждом из подсигналов, полученных после этапа разложения;
- определение зоны опережающего эха, предшествующей положению атаки, обнаруженному в каждом из подсигналов.
Обнаружение положения атаки можно выполнять по-разному в соответствии с подсигналом, к которому его применяют. Это делает возможной наилучшую адаптацию обнаружения в зависимости от подсигнала в ущерб большей сложности обработки.
Для того чтобы дополнительно упростить способ в соответствии с одним из вариантов осуществления изобретения, для, по меньшей мере, одного сигнала вычисление коэффициента ослабления выполняют, используя, по меньшей мере, один параметр из этапа обнаружения положения атаки в декодированном сигнале.
Фактически, это может быть случай подсигнала, содержащего низкочастотные составляющие, которые обычно содержат намного больше энергии, чем высокочастотные составляющие, и тогда энергии, приходящиеся на подблок декодированного сигнала, xrec(n), и подсигнала, главным образом, содержащего низкочастотные составляющие, xrec,ss1(n), будут очень близки. Поэтому для вычисления коэффициента ослабления подсигнала нет необходимости в повторном вычислении энергий подблоков, поскольку для этого сигнала значения энергии, приходящейся на подблок, уже вычислены при обнаружении атак.
В одном из частных вариантов осуществления к, по меньшей мере, одному подсигналу применяют этап сглаживания коэффициента ослабления.
Сглаживание делает возможным избегание резких изменений коэффициента ослабления на границах блоков дискретных значений.
В одном из преимущественных вариантов осуществления коэффициент ослабления принудительно приравнивают 1 для предварительно определенного количества дискретных значений, предшествующих началу атаки.
Таким образом, в момент атаки коэффициент ослабления имеет значение 1, что делает возможным сохранение амплитуды атаки.
Также изобретение относится к устройству для обработки ослабления опережающего эха в цифровом звуковом сигнале, декодированном в декодере с преобразованием. Это устройство таково, что оно содержит:
- модуль для разложения декодированного сигнала на, по меньшей мере, два подсигнала в соответствии с предварительно определенным критерием разложения;
- модуль для вычисления коэффициентов ослабления, приходящихся на подсигнал и на дискретное значение из предварительно определенной зоны опережающего эха;
- модуль для ослабления опережающего эха в зоне опережающего эха для каждого из подсигналов путем применения коэффициентов ослабления к этим подсигналам;
- модуль для получения подвергнутого ослаблению сигнала путем объединения подвергнутых ослаблению подсигналов.
Преимущества этого устройства являются такими же, как описанные для способа обработки ослабления, который оно реализует.
Изобретение нацелено на декодер цифрового звукового сигнала, содержащий вышеописанное устройство.
Изобретение также нацелено на компьютерную программу, содержащую кодированные команды для реализации этапов описанного ранее способа, когда эти команды исполняет процессор.
Наконец, изобретение относится к носителю данных, пригодному для считывания процессором, встроенному или не встроенному в устройство обработки данных, возможно, сменному, хранящему в памяти компьютерную программу, реализующую описанный ранее способ обработки данных.
Другие характерные признаки и преимущества изобретения станут более ясными и очевидными при прочтении нижеследующего описания, данного исключительно в качестве одного из неограничивающих примеров, и со ссылкой на приложенные графические материалы, в которых:
- фигура 1, ранее описанная, иллюстрирует систему кодирования/декодирования с преобразованием в соответствии с предшествующим уровнем техники;
- фигура 2, ранее описанная, иллюстрирует один из примеров цифрового звукового сигнала, для которого выполняют способ ослабления в соответствии с предшествующим уровнем техники;
- фигура 3, ранее описанная, иллюстрирует другой пример цифрового звукового сигнала, для которого выполняют способ ослабления в соответствии с предшествующим уровнем техники;
- фигура 4, ранее описанная, иллюстрирует еще один пример цифрового звукового сигнала, для которого выполняют способ ослабления в соответствии с предшествующим уровнем техники;
- фигуры 5а и 5b иллюстрируют, соответственно, спектрограмму исходного сигнала и спектрограмму сигнала с ослаблением опережающего эха в соответствии с предшествующим уровнем техники (подобные, соответственно, частям а) и d) фигуры 4);
- фигура 6 иллюстрирует устройство для обработки ослабления опережающего эха в декодере цифрового звукового сигнала и этапы, реализуемые посредством способа обработки данных в соответствии с одним из вариантов осуществления изобретения;
- фигура 7а иллюстрирует частотную характеристику фильтра прохождения нижних частот, реализованного в соответствии с одним из вариантов осуществления изобретения на этапе разложения сигнала, для различных значений параметров фильтра;
- фигура 7b иллюстрирует частотную характеристику фильтра прохождения верхних частот, реализованного в соответствии с одним из вариантов осуществления изобретения на этапе разложения сигнала, для различных значений параметров фильтра;
- фигура 8 иллюстрирует один из примеров анализирующих и синтезирующих окон с малой задержкой для кодирования и декодирования с преобразованием, склонных к созданию явления опережающего эха;
- фигура 9 иллюстрирует один из примеров цифрового звукового сигнала, для которого реализуют способ ослабления опережающего эха в соответствии с изобретением;
- фигура 10 иллюстрирует один из примеров разложения цифрового звукового сигнала в соответствии с изобретением для реализации обработки ослабления опережающего эха;
- фигура 11 повторяет сигналы по фигуре 10 путем увеличения на дискретных значениях, близких к зоне атаки;
- фигуры 12а, 12b и 12с иллюстрируют спектрограммы, соответственно, исходного цифрового звукового сигнала, сигнала, декодированного без ослабления опережающего эха, и сигнала, декодированного с обработкой ослабления опережающего эха в соответствии с изобретением;
- фигура 13 иллюстрирует аппаратный пример устройства обработки ослабления в соответствии с изобретением.
Со ссылкой на фигуру 6 описано устройство 600 обработки ослабления. Это устройство 600 обработки ослабления, описываемое ниже в данном документе, включено в декодер, содержащий модуль 610 обратного квантования (Q-1), принимающий сигнал S, модуль 620 обратного преобразования (MDCT-1), модуль 630 реконструкции сигнала посредством перекрытия/сложения (Add/rec), описанный со ссылкой на фигуру 1 и доставляющий реконструированный сигнал xrec(n) в устройство обработки ослабления в соответствии с изобретением. Можно отметить, что здесь принят пример преобразования MDCT, являющегося наиболее заурядным при кодировании речи и звука, однако устройство 600 также применимо к преобразованию любого другого типа (FFT, DCT и т.д.).
На вывод устройства 600 подается обработанный сигнал Sa, в котором было выполнено ослабление опережающего эха.
Устройство 600 реализует способ ослабления опережающего эха в декодированном сигнале xrec(n), который был разложен на подсигналы - это разложение является специфичным для обработки опережающего эха.
В одном из вариантов осуществления изобретения способ обработки ослабления включает этап обнаружения (Е601) в декодированном сигнале xrec(n) атак, способных генерировать опережающее эхо. Можно отметить, что устройство 600 ослабления может быть в равной мере применимо в тех случаях, когда синтезирующее взвешивание с использованием финитной функции MDCT является фиксированным, и тех, в которых синтезирующее взвешивание с использованием финитной функции MDCT является адаптивным.
Таким образом, устройство 600 содержит модуль 601 обнаружения, пригодный для реализации этапа обнаружения (Е601) положения атаки в декодированном звуковом сигнале.
Атака представляет собой быстрый переход и резкое изменение динамического диапазона (или амплитуды) сигнала. Сигнал такого типа можно обозначить более общим термином «переходный процесс». Ниже в данном документе без потери общности для описания также и переходных процессов будут использованным термины «атака» или «переход».
В этом варианте осуществления обнаружение опережающего эха, проиллюстрированного штрихпунктирными стрелками «а», выполняют на декодированном сигнале перед этапом разложения (Е603) на подсигналы в модуле 603, который будет описан позднее.
Каждый текущий кадр, состоящий из L дискретных значений декодированного сигнала xrec(n), делят на K подблоков длиной L', например, где L=640 дискретных значений (20 мс) при 32 кГц, L'=80 дискретных значений (2,5 мс), и K=8. Предпочтительно, размер этих подблоков поэтому является одинаковым, однако изобретение остается действительным и может быть легко обобщено для подблоков, имеющих переменную длину. Это может иметь место, например, тогда, когда длина кадра L не является делимой на количество подблоков К, или если переменной является сама длина кадра.
Для анализирующей части и для синтезирующей части преобразования MDCT используют специальные анализирующие/синтезирующие окна с малой задержкой, аналогичные описанным в стандарте ITU-T G.718. Один из примеров таких окон проиллюстрирован со ссылкой на фигуру 8. Задержка, вызываемая преобразованием, составляет лишь 192 дискретных значений в отличие от задержки в 640 дискретных значений в случае использования традиционных синусоидальных окон. Таким образом, память MDCT со специальными синтезирующими/анализирующими окнами с малой задержкой содержит лишь 96 независимых дискретных значений (не свернутых в текущем кадре) в отличие от 320 дискретных значений в случае использование традиционных синусоидальных окон.
Фактически, на фигуре 8 для анализирующих окон (Ana.) видно, что зона свертки ограничена пунктирными линиями между дискретными значениями 864 и 1055. Линия свертки представлена штрихпунктирной линией на дискретном значении 960.
Для синтеза (Synth.) с целью получения информации, касающиеся зоны свертки при анализе, при использовании симметрии необходимы только дискретные значения, представленные интервалом М (96 дискретных значений). Таким образом, эти дискретные значения, содержащиеся в памяти, пригодны для декодирования этой зоны свертки путем использования также и свернутых значений окна из следующего кадра. В случае атаки в этой зоне между дискретными значениями 864 и 1055, средняя энергия дискретных значений, представляемых интервалом М, будет значительно больше энергии подкадров, предшествующих дискретному значению 864. Поэтому резкое повышение в энергии в интервале М, содержащемся в памяти MDCT, может сигнализировать об атаке в следующем кадре, которая может генерировать в текущем кадре опережающее эхо.
В одной из разновидностей этого варианта осуществления можно использовать другие анализирующие/синтезирующие окна или переключения между длинными и короткими окнами.
Используют память MDCT xMDCT(n), дающую версию с временной сверткой будущего сигнала. Эта память, или часть этой памяти (по причине избыточностей), также делят на K' подблоков длиной Lm(n), n=0, …, K', где Lm(n), сравнимой, но необязательно идентичной L'. В случае использования традиционных синусоидальных окон сохраняют только K'=4 первых подблоков длиной Lm(n)=L'=80 из сигнала xMDCT(n), поскольку последние 4 подблоков являются симметричными относительно первых 4 подблоков и поэтому не передают какую-либо дополнительную информацию для обнаружения атаки в следующем кадре. Напротив, если используют проиллюстрированные на фигуре 8 специальные анализирующие/синтезирующие окна с малой задержкой, то сохраняют только один (K'=1) блок длиной Lm(0)=96, содержащий в памяти MDCT все дискретные значения, являющиеся независимыми. Несмотря на большее количество дискретных значений в этом подблоке, его энергия остается сравнимой с таковой для подблоков текущего кадра, поскольку часть памяти была взвешена с использованием финитной функции (и поэтому подвергнута ослаблению) посредством анализирующего окна. Можно отметить, что количество дискретных значений составляет 96 (вместо 80), и что взвешивание с использованием финитной функции может быть скомпенсировано; изобретение в равной мере применимо в случае, когда реализована такая компенсация.
Действительно, фигура 1 показывает, что опережающее эхо оказывает влияние на кадр, предшествующий кадру, где расположена атака, и желательным является обнаружение атаки в будущем кадре, который частично содержится в памяти MDCT.
Следует отметить, что сигнал, содержащийся в памяти MDCT содержит временную свертку (которая компенсируется, когда принимается следующий кадр). Как будет разъяснено ниже, сигнал xMDCT(n) в памяти MDCT используют здесь, главным образом, для оценки энергии, приходящейся на подблок сигнала в следующем (будущем) кадре, и считают, что эта оценка является достаточно точной для нужд обнаружения и ослабления опережающего эха, когда его выполняют, исходя из памяти MDCT, доступной на следующем кадре, вместо сигнала, полностью декодированного на будущем кадре.
Текущий кадр и память MDCT можно рассматривать как составные сигналы, образующие сигнал, подразделенный на (K+K') последовательных подблоков. В этих условиях, энергию k-го подблока определяют как:
когда этот k-й подблок расположен в текущем кадре, и как:
когда этот k-й подблок находится в памяти MDCT (которая представляет сигнал, доступный для будущего кадра), a Lcm(i) содержит границы подблока из части, относящейся к памяти:
Поэтому среднюю энергию подблоков в текущем кадре получают как:
Среднюю энергию подблоков во второй части текущего кадра также определяют как (полагая К четным числом):
Атаку, связанную с опережающим эхом, обнаруживают, когда отношение в одном из рассматриваемых подблоков превышает предварительно определенное пороговое значение. Без изменения сущности изобретения возможны и другие критерии обнаружения.
Более того, считают, что положение атаки определяют как
где ограничение по L обеспечивает то, что память MDCT никогда не будет модифицирована. Также возможны и другие, более точные способы оценки положения атаки.
В разновидностях вариантов осуществления изобретения с переключением окон - иными словами, с адаптивным взвешиванием с использованием финитной функции MDCT - можно использовать и другие способы, дающие положение атаки с точностью в интервале от шкалы подблока до положения плюс-минус одно дискретное значение.
В одном из приведенных выше примеров обнаружение атак, способных генерировать опережающее эхо, осуществляют на декодированном сигнале, общем для всех подсигналов. В одной из разновидностей вариантов осуществления изобретения это обнаружение можно осуществлять отдельно от подсигналов, полученных вследствие этапа Е603, который будет описан позднее. Этот случай проиллюстрирован пунктирными стрелками «b».
Устройство 600 также содержит модуль 602 определения, реализующий этап определения (Е602) зоны опережающего эха (ZPE), предшествующей обнаруженному положению атаки. Здесь зона опережающего эха представляет собой наименование, данное зоне, охватывающей дискретные значения перед оценочным положением атаки, возмущенные опережающим эхом, генерируемым атакой, для которых желательно ослабление опережающего эха. В соответствии с изобретением, зону опережающего эха можно определить на декодированном сигнале (стрелки а на фигуре 6). В одной из разновидностей вариантов осуществления ее можно определить отдельно для каждого подсигнала.
В этой разновидности вариантов осуществления зону опережающего эха определяют независимо для подсигналов, полученных посредством этапа Е603, который будет описан позднее, в соответствии с вариантом осуществления, описанным стрелками b на фигуре 6. Поэтому зона опережающего эха для разных подсигналов может отличаться.
Это отличие проиллюстрировано, например, на фигурах 10 и 11, которые представляют: в части а) - один из примеров декодированного сигнала (перед ослаблением опережающего эха), в части b) - первый подсигнал, большей частью, с высокочастотными составляющими (без ослабления опережающего эха), в части с) - второй подсигнал, большей частью, с низкочастотными составляющими (без ослабления опережающего эха), и в части d) - второй подсигнал после ослабления опережающего эха в соответствии с изобретением. Фигура 11 рассматривает те же самые сигналы, но с увеличением на дискретных значениях от 560 до 1040.
Можно отметить, что на этих фигурах опережающее эхо больше во втором подсигнале, чем в первом. Поэтому проиллюстрированные зоны опережающего эха из этих двух подсигналов являются весьма различными. Как результат, на фигуре 9с), иллюстрирующей коэффициенты передачи ослабления, полученные для этих двух подсигналов, видно, что коэффициенты передачи ослабления (пунктирная линия - для первого подсигнала, и сплошная линия - для второго подсигнала) таковы, что для второго подсигнала с высокочастотными составляющими ослабляется больше дискретных значений (дискретные значения 640-860), чем для первого подсигнала с низкочастотными составляющими (дискретные значения 720-860).
В одном из вариантов осуществления получения зон опережающего эха энергии En(k) последовательно соединяют в хронологическом порядке, где сначала - временная огибающая декодированного сигнала, а затем - огибающая сигнала из следующего кадра, оцененного из памяти преобразования MDCT. В зависимости от этой составной временной огибающей и от средних энергий и предыдущего кадра, опережающее эхо обнаруживают, например. Если отношение R(k) превышает пороговое значение, как правило, это пороговое значение равно 32.
Подблоки, в которых было обнаружено опережающее эхо, таким образом, составляют зону опережающего эха, которая, в общем, охватывает дискретные значения n-0, …, pos-1 то есть от начала текущего кадра до положения атаки (pos).
В разновидностях вариантов осуществления зона опережающего эха необязательно начинается в начале кадра и может включать оценку длины опережающего эха. Если используют переключение окон, зону опережающего эха приходится определять с учетом используемых окон. Также можно отметить, что зона опережающего эха, вполне вероятно, может проходить по всему текущему кадру, если атака была обнаружена в будущем кадре.
Устройство 600 содержит модуль 603 разложения сигнала, пригодный для выполнения этапа Е603 разложения декодированного сигнала на, по меньшей мере, два подсигнала в соответствии с предварительно определенным критерием.
Этот критерий может, например, представлять собой частотный критерий, посредством этого делая возможным получение подсигналов с разными частотными составляющими, как ранее проиллюстрировано на фигурах 10 и 11.
Это критерий может, например, представлять собой критерий периодичности сигнала, посредством этого давая подсигналы с компонентами, служащими признаками периодичности сигнала или, наоборот, его шума.
В одном из частных вариантов осуществления изобретения декодированный сигнал xrec(n) разлагают на этапе Е603 на два подсигнала следующим образом:
- первый подсигнал xrec,ss1(n) получают путем фильтрации прохождения нижних частот с использованием фильтра FIR (фильтра с конечной импульсной характеристикой) с 3 коэффициентов и с нулевой фазой передаточной функции c(n)z-1+(1-2c(n))+c(n)z, где c(n) - значение, лежащее между 0 и 0,25, и где [c(n),1-2c(n),c(n)] - коэффициенты фильтра прохождения нижних частот; этот фильтр реализуют посредством уравнения с разностями:
xrec,ss1(n)=c(n)xrec(n-1)+(1-2c(n))xrec(n)+с(n)x(n+1)
В одном из частных вариантов осуществления изобретения используют постоянное значение с(n)=0,25. Частотная характеристика этого фильтра показана на фигуре 7а в зависимости от коэффициентов [c(n),1-2c(n),c(n)] при c(n)=0,05; 0,1; 0,15; 0,2 и 0,25.
Можно отметить, что подсигнал xrec,ss1(n), являющийся результатом этой фильтрации, таким образом, содержит больше низкочастотных составляющих декодированного сигнала.
- Второй подсигнал xrec,ss2(n) получают путем дополняющей фильтрации прохождения верхних частот с использованием фильтра FIR с 3 коэффициентов и с нулевой фазой передаточной функции -c(n)z-1+2c(n)-c(n)z, где [-c(n),2c(n),-c(n)] - коэффициенты фильтра прохождения верхних частот; этот фильтр реализуют посредством уравнения с разностями:
xrec,ss2(n)=-c(n)xrec(n-1)+2c(n))xrec(n)-c(n)x(n+1)
Частотная характеристика этого фильтра проиллюстрирована на фигуре 7b в зависимости от коэффициентов [-c(n),2c(n),-c(n)] при с(n)=0,05; 0,1; 0,15; 0,2 и 0,25. Подсигнал xrec,ss2(n) являющийся результатом этой фильтрации, таким образом, содержит больше высокочастотных составляющих декодированного сигнала.
Побуждением к использованию этих фильтров является их чрезвычайно низкая сложность реализации (в выражении количества вычислений, приходящихся на дискретное значение), их нулевая фаза и их связанная с этим низкая задержка (1 дискретных значений) - следует отметить, что эти фильтры фактически используют без задержки, поскольку будущий (упреждающий) сигнал сокращен на одно дискретное значение, и его предсказывают исходя из декодированного сигнала, это предсказание будет описано позднее. Их частотные характеристики хорошо соответствуют характеристикам фильтров прохождения нижних частот и верхних частот и делают возможным разложение сигнала на 2 подсигналов в соответствии с их частотным содержимым. Следует отметить, что xrec,ss1(n)+xrec,ss1(n)=xrec(n).
Поэтому также можно получить xrec,ss2(n) путем вычитания xrec,ss1(n) из xrec(n), что уменьшает сложность вычислений: xrec,ss2(n)=xrec(n)-xrec,ss1(n).
В обоих случаях, объединение подвергнутых ослаблению подсигналов для получения подвергнутого ослаблению сигнала осуществляют путем простого сложения подвергнутых ослаблению подсигналов на этапе Е606, который будет описан позднее.
Для того чтобы не использовать для этих фильтраций будущий сигнал, можно, например, дополнить декодированный сигнал дискретным значением 0 в конце блока. Для дополнения (предсказания) будущего сигнала возможны и другие значения: например, можно было бы повторить последнее дискретное значение (последнее значение в блоке) или предсказать будущее дискретное значение, например, путем простой линейной экстраполяции. В случае дополнения декодированного сигнала дискретным значением 0 в конце блока для n=L-1, подсигнал xrec,ss1(n) получают путем:
xrec,ss1(L-1)=c(L-1)xrec(L-2)+(1-2c(L-1))xrec(L-1),
a xrec,ss2(n) по-прежнему вычисляют как xrec,ss2(n)=xrec(n)-xrec,ss1(n).
Можно отметить, что два подсигнала здесь остаются при той же частоте дискретизации, что и декодированный сигнал. В разновидностях этого варианта осуществления можно расширить порядок фильтров прохождения нижних и верхних частот, например, изменяя их к порядку 4 (вместо 2), в то же время сохраняя их нулевые фазовые характеристики.
Этап Е604 вычисления коэффициентов ослабления опережающего эха реализуют в вычислительном модуле 604. Это вычисление осуществляют для двух подсигналов по отдельности.
Эти коэффициенты ослабления получают для дискретного значения из зоны опережающего эха, определенного в зависимости от кадра, в котором была обнаружена атака, и от предыдущего кадра.
Затем получают коэффициенты и где n - индекс соответствующего дискретного значения. Эти коэффициенты, в случае необходимости, будут сглажены для получения коэффициентов, соответственно, gpre,ss1(n) и gpre,ss2(n). Это сглаживание прежде всего важно для подсигналов, содержащих низкочастотные составляющие (таким образом, в данном примере - для ).
По соображениям простоты, мы подробно рассматриваем здесь разложение на два подсигнала сигнала, декодированного путем фильтрации FIR с 3 коэффициентов, где эти два подсигнала, соответственно, содержат самые низкочастотные и самые высокочастотные составляющие декодированного сигнала.
Таким образом, коэффициент ослабления можно выбрать для подсигналов полностью независимо, а уровень ослабления можно точно задавать на основе прошлого и будущего каждого подсигнала.
Один из примеров выполнения вычисления ослабления описан в заявке на патент Франции №08 56248. Коэффициенты ослабления вычисляют для подблока. В описываемом здесь способе их, кроме того, вычисляют отдельно для каждого подсигнала.
Таким образом, вычисляют коэффициенты ослабления и для дискретных значений, предшествующих обнаруженной атаке. Затем эти коэффициенты ослабления, в случае необходимости, сглаживают, получая значения ослабления, приходящиеся на дискретное значение.
Вычисление коэффициента ослабления подсигнала (например, ) может быть аналогично таковому, описанному в заявке на патент Франции №0856248, для сигнала, декодированного в зависимости от отношения R(k) (также используемого для обнаружения атаки) между энергией подблока с самой сильной энергией и энергией k-го подблока декодированного сигнала. инициализируют как:
где - убывающая функция со значениями от 0 до 1. Возможны и другие определения коэффициента g(k), например, в зависимости от En(k) и от En(k-1).
Если изменение энергии относительно максимальной энергии мало, тогда ослабление не является необходимым. Тогда коэффициент приравнивают значению ослабления, запрещающему ослабление, т.е. 1. Иными словами, коэффициент ослабления лежит между 0 и 1. Эта инициализация может быть общей для всех подсигналов.
В одной из разновидностей варианта осуществления инициализация для подсигналов может отличаться.
В другой разновидности варианта осуществления вместо использования одного и того же отношения для обнаружения атаки и для обработки в области декодированного сигнала можно повторно вычислять отношение такого же типа на рассматриваемом подсигнале.
Еще в одной разновидности варианта осуществления может быть постоянной для всей зоны опережающего эха, например,
Значения ослабления затем уточняют для подсигнала, чтобы иметь возможность задавать оптимальный уровень ослабления для подсигнала в зависимости от характеристик декодированного сигнала. Например, ослабления могут быть ограничены в зависимости от средней энергии подсигнала предыдущего кадра, поскольку нежелательно, чтобы после обработки ослабления опережающего эха энергия сигнала становилась ниже средней энергии, приходящейся на подблок сигнала, предшествующий зоне обработки (как правило, таковой для предыдущего кадра или таковой для второй половины предыдущего кадра).
Это ограничение можно осуществить способом, аналогичным способу, описанному в заявке на патент Франции №0856248. Например, для второго подсигнала xrec,ss2(n) энергию K подблоков текущего кадра сначала вычисляют как:
Также из памяти известны средняя энергия предыдущего кадра и таковая для второй половины предыдущего кадра которые можно вычислить (в предыдущем кадре) как:
и
где индексы подблоков от 0 до K соответствуют текущему кадру.
Для подблока k, подлежащего обработке, можно вычислить предельное значение коэффициента limg,ss2(k) с целью получения в точности такой же энергии, как и средняя энергия, приходящаяся на подблок из сегмента, предшествующего подблоку, подлежащему обработке. Это значение, разумеется, ограничено максимальным значением единица, поскольку интерес здесь представляют значения ослабления. Конкретнее:
где средняя энергия предыдущего сегмента аппроксимирована посредством
Значение limg,ss2(k) полученное таким образом, служит нижним пределом при окончательном вычислении коэффициента ослабления для подблока:
В первой разновидности варианта осуществления зона опережающего эха, где ослабление распространяется от начала текущего кадра до начала подблока, в котором была обнаружена атака - вплоть до индекса pos, где Все ослабления, связанные с дискретными значениями подблока атаки, приравнивают 1, даже если атака расположена ближе к концу этого подблока.
В другой разновидности варианта осуществления начальное положение атаки pos уточняют в подблоке атаки, например, путем подразделения подблока на подподблоки и путем наблюдения тенденции энергии в этих подподблоках. Если предположить, что положение начала атаки обнаружено в подблоке k, k>0, и что начало уточненной атаки pos расположено в этом подблоке, то значения ослабления для дискретных значений этого подблока, расположенные до индекса pos можно инициализировать в зависимости от значения ослабления, соответствующего последнему дискретному значению предыдущего подблока:
Все ослабления начиная от индекса pos приравнивают 1.
Для первого подсигнала, содержащего низкочастотные составляющие декодированного сигнала, вычисление значений ослабления на основании подсигнала xrec,ss1(n) может быть аналогично вычислению значений ослабления на основании декодированного сигнала xrec(n). Так, в одной из разновидностей варианта осуществления в интересах уменьшения вычислительной сложности значения ослабления можно определять на основании декодированного сигнала xrec(n). В случае, когда обнаружение атак осуществляют на декодированном сигнале, таким образом, больше не является необходимым повторное вычисление энергий подблоков, поскольку для этого сигнала значения энергии, приходящейся на подблок, уже вычислены при обнаружении атак. Так как для подавляющего большинства сигналов низкие частоты содержат намного больше энергии, чем высокие частоты, и энергии, приходящиеся на подблок декодированного сигнала xrec(n) и подсигнала xrec,ss1(n) являются очень близкими, это приближение дает вполне удовлетворительный результат. Это можно наблюдать на фигурах 10 и 11, где амплитуды декодированного сигнала в части а) и подсигнала, главным образом, содержащего низкочастотные составляющие, в части b) являются очень близкими в противоположность подсигналу, главным образом, содержащему высокочастотные составляющие, в части с) с намного меньшей энергией. Таким образом, в этой разновидности вычисление коэффициента ослабления для, по меньшей мере, одного подсигнала выполняют с использованием, по меньшей мере, одного параметра из этапа обнаружения положения атаки в декодированном сигнале, что дополнительно уменьшает сложность.
Коэффициенты ослабления gpre,ss1(n) и gpre,ss2(n), определенные для подблока, можно затем сгладить посредством сглаживающей функции, применяемой для дискретных значений одного за другим во избежание резких изменений коэффициента ослабления на границах блоков. Это особенно важно для подсигналов, содержащих низкочастотные составляющие, таких, как подсигнал xrec,ss1(n), но не является необходимым для подсигналов, содержащих только высокочастотные составляющие, таких, как подсигнал xrec,ss2(n).
Фигура 9 иллюстрирует одно из иллюстративных применений коэффициента передачи ослабления со сглаживающими функциями, представленными стрелками L.
Эта фигура иллюстрирует: в части а) - пример исходного сигнала, в части b) - сигнала, декодированного без ослабления опережающего эха, в части с) - коэффициенты передачи ослабления для двух подсигналов, полученных в соответствии со способом изобретения на этапе разложения, и в части d) - сигнал, декодированный с ослаблением эха в соответствии с изобретением (то есть после объединения двух подвергнутых ослаблению подсигналов).
На этой фигуре видно, что коэффициент передачи ослабления, представленный прерывистыми линиями и соответствующий коэффициенту передачи, вычисленному для первого подсигнала, включающего низкочастотные составляющие, содержит вышеописанные сглаживающие функции. Коэффициент передачи ослабления, представленный сплошной линией и вычисленный для второго подсигнала, содержащего высокочастотные составляющие, не содержит каких либо сглаживающих коэффициентов передачи.
Сигнал, представленный в части d), четко показывает, что опережающее эхо было эффективно ослаблено посредством способа в соответствии с изобретением.
Сглаживающая функция, например, предпочтительно определена следующими уравнениями:
с условием, что - последние u-1 коэффициентов ослабления, полученных для последних дискретных значений подблока, предшествующего подсигналу xrec,ss1(n). Как правило, u=5, но можно использовать и другое значение. Поэтому, в зависимости от используемого сглаживания, зона опережающего эха (количество подвергнутых ослаблению дискретных значений) может отличаться для двух подсигналов, обрабатываемых по отдельности, даже если обнаружение атаки осуществляют совместно на основании декодированного сигнала.
Сглаженный коэффициент ослабления не возвращается к 1 в момент атаки, что предполагает уменьшение амплитуды атаки. Воспринимаемое влияние этого уменьшения является очень небольшим, однако его, тем не менее, нужно избежать. Для ослабления этой проблемы значение коэффициента ослабления можно принудительно приравнять 1 для u-1 дискретных значений, предшествующих индексу pos, где определено местоположение начала атаки. Это эквивалентно продвижению маркера pos на u-1 дискретных значений для подсигнала, к которому применяют сглаживание. Таким образом, функция сглаживания постепенно увеличивает коэффициент так, чтобы он имел значение 1 в момент атаки. Тогда амплитуда атаки сохраняется.
Возможны и другие сглаживающие функции, например:
где, как правило, α=0,85.
Если сглаживание не применяют:
Модуль 605 устройства 600 по фигуре 6 реализует этап Е605 ослабления опережающего эха в зоне опережающего эха каждого из подсигналов путем применения к подсигналам должным образом вычисленных коэффициентов ослабления.
Поэтому ослабление опережающего эха осуществляют в подсигналах независимо. Таким образом, в подсигналах, представляющих разные полосы частот, ослабление можно выбрать в зависимости от спектрального распределения опережающего эха.
Наконец, этап Е606 модуля 606 получения делает возможным получение подвергнутого ослаблению выходного сигнала (сигнала, декодированного после ослабления опережающего эха) путем объединения (в данном примере, путем простого сложения) подвергнутых ослаблению подсигналов в соответствии с уравнением:
Здесь следует отметить, что, в отличие от традиционного разложения на подполосы, используемые фильтрации не связаны с операциями прореживания подсигналов, и сложность и задержка («упреждающий», или будущий, кадр) уменьшаются до минимума.
В контексте данного изобретения можно вполне очевидно применять и другие примеры разложения декодированного сигнала.
Например, разложение декодированного сигнала можно выполнять с использованием блоков фильтров критического прореживания, например, фильтров типа QMF (квадратурный зеркальный фильтр), PQMF (псевдоквадратурный зеркальный фильтр), для получения сигналов в подполосах, причем эти сигналы в подполосах имеют частоту дискретизации ниже, чем у декодированного сигнала.
Когда ослабление опережающего эха будет осуществлено в подполосах, выходной сигнал получают посредством синтезирующей фильтрации QMF.
Декодированный сигнал, подлежащий обработке, можно разложить на несколько подсигналов, например, используя фильтр QMF или PQMF с 4 подполос. Этот подход, однако, обладает тем недостатком, что он является более сложным и создает задержку в несколько дискретных значений.
Таким образом, в более общем смысле, разложение делает возможным получение более чем двух подсигналов.
Кроме того, разложение можно выполнять в соответствии с критерием, отличающимся от частотного критерия.
Например, можно использовать критерий периодичности сигнала. В этом примере критерия, разложение декодированного сигнала, таким образом, дает первый подсигнал с синусоидальными составляющими и второй подсигнал с составляющими шумового типа, когда модель сигнала относится к типу синус + шум. И здесь это разложение снова обладает тем недостатком, что оно является более сложным.
Какой бы критерий разложения ни был использован, разложение на подсигналы в контексте изобретения применяют специально для обработки опережающего эха, при этом оно не является естественно доступным для декодера.
Таким образом, вычисленные коэффициенты ослабления адаптированы конкретно к составляющим подсигналов, полученных в соответствии с критерием разложения. Это делает возможным более точное и лучше согласующееся с сигналом представление ослабления опережающего эха.
Использование частотного критерия делает возможным точное управление величиной ослабления, применяемого к различным частотным зонам и, таким образом, более эффективное ослабление опережающего эха.
Этот результат особенно хорошо виден на ранее описанных фигурах 9-11, где видно, что ослабление опережающего эха сигнала (в особенности - второго подсигнала), представленное в части d), выполнено точнее.
Фигуры 12а-12с также показывают этот результат. В сущности, фигура 12а иллюстрирует спектрограмму исходного сигнала, где можно четко видеть атаку. Фигура 12b иллюстрирует сигнал, декодированный без обработки ослабления опережающего эха. Тогда атака является более заметной. Фигура 12 с иллюстрирует спектрограмму сигнала, декодированного с обработкой ослабления опережающего эха в соответствии с изобретением. Здесь снова можно точно различить атаку независимо от того, находится она в высокочастотной или в низкочастотной части.
Один из иллюстративных вариантов осуществления устройства обработки ослабления в соответствии с изобретением описан ниже со ссылкой на фигуру 13.
Физически, устройство 100 в пределах смысла изобретения, как правило, содержит процессор μР, сообщающийся с блоком ВМ памяти, содержащим запоминающее устройство и/или оперативную память, и с вышеупомянутой буферной памятью MEM в качестве средств для хранения всех данных, необходимых для реализации способа обработки ослабления, описанного со ссылкой на фигуру 6. Это устройство принимает в качестве ввода последовательные кадры цифрового сигнала Se и предоставляет сигнал Sa, реконструированный путем ослабления опережающего эха в каждом из подсигналов и реконструкции подвергнутого ослаблению сигнала путем объединения указанных подвергнутых ослаблению подсигналов.
Блок ВМ памяти может содержать компьютерную программу, содержащую кодированные команды для реализации этапов способа в соответствии с изобретением, когда эти команды исполняет процессор μР устройства, и, в особенности, этап разложения декодированного сигнала на, по меньшей мере, два подсигнала в соответствии с предварительно определенным критерием разложения, вычисления коэффициентов ослабления, приходящихся на подсигналы и на дискретное значение из предварительно определенной зоны опережающего эха, ослабления опережающего эха в зоне опережающего эха каждого из подсигналов путем применения указанных коэффициентов ослабления к подсигналам и получения подвергнутого ослаблению сигнала путем объединения подвергнутых ослаблению подсигналов.
Фигура 6 может иллюстрировать алгоритм такой компьютерной программы.
Это устройство ослабления в соответствии с изобретением может быть независимым или включенным в состав декодера цифрового сигнала. Такой декодер может быть включенным в состав запоминающего устройства цифровых звуковых сигналов или таких единиц передающего оборудования, как машины-шлюзы для связи между сетями, терминалы связи или серверы сети связи.
Изобретение относится к передаче цифровых звуковых сигналов по телекоммуникационным сетям и предназначено для обработки ослабления опережающего эха при декодировании цифрового звукового сигнала. Технический результат – уменьшение раздражающего воздействия явления опережающего эха. Данный способ включает: разложение декодированного сигнала на, по меньшей мере, два подсигнала в соответствии с предварительно определенным критерием разложения; вычисление коэффициентов ослабления, приходящихся на подсигнал и на дискретное значение из предварительно определенной зоны опережающего эха; ослабление опережающего эха в зоне опережающего эха каждого из подсигналов путем применения коэффициентов ослабления к этим подсигналам; получение подвергнутого ослаблению сигнала путем объединения подвергнутых ослаблению подсигналов. 4 н. и 11 з.п. ф-лы, 13 ил.
1. Способ обработки ослабления опережающего эха в цифровом звуковом сигнале, декодированном в соответствии с декодированием с преобразованием, отличающийся тем, что он включает следующие этапы:
- разложение (Е603) декодированного сигнала по меньшей мере на два подсигнала в соответствии с предварительно определенным критерием разложения;
- вычисление (Е604) коэффициентов ослабления, приходящихся на подсигнал и на дискретное значение из предварительно определенной зоны опережающего эха;
- ослабление (Е605) опережающего эха в зоне опережающего эха каждого из подсигналов путем применения коэффициентов ослабления к этим подсигналам; и
- получение (Е606) подвергнутого ослаблению сигнала путем объединения подвергнутых ослаблению подсигналов.
2. Способ по п. 1, отличающийся тем, что предварительно определенным критерием разложения является частотный критерий.
3. Способ по п. 2, отличающийся тем, что разложение декодированного сигнала для получения первого подсигнала выполняют посредством первой фильтрации прохождения нижних или верхних частот.
4. Способ по п. 3, отличающийся тем, что разложение сигнала для получения второго подсигнала в дальнейшем выполняют посредством второй фильтрации прохождения верхних или нижних частот, дополняющей первую фильтрацию.
5. Способ по п. 3, отличающийся тем, что второй подсигнал получают путем вычитания первого подсигнала из декодированного сигнала.
6. Способ по п. 1, отличающийся тем, что разложение декодированного сигнала для получения подсигналов в подполосах выполняют посредством фильтрации QMF и PQMF.
7. Способ по п. 1, отличающийся тем, что предварительно определенным критерием разложения является критерий периодичности сигнала.
8. Способ по п. 1, отличающийся тем, что зону опережающего эха определяют в соответствии со следующими этапами:
- обнаружение положения атаки в декодированном сигнале перед этапом разложения;
- определение зоны опережающего эха, предшествующей положению атаки, обнаруженному в декодированном сигнале перед этапом разложения или в подсигналах после этапа разложения.
9. Способ по п. 1, отличающийся тем, что зону опережающего эха определяют в соответствии со следующими этапами:
- обнаружение положения атаки в каждом из подсигналов, полученных после этапа разложения;
- определение зоны опережающего эха, предшествующей положению атаки, обнаруженному в каждом из указанных подсигналов.
10. Способ по п. 8, отличающийся тем, что для по меньшей мере одного подсигнала вычисление коэффициента ослабления выполняют путем использования по меньшей мере одного параметра из этапа обнаружения положения атаки в декодированном сигнале.
11. Способ по п. 1, отличающийся тем, что для по меньшей мере одного подсигнала применяют этап сглаживания коэффициента ослабления.
12. Способ по п. 1, отличающийся тем, что для предварительно определенного количества дискретных значений, предшествующих началу атаки, коэффициент ослабления принудительно приравнивают 1.
13. Устройство для обработки ослабления опережающего эха в цифровом звуковом сигнале, декодированном из декодера с преобразованием, отличающееся тем, что оно содержит:
- модуль (603) разложения декодированного сигнала на по меньшей мере два подсигнала в соответствии с предварительно определенным критерием разложения;
- модуль (604) вычисления коэффициентов ослабления, приходящихся на подсигнал и на дискретное значение из предварительно определенной зоны опережающего эха;
- модуль (605) ослабления опережающего эха в зоне опережающего эха каждого из подсигналов путем применения коэффициентов ослабления к этим подсигналам;
- модуль (606) получения подвергнутого ослаблению сигнала путем сложения подвергнутых ослаблению подсигналов.
14. Декодер цифрового звукового сигнала, содержащий устройство по п. 13.
15. Носитель данных, содержащий записанную на нем компьютерную программу, содержащую кодированные команды для реализации этапов способа по одному из пп. 1-10 при исполнении этих команд процессором.
FR 2897733 A1, 24.08.2007 | |||
FR 2888704 A1, 19.01.2007 | |||
FR 2888704 A1, 19.01.2007 | |||
RU 2011115003 A, 27.10.2012 | |||
СПОСОБ И УСТРОЙСТВО ДЛЯ ПОДАВЛЕНИЯ ШУМОВ | 2006 |
|
RU2351024C2 |
US 6826525 B2, 30.11.2004 | |||
Устройство для изготовления изделий с продольными ребрами | 1985 |
|
SU1335353A1 |
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек | 1923 |
|
SU2007A1 |
Авторы
Даты
2017-06-20—Публикация
2013-12-20—Подача