Настоящее изобретение относится к обработке звукового сигнала и, в частности, к постобработке звукового сигнала, для того чтобы улучшать качество звука посредством устранения артефактов кодирования.
Звуковое кодирование является областью сжатия сигналов, которая имеет дело с применением избыточности и относительной энтропии в звуковых сигналах, пользуясь знанием психоакустики. В условиях низкой скорости передачи битов, нежелательные артефакты часто привносятся в звуковой сигнал. Заметным артефактом являются упреждающее и запаздывающее по времени эхо, которые вызываются составляющими всплескового сигнала.
Особенно в основанной на блоках обработке звукового сигнала, эти упреждающие и запаздывающие эхо возникают, например, поскольку шумы квантования спектральных коэффициентов в кодировщике с преобразованием в частотной области распространяются по всей длительности одного блока. Средства полупараметрического кодирования, подобные заполнению промежутков, параметрическому пространственному звуку или расширению полосы пропускания, также могут приводить к ограниченным диапазоном параметров артефактам типа эха, поскольку управляемые параметрами настройки обычно оказываются в пределах временного блока отсчетов.
Изобретение относится к неуправляемому постпроцессору, который ослабляет или подавляет субъективные ухудшения качества всплесков, которые были привнесены перцепционным кодированием с преобразованием.
Подходы современного уровня техники для предотвращения артефактов упреждающего и запаздывающего эха внутри кодека включают в себя коммутацию блоков кодека с преобразованием и временное профилирование шума. Подход современного уровня техники для подавления артефактов упреждающего эха и запаздывающего эха с использованием технологий постобработки после цепи кодека опубликован в [1].
[1] Imen Samaali, Maniaa-Hadj Alauane, Gael Mahe, “Temporal Envelope Correction for Attack Restoration in Low Bit-Rate Audio Coding”, 17th European Signal Processing Conference (EUSIPCO 2009), Scotland, August 24-28, 2009; and
[2] Jimmy Lapierre and Roch Lefebvre, “Pre-Echo Noise Reduction In Frequency-Domain Audio Codecs”, ICASSP 2017, New Orleans.
Первый класс подходов должен быть вставлен в цепь кодека и не может применяться апостериори к элементам, которые были кодированы ранее (например, к архивированному звуковому материалу). Даже если второй подход реализован по существу в виде постпроцессора по отношению к декодеру, ему по прежнему нужна управляющая информация, выведенная из исходного входного сигнала на стороне кодировщика.
Цель настоящего изобретения состоит в том, чтобы предоставить улучшенную концепцию для постобработки звукового сигнала.
Эта цель достигается устройством для постобработки звукового сигнала по п. 1, способом постобработки звукового сигнала по п. 17 или компьютерной программой по п. 18.
Аспект настоящего изобретения основан на отыскании тех всплесков, которые все еще могут обнаруживаться в звуковых сигналах, которые были подвергнуты выполненному ранее кодированию и декодированию, поскольку такие выполненные ранее операции кодирования/декодирования, хотя и ухудшают субъективно воспринимаемое качество, не полностью уничтожают всплески. Поэтому, предусмотрен блок оценки места всплеска для оценки расположения по времени всплескового участка с использованием звукового сигнала или время-частотного представления звукового сигнала. В соответствии с настоящим изобретением, время-частотное представление звукового сигнала манипулируется для ослабления или устранения упреждающего эха во время-частотном представлении в расположении по времени перед местом всплеска или для выполнения профилирования время-частотного представления в месте всплеска и, в зависимости от реализации, после места всплеска, так чтобы выпад всплескового участка был усилен.
В соответствии с настоящим изобретением, манипуляция сигнала выполняется в пределах время-частотного представления звукового сигнала на основании выявленного места всплеска. Таким образом, довольно точное выявление места всплеска и, с одной стороны, соответствующее полезное ослабление упреждающего эха, а, с другой стороны, усиление всплеска могут получаться посредством операций обработки в частотной области, так чтобы заключительное время-частотное преобразование давало в результате автоматическое сглаживание/распределение манипуляций на всем кадре и, вследствие операций сложения с перекрытием, на более чем одном кадре. В заключение, это уничтожает слышимые щелчки, обусловленные манипуляцией звукового сигнала и, конечно, дает в результате улучшенный звуковой сигнал без какого бы то ни было упреждающего эха или с уменьшенной величиной упреждающего эха, с одной стороны, и/или с обостренными выпадами для всплесковых участков, с другой стороны.
Предпочтительный варианты осуществления относятся к неуправляемому постпроцессору, который ослабляет или подавляет субъективные ухудшения качества всплесков, которые были привнесены перцепционным кодированием с преобразованием.
В соответствии с дополнительным аспектом настоящего изобретения, улучшающая всплески обработка выполняется без особой нужды в блоке оценки места всплеска. В этом аспекте используется время-спектральный преобразователь для преобразования звукового сигнала в спектральное представление, содержащее последовательность спектральных кадров. Прогнозный анализатор затем рассчитывает прогнозные данные фильтра для прогноза по частоте в пределах спектрального кадра, и последовательно присоединенный профилирующий фильтр, управляемый прогнозными данными фильтра, профилирует спектральный кадр, чтобы улучшить качество всплескового участка в пределах спектрального кадра. Постобработка звукового сигнала завершается спектрально-временным преобразованием для преобразования последовательности спектральных кадров, содержащих профилированный спектральный кадр, обратно во временную область.
Таким образом, еще раз, любые модификации выполняются в пределах спектрального представления вместо представления во временной области, так чтобы избегались любые слышимые щелчки, и т. д., обусловленные обработкой во временной области. Более того, вследствие того обстоятельства, что используется прогнозный анализатор для расчета прогнозных фильтрованных данных применительно к прогнозу по частоте в пределах спектрального кадра, соответствующая огибающая звукового сигнала во временной области автоматически находится под влиянием последующего профилирования. В частности, профилирование выполняется таким образом, чтобы, вследствие обработки в спектральной области и вследствие того обстоятельства, что используется прогноз по частоте, огибающая во временной области звукового сигнала улучшается, то есть делается так, чтобы огибающая во временной области имела более высокие пики и более глубокие впадины. Другими словами, противоположность сглаживанию выполняется посредством профилирования, которое автоматически улучшает качество всплесков без необходимости фактически определять место всплесков.
Предпочтительно, выводятся две разновидности прогнозных данных фильтра. Первые прогнозные данные фильтра являются прогнозными данными фильтра для выравнивания характеристики фильтра, а вторые прогнозные данные фильтра являются прогнозными данными фильтра для профилирования характеристики фильтра. Другими словами, выравнивающая характеристика фильтра является характеристикой обратного фильтра, а профилирующая характеристика фильтра является прогнозной характеристикой синтезирующего фильтра. Однако, еще раз, те и другие данные фильтра выводятся посредством выполнения прогноза по частоте в пределах спектрального кадра. Предпочтительно, постоянные времени для вывода разных коэффициентов фильтра различны, так чтобы, для расчета первых прогнозных коэффициентов фильтра использовалась первая постоянная времени, а для расчета вторых прогнозных коэффициентов фильтра использовалась вторая постоянная времени, где вторая постоянная времени больше первой постоянной времени. Эта обработка еще раз автоматически гарантирует, что всплесковые участки сигнала находятся под гораздо большим влиянием, чем участки сигнала без всплесков. Другими словами, хотя обработка не полагается на способ явного выявления всплеска, всплесковые участки находятся под гораздо большим влиянием, чем участки без всплесков, посредством выравнивания и последующего профилирования, которые основаны на разных постоянных времени.
Таким образом, в соответствии с настоящим изобретением и вследствие применения прогноза по частоте, получается автоматическая разновидность процедуры улучшения, в которой огибающая во временной области улучшается (вместо того чтобы сглаживаться).
Варианты осуществления настоящего изобретения спроектированы в виде постпроцессоров на кодированном ранее звуковом материале, действующих без потребности в дополнительной управляющей информации. Поэтому, эти варианты осуществления могут применяться к архивированному звуковому материалу, который был ухудшен из-за перцепционного кодирования, которое было применено к этому архивированному звуковому материалу перед тем, как он был архивирован.
Предпочтительные варианты осуществления по первому аспекту состоят из нижеследующих основных этапов обработки:
неуправляемого выявления мест всплеска в сигналах, чтобы найти места всплеска;
оценки длительности и мощности упреждающего эха, предшествующего всплеску;
вывода пригодной временной кривой усиления для приглушения артефакта упреждающего эха;
осаживание/демпфирование оцененного упреждающего эха посредством упомянутой адаптированной временной кривой усиления перед всплеском (для подавления упреждающего эха);
на выпаде, уменьшения размывания выпада;
исключения тональных или других квазистационарных полос спектра из осаживания.
Предпочтительные варианты осуществления по второму аспекту состоят из нижеследующих основных этапов обработки:
неуправляемого выявления мест всплеска в сигналах, чтобы найти места всплеска (этот этап необязателен);
обострения огибающей выпада посредством применения выравнивающего фильтра с линейными прогнозными коэффициентами в частотной области (FD-LPC) и последующего профилирующего фильтра FD-LPC, выравнивающий фильтр представляет собой плавную временную огибающую, а профилирующий фильтр представляет собой менее плавную временную огибающую, при этом прогнозные коэффициенты усиления обоих фильтров компенсируются.
Предпочтительный вариант осуществления является вариантом осуществления постпроцессора, который реализует неуправляемое улучшение качества всплеска в виде последнего этапа в цепи многоэтапной обработки. Если должны быть применены другие технологии улучшения качества, например, неуправляемое расширение полосы пропускания, заполнение спектрального промежутка, и т. д., то предпочтительно, чтобы улучшение качества всплеска было последним в цепи, так чтобы улучшение качества включало в себя и действовало на модификациях сигнала, которые были привнесены из предыдущих каскадов улучшения качества.
Все аспекты изобретения могут быть реализованы в виде постпроцессоров, один, два или три модуля могут вычисляться последовательно, или могут совместно использовать общие модули (например, (I)STFT, выявление всплеска, выявление тональности) ради эффективности вычислений.
Должно быть отмечено, что два аспекта, описанных в материалах настоящей заявки, могут использоваться независимо друг от друга или совместно для постобработки звукового сигнала. Первый аспект, полагающийся на выявление места всплеска и ослабление упреждающего эха, а также на усиление выпада, может использоваться, для того чтобы улучшать качество сигнала без второго аспекта. Соответственно, второй аспект, основанный на анализе LPC по частоте и соответствующей профилирующей фильтрации в частотной области, не обязательно полагается на выявлении всплеска, но автоматически улучшает качество всплесков в отсутствие явного детектора места всплеска. Данный вариант осуществления может быть расширен детектором места всплеска, но такой детектор места всплеска требуется необязательно. Более того, второй аспект может применяться независимо от первого аспекта. Дополнительно, должно быть подчеркнуто, что, в других вариантах осуществления, второй аспект может применяться к звуковому сигналу, который был подвергнут постобработке согласно первому аспекту. В качестве альтернативы, однако, очередность может быть построена таким образом, что на первом этапе применяется второй аспект, а впоследствии, первый аспект применяется, для того чтобы подвергнуть постобработке звуковой сигнал для улучшения его качества звука посредством удаления привнесенных ранее артефактов кодирования.
Более того, должно быть отмечено, что первый аспект имеет в своей основе два подаспекта. Первым подаспектом является ослабление упреждающего эха, которое основано на выявлении места всплеска, а вторым подаспектом является усиление выпада, основанное на выявлении места всплеска. Предпочтительно, оба подаспекта комбинируются последовательно, при этом еще предпочтительнее, сначала выполняется ослабление упреждающего эха, а затем выполняется усиление выпада. В других вариантах осуществления, однако, два разных подаспекта могут быть реализованы независимо друг от друга и даже могут комбинироваться со вторым подаспектом в зависимости от обстоятельств. Таким образом, ослабление упреждающего эха может комбинироваться с основанной на прогнозе процедуре улучшения качества всплеска без какого бы то ни было усиления выпада. В других реализациях, ослабление упреждающего эха не выполняется, но усиление выпада выполняется вместе с последующим основанным на LPC профилированием всплеска, не обязательно требуя выявления места всплеска.
В комбинированном варианте осуществления, первый аспект, включающий в себя оба подаспекта, и второй аспект выполняются в конкретном порядке, где этот порядок состоит, во первых, из выполнения ослабления упреждающего эха, во вторых, выполнения усиления выпада и, в третьих, выполнения основанной на LPC процедуры улучшения качества выпада/всплеска, основанной на прогнозе спектрального кадра по частоте.
Предпочтительные варианты осуществления настоящего изобретения впоследствии обсуждены со ссылкой на прилагаемые чертежи, на которых:
фиг. 1 - принципиальная структурная схема в соответствии с первым аспектом;
фиг. 2a - предпочтительная реализация первого аспекта, основанного на блоке оценки тональности;
фиг. 2b - предпочтительная реализация первого аспекта, основанного на оценке длительности упреждающего эха;
фиг. 2c - предпочтительный вариант осуществления первого аспекта, основанного на оценке порогового значения упреждающего эха;
фиг. 2d - предпочтительный вариант осуществления первого подаспекта, имеющего отношение к ослаблению/устранению упреждающего эха;
фиг. 3a - предпочтительная реализация первого подаспекта;
фиг. 3b - предпочтительная реализация первого подаспекта;
фиг. 4 - дополнительная предпочтительная реализация первого подаспекта;
фиг. 5 иллюстрирует два подаспекта первого аспекта настоящего изобретения;
фиг. 6a иллюстрирует обзор по поводу второго подаспекта;
фиг. 6b иллюстрирует предпочтительную реализацию второго подаспекта, полагающегося на разделение на всплесковую часть и установившуюся часть;
фиг. 6c иллюстрирует дополнительный вариант осуществления разделения по фиг. 6b;
фиг. 6d иллюстрирует дополнительную реализацию второго подаспекта;
фиг. 6e иллюстрирует дополнительный вариант осуществления второго подаспекта;
фиг. 7 иллюстрирует структурную схему варианта осуществления второго аспекта настоящего изобретения;
фиг. 8a иллюстрирует предпочтительную реализацию второго аспекта, основанного на двух разных данных фильтра;
фиг. 8b иллюстрирует предпочтительную реализацию второго аспекта для расчета двух разных прогнозных данных фильтра;
фиг. 8c иллюстрирует предпочтительную реализацию профилирующего фильтра по фиг. 7;
фиг. 8d иллюстрирует дополнительную реализацию профилирующего фильтра по фиг. 7;
фиг. 8e иллюстрирует дополнительный вариант осуществления второго аспекта настоящего изобретения;
фиг. 8f иллюстрирует предпочтительный вариант осуществления для оценки фильтра LPC с разными постоянными времени;
Фиг. 9 иллюстрирует общее представление по поводу предпочтительной реализации для процедуры постобработки, полагающейся на первый подаспект и второй подаспект первого аспекта настоящего изобретения, и дополнительно полагающейся на второй аспект настоящего изобретения, выполняемый над выходными данными процедуры, основанной на первом аспекте настоящего изобретения;
фиг. 10a иллюстрирует предпочтительную реализацию детектора места всплеска;
фиг. 10b иллюстрирует предпочтительный вариант осуществления для расчета функции выявления по фиг. 10a.
фиг. 10c иллюстрирует предпочтительную реализацию блока захвата вступления по фиг. 10a;
фиг. 11 иллюстрирует компоновку настоящего изобретения в соответствии с первым и/или вторым аспектом в виде постпроцессора для улучшения качества всплеска;
фиг. 12.1 иллюстрирует фильтрацию скользящим средним, при этом фиг. 12.1(a) соответствует применению фильтра скользящего среднего в прямом направлении, а фиг. 12.1(b) - в обоих, прямом и обратном направлении xn;
фиг. 12.2 иллюстрирует однополюсную рекурсивную усредняющую и высокочастотную фильтрацию, при этом на фиг. 12.2(a)-(c) даны результаты разных применений однополюсного рекурсивного усредняющего фильтра к прямоугольной функции, а на фиг. 12.2(d) показан результат простого высокочастотного КИХ-фильтра с коэффициентами b=[1,-1] фильтра;
фиг. 12.3 иллюстрирует прогноз и остаток кадра речевого сигнала;
фиг. 12.4 иллюстрирует автокорреляцию ошибки прогнозирования, а именно автокорреляцию остатка из всего речевого сигнала по фиг. 12.3;
фиг. 12.5 иллюстрирует оценку спектральной огибающей с помощью LPC, при этом показаны исходный спектр сегмента речевого сигнала в 1024 отсчета и два i-ых приближенных выражения: первое (черная кривая) с более низким и второе с (пунктирная кривая) с более высоким порядком прогноза;
фиг. 12.6 иллюстрирует оценку временной огибающей с помощью LPC, абсолютные значения 80 мс из музыкального сигнала и i-ого приближенного выражения во временной области, более плавные пунктирная и черная кривые вычислены с помощью линейного прогноза в частотной области с порядком 10 и 20 прогноза, соответственно;
фиг. 12.7 иллюстрирует ударный всплеск в сопоставлении с всплеском в частотной области, при этом на фиг. 12.7(a) показан звуковой сигнал с «ударным всплеском» (кастаньетами), на фиг. 12.7(b) показано время-частотное представление сигнала в (a), на фиг. 12.7(с) показан звуковой сигнал с «всплеском в частотной области» (скрипка), и на фиг. 12.7(d) показано время-частотное представление сигнала в (c);
фиг. 12.8 иллюстрирует спектры «всплеска в частотной области», при этом показаны спектры двух временных кадров перед и после всплеска в частотной области, отображенного на фиг. 2.7 (c).
фиг. 12.9 иллюстрирует разграничение между всплеском, вступлением и выпадом; в частности, дается иллюстрация различия между всплеском, выпадом, вступлением и спадом с использованием примера всплескового сигнала, порожденного кастаньетами (после [26]);
фиг. 12.10 иллюстрирует абсолютное пороговое значение в тишине и синхронное (симультантное) маскирование; приведены абсолютное пороговое значение в тишине и иллюстрация явления синхронного маскирования (изображение после [33]);
фиг. 12.11 иллюстрирует эффекты временного маскирования (изображение из [37]);
фиг. 12.12 иллюстрирует общую структуру перцепционного кодировщика звукового сигнала, при этом приведена унаследованная структура перцепционного кодировщика звукового сигнала (изображение после [17, 32]);
фиг. 12.13 иллюстрирует общую структуру перцепционного декодера звукового сигнала, при этом приведена унаследованная структура перцепционного декодера звукового сигнала (изображение после [32]);
фиг. 12.14 иллюстрирует ограничение полосы пропускания при перцепционном звуковом кодировании, при этом в верхней ее части приведена спектрограмма несжатого звукового сигнала (кастаньет), в нижней части показан подвергнутый перцепционному кодированию/декодированию звуковой сигнал с ограниченной полосой пропускания и артефактами «волана»;
фиг. 12.15 иллюстрирует ухудшенную характеристику выпада, при этом приведена иллюстрация ухудшенного выпада и энергии всплеска после перцепционного звукового кодирования;
фиг. 12.16 иллюстрирует пример артефакта упреждающего эха для всплеска сигнала кастаньет;
фиг. 13.1 иллюстрирует алгоритм улучшения качества всплесковых частей сигнала;
фиг. 13.2 иллюстрирует выявление всплеска: функцию выявления (кастаньеты), при этом на верхнем изображении показана форма колебания входного звукового сигнала Sn (кастаньет), на среднем изображении приведена спектрограмма входного сигнала Xk,m, а на нижнем изображении показана результирующая функция Dm выявления всплеска и идентифицированные пики (кружочки), соответствующие выявленным кадрам mi вступления всплеска;
фиг. 13.3 иллюстрирует выявление всплеска: функцию выявления (фанк), при этом на верхнем изображении показана форма колебания входного звукового сигнала Sn (кастаньет), на среднем изображении приведена спектрограмма входного сигнала Xk,m, а на нижнем изображении показана результирующая функция Dm выявления всплеска и идентифицированные пики (кружочки), соответствующие выявленным кадрам mi вступления всплеска;
фиг. 13.4 иллюстрирует структурную схему способа ослабления упреждающего эха;
фиг. 13.5 иллюстрирует выявление тональных составляющих; более конкретно, приведена спектрограмма зоны перед выявленным вступлением всплеска входного сигнала (глокеншпиля), две пунктирные горизонтальные линии ограничивают несколько выявленных тональных спектральных коэффициентов, в этом случае происходящих из предыдущего тона глокеншпиля, в качестве устойчивого затухания сигнала;
фиг. 13.6 иллюстрирует оценку длительности упреждающего эха - схематический подход, при этом приведено схематическое представление всплеска и предшествующей зоны упреждающего эха, чтобы проиллюстрировать подход для оценки фактической протяженности артефакта упреждающего эха;
фиг. 13.7 иллюстрирует оценку длительности упреждающего эха - примеры; более конкретно, приведены примеры вычисления функции Dm выявления длительности упреждающего эха для двух разных сигналов, при этом верхние изображения на фиг. 13.7(a), (b) показывают сигналы Lm и Lm интенсивности, а нижнее изображение - наклоны L'm и L'm - Dm; вертикальные линии представляют собой оцененный начальный кадр упреждающего эха; вступление всплеска расположено за пределами диаграммы в кадре 62;
фиг. 13.8 иллюстрирует оценку длительности упреждающего эха - функцию выявления, при этом показана функция выявления сигнала на фиг. 4.7(b) для иллюстрации первых двух итераций алгоритма для оценки кадра начала упреждающего эха; диаграммы показывают функцию Dm выявления в зоне поиска упреждающего эха, причем выявленное вступление всплеска располагается в кадре 62 за пределами диаграмм;
фиг. 13.9 иллюстрирует ослабление упреждающего эха - спектрограмму (кастаньет), при этом на верхнем изображении приведена спектрограмма кодированного входного сигнала Xk,m (кастаньет) вокруг события всплеска с предшествующим артефактом упреждающего эха, на среднем изображении показан обработанный выходной сигнал Yk,m с ослабленным эхо, а на нижнем изображении показаны спектральные веса Wk,m для демпфирования упреждающего эха;
фиг. 13.10 - иллюстрация определения порогового значения упреждающего эха для сигнала кастаньет в верхнем изображении и сигнала глокеншпиля в нижнем изображении; сплошная кривая - сигнал |Xk,m| интенсивности для одного спектрального коэффициента k в зоне упреждающего эха, непосредственно предшествующей вступлению всплеска (расположенному за пределами диаграмм в кадре 18 (верхнего изображения) и 34 (нижнего изображения)); мелкопунктирная и крупнопунктирная черная кривые представляют собой сглаженный сигнал интенсивности перед и после перемножения с весовой функцией Cm; результирующее пороговое значение thk упреждающего эха изображено в виде горизонтальной штрих-пунктирной линии;
фиг. 13.11 - иллюстрация определения порогового значения упреждающего эха для тональной составляющей, при этом показана взвешивающая кривая Cm, которая используется для взвешивания сглаженного сигнала интенсивности перед определением порогового значения thk упреждающего эха;
фиг. 13.12 иллюстрирует параметрическую кривую регулирования уровня для ослабления упреждающего эха; более конкретно, показана кривая fm параметрического регулирования уровня для разных значений c;
фиг. 13.13 иллюстрирует модель порогового значения упреждающего маскирования; более конкретно, - модель порогового значения упреждающего маскирования при m=0 с уровнем маскирующего сигнала s в 66 дБ (отношение сигнала к маске, SMR = -6 дБ);
фиг. 13.14 иллюстрирует вычисление целевой интенсивности после ослабления упреждающего эха, при этом дана иллюстрация вычисления сигнала целевой интенсивности для сигнала кастаньет (верхнее изображение) и сигнала глокеншпиля (нижнее изображение) с фиг. 13.10;
фиг. 13.15 иллюстрирует ослабление упреждающего эха - спектрограммы (глокеншпиль), при этом на верхнем изображении приведена спектрограмма кодированного входного сигнала Xk,m (глокеншпиля) вокруг события всплеска с предшествующим артефактом упреждающего эха, на среднем изображении показан обработанный выходной сигнал Yk,m с ослабленным упреждающим эхом, а на нижнем изображении показаны спектральные веса Wk,m для демпфирования упреждающего эха;
фиг. 13.16 иллюстрирует адаптивное улучшение качества выпада всплеска, при этом на верхнем изображении показана интенсивность |Xk,m| входного сигнала с соответствующей устойчивой частью Xk,msust сигнала и интенсивность |Yk,m| выходного сигнала в результате способа адаптивного улучшения качества выпада всплеска, а на нижнем изображении показана всплесковая часть Хk,mtrans сигнала у выходного сигнала Xk,m перед (сплошная) и после (штрихпунктирная) усиления кривой Gm усиления;
фиг. 13.17 иллюстрирует плавно убывающую кривую для адаптивного улучшения качества выпада всплеска; более конкретно, - плавно убывающую кривую Gm усиления для усиления всплесковой части сигнала у входного сигнала, вступление всплеска расположено в 0;
фиг. 13.18 иллюстрирует автокорреляционные оконные функции, при этом на верхнем изображении показаны оконные функции, используемые для оконной обработки автокорреляционной функции Ri входного сигнала Xk,m перед вычислением прогнозных коэффициентов для обратного и синтезирующего фильтра, а на нижнем изображении показаны исходные и подвергнутые оконной обработке автокорреляционные функции [56];
фиг. 13.19 иллюстрирует передаточную функцию Hnshape во временной области профилирующего фильтра LPC, а также выравнивающего и синтезирующего фильтров hnflat и Hnsynth; и
фиг. 13.20 иллюстрирует профилирование огибающей LPC - входной и выходной сигнал, при этом на верхнем изображении показан входной сигнал sn и выходной сигнал yn после профилирования огибающей LPC, а на нижнем изображении показаны соответствующие спектры интенсивности входного и выходного сигнала.
Фиг. 1 иллюстрирует устройство для постобработки звукового сигнала с использованием выявления места всплеска. В частности, устройство для постобработки размещено, по отношению к общей инфраструктуре, как проиллюстрировано на фиг. 11. В частности, фиг. 11 иллюстрирует входные данные ухудшенного звукового сигнала, показанного на 10. Эти входные данные пересылаются в постпроцессор 20 улучшения качества всплеска, и постпроцессор 20 улучшения качества всплеска выдает улучшенный звуковой сигнал, как проиллюстрировано под 30 на фиг. 11.
Устройство для постобработки 20, проиллюстрированное на фиг. 1, содержит преобразователь 100 для преобразования звукового сигнала во время-частотное представление. Более того, устройство содержит блок 120 оценки места всплеска для оценки расположения по времени всплескового участка. Блок 120 оценки места всплеска функционирует с использованием время-частотного представления, как показано соединением между преобразователем 100 и оценкой 120 места всплеска, или пользуется звуковым сигналом во временной области. Эта альтернатива проиллюстрирована прерывистой линией на фиг. 1. Более того, устройство содержит манипулятор 140 сигнала для манипуляции время-частотным представлением. Манипулятор 140 сигнала выполнен с возможностью ослаблять или устранять упреждающее эхо во время-частотном представлении в расположении по времени перед местом всплеска, где место всплеска сигнализируется блоком 120 оценки места всплеска. В качестве альтернативы или дополнительно, манипулятор 140 сигнала выполнен с возможностью выполнять профилирование время-частотного представления, как проиллюстрировано линией между преобразователем 100 и манипулятором 140 сигнала, в месте всплеска, так чтобы выпад всплескового участка усиливался.
Таким образом, устройство для постобработки на фиг. 1 ослабляет или устраняет упреждающее эхо и/или профилирует время-частотное представление, чтобы усилить выпад всплескового участка.
Фиг. 2a иллюстрирует блок 200 оценки тональности. В частности, манипулятор 140 сигнала по фиг. 1 содержит такой блок 200 оценки тональности для выявления тональных составляющих сигнала во время-частотном представлении, предшествующем всплесковому участку по времени. В частности, манипулятор 140 сигнала выполнен с возможностью применять ослабление или устранение упреждающего эха избирательным по частоте образом, так чтобы на частотах, где были выявлены тональные составляющие сигнала, манипуляция сигнала ослаблялась или выключалась по сравнению с частотами, где тональные составляющие сигналы выявлены не были. В этом варианте осуществления, поэтому, ослабление/устранение упреждающего эха, как проиллюстрировано блоком 220, включается или выключается избирательно по частоте или по меньшей мере частично постепенно ослабляется в расположениях по частоте в определенных кадрах, где были выявлены тональные составляющие сигнала. Это гарантирует, что тональные составляющие сигнала не манипулируются, поскольку, типично, тональные составляющие сигнала не могут быть одновременно упреждающим эхом или всплеском. Это обусловлено тем обстоятельством, что типичность всплеска состоит в том, что всплеск является широкополосным эффектом, который одновременно оказывает влияние на многие элементы разрешения по частоте, тогда как, в противоположность, тональная составляющая, по отношению к определенному кадру, является определенным элементом разрешения по частоте, имеющим пиковую энергию, тем временем, другие частоты в этом кадре имеют всего лишь низкую энергию.
Более того, как проиллюстрировано на фиг. 2b, манипулятор 140 сигнала содержит блок 240 оценки длительности упреждающего эха. Этот блок выполнен с возможностью оценки длительности по времени упреждающего эха, предшествующего месту всплеска. Эта оценка гарантирует, что правильный временной участок перед местом всплеска манипулируется манипулятором 140 сигнала в попытке ослабить или устранить упреждающее эхо. Оценка длительности упреждающего эха по времени основана на развитии энергии сигнала у звукового сигнала со временем, для того чтобы определять начальный кадр упреждающего эха во время-частотном представлении, содержащем множество последующих кадров звукового сигнала. Типично, такое развитие энергии сигнала у звукового сигнала со временем будет возрастающей или постоянной энергией сигнала, но не будет нисходящим развитием энергии со временем.
Фиг. 2b иллюстрирует структурную схему предпочтительного варианта осуществления постобработки в соответствии с первым подаспектом первого аспекта настоящего изобретения, то есть, где выполняется ослабление или устранение упреждающего эха, или, как изложено на фиг. 2d, «осаживание» упреждающего эха.
Ухудшенный звуковой сигнал выдается на входе 10, и этот звуковой сигнал вводится в преобразователь 100, который, предпочтительно, реализован в виде анализатора оконного преобразования Фурье, работающего с определенной длиной блока и работающего с перекрывающимися блоками.
Более того, блок 200 оценки тональности, как обсуждено на фиг. 2a, предусмотрен для управления каскадом 320 осаживания упреждающего эха, который реализован для того, чтобы применять кривую 160 осаживания упреждающего эха к время-частотному представлению, сформированному блоком 100, для того чтобы ослаблять или устранять упреждающее эхо. Выходные данные блока 320 затем еще раз преобразуются во временную область с использованием частотно-временного преобразователя 370. Этот частотно-временной преобразователь предпочтительно реализован в виде блока синтеза обратного оконного преобразования Фурье, который управляет операцией сложения с перекрытием, для того чтобы осуществлять плавное нарастание/убывание от каждого блока к следующему, для того чтобы избегать артефактов разделения на блоки.
Результатом блока 370 являются выходные данные улучшенного звукового сигнала 30.
Предпочтительно, блок 160 кривой осаживания упреждающего эха управляется блоком 150 оценки упреждающего эха, собирающего характеристики, имеющие отношение к упреждающему эху, такие как длительность упреждающего эха, которая определяется блоком 240 по фиг. 2b, или пороговое значение упреждающего эха, которое определяется блоком 260, либо другие характеристики упреждающего эха, как обсуждено со ссылкой на фиг. 3a, фиг. 3b, фиг. 4.
Предпочтительно, как очерчено на фиг. 3a, кривая 160 осаживания упреждающего эха может считаться весовой матрицей, которая содержит определенный весовой коэффициент во временной области для каждого элемента разрешения по частоте из множества временных кадров, которые формируются блоком 100. Фиг. 3a иллюстрирует блок 260 оценки порогового значения упреждающего эха, управляющий вычислителем 300 спектральной весовой матрицы, соответствующим блоку 160 на фиг. 2d, который управляет спектральным взвешивателем 320, соответствующим операции 320 осаживания упреждающего эха по фиг. 2d.
Предпочтительно, блок 260 порогового значения упреждающего эха управляется длительностью упреждающего эха и также принимает информацию о время-частотном представлении. То же самое справедливо для вычислителя 300 спектральной весовой матрицы и, конечно, спектрального взвешивателя 320, который в заключение применяет матрицу весовых коэффициентов к время-частотному представлению, для того чтобы формировать выходной сигнал в частотной области, в котором упреждающее эхо ослаблено или устранено. Предпочтительно, вычислитель 300 спектральной весовой матрицы действует в определенном частотном диапазоне, являющемся равным или большим, чем 700 Гц, и предпочтительно являющемся равным или большим, чем 800 Гц. Более того, вычислитель 300 спектральной весовой матрицы ограничен так, чтобы рассчитывать весовые коэффициенты только для зоны упреждающего эха, которая, дополнительно, зависит от характеристики сложения с перекрытием, которая применяется преобразователем 100 по фиг. 1. Более того, блок 260 оценки порогового значения упреждающего эха выполнен с возможностью оценки пороговых значений упреждающего эха для спектральных значений во время-частотном представлении в пределах длительности упреждающего эха, например, которая определяется блоком 240 по фиг. 2b, при этом пороговые значения упреждающего эха указывают пороговые значения амплитуды соответствующих спектральных значений, которые должны наблюдаться вслед за ослаблением или устранением упреждающего эха, то есть, которые должны соответствовать надлежащим амплитудам сигнала без упреждающего эха.
Предпочтительно, блок 260 оценки порогового значения упреждающего эха выполнен с возможностью определять пороговое значение упреждающего эха с использованием взвешивающей кривой, имеющей возрастающую характеристику от начала длительности упреждающего эха до места всплеска. В частности, такая кривая взвешивания определяется блоком 350 на фиг. 3b на основании длительности упреждающего эха, указанной посредством Mpre. Затем, взвешивающая кривая Cm применяется к спектральным значениям в блоке 340, где спектральные значения были сглажены раньше посредством блока 330. Затем, как проиллюстрировано в блоке 360, минимумы выбираются в качестве пороговых значений для всех индексов k частоты. Таким образом, в соответствии с предпочтительным вариантом осуществления, блок 260 оценки порогового значения упреждающего эха выполнен с возможностью сглаживать 330 время-частотное представление на множестве следующих кадров время-частотного представления и взвешивать (340) сглаженное время-частотное представление с использованием взвешивающей кривой, имеющей возрастающую характеристику от начала длительности упреждающего эха до места всплеска. Эта возрастающая характеристика гарантирует, что допустимо некоторое возрастание или убывание энергии нормального «сигнала», то есть, сигнала без артефакта упреждающего эха.
В дополнительном варианте осуществления, манипулятор 140 сигнала выполнен с возможностью использовать вычислитель 300, 160 спектральных весов для расчета отдельных спектральных весов для спектральных значений время-частотного представления. Более того, предусмотрен спектральный взвешиватель 320 для взвешивания спектральных значений время-частотного представления с использованием спектральных весов, чтобы получать манипулированное время-частотное представление. Таким образом, манипуляция выполняется в частотной области посредством использования весов и посредством взвешивания отдельных элементов разрешения по времени/частоте, которые формируются преобразователем 100 по фиг. 1.
Предпочтительно, спектральные веса рассчитываются, как проиллюстрировано в конкретном варианте осуществления, проиллюстрированном на фиг. 4. Спектральный взвешиватель 320 принимает, в качестве первых входных данных, время-частотное представление Xk,m и принимает, в качестве вторых входных данных, спектральные веса. Эти спектральные веса рассчитываются вычислителем 450 необработанных весов, который выполнен с возможностью определять необработанные спектральные веса с использованием действующего спектрального значения и целевого спектрального значения, которые оба вводятся в этот блок. Вычислитель необработанных весов действует, как проиллюстрировано в Уравнении 4.18, проиллюстрированном впоследствии, но также полезны другие реализации, полагающиеся на действующее значение, с одной стороны, и целевое значение, с другой стороны. Более того, в качестве альтернативы или дополнительно, спектральные веса сглаживаются со временем, для того чтобы избегать артефактов и для того, чтобы избегать изменений, которые слишком сильны, от одного кадра к другому.
Предпочтительно, целевое значение, введенное в вычислитель 450 необработанных весов, более точно, рассчитывается моделятором 420 упреждающего маскирования. Моделятор 420 упреждающего маскирования предпочтительно действует в соответствии с уравнением 4.26, определенным позже, но также могут использоваться другие реализации, которые полагаются на психоакустические эффекты и, в частности, полагаются на характеристику упреждающего маскирования, которая типично имеет место для всплеска. Моделятор 420 упреждающего маскирования, с одной стороны, управляется блоком 410 оценки маски, более точно, рассчитывающим маску, полагаясь на акустический эффект типа упреждающего маскирования. В варианте осуществления, блок 410 оценки маски действует в соответствии с уравнением 4.21, описанным впоследствии, но, в качестве альтернативы, могут применяться другие оценки маски, которые полагаются на психоакустический эффект упреждающего маскирования.
Более того, регулятор 430 уровня используется для плавного увеличения ослабления или устранения упреждающего эха с использованием кривой регулирования уровня на множестве кадров в начале длительности упреждающего эха. Эта кривая регулирования уровня предпочтительно управляется действующим значением в определенном кадре и предопределенным пороговым значением thk упреждающего эха. Регулятор 430 уровня гарантирует, что ослабление/устранение упреждающего эха не только начинается немедленно, но и плавно увеличивается. Предпочтительная реализация проиллюстрирована впоследствии в связи с уравнением 4.20, но другие операции регулирования уровня также полезны. Предпочтительно, регулятор 430 уровня управляется блоком 440 оценки кривой регулирования уровня, управляемым длительностью Mpre упреждающего эха, которая, например, определяется блоком 240 оценки длительности упреждающего эха. Варианты осуществления блока оценки кривой регулирования уровня действуют в соответствии с уравнением 4.19, обсужденным впоследствии, но другие реализации также полезны. Все эти операции согласно блокам 410, 420, 430, 440 полезны для расчета определенного целевого значения, так чтобы, в заключение, вместе с действующим значением, некоторый вес мог определяться блоком 450, который затем применяется к время-частотному представлению и, в частности, к конкретному элементу разрешения по времени/частоте, следующему за предпочтительным сглаживанием.
Естественно, целевое значение также может определяться без какого бы то ни было психоакустического эффекта упреждающего маскирования и без какого бы то ни было регулирования уровня. В таком случае, целевое значение являлось бы непосредственно thk, но было обнаружено, что конкретные расчеты, выполняемые блоками 410, 420, 430, 440, дают в результате улучшенное ослабление упреждающего эха в выходном сигнале спектрального взвешивателя 320.
Таким образом, предпочтительно определять целевое спектральное значение так, чтобы спектральное значение, имеющее амплитуду ниже порогового значения упреждающего эха, не находилось под влиянием манипуляции сигнала, или определять целевые спектральные значения с использованием модели 410, 420 упреждающего маскирования, так чтобы демпфирование спектрального значения в зоне упреждающего эха ослаблялось на основании модели 410 упреждающего маскирования.
Предпочтительно, алгоритм, выполняемый в преобразователе 100, таков, что время-частотное представление содержит комплекснозначные спектральные значения. С другой стороны, однако, манипулятор сигнала выполнен с возможностью применять вещественнозначные спектральные весовые значения к комплекснозначным спектральным значениям, так чтобы, после манипуляции в блоке 320, были изменены только амплитуды, но фазы были такими же, как до манипуляции.
Фиг. 5 иллюстрирует предпочтительную реализацию манипулятора 140 сигнала по фиг. 1. В частности, манипулятор 140 сигнала содержит ослабитель/подавитель упреждающего эха, действующий перед местом всплеска, проиллюстрированным под 220, или содержит усилитель выпада, действующий после/в месте всплеска, как проиллюстрировано блоком 500. Оба блока 220, 500 управляются местом всплеска, которое определяется блоком 120 оценки места всплеска. Ослабитель 220 упреждающего эха соответствует первому подаспекту, а блок 500 соответствует второму подаспекту в соответствии с первым аспектом настоящего изобретения. Оба аспекта могут использоваться в качестве альтернативы друг другу, то есть, в отсутствие другого аспекта, как проиллюстрировано прерывистыми линиями на фиг. 5. С другой стороны, однако, предпочтительно использовать обе операции в конкретном порядке, проиллюстрированном на фиг. 5, то есть, в котором функционирует ослабитель 220 упреждающего эха, а выходной сигнал ослабителя/подавителя 220 упреждающего эха подается в усилитель 500 выпада.
Фиг. 6a иллюстрирует предпочтительный вариант осуществления усилителя 500 выпада. Вновь, усилитель 500 выпада содержит вычислитель 610 спектральных весов и присоединенный впоследствии спектральный взвешиватель 620. Таким образом, манипулятор сигнала выполнен с возможностью усиливать 500 спектральные значения в пределах всплескового кадра время-частотного представления и, предпочтительно, дополнительно усиливать спектральные значения в пределах одного или более кадров, следующих за всплесковым кадром в пределах время-частотного представления.
Предпочтительно, манипулятор 140 сигнала выполнен с возможностью усиливать только спектральные значения выше минимальной частоты, где эта минимальная частота выше 250 Гц и ниже 2 кГц. Усиление может выполняться до верхней граничной частоты, поскольку выпада в начале места всплеска типично распространяются по всему высокочастотному диапазону сигнала.
Предпочтительно, манипулятор 140 сигнала и, в частности. усилитель 500 выпада по фиг. 5 содержит делитель 630, который разделяет кадр с точностью до всплесковой части, с одной стороны, и установившейся части, с другой стороны. Всплесковая часть затем подвергается спектральному взвешиванию и, дополнительно, спектральные веса также рассчитываются в зависимости от информации о всплесковой части. Затем, только всплесковая часть спектрально взвешивается, и результат из блока 610, 620 на фиг. 6b, с одной стороны, и установившаяся часть, которая выводится делителем 630, в заключение комбинируются в объединителе 640, для того чтобы выдавать звуковой сигнал, где был усилен выпад. Таким образом, манипулятор 140 сигнала выполнен с возможностью разделять 630 время-частотное представление в месте всплеска на установившуюся часть и всплесковую часть и, предпочтительно, дополнительно также отделять кадры, следующие за местом всплеска. Манипулятор 140 сигнала выполнен с возможностью усиливать только всплесковую часть и не усиливать и не манипулировать установившейся частью.
Как изложено, манипулятор 140 сигнала выполнен с возможностью также усиливать временной участок время-частотного представления, следующего за местом всплеска по времени с использованием плавно убывающей характеристики 685, как проиллюстрировано блоком 680. В частности, вычислитель 610 спектральных весов содержит определитель 680 весовых коэффициентов, принимающий информацию о всплесковой части, с одной стороны, об установившейся части, с другой стороны, о плавно убывающей кривой 685 Gm и, предпочтительно, также принимая информацию об амплитуде соответствующего спектрального значения Xk,m. Предпочтительно, определитель 680 весовых коэффициентов действует в соответствии с уравнением 4.29, обсужденным впоследствии, но другие реализации, полагающиеся на информацию о всплесковой части, об установившейся части и плавно убывающей характеристике 685, также полезны.
Вслед за определением 680 весовых коэффициентов, сглаживание по частоте выполняется в блоке 690, а затем, на выходе блока 690, весовые коэффициенты для отдельных значений частоты имеются в распоряжении и уже готовы для использования спектральным взвешивателем 620, для того чтобы спектрально взвешивать время/частотное представление. Предпочтительно, усиленная часть, которая, например, определяется максимумом медленно убывающей характеристики 685, предопределена и находится между 300% и 150%. В предпочтительном варианте осуществления, в качестве максимума используется коэффициент усиления 2,2, который убывает за некоторое количество кадров до значения 1, где, как проиллюстрировано на фиг. 13.17, получается такое убывание, например, через 60 кадров. Хотя фиг. 13.17 иллюстрирует разновидность экспоненциального затухания, другие затухания, такие как линейное затухание или косинусное затухание, также могут использоваться.
Предпочтительно, результат манипуляции 140 сигнала преобразуется из частотной области во временную область с использованием спектрально-временного преобразователя 370, проиллюстрированного на фиг. 2d. Предпочтительно, спектрально-временной преобразователь 370 применяет операцию сложения с перекрытием, вовлекающую по меньшей мере два смежных кадра время-частотного представления, но также могут использоваться процедуры множественного перекрытия, в которых используется перекрытие трех или четырех кадров.
Предпочтительно, преобразователь 100, с одной стороны и другой преобразователь 370, с другой стороны, применяют один и тот же размер скачка между 1 и 3 мс или окно анализа, имеющее длину окна между 2 и 6 мс. И, предпочтительно, диапазон перекрытия, с одной стороны, размер скачка, с другой стороны, или окна, применяемые время-частотным преобразователем 100 и частотно-временным преобразователем 370, равны друг другу.
Фиг. 7 иллюстрирует устройство для постобработки 20 звукового сигнала в соответствии со вторым аспектом настоящего изобретения. Устройство содержит время-спектральный преобразователь 700 для преобразования звукового сигнала в спектральное представление, содержащее последовательность спектральных кадров. Дополнительно, используется прогнозный анализатор 720 для расчета прогнозных данных фильтра для прогнозирования по частоте в пределах спектрального кадра. Прогнозный анализатор 720, действующий по частоте, формирует данные фильтра для кадра, и эти данные фильтра для кадра используются профилирующим фильтром 740 для кадра, чтобы увеличить качество всплескового участка в пределах спектрального кадра. Выходные данные профилирующего фильтра 740 пересылаются в спектрально-временной преобразователь 760 для преобразования последовательности спектральных кадров, содержащих профилированный спектральный кадр, во временную область.
Предпочтительно, прогнозный анализатор 720, с одной стороны, или профилирующий фильтр 740, с другой стороны, действуют в отсутствие явного выявления места всплеска. Взамен, вследствие прогноза по частоте, применяемого блоком 720, и вследствие профилирования для улучшения качества всплескового участка, сформированного блоком 740, временная огибающая звукового сигнала манипулируется, так чтобы всплесковый участок улучшался автоматически, без какого бы то ни было специального выявления всплеска. Однако, в зависимости от обстоятельств, блок 720, 740 также может быть подкреплен явным выявлением места всплеска, для того чтобы гарантировать, что никакие вероятные артефакты не запечатлевались в звуковом сигнале на невсплесковых участках.
Предпочтительно, прогнозный анализатор 720 выполнен с возможностью рассчитывать первые прогнозные данные 720a фильтра для выравнивающей характеристики 740a фильтра и вторые прогнозные данные 720b фильтра для профилирующей характеристики 740b фильтра, как проиллюстрировано на фиг. 8a. В частности, прогнозный анализатор 720 принимает, в качестве входных данных, полный кадр последовательности кадров, а затем выполняет операцию для прогнозного анализа по частоте, для того чтобы получить выравнивающую характеристику данных фильтра или сформировать профилирующую характеристику фильтра. Характеристика выравнивающего фильтра является характеристикой фильтра, которая, в конечном счете, походит на обратный фильтр, который также может быть представлен характеристикой 740a КИХ-фильтра (с конечной импульсной характеристикой), в котором вторые данные фильтра для профилирования соответствуют характеристике синтезирующего или БИХ-фильтра (БИХ = бесконечная импульсная характеристика), проиллюстрированной на 740b.
Предпочтительно, степень профилирования, представленная вторыми данными 720b фильтра, является большей, чем степень выравнивания 720a, представленная первыми данными фильтра, так чтобы, вслед за применением профилирующего фильтра, имеющего обе характеристики 740a, 740b, получается разновидность «избыточного профилирования» сигнала, которая дает в результате временную огибающую, являющуюся менее ровной, чем исходная временная огибающая. Это в точности то, что требуется для улучшения качества всплеска.
Хотя фиг. 8a иллюстрирует ситуацию, в которой рассчитываются две разных характеристики фильтра, одна профилирующего фильтра и одна выравнивающего фильтра, другие варианты осуществления полагаются на единую профилирующую характеристику фильтра. Это происходит вследствие того обстоятельства, что сигнал может, конечно, также без предыдущего выравнивания, профилироваться так чтобы, в заключение, еще раз получался избыточно профилированный сигнал, который автоматически имеет улучшенные всплески. Этот эффект избыточного профилирования может управляться детектором места всплеска, но этот детектор места всплеска не требуется вследствие предпочтительной реализации манипуляции сигнала, которая автоматически оказывает меньшее влияние на невсплесковые участки. чем на всплесковые участки. Обе процедуры полностью полагаются на то обстоятельство, что прогноз по частоте применяется прогнозным анализатором 720, для того чтобы получать информацию о временной огибающей сигнала во временной области, который затем манипулируется, для того чтобы улучшать качество всплескового характера звукового сигнала.
В этом варианте осуществления, автокорреляционный сигнал 800 рассчитывается из спектрального кадра, как проиллюстрировано под 800 на фиг. 8b. Окно с первой постоянной времени затем используется для оконной обработки результата из блока 800, как проиллюстрировано в блоке 802. Более того, окно, имеющее вторую постоянную времени, являющуюся большей, чем первая постоянная времени, используется для оконной обработки автокорреляционного сигнала, полученного блоком 800, как проиллюстрировано в блоке 804. Из результирующего сигнала, полученного из блока 802, первые прогнозные данные фильтра рассчитываются, как проиллюстрировано блоком 806, предпочтительно посредством применения рекурсии Левинсона-Дурбина. Подобным образом, вторые прогнозные данные 808 фильтра рассчитываются в блоке 803 с большей постоянной времени. Еще раз, блок 808 предпочтительно использует тот же самый алгоритм Левинсона-Дурбина.
Вследствие того обстоятельства, что автокорреляционный сигнал подвергается оконной обработке окнами, имеющими две разных постоянных времени, получается - автоматическое - улучшение качества всплеска. Типично, оконная обработка такова, что разные постоянные времени оказывают влияние только на один класс сигналов, но не оказывают влияние на другой класс сигналов. Всплесковые сигналы фактически находятся под влиянием посредством двух разных постоянных времени, тогда как невсплесковые сигналы имеют такой автокорреляционный сигнал, что оконная обработка со второй, большей постоянной времени, дает в результате по чти такой же выходной сигнал, как оконная обработка с первой постоянной времени. Со ссылкой на фиг. 13 и 18, это происходит вследствие того обстоятельства, что невсплесковые сигналы не имеют никаких значительных пиков с высокими временными задержками, а потому, использование двух разных постоянных времени не имеет никакой разницы по отношению к этим сигналам. Однако, это не отличается для всплесковых сигналов. Всплесковые сигналы имеют пики с более высокой временной задержкой, а потому, применение разных постоянных времени к автокорреляционному сигналу, который фактически имеет пики с более высокой временной задержкой, как проиллюстрировано на фиг. 13 и 18 под 1300, например, дает в результате разные выходные сигналы для разных операций оконной обработки с разными постоянными времени.
В зависимости от реализации, профилирующий фильтр может быть реализован многими разными способами. Один из способов проиллюстрирован на фиг. 8c и является каскадным включением выравнивающего подфильтра, управляемого первыми данными 806 фильтра, как проиллюстрировано на 809, и профилирующего подфильтра, управляемого вторыми данными 808 фильтра, как проиллюстрировано под 810, и компенсатор 811 усиления, который также реализован в каскадном включении.
Однако, две разных характеристики фильтра и компенсация усиления также могут быть реализованы в пределах единого профилирующего фильтра 740, и комбинированная характеристика фильтра профилирующего фильтра 740 рассчитывается объединителем 820 характеристики фильтра, полагаясь, с одной стороны, как на первые, так и на вторые данные фильтра, а дополнительно, с другой стороны, полагаясь на коэффициенты усиления первых данных фильтра и вторых данных фильтра, чтобы, к тому же, в заключение также реализовывать функцию 811 компенсации усиления. Таким образом, что касается варианта осуществления по фиг. 8d, в котором применяется комбинированный фильтр, кадр вводится в единый профилирующий фильтр 740, и выходными данными является профилированный кадр, который имеет обе характеристики фильтра, с одной стороны, и функциональные компенсации усиления, с другой стороны, реализованные в нем.
Фиг. 8e иллюстрирует дополнительную реализацию второго аспекта настоящего изобретения, в которой функциональные возможности комбинированного профилирующего фильтра 740 по фиг. 8d проиллюстрированы в соответствии с фиг. 8c, но должно быть отмечено, что фиг. 8e фактически может быть реализацией трех отдельных каскадов 809, 810, 811, но, одновременно, может выглядеть как логическое представление, которое в сущности реализовано с использованием одиночного фильтра, имеющего характеристику фильтра с числителем и знаменателем, в котором числитель имеет характеристику обратного/выравнивающего фильтра, а знаменатель имеет синтезирующую характеристику, и в который дополнительно включена компенсация усиления, например, как проиллюстрировано в уравнении 4.33, которое определено впоследствии.
Фиг. 8f иллюстрирует функциональные возможности оконной обработки, получаемой блоком 802, 804 по фиг. 8b, в которой r(k) - автокорреляционный сигнал, а wlag - окно, r’(k) - выходной сигнал оконной обработки, то есть, выходной сигнал блоков 802, 804 и, дополнительно, в качестве примера проиллюстрирована оконная функция, которая, в заключение, представляет собой фильтр экспоненциального затухания, имеющий две разных постоянных времени, которые могут устанавливаться посредством использования определенного значения для a на фиг. 8f.
Таким образом, применение окна к автокорреляционному значению перед рекурсией Левинсона-Дурбина дает в результате расширение основания по времени на локальных временных пиках. В частности, расширение с использованием гауссова окна описано на фиг. 8f. Варианты осуществления здесь полагаются на идею выводить временной выравнивающий фильтр, который имеет большее расширение основания по времени в локальных неплоских огибающих, чем следующий профилирующий фильтр, посредством выбора разных значений 4a. Вместе эти фильтры дают в результате обострение кратковременных выпадов в сигнале. В результате, есть компенсация для прогнозных коэффициентов усиления фильтра, так что спектральная энергия фильтрованной спектральной области сохраняется.
Таким образом, поток сигналов основанного на LPC в частотной области профилирования выпада, получается, как проиллюстрировано на фиг. с 8a по 8e.
Фиг. 9 иллюстрирует предпочтительный вариант осуществления вариантов осуществления, которые полагаются как на первый аспект, проиллюстрированный с блока 100 по 370 на фиг. 9, и выполняемый впоследствии второй аспект, проиллюстрированный блоком с 700 по 760. Предпочтительно, второй аспект полагается на отдельное время-частотное преобразование, которое использует большой размер кадра, такой как размер 512 кадра, и перекрытие 50%. С другой стороны, первый аспект полагается на небольшой размер кадра, для того чтобы иметь лучшее разрешение по времени применительно к выявлению места всплеска. Такой меньший размер кадра, например, размер кадра в 128 отсчетов и перекрытие в 50%. Однако, в целом, предпочтительно использовать отдельные время-частотные преобразования для первого и второго аспектов, в которых аспект размера кадра является большим (разрешение по времени ниже, но разрешение по частоте выше), тогда как разрешение по времени для первого аспекта является более высоким при соответствующем более низком разрешении по частоте.
Фиг. 10a иллюстрирует предпочтительный вариант осуществления блока 120 оценки места всплеска по фиг. 1. Блок 120 места всплеска может быть реализован, как известно в данной области техники, но, в предпочтительном варианте осуществления, полагается на вычислитель 1000 функции выявления и впоследствии присоединен к блоку 1100 захвата вступления, так что, в заключение, получается двоичное значение для каждого кадра, указывающее наличие вступления всплеска в кадре.
Вычислитель 1000 функции выявления полагается на несколько этапов, проиллюстрированных на фиг. 10b. Они представляют собой суммирование значений энергии в блоке 1020. В блоке 1030 выполняется вычисление временных огибающих. Впоследствии, на этапе 1040, выполняется высокочастотная фильтрация каждой временной огибающей полосового сигнала. На этапе 1050, выполняется суммирование результирующих подвергнутых высокочастотной фильтрации сигналов в направлении частоты, а в блоке 1060 выполняется учет временного запаздывающего маскирования, так чтобы, в заключение, получалась функция выявления.
Фиг. 10c иллюстрирует предпочтительный способ захвата вступления из функции выявления, которая получена блоком 1060. На этапе 1110, в функции выявления обнаруживаются локальные максимумы (пики). В блоке 1120, выполняется сравнение с пороговым значением, для того чтобы сохранять для дальнейшего рассмотрения только пики, которые находятся выше определенного минимального порогового значения.
В блоке 1130, зона вокруг каждого пика сканируется для поиска большего пика, для того чтобы определять из этой зоны значимые пики. Зона вокруг пиков продолжается некоторое количество lb кадров до пика и некоторое количество la кадров после пика.
В блоке 1140, близко расположенные пики отбрасываются, так что, в заключение, определяются индексы mi кадров с вступлением всплеска.
Впоследствии раскрыты технические и звуковые концепции, которые используются в предложенных способах улучшения качества всплесков. Прежде всего, будут представлены базовые технологии цифровой обработки сигналов касательно выбранных операций фильтрации и линейного прогноза, сопровождаемые определением всплесков. Впоследствии, пояснена психоакустическая концепция, которая применяется в перцепционном кодировании звукового контента. Эта часть заканчивается кратким описанием унаследованного перцепционного аудиокодека и наведенных артефактов сжатия, которые подвергаются способам улучшения качества в соответствии с изобретением.
Сглаживающие и разграничивающие фильтры
Способы улучшения качества всплеска, описанные впоследствии часто используют некоторые конкретные операции фильтрации. Представление этих фильтров будет дано в разделе, приведенном ниже. Ради более подробного описания обратитесь к [9, 10]. Уравнение (2.1) описывает низкочастотный (КИХ) фильтр с конечной импульсной характеристикой, который вычисляет значение yn текущего выходного отсчета в качестве среднего значения текущего и прошлого отсчетов входного сигнала xn. Процесс фильтрации этого так называемого фильтра скользящего среднего задан согласно
где p - порядок фильтра. Верхнее изображение по фиг. 12.1 показывает результат действия фильтра скользящего среднего в Уравнении (2.1) для входного сигнала xn. Выходной сигнал yn в нижнем изображении вычислялся посредством применения фильтра скользящего среднего два раза на xn, в обоих, прямом и обратном направлении. Это компенсирует задержку фильтра и также дает в результате более гладкий выходной сигнал yn, поскольку xn фильтруется два раза.
Другой способ сглаживать сигнал состоит в том, чтобы применять однополюсный рекурсивный усредняющий фильтр, который задан следующим дифференциальным уравнением:
причем y0=x1, а N обозначает количество отсчетов в xn. Фиг. 12.2 (a) отображает результат однополюсного рекурсивного усредняющего фильтра, примененного к прямоугольной функции. В (b), фильтр применялся в обоих направлениях для дополнительного сглаживания сигнала. Принимая
где xn и yn - входной и выходной сигналы Уравнения (2.2), соответственно, результирующие выходные сигналы
Сильные положительные или отрицательные приращения амплитуды входного сигнала xn могут выявляться посредством фильтрации xn высокочастотным КИХ-фильтром в виде
причем b = [1, -1] или b = [1, 0, . . . ,-1]. Результирующий сигнал после высокочастотной фильтрации прямоугольной функции показан на фиг. 12.2 (d) в виде черной кривой.
Линейный прогноз
Линейный прогноз (LP) - полезный способ для кодирования звукового сигнала. Некоторые прошлые учения, в частности, описывают свою возможность моделировать процесс речеобразования [11, 12, 13], тем временем, другие также применяют его в общем для анализа звуковых сигналов [14, 15, 16, 17]. Следующий раздел основан на [11, 12, 13, 15, 18].
В линейном предиктивном кодировании (LPC), дискретизированный временной сигнал s(nT)
где n - индекс времени, который идентифицирует некоторый временной отсчет сигнала, p - порядок прогноза, ar , причем 1 ≤ r ≤ p - коэффициенты линейного прогноза (и, в данном случае, коэффициенты фильтра полюсного (БИХ) фильтра с бесконечной импульсной характеристикой, G - коэффициент усиления, а un - некоторый входной сигнал, который возбуждает модель. Беря z-преобразование по Уравнению (2.6), соответствующая полюсная передаточная функция H(z) системы имеет значение
где
Фильтр H(z) UR назван синтезирующим фильтром или фильтром LPC, тем временем, КИХ-фильтр A(z) = 1-
Это дает в результате ошибку прогнозирования между предсказанным сигналом
причем эквивалентным представлением ошибки прогнозирования в области z является
Фиг. 12.3 показывает исходный сигнал sn, предсказанный сигнал
и
,
соответственно.
С повышением порядка p прогноза энергия остатка убывает. Кроме количества коэффициентов прогнозатора, энергия остатка также зависит от самих коэффициентов. Поэтому, сложная задача в кодировании с линейным прогнозом состоит в том, каким образом получить оптимальные коэффициенты ar фильтра, так чтобы энергия остатка была минимизирована. Прежде всего, берем суммарную квадратичную ошибку (полную энергию) остатка из блока xn=sn ⋅ wn подвергнутого оконной обработке сигнала, где wn - некоторая оконная функция длительностью N, и ее прогноз
причем
Чтобы минимизировать суммарную квадратичную ошибку E, градиент Уравнения (2.14) должен быть вычислен относительно каждого ar и установлен в 0 посредством установки
Это приводит к так называемым нормальным уравнениям:
Ri обозначает автокорреляцию сигнала xn в виде
Уравнение (2.17) формирует систему p линейных уравнений, из которых могут быть вычислены p неизвестных прогнозных коэффициентов ar, 1 ≤ r ≤ p, которые минимизируют суммарную квадратичную ошибку. С Уравнением (2.14) и Уравнением (2.17), минимальная суммарная квадратичная ошибка Ep может быть получена согласно
Быстрым путем решить нормальные уравнения в Уравнении (2.17) является алгоритм Левинсона-Дурбина [19]. Алгоритм работает рекурсивно, что влечет за собой преимущество, что с ростом порядка прогноза он дает коэффициенты прогнозатора для текущего и всех предыдущих порядков, меньших, чем p. Сначала, алгоритм инициализируется посредством установки
Eo=Ro.
Потом, применительно к порядкам m=1, ..., p, прогнозные коэффициенты ar(m), которыми являются коэффициенты ar текущего порядка m, вычисляются в зависимости от коэффициентов частной корреляции pm, как изложено ниже:
С каждой итерацией, минимальная суммарная квадратичная ошибка Em текущего порядка m вычисляется в Уравнении. (2.24). Поскольку Em всегда положительно, и причем Eo=Ro, может быть показано, что с повышением порядка m минимальная полная энергия убывает, так что мы имеем
Поэтому, рекурсия влечет за собой еще одно преимущество по той причине, что расчет коэффициентов прогнозатора может прекращаться, когда Em падает ниже некоторого порогового значения.
Оценка огибающей во временной и частотной области
Важным признаком фильтров LPC является их способность моделировать характеристики сигнала в частотной области, если коэффициенты фильтра рассчитывались на временном сигнале. Эквивалентно прогнозированию временной последовательности, линейный прогноз приближенно выражает спектр последовательности. В зависимости от порядка прогноза, фильтры LPC могут использоваться для вычисления более или менее подробной огибающей частотной характеристики сигналов. Нижеследующий раздел основан на [11, 12, 13, 14, 16, 17, 20, 21].
Из Уравнения (2.13) можем видеть, что исходный спектр сигнала может быть идеально восстановлен из остаточного спектра посредством его фильтрации полюсным фильтром H(z). Посредством установки un=δn в Уравнении (2.6), где δn - дельта-функция Дирака, спектр S(z) сигнала может моделироваться полюсным фильтром
С прогнозными коэффициентами ar, вычисляемыми с использованием алгоритма Левинсона-Дурбина в Уравнении (2.21)-(2.24), остается только определить коэффициент G усиления. С un=δn, Уравнение (2.6) становится
,
где hn - импульсная характеристика синтезирующего фильтра H(z). Согласно Уравнению (2.17), автокорреляция
Посредством возведения hn в квадрат в Уравнении (2.27) и суммирования по всем n, 0-ой коэффициент автокорреляции импульсной характеристики синтезирующего фильтра становится
Поскольку
Фиг. 12.5 показывает спектр S(z) одного кадра (1024 отсчетов) из речевого сигнала Sn. Более гладкая черная кривая является спектральной огибающей
Вследствие дуализма между временем и частотой, линейный прогноз также можно применять в частотной области к спектру сигнала, для того чтобы моделировать его временную огибающую. Вычисление временной оценки выполняется таким же образом, только такой расчет коэффициентов прогнозатора выполняется над спектром сигнала, а импульсная характеристика результирующего полюсного фильтра затем преобразуется во временную область. Фиг. 2.6 показывает абсолютные значения исходного временного сигнала и два приближенных выражения с порядком прогноза p=10 и p=20. Что касается оценки частотной характеристики, может наблюдаться, что временное приближенное представление является более точным при более высоких порядков.
Всплески
В литературе, может быть найдено много разных определений всплеска. Некоторые ссылаются на него как на вступления или выпады [22, 23, 24, 25], тогда как другие используют эти термины для описания всплесков [26, 27]. Этот раздел нацелен на описание разных подходов для определения всплесков и определения их характеристик в целях этого описания изобретения.
Определение характеристик
Некоторые более ранние определения всплесков описывают их исключительно как явление во временной области, например, что положено в основу у Kliewer и Mertins [24]. Они описывают всплески как сегменты сигнала во временной области, чья энергия быстро нарастает от низкого до высокого значения. Для определения границ этих сегментов, они используют соотношение энергий в пределах двух скользящих окон по сигналу энергии во временной области непосредственно перед и после отсчета n сигнала. Деление энергии окна непосредственно после n на энергию предшествующего окна дает в результате простую целевую функцию C(n), чьи пиковые значения соответствуют началу всплескового периода. Эти пиковые значения возникают, когда энергия сразу после n является существенно большей, чем раньше, отмечая начало резкого подъема энергии. Конец всплеска в таком случае определяется как момент времени, где C(n) падает ниже определенного порогового значения после вступления.
Masri и Bateman [28] описывают всплески в виде радикального изменения временной огибающей сигналов, где сегменты сигнала до и после начала всплеска крайне некоррелированы. Частотный спектр узкого временного кадра, содержащего в себе событие всплеска от ударного инструмента, часто показывает большую вспышку энергии на всех частотах, которая может быть видна на спектрограмме всплеска кастаньет на фиг. 2.7 (b). Другие работы [23, 29, 25] также характеризуют всплески во время-частотном представлении сигнала, где они соответствуют временным кадрам с резкими повышениями энергии, появляющимися одновременно в нескольких соседних полосах частот. Rodet и Jaillet [25], более того, утверждают, что этот резкий рост энергии особенно заметен на верхних частотах, поскольку вся энергия сигнала сосредоточена главным образом в низкочастотной области.
Herre [20], а также Zhang и другие [30] характеризуют всплески степенью равномерности временной огибающей. При внезапном росте энергии за все время, всплесковый сигнал имеет весьма равномерную временную структуру с соответствующей равномерной спектральной огибающей. Один из способов для определения равномерности спектра состоит в том, чтобы применять показатель неравномерности спектра (SFM) [31] в частотной области. Равномерность спектра, SF, сигнала может рассчитываться получением соотношения геометрического среднего Gm и арифметического среднего Am спектра мощности:
Suresh Babu и другие [27], кроме того, проводят различие между ударными всплесками и всплесками в частотной области. Они характеризуют всплески в частотной области скорее резким изменением спектральной огибающей между соседними временными кадрами, нежели изменением энергии во временной области, как описано раньше. Эти события в сигнале, например, могут порождаться смычковыми инструментами, подобными скрипкам, или человеческой речью в результате изменения высоты тона выдаваемого звука. Фиг. 12.7 показывает различия между ударными всплесками и всплесками в частотной области. Сигнал на (c) изображает звуковой сигнал, порожденный скрипкой. Вертикальная пунктирная линия помечает момент времени изменения высоты тона представляемого сигнала, то есть, начало нового тона или всплеска в частотной области, соответственно. В противоположность ударному всплеску, порожденному кастаньетами по (a), это вступление новой ноты не вызывает заметного изменения амплитуды сигнала. Момент времени этого изменения спектрального состава может быть виден на спектрограмме (d). Однако, спектральные различия до и после всплеска более очевидны на фиг. 2.8, которая показывает два спектра сигнала скрипки на фиг. 12.7(c), один является спектром временного кадра, предшествующего, а другой - следующего за вступлением всплеска в частотной области. Заметно, что гармонические составляющие различаются между двумя спектрами. Однако, перцепционное кодирование всплесков в частотной области не вызывает разновидности артефактов, в ответ на которые будут приниматься меры алгоритмами восстановления, представленными в этой работе, а потому, будут оставлены без внимания. Впредь, термин всплеск будет использоваться для представления только ударных всплесков.
Разграничение всплесков, вступлений и выпадов
У Bello и других [26] было найдено разграничение между понятиями всплесков, вступлений и выпадов, которые были переняты в этой работе. Разграничение этих терминов также проиллюстрировано на фиг. 12.9 с использованием примера всплескового сигнала, порожденного кастаньетами.
В общем смысле, понятие всплесков по-прежнему не определено авторами исчерпывающе, но оно характеризует короткий промежуток времени вместо отдельного момента времени. В этом всплесковом периоде, амплитуда сигнала быстро растет относительно непрогнозируемым образом. Но, не определено точно, где заканчивается всплеск, после того как его амплитуда достигает своего пика. В своем довольно неформальном определении, они также включают часть спада амплитуды в всплесковый интервал. Посредством данному определению характеристик, акустические инструменты вырабатывают всплески, в течение которых они возбуждены (например, когда дергается гитарная струна или ударяется малый барабан), а затем впоследствии успокаиваются. После этого начального спада, последующий более медленный спад сигнала вызывается только резонансными частотами корпуса инструмента.
Вступления являются моментами времени, где начинает возрастать амплитуда сигнала. Применительно к этой работе, вступления будут определены в качестве времени начала всплеска.
Выпад всплеска представляет собой промежуток времени в пределах всплеска между его вступлением и пиком, в течение которого нарастает амплитуда.
Психоакустика
Этот раздел дает базовое представление псикоакустических понятий, которые используются в перцепционном звуковом кодировании, а также в алгоритме улучшения качества всплеска, описанном позже. Цель психоакустики состоит в том, чтобы описывать зависимость между «измеримыми физическими свойствами звуковых сигналов и внутренними результатами восприятия, которые эти звуки вызывают у слушателя» [32]. Слуховое восприятие человека имеет свои ограничения, которые могут использоваться перцепционными кодировщиками звукового сигнала в процессе кодирования звукового контента для существенного снижения скорости передачи битов кодированного звукового сигнала. Хотя цель перцепционного звукового кодирования состоит в том, чтобы кодировать звуковой материал таким образом, чтобы декодированный звуковой сигнал звучал точно или как можно ближе к исходному сигналу [1], оно по-прежнему может привносить некоторые слышимые артефакты кодирования. Необходимая основа для понимания происхождения этих артефактов и того, каким образом психоакустическая модель используется перцепционным кодировщиком звукового сигнала, будет приведена в данном разделе. За более подробное описание о психоакустике, читатель обращается к [33, 34].
Симультантное маскирование
Синхронное маскирование указывает ссылкой на психоакустическое явление, при котором один звук (маскируемый звук) может быть не слышимым для человека-слушателя, когда он выдается одновременно с более мощным звуком (маскирующим звуком), если оба звука близки по частоте. Широко используемый пример для описания этого явления является примером беседы между двумя людьми на обочине дороги. Без мешающего шума, они могут воспринимать друг друга идеально, но им нужно повышать уровень громкости своего разговора, если легковой автомобиль или грузовик проезжает мимо, для того чтобы продолжать понимать друг друга.
Понятие синхронного маскирования может быть пояснено посредством рассмотрения функциональных возможностей слуховой системы человека. Если зондирующий сигнал выдается на слушателя, он вызывает бегущую волну вдоль базальной мембраны (BM) в улитке, распространяясь от ее основания на овальном окне до вершины в ее конце [17]. Начиная с овального окна, вертикальное смещение бегущей волны сначала нарастает медленно, достигает своего максимума в определенном положении, а затем, впоследствии резко уменьшается [33, 34]. Положение его максимального смещения зависит от частоты раздражителя. BM является узкой и жесткой на основании и приблизительно в три раза шире и мягче на вершине. Таким образом, каждое положение вдоль BM наиболее чувствительно к конкретной частоте, причем высокочастотные составляющие сигнала вызывают максимальное смещение возле основания, а низкие частоты возле вершины BM. Эта конкретная частота часто упоминается как характеристическая частота (CF) [33, 34, 35, 36]. Таким образом, улитка может рассматриваться в качестве анализатора частоты с гребенкой сильно перекрывающихся полосовых фильтров с асимметричной частотной характеристикой, называемых слуховыми фильтрами [17, 33, 34, 37]. Зоны прозрачности этих слуховых фильтров показывают неравномерную полосу пропускания, которая указывается ссылкой как критическая полоса пропускания. Понятие критических полос впервые было представлено от Fletcher в 1933 году [38, 39]. Он предположил, что слышимость зондирующего звука, который выдается одновременно с шумовым сигналом, зависит от величины энергии шума, который близок по частоте к зондирующему звуку. Если отношение сигнал/шум (SNR) в этой частотной зоне находится ниже некоторого порогового значения, то есть, энергия шумового сигнала находится в некоторой степени выше, чем энергия зондирующего сигнала, то зондирующий сигнал неслышен человеку-слушателю [17, 33, 34]. Однако, синхронное маскирование происходит не только в пределах одной единственной критической полосы. Фактически, маскирующий звук на CF критической полосы также может оказывать влияние на слышимость маскируемого звука за пределами границ этой критической полосы, в еще меньшей степени [17]. Эффект синхронного маскирования проиллюстрирован на фиг. 12.10. Пунктирная кривая представляет собой пороговое значение в тишине, которое «описывает минимальный уровень звукового давления, которое необходимо, чтобы узкополосный звук выявлялся человеком-слушателем в отсутствие других звуков» [32]. Черная кривая является пороговым значением синхронного маскирования, соответствующим узкополосному шумовому маскирующему звуку, изображенному в виде темно-серого прямоугольника. Зондирующий звук (светло-серный прямоугольник) маскируется маскирующим звуком, если уровень его звукового давления меньше порогового значения синхронного маскирования на конкретной частоте маскируемого звука.
Временное маскирование
Маскирование действует не только, если маскирующий звук и маскируемый звук выдаются одновременно, но также если они разнесены по времени. Зондирующий звук может маскироваться раньше и позже промежутка времени, где присутствует маскирующий звук [40], что упоминается как упреждающее маскирование и запаздывающее маскирование. Иллюстрация эффектов временного маскирования показана на фиг. 2.11. Упреждающее маскирование происходит до вступления маскирующего звука, что изображено применительно к отрицательным значениям t. После периода упреждающего маскирования, действует синхронное маскирование, с эффектом перерегулирования после того, как включен маскирующий звук, где пороговое значение синхронного маскирования временно повышается [37]. После того, как маскирующий звук выключен (изображено применительно к положительным значениям t), действует запаздывающее маскирование. Упреждающее маскирование может быть объяснено временем интегрирования, необходимым слуховой системе, чтобы вызвать восприятие выдаваемого сигнала [40]. Дополнительно, более громкие звуки обрабатываются слуховой системой быстрее, чем более тихие звуки [33]. Промежуток времени, в течение которого происходит упреждающее маскирование, сильно зависит от обученности конкретного слушателя [17, 34] и может продолжаться вплоть до 20 мс [33], однако, будучи значимым только в промежутке времени за 1-5 мс до вступления маскирующего звука [17, 37]. Величина запаздывающего маскирования зависит от частоты как маскирующего звука, так и зондирующего звукового сигнала, уровень и длительность маскирующего звука, а также от периода времени между зондирующим сигналом и моментом, когда маскирующий звук выключается [17, 34]. Согласно Moore [34], запаздывающее маскирование действует по меньшей мере в течение 20 мс, причем другие исследования показывают даже большие длительности вплоть до приблизительно 200 мс [33]. В дополнение, Painter и Spanias утверждают, что запаздывающее маскирование «также проявляет зависящий от частоты характер изменения, аналогичный синхронному маскированию, который может наблюдаться, когда меняется взаимное расположение маскирующего звука и частоты зондирующего сигнала» [17, 34].
Перцепционное звуковое кодирование
Назначение перпцепционного звукового кодирования состоит в том, чтобы сжимать звуковой сигнал таким образом, чтобы результирующая скорость передачи битов была как можно меньше по сравнению с исходным звуковым сигналом, тем временем, сохраняя сквозное качество звука, где восстановленный (декодированный) сигнал не должен отличаться от несжатого сигнала [1, 17, 32, 37, 41, 42]. Это выполняется посредством удаления избыточной и несущественной информации из входного сигнала с использованием некоторых ограничений слуховой системы человека. Несмотря на то, что избыточность может быть устранена, например, посредством использования корреляции между последующими отсчетами сигнала, спектральными коэффициентами или даже разными звуковыми каналами и посредством соответствующего энтропийного кодирования, с относительной энтропией можно хорошо справляться квантованием спектральных коэффициентов.
Общая структура перцепционного кодировщика звукового сигнала
Базовая конструкция монофонического перцепционного кодировщика звукового сигнала изображена на фиг. 12.12. Прежде всего, входной звуковой сигнал преобразуется в представление в частотной области посредством применения анализирующей гребенки фильтров. Таким образом, принятые спектральные коэффициенты могут квантоваться избирательно «в зависимости от своего частотного спектра» [32]. Блок квантования округляет непрерывные значения спектральных коэффициентов дискретным набором значений для уменьшения объема данных в кодированном звуковом сигнале. Таким образом, сжатие становится сжатием с потерями, поскольку невозможно восстановить точные значения исходного сигнала в декодере. Привнесение этой ошибки квантования может рассматриваться в качестве аддитивного шумового сигнала, который упоминается как шум квантования. Квантование направляется выходными данными перцепционной модели, которая рассчитывает пороговые значения временного и синхронного маскирования для каждого спектрального коэффициента в каждом окне анализа. Абсолютное пороговое значение в тишине также может использоваться, при допущении, «что сигнал 4 кГц, с пиковой интенсивностью ±1 самый младший двоичный разряд в 16-битном целом числе, находится на абсолютном пороге слышимости» [31]. В блоке выделения битов, эти пороговые значения маскирования используются для определения количества необходимых битов, так чтобы наведенные шумы квантования становились неслышимыми для человека-слушателя. Дополнительно, спектральные коэффициенты, которые находятся ниже вычисленных пороговых значений маскирования (а потому, несущественны для слухового восприятия человеком) не должны передаваться и могут быть квантованы нулем. Квантованные спектральные коэффициенты затем подвергаются энтропийному кодированию (например, посредством кодирования Хаффмана или арифметического кодирования), которое уменьшает избыточность в данных сигнала. В заключение, кодированный звуковой сигнал, а также дополнительная побочная информация, подобная масштабным коэффициентам квантования, мультиплексируется для формирования единого потока битов, который затем передается в приемник. Декодер звукового сигнала (смотрите фиг. 12.13) на стороне приемника затем выполняет обратные операции, демультиплексируя входной битовый поток, восстанавливая спектральные значения с переданными масштабными коэффициентами и применяя синтезирующую гребенку фильтров, комплементарную анализирующей гребенке фильтров кодировщика, для восстановления результирующего выходного временного сигнала.
Артефакты кодирования всплесков
Несмотря на цель перцепционного звукового кодирования давать сквозное качество звука декодированного звукового сигнала, оно по-прежнему демонстрирует слышимые артефакты. Некоторые эти артефакты, которые оказывают влияние на качество всплесков, будут описаны ниже.
Свисты высокого тона и ограничения полосы пропускания
Есть всего лишь ограниченное количество битов, имеющихся в распоряжении у процесса выделения битов для обеспечения квантования блока звукового сигнала. Если потребность в битах для одного кадра слишком высока, некоторые спектральные коэффициенты могли бы удаляться посредством их квантования нулем [1, 43, 44]. Это существенно вызывает временную потерю некоторого высокочастотного спектра и, преимущественно, является проблемой для кодирования с низкой скоростью передачи битов, или когда имеем дело с сигналами с высокими требованиями, например, сигналом с частыми событиями всплеска. Выделение битов меняется от одного блока к другому, отсюда, частотный спектр для спектральных коэффициентов мог бы быть удален в одном кадре и присутствовать в следующем. Вынужденные спектральные промежутки называются «воланами» и могут быть видны в нижнем изображении по фиг. 2.14. В особенности, кодирование всплесков предрасположено порождать артефакты волана, поскольку энергия в этих частях сигнала распределяется по всему спектру частот. Общий подход состоит в том, чтобы ограничивать полосу пропускания звукового сигнала перед процессом кодирования, чтобы экономить имеющиеся в распоряжении биты для квантования низкочастотного контента, что также проиллюстрировано для кодированного сигнала на фиг. 2.14. Этот компромисс применим, поскольку воланы оказывают большее воздействие на воспринимаемое качество сигнала, чем постоянная потеря полосы пропускания, которая, как правило, допустима в большей степени. Однако, даже с ограничением полосы пропускания, все-еще возможно, что могут возникать воланы. Хотя способы улучшения всплесков, описанные впоследствии, сами по себе не нацелены на исправление спектральных промежутков или протяженности полосы пропускания кодированного сигнала, потеря высоких частот также вызывает пониженную энергию и ухудшенный выпад всплеска (смотрите фиг. 12.15), на который распространяется действие способов улучшения качества выпада, описанных впоследствии.
Упреждающее эхо
Еще одним обычным артефактом сжатия является называемое упреждающее эхо [1, 17, 20, 43, 44]. Упреждающие эхо возникают, если резкое повышение энергии сигнала (то есть, всплеск) происходит возле конца блока сигнала. Существенная энергия, содержащаяся во всплесковых частях сигнала, распределяется по широкому диапазону частот, что вызывает оценку сравнительно высоких пороговых значений маскирования в психоакустической модели, а потому, выделение всего лишь нескольких бит для квантования спектральных коэффициентов. Большая величина добавленного шума квантования в таком случае распределяется по всей длительности блока сигнала в процессе кодирования. Что касается стационарного сигнала, предполагается, что шумы квантования будут полностью маскироваться, но, что касается блока сигнала, содержащего в себе всплеск, шумы квантования могли бы предварять вступление всплеска и становиться слышимыми, если он «продолжается за пределами периода […] упреждающего маскирования» [1]. Хотя есть несколько предложенных способов, занимающихся упреждающими эхо, эти артефакты по-прежнему подвергаются современным исследованиям. Фиг. 12.16 показывает пример артефакта упреждающего эха для всплеска кастаньет. Точечная черная кривая является формой колебания исходного сигнала без существенной энергии сигнала перед вступлением всплеска. Поэтому, наведенное упреждающее эхо, предшествующее всплеску кодированного сигнала (серая кривая) не подвергается синхронному маскированию и может восприниматься, даже без прямого сравнения с исходным сигналом. Предложенный способ для дополнительного ослабления шумов упреждающего эха будет представлен впоследствии.
Есть несколько подходов для улучшения качества всплесков, которые были предложены за последние годы. Эти способы улучшения качества могут классифицироваться на встроенные в аудиокодек и работающие в качестве модуля постобработки на декодированном звуковом сигнале. В нижеследующем приведено общее представление об исследованиях и способах, касающихся улучшения качества всплеска, а также выявления событий всплеска.
Выявление всплеска
Старинный подход для выявления всплесков был предложен от Edler [6] в 1989 году. Это выявление используется для управления способом адаптивного переключения окна, который будет описан позже в данной главе. Предложенный способ всего лишь выявляет, присутствует ли всплеск в кадре сигнала исходного входного сигнала в кодировщике звукового сигнала, а не его точное положение внутри кадра. Два критерия для принятия решения вычисляются, чтобы определить вероятность существующего всплеска в конкретном кадре сигнала. Что касается первого критерия, входной сигнал x(n) фильтруется высокочастотным КИХ-фильтром согласно Уравнению (2.5) с коэффициентами b = [1, -1] фильтра. Результирующий разностный сигнал d(n) показывает большие пики в моменты времени, где амплитуда смежных отсчетов быстро меняется. Соотношение сумм интенсивностей d(n) для двух соседних блоков затем используется для вычисления первого критерия:
Переменная m обозначает номер кадра, а N - количество отсчетов в пределах одного кадра. Однако, c1(m) испытывает трудности с выявлением очень маленьких всплесков в конце кадра сигнала, поскольку их вклад в полную энергию в пределах кадра сравнительно невелик. Поэтому, сформулирован второй критерий, который рассчитывает соотношение максимального значения интенсивности x(n) и средней интенсивности внутри одного кадра:
Если c1(m) или c2(m) превышает определенное пороговое значение, то конкретный кадр m определяется содержащим в себе событие всплеска.
Kliewer и Mertins [24] также предлагают способ выявления, который действует исключительно во временной области. Их подход нацеливается на определение точных начального и конечного отсчетов всплеска, накладывая два скользящих прямоугольных окна на энергию сигнала. Энергия сигнала в пределах окон вычисляется в виде
где L - длина окна, а n обозначает отсчет сигнала прямо посередине между левым и правым окном. Функция D(n) выявления затем рассчитывается согласно
Пиковые значения D(n) соответствуют вступлению всплеска, если они находятся выше, чем определенное пороговое значение Tb. Окончание события всплеска определено как «наибольшее значение D(n) находящееся ниже, чем некоторое пороговое значение Te непосредственно после вступления» [24].
Другие способы выявления основаны на линейном прогнозе во временной области для проведения различия между всплесковыми и установившимися частями сигнала [45]. Один из способов, который использует линейный прогноз, был предложен от Lee и Kuo [46] в 2006 году. Они разбивают входной сигнал на несколько поддиапазонов, чтобы вычислять функцию выявления для каждого из результирующих узкополосных сигналов. Функции выявления получаются в виде выходных данных после фильтрации узкополосного сигнала обратным фильтром согласно Уравнению (2.10). Последующий алгоритм выбора пика определяет значения локального максимума результирующих сигналов ошибки прогноза в качестве вероятных моментов времени вступления для каждого сигнала поддиапазона, которые затем используются для определения единого момента вступления всплеска для широкополосного сигнала.
Подход от Niemeyer и Edler [23] работает на смешанном время-частотном представлении входного сигнала и определяет вступления всплесков в качестве резкого увеличения энергии сигнала в соседних полосах. Каждый полосовой сигнал фильтруется согласно Уравнению (2.3) для вычисления временной огибающей, которая сопровождает внезапные повышения энергии, в качестве функции выявления. Критерий всплеска в таком случае вычисляется не только для полосы k частот, но также с учетом K=7 соседних полос частот по каждую сторону от k.
Впоследствии, будут описаны разные стратегии для улучшения качества всплесковых частей сигнала. Структурная схема на фиг. 13.1 показывает общее представление о разных частях алгоритма восстановления. Алгоритм берет кодированный сигнал sn, который представлен во временной области, и преобразует его во время-частотное представление Xk,m посредством оконного преобразования Фурье (STFT). Улучшение качества всплесковых частей сигнала затем выполняется в области STFT. На первой стадии алгоритма улучшения качества, ослабляются упреждающие эхо непосредственно перед всплеском. Вторая стадия улучшает качество выпада всплеска, а третья стадия обостряет всплеск с использованием основанного на линейном прогнозе способа. Улучшенный сигнал Yk,m затем преобразуется обратно во временную область с помощью обратного оконного преобразования Фурье (ISTFT) для получения выходного сигнала yn.
Посредством применения STFT, входной сигнал sn сначала делится на многочисленные кадры длиной N, которые перекрываются на L отсчетов и подвергнуты оконной обработке с помощью функции wn, m окна анализа для получения блоков xn, m=sn ⋅ wn, m. сигнала. Каждый кадр xn, m затем преобразуется в частотную область с использованием дискретного преобразования Фурье (ДПФ, DFT). Это дает спектр Xk,m подвергнутого оконной обработке кадра xn, m, сигнала, где k - индекс спектрального коэффициента, а m - номер кадра. Анализ посредством STFT может быть сформулирован следующим уравнением:
причем
(N -L) также упоминается как размер скачка. Для окна wn, m анализа, было использовано синусное окно вида
.
Для того чтобы фиксировать тонкую временную структуру событий всплеска, размер кадра был выбран сравнительно небольшим. В целях этого, работа была настроена на N=128 отсчетов для каждого временного кадра с перекрытием L=N /2=64 отсчетов для двух соседних кадров. K в Уравнении (4.2) определяет количество точек ДПФ и было установлено в K=256. Это соответствует количеству спектральных коэффициентов двустороннего спектра Xk,m. Перед анализом STFT, каждый подвергнутый оконной обработке кадр входного сигнала заполняется нулями для получения более длинного вектора длиной K, для того чтобы привести в соответствие количеству точек ДПФ. Эти параметры дают достаточно высокое разрешение по времени, чтобы изолировать всплесковые части сигнала в одном кадре от остальной части сигнала, тем временем, выдавая достаточное количество спектральных коэффициентов для последующих операций избирательных по частоте операций улучшения качества.
Выявление всплеска
В вариантах осуществления, способы для улучшения качества всплесков применяются исключительно к самим событиям всплеска вместо постоянной модификации сигнала. Поэтому, должны быть выявлены моменты всплесков. В целях этой работы, был реализован способ выявления всплеска, который настраивался отдельно под каждый индивидуальный звуковой сигнал. Это означает, что конкретные параметры и пороговые значения способа выявления всплеска, который будет описан позже в данном разделе, специально настраиваются для каждого конкретного звукового файла, чтобы давать оптимальное выявление всплесковых частей сигнала. Результатом этого выявления является двоичное значение для каждого кадра, указывающее наличие вступления всплеска.
Реализованный способ выявления всплеска может быть поделен на две отдельных стадии: вычисление пригодной функции выявления и способ захвата вступления, который пользуется функцией выявления в качестве своего входного сигнала. Для включения выявления всплеска в алгоритм обработки в реальном времени, необходим соответствующий предварительный просмотр, поскольку последующий способ ослабления упреждающего эха действует в промежутке времени, предшествующем выявленному вступлению всплеска.
Вычисление выявляющей функции
Для вычисления функции выявления, входной сигнал преобразуется в представление, которое дает возможность улучшенного выявления вступления по исходному сигналу. Входными данными блока выявления всплеска на фиг. 13.1 является время-частотное представление Xk,m входного сигнала sn. Вычисление функции выявления выполняется в пять этапов:
1. Применительно к каждому кадру, суммировать значения энергии нескольких соседних спектральных коэффициентов.
2. Вычисление временной огибающей результирующих полосовых сигналов на всех временных кадрах.
3. Высокочастотная фильтрация каждой временной огибающей полосового сигнала.
4. Суммирование результирующих подвергнутых высокочастотной фильтрации сигналов в направлении частоты.
5. Принятие во внимание запаздывающего по времени маскирования.
Таблица 4.1 Граничные частоты flow и fhigh, и полоса Δf пропускания результирующих зон прозрачности у X K, m после соединения n смежных спектральных коэффициентов амплитудного спектра энергии сигнала Xk,m.
Прежде всего, энергия нескольких соседних спектральных коэффициентов у Xk,m суммируются для каждого временного кадра m, беря
где K обозначает индекс результирующих сигналов поддиапазона. Поэтому, Xk,m состоит из 7 значений для каждого кадра m, представляющих энергию, содержащуюся в определенной полосе частот спектра Xk,m. Граничные частоты flow и fhigh, а также полоса Δf пропускания прозрачной зоны и количество n связанных спектральных коэффициентов отображены в Таблице 4.1. Значения полосовых сигналов в Xk,m затем сглаживаются по всем временным кадрам. Это выполняется посредством фильтрации каждого сигнала Xk,m поддиапазона низкочастотным КИХ-фильтром в направлении времени согласно Уравнению (2.2) в виде
где SK, m - дифференцированная огибающая, bi - коэффициенты фильтра развернутого высокочастотного КИХ-фильтра, а p - порядок фильтра. Конкретные коэффициенты bi фильтра также определялись отдельно для каждого индивидуального сигнала. Впоследствии, SK, m суммируется в направлении частоты по всем K, чтобы получить общий наклон огибающей, Fm. Большие пики Fm соответствуют временным кадрам, в которых происходит событие всплеска. Чтобы пренебречь меньшими пиками, в особенности следующими за большими, амплитуда у Fm снижается на пороговое значение 0,1 таким образом, чтобы Fm=max(Fm -0,1, 0). Запаздывающее маскирование после больших пиков также учитывается посредством фильтрации Fm однополюсным рекурсивным усредняющим фильтром, эквивалентным Уравнению (2.2) в соответствии с
и взятия больших значений
Фиг. 13.2 показывает сигнал кастаньет во временной области и области STFT с выведенной функцией Dm выявления, проиллюстрированной на нижнем изображении. Dm в таком случае используется в качестве входного сигнала для способа захвата вступления, который будет описан в следующем разделе.
Выделение вступления
По существу, способ захвата вступления определяет моменты локальных максимумов в функции Dm выявления в качестве временных кадров вступления событий всплеска в Sn. Что касается функции выявления сигнала кастаньет на фиг. 13.2, это очевидно тривиальная задача. Результаты способа захвата вступления отображены на нижнем изображении в виде красных кружочков. Однако, другие сигналы не всегда дают такую легкую для обработки функцию выявления, поэтому, определение реальных вступлений всплеска становится несколько более сложным. Например, функция выявления для музыкального сигнала в нижней части фиг. 13.3 демонстрирует несколько локальных пиковых значений, которые не связаны с кадром вступления всплеска. Отсюда, алгоритм захвата вступления должен проводить различие между такими «ложными» вступлениями всплеска и «действительными».
Прежде всего, Dm необходимо находиться выше определенного порогового значения thpeak, чтобы рассматриваться в качестве вероятных вступлений. Это делается для предотвращения меньших изменений амплитуды в огибающей входного сигнала sn, с которыми не справляются сглаживающие фильтры и фильтры запаздывающего маскирования в Уравнении (4.5) и Уравнении (4.7), чтобы выявляться в качестве вступлений всплеска. Применительно к каждому значению Dm=l функции Dm выявления, алгоритм захвата вступления сканирует зону, предшествующую и следующую за текущим кадром l, для поиска значения, большего чем Dm=l. Если больших значений нет за lb кадров до и la после текущего кадра, то l определяется в качестве всплескового кадра. Количество «просматриваемых назад» и «просматриваемых вперед» кадров lb и la, а также пороговое значение thpeak, определялись индивидуально для каждого звукового сигнала. После того, как были идентифицированы значимые пиковые значения, выявленные кадры вступления, которые находятся ближе 50 мс к предыдущему вступлению, будут отброшены [50, 51]. Выходными данными способа захвата вступления (и выявления всплеска в целом) являются индексы кадров mi, вступления всплеска, которые требуются для следующих блоков улучшения качества всплеска.
Ослабление упреждающего эха
Цель этой стадии улучшения качества состоит в том, чтобы ослабить артефакт кодирования, известный как упреждающее эхо, который может быть слышимым в определенном промежутке времени перед вступлением всплеска. Общее представление алгоритма ослабления упреждающего эха отображено на фиг. 4.4. Стадия ослабления упреждающего эха принимает выходной сигнал после STFT-анализа Xk,m (100) в качестве входного сигнала, а также выявленный ранее индекс mi кадра вступления всплеска. В наихудшем случае, упреждающее эхо начинается за вплоть до длительности окна анализа длинного блока на стороне кодировщика (которая имеет значение 2048 отсчетов независимо от частоты дискретизации кодека) перед событием всплеска. Временная длительность этого окна зависит от частоты дискретизации конкретного кодировщика. Применительно к сценарию худшего случая, предполагается минимальная частота дискретизации кодека 8 кГц. При частоте дискретизации в 44,1 кГц для декодированного и повторно дискретизированного сигнала sn, длина длинного окна анализа (а потому, потенциальная протяженность зоны упреждающего эха) соответствует Nlong=2048⋅44,1 кГц/8 кГц=11290 отсчетов (или 256 мс) временного сигнала sn. Поскольку способы улучшения качества, описанные в этой главе, действуют на время-частотном представлении Xk,m, Nlong должно быть преобразовано в Mlong = (Nlong - L)/(N - L) = (11290 -64)/(128 -64) = 176 кадров. N и L - размер и перекрытие кадров блока анализа STFT (100) на фиг. 13.1. Mlong установлено в качестве верхней границы длительности упреждающего эха и используется для ограничения зоны поиска для начального кадра упреждающего эха перед выявленным кадром mi вступления всплеска. Применительно к этой работе, частота дискретизации декодированного сигнала перед передискретизацией берется в качестве исходного факта, так чтобы верхняя граница Mlong для длительности упреждающего эха адаптировалась под конкретный кодек, который использовался для кодирования sn.
Перед оценкой реальной длительности упреждающего эха, выявляются (200) тональные частотные составляющие, предшествующие всплеску. После этого, определяется (240) длительность упреждающего эха в зоне за Mlong кадров перед всплескового кадра. С этой оценкой, может рассчитываться (260) пороговое значение для огибающей сигнала в зоне упреждающего эха, чтобы уменьшать энергию у таких спектральных коэффициентов, чьи значения интенсивности превышают данное пороговое значение. Для окончательного ослабления упреждающего эха, вычисляется (450) спектральная весовая матрица, содержащая коэффициенты умножения для каждого k и m, которая затем поэлементно перемножается с зоной упреждающего эха у Xk,m.
Выявление тональных составляющих сигнала, предшествующих всплеску
Являющиеся результатом выявленные спектральные коэффициенты, соответствующие тональным частотным составляющим до вступления всплеска, используются при следующей оценке длительности упреждающего эха, как описано в следующем подразделе. Также было бы полезным использовать их в нижеследующем алгоритме ослабления упреждающего эха, чтобы пропускать ослабление энергии для таких тональных спектральных коэффициентов, поскольку артефакты упреждающего эха вероятно должны маскироваться существующими тональными составляющими. Однако, в некоторых случаях, пропуск тональных коэффициентов давал в результате привнесение дополнительного артефакта в виде слышимого повышения энергии на некоторых частотах поблизости от выявленных тональных частот, поэтому, этот подход не был включен в способ ослабления упреждающего эха в данном варианте осуществления.
Фиг. 13.5 показывает спектрограмму потенциальной зоны упреждающего эха перед всплеском звукового сигнала глокеншпиля. Спектральные коэффициенты тональных составляющих между двумя пунктирными горизонтальными линиями выявляются посредством комбинирования двух разных подходов:
1. линейного прогноза вдоль кадров по каждому спектральному коэффициенту и
2. сравнения энергии между энергией на каждом k по всем кадрам длиной Mlong до вступления всплеска и энергией скользящего среднего всех предыдущих потенциальных зон упреждающего эха длиной Mlong.
Сначала, анализ линейного прогноза выполняется над каждым комплекснозначным коэффициентом k STFT по времени, где прогнозные коэффициенты ak,r вычисляются алгоритмом Левинсона-Дурбина согласно Уравнению (2.21)-(2.24). С этими прогнозными коэффициентами, прогнозный коэффициент Rp, k усиления [52, 53, 54] может быть рассчитан для каждого k в виде
где
В дополнение к высокому прогнозному коэффициенту усиления, тональные частотные составляющие также должны содержать в себе сравнительно высокую энергию на протяжении оставшейся части спектра сигнала. Энергия
Пороговое значение энергии вычисляется в зависимости от энергии скользящего среднего последних зон упреждающего эха, которая обновляется для каждого следующего всплеска. Энергия скользящего среднего будет обозначена как
Отсюда, индекс k спектрального коэффициента в текущей зоне упреждающего эха определяется содержащим в себе тональные составляющие, если
Результатом способа (200) выявления тональных составляющих сигнала является вектор ktonal,i для каждой зон упреждающего эха, предшествующей выявленному всплеску, который задает индексы k спектрального коэффициента, которые удовлетворяют условиям в Уравнении (4.11).
Оценка длительности упреждающего эха
Поскольку нет информации о точном кадрировании декодера (а потому, о фактической длительности упреждающего эха), имеющейся в распоряжении для декодированного сигнала sn, фактический начальный кадр упреждающего эха должен оцениваться (240) применительно к каждому всплеску перед процессом ослабления упреждающего эха. Эта оценка является ключевой для результирующего качества звука обработанного сигнала после ослабления упреждающего эха. Если оцененная зона упреждающего эха слишком мала, часть существующего упреждающего эха останется в выходном сигнале. Если она слишком велика, будет демпфирована слишком большая амплитуда сигнала до всплеска, возможно приводя к слышимым выпадениям сигнала. Как описано раньше, Mlong представляет собой размер длинного окна анализа, используемого в кодировщике звукового сигнала, и рассматривается в качестве максимально возможного количества кадров распространения упреждающего эха до события всплеска. Максимальный диапазон Mlong этого распространения упреждающего эха будет обозначен как зона поиска упреждающего эха.
Фиг. 13.6 отображает схематическое представление подхода к оценке упреждающего эха. Способ оценки придерживается предположения, что наведенное упреждающее эхо вызывает увеличение амплитуды временной огибающей перед вступлением всплеска. Это показано на фиг. 13.6 для зоны между двумя вертикальными пунктирными линиями. В процессе декодирования кодированного звукового сигнала, шумы квантования не распространяются по всему блоку синтеза равномерно, а скорее будут профилированы конкретной формой используемой оконной функции. Поэтому, наведенное упреждающее эхо вызывает плавное нарастание, а не внезапный рост амплитуды. Перед вступлением упреждающего эха, сигнал может содержать в себе паузу или другие составляющие сигналы, подобные устойчивой части другого акустического события, которое происходило несколько раньше. Поэтому, цель способа оценки длительности упреждающего эха состоит в том, чтобы находить момент времени, где повышение амплитуды сигнала соответствует вступлению наведенных шумов квантования, то есть, артефакта упреждающего эха.
Алгоритм выявления использует только высокочастотное содержимое Xk,m выше 3 кГц, поскольку большая часть энергии входного сигнала сосредоточена в зоне низких частот. Что касается конкретных параметров STFT, используемых в данном документе, это соответствует спектральным коэффициентам с k ≥ 18. Таким образом, выявление вступления упреждающего эха становится более устойчивым вследствие предполагаемого отсутствия других составляющих сигнала, которые могли бы осложнить процесс выявления. Более того, тональные спектральные коэффициенты ktonal, которые были выявлены описанным ранее способом выявления тональных составляющих, также будут исключены из процесса оценки, если они соответствуют частотам выше 3 кГц. Остальные коэффициенты затем используются для вычисления пригодной функции выявления, которая упрощает оценку упреждающего эха. Прежде всего, энергия сигнала суммируется в направлении частоты для всех кадров в зоне поиска упреждающего эха, чтобы получить сигнал Lm интенсивности, в виде
kmax соответствует частоте среза низкочастотного фильтра, который использовался в процессе кодирования, чтобы ограничить полосу пропускания исходного звукового сигнала. После этого, Lm сглаживается для уменьшения флуктуаций по уровню сигнала. Сглаживание выполняется посредством фильтрации Lm 3-отводным фильтром скользящего среднего как в прямом, так и в обратном направлениях по времени, чтобы давать сглаженный сигнал
Основная идея оценки упреждающего эха состоит в том, чтобы найти последний кадр с отрицательным значением Dm, который помечает момент времени, после которого энергия сигнала возрастает до вступления всплеска. Фиг. 13.7 показывает два примера для вычисления функции Dm выявления и оцененного впоследствии начального кадра упреждающего эха. Для обоих сигналов (a) и (b) сигналы Lm и
Оценка начального кадра mpre упреждающего эха выполняется посредством применения алгоритма итеративного поиска. Процесс для оценки начального кадра упреждающего эха будет описан вместе с примерной функцией выявления, показанной на фиг. 13.8 (которая является прежней функцией выявления сигнала на фиг. 13.7 (b)). Верхняя и нижняя диаграммы по фиг. 13.8 иллюстрируют первые две итерации алгоритма поиска. Способ оценки сканирует Dm в обратном порядке от оцененного вступления всплеска до начала зоны поиска упреждающего эха и определяет несколько кадров, где меняется знак Dm. Эти кадры представлены на диаграмме в виде пронумерованных вертикальных линий. Первая итерация в верхнем изображении начинается на последнем кадре с положительным значением Dm (линия 1), здесь, обозначенным как
С A+ и A-, возможный начальный кадр упреждающего эха на линии 2 будет определен в качестве результирующего начального кадра mpre, если
Коэффициент a сначала устанавливается в a=0,5 для первой итерации алгоритма оценки, а затем настраивается на a=0,92a применительно к каждой последующей итерации. Это дает большее выделение зоны A- отрицательного наклона, которое необходимо для некоторых сигналов, которые демонстрируют более сильные колебания амплитуды в сигнале Lm интенсивности на всем протяжении всей зоны поиска. Если критерий останова по Уравнению (4.15) не остается в силе (что справедливо для первой итерации в верхнем изображении по фиг. 13.8), то следующая итерация, как проиллюстрировано в нижнем изображении, берет определенный ранее m+ в качестве последнего рассмотренного кадра
Адаптивное ослабление упреждающего эха
Последующее выполнение адаптивного снижения упреждающего эха может быть разделено на три фазы, как может быть видно на нижнем уровне структурной схемы на фиг. 13.4: определение порогового значения thk интенсивности упреждающего эха, вычисление спектральной весовой матрицы Wk,m и ослабление шума упреждающего эха поэлементным перемножением Wk,m с комплекснозначным входным сигналом Xk,m. Фиг. 13.9 показывает спектрограмму входного сигнала Xk,m в верхнем изображении, а также спектрограмму обработанного выходного сигнала Yk,m в среднем изображении, где упреждающее эхо было ослаблено. Ослабление упреждающего эха выполняется поэлементным перемножением Xk,m и вычисленных спектральных весов Wk,m (отображенных в нижнем изображении по фиг. 13.9) в виде
Цель способа ослабления упреждающего эха состоит в том, чтобы взвесить значения Xk,m в оцененной ранее зоне упреждающего эха, так чтобы результирующие значения интенсивности у Yk,m лежали ниже определенного порогового значения thk. Спектральная весовая матрица Wk,m создается посредством определения этого порогового значения thk для каждого спектрального коэффициента в Xk,m на протяжении зоны упреждающего эха и вычисления весовых коэффициентов, требуемых для ослабления упреждающего эха для каждого кадра m. Вычисление Wk,m ограничено спектральными коэффициентами между kmin ≤ k ≤ kmax, где kmin - индекс спектрального коэффициента, соответствующий частоте, ближайшей к fmin=800 Гц, так что Wk,m
Определение порогового значения упреждающего эха
Как изложено раньше, необходимо, чтобы пороговое значение thk определялось (260) для каждого спектрального коэффициента Xk,m, причем kmin ≤ k ≤ kmax, что используется для определения спектральных весов, необходимых для ослабления упреждающего эха в отдельных зонах упреждающего эха, предшествующих каждому выявленному вступлению всплеска. thk соответствует значению интенсивности, до которого должны быть уменьшены значения интенсивности сигнала Xk,m, чтобы получить выходной сигнал Yk,m. Интуитивный способ мог бы состоять в том, чтобы просто брать значение первого кадра mpre оцененной зоны упреждающего эха, поскольку она будет соответствовать моменту времени, где амплитуда сигнала начинает постоянно возрастать в результате наведенного шума квантования упреждающего эха. Однако,
где Mpre - количество кадров в зоне упреждающего эха. Взвешенная огибающая после перемножения
Вычисление спектральных весов
Результирующее пороговое значение thk используется для вычисления спектральных весов Wk,m, требуемых для уменьшения значений интенсивности у Xk,m. Поэтому, целевой сигнал
Wk,m впоследствии сглаживается (460) по частоте посредством применения 2-отводного фильтра скользящего среднего в обоих, прямом и обратном, направлениях для каждого кадра m, чтобы уменьшить большие различия между весовыми коэффициентами соседних спектральных коэффициентов k перед манипуляцией с входным сигналом Xk,m. Демпфирование упреждающих эхо не выполняется на полную незамедлительно в начальном кадре mpre упреждающего эха, но скорее плавно увеличивается в течение промежутка времени зоны упреждающего эха. Это делается посредством применения (430) параметрической кривой fm регулирования уровня с настраиваемой крутизной, которая формируется (440) в виде
где степень 10c определяет крутизну fm. Фиг. 13.12 показывает кривые регулирования уровня для разных значений c, которое было установлено в c = -0,5 применительно к этой работе. С fm и thk, целевой сигнал
Это эффективно уменьшает значения
Применение модели временного упреждающего маскирования
Событие всплеска действует в качестве маскирующего звука, который может временно маскировать предыдущий и последующий более слабые звуки. Модель упреждающего маскирования здесь также применяется (420) таким образом, чтобы значения
Параметры L и α определяют уровень, а также наклон
За tfall=3 мс перед маскирующим звуком, пороговое значение упреждающего маскирования должно быть уменьшено на Lfall=50 дБ. Прежде всего, необходимо, чтобы tfall было преобразовано в соответствующее количество кадров mfall, принимая
где (N -L) - размер скачка анализа STFT, а fs - частота дискретизации. С L, Lfall и mfall, Уравнение (4.21) становится
поэтому параметр α может определяться посредством преобразования Уравнения (4.24) в виде
Результирующее предварительное пороговое значение
Для вычисления конкретного зависящего от сигнала порогового значения maskk,m,i упреждающего маскирования в каждой зоне упреждающего эха у Xk,m, выявленный всплесковый кадр mi, а также следующие Mmask кадров будут рассматриваться в качестве моментов времени возможных маскирующих звуков.
Отсюда,
Пороговое значение maskk,m,i упреждающего маскирования затем используется для настройки значений целевого сигнала
Фиг. 13.14 показывает те же самые два сигнала по фиг. 13.10 с результирующим целевым сигналом
Результирующие спектральные веса Wk,m затем вычисляются (450) в зависимости от Xk,m и
Улучшение качества выпада всплеска
Способы, обсужденные в этом разделе, нацелены на улучшение качества ухудшенного выпада всплеска, а также на подчеркивание амплитуды событий всплеска.
Адаптивное улучшение качества выпада всплеска
Кроме всплескового кадра mi, сигнал в промежутке времени после всплеска также становится усиленным, причем коэффициент усиления плавно уменьшается в течение данного промежутка. Способ адаптивного улучшения качества выпада всплеска берет выходной сигнал стадии ослабления упреждающего эха в качестве своего входного сигнала Xk,m. Аналогично способу ослабления упреждающего эха, спектральная весовая матрица Wk,m вычисляется (610) и применяется (620) к Xk,m в виде
Однако, в этом случае, Wk,m используется для повышения амплитуды всплескового кадра mi и в меньшей степени, к тому же, кадров после такового, вместо модификации промежутка времени, предшествующего всплеску. Усиление тем самым ограничивается частотами выше fmin=400 Гц и ниже частоты fmax среза низкочастотного фильтра, применяемого в кодировщике звукового сигнала. Сначала, входной сигнал Xk,m делится на устойчивую часть
Всплесковая часть
Профилирование временной огибающей с использованием линейного прогноза
В противоположность способу адаптивного улучшения качества выпада всплеска, описанному раньше, этот способ нацелен на обострение выпада события всплеска, не увеличивая его амплитуду. Взамен, «обострение» всплеска выполняется посредством применения (720) линейного прогноза в частотной области и использования двух разных наборов прогнозных коэффициентов
Обратный фильтр (740a) устраняет корреляцию фильтрованного входного сигнала Xk,m как в частотной, так и во временной области, эффективно выравнивая временную огибающую входного сигнала sn. Фильтрация
Способ профилирования LPC работает с иными параметрами кадрирования, чем предыдущие способы улучшения качества. Поэтому, необходимо, чтобы выходной сигнал предыдущего каскада адаптивного улучшения качества выпада синтезировался с помощью ISTFT и вновь анализировался с новыми параметрами. Что касается этого способа, используется размер кадра в N=512 отсчетов с перекрытием 50%, L=N /2=256 отсчетов. Размер ДПФ был установлен в 512. Больший размер кадра был выбран для улучшения вычисления прогнозных коэффициентов в частотной области, поэтому высокое разрешение по частоте важнее высокого разрешения по времени. Прогнозные коэффициенты
причем
Это описывает операцию фильтрации результирующим профилирующим фильтром, которая может интерпретироваться в качестве комбинированного применения (820) обратного фильтра (809) и синтезирующего фильтра (810). Преобразование уравнения (4.32) с помощью БПФ дает передаточную функцию (TF) фильтра во временной области системы в виде
с КИХ- (обратным/выравнивающим) фильтром (1-Pn) и БИХ- (синтезирующим) фильтром An. Уравнение (4.32) эквивалентно может быть сформулировано во временной области в виде перемножения кадра sn входного сигнала с TF
Фиг. 13.13 показывает разные TF во временной области по уравнению (4.33). Две пунктирных кривых соответствуют
Прогнозный коэффициент Rp усиления рассчитывается из коэффициентов ρm, частной корреляции с 1
Окончательная TF
Более того, впоследствии изложены примеры вариантов осуществления, относящиеся конкретно ко второму аспекту:
1. Устройство для постобработки (20) звукового сигнала, содержащее:
время-спектральный преобразователь (700) для преобразования звукового сигнала в спектральное представление, содержащее последовательность спектральных кадров;
прогнозный анализатор (720) для расчета прогнозных данных фильтра для прогнозирования по частоте в пределах спектрального кадра;
профилирующий фильтр (740), управляемый прогнозными данными фильтра, для профилирования спектрального кадра, чтобы улучшить качество всплескового участка в пределах спектрального кадра; и
спектрально-временной преобразователь (760) для преобразования последовательности спектральных кадров, содержащих профилированный спектральный кадр, во временную область.
2. Устройство по примеру 1,
в котором прогнозный анализатор (720) выполнен с возможностью рассчитывать первые прогнозные данные (720a) фильтра для выравнивающей характеристики (740a) фильтра и вторые прогнозные данные (720b) фильтра для профилирующей характеристики (740b) фильтра.
3. Устройство по примеру 2,
в котором прогнозный анализатор (720) выполнен с возможностью расчета первых прогнозных данных (720a) фильтра с использованием первой постоянной времени и для расчета вторых прогнозных данных (720b) фильтра с использованием второй постоянной времени, вторая постоянная времени больше первой постоянной времени.
4. Устройство по примеру 2 или 3,
в котором выравнивающая характеристика (740a) фильтра является характеристикой анализирующего КИХ-фильтра или характеристикой бесполюсного фильтра, дающей в результате, когда применяется к спектральному кадру, модифицированный спектральный кадр, имеющий более плоскую временную огибающую по сравнению с временной огибающей спектрального кадра; или
в котором профилирующая характеристика (740b) фильтра является характеристикой синтезирующего БИХ-фильтра или характеристикой полюсного фильтра, дающей в результате, когда применяется к спектральному кадру, модифицированный спектральный кадр, имеющий менее плоскую временную огибающую по сравнению с временной огибающей спектрального кадра.
5. Устройство по одному из предыдущих примеров,
в котором прогнозный анализатор (720) выполнен с возможностью:
рассчитывать (800) автокорреляционный сигнал из спектрального кадра;
осуществлять оконную обработку (802, 804) автокорреляционного сигнала с использованием окна с первой постоянной времени или со второй постоянной времени, вторая постоянная времени больше первой постоянной времени;
рассчитывать (806, 808) первые прогнозные данные фильтра из подвергнутого оконной обработке автокорреляционного сигнала, подвергнутого оконной обработке с использованием первой постоянной времени, или рассчитывать вторые прогнозные коэффициенты фильтра из подвергнутого оконной обработке автокорреляционного сигнала, подвергнутого оконной обработке с использованием второй постоянной времени; и
при этом профилирующий фильтр (740) выполнен с возможностью профилировать спектральный кадр с использованием вторых прогнозных коэффициентов фильтра или с использованием вторых прогнозных коэффициентов фильтра и первых прогнозных коэффициентов фильтра.
6. Устройство по одному из предыдущих примеров,
в котором профилирующий фильтр (740) содержит каскад из двух управляемых подфильтров (809, 810), первый подфильтр (809) является выравнивающим фильтром, имеющим выравнивающую характеристику фильтра, а второй подфильтр (810) является профилирующим фильтром, имеющим профилирующую характеристику фильтра,
при этом оба подфильтра (809, 810) управляются прогнозными данными фильтра, выведенными прогнозным анализатором (720), или
при этом профилирующий фильтр (740) является фильтром, имеющим комбинированную характеристику фильтра, выведенную посредством комбинирования (820) выравнивающей характеристики и профилирующей характеристики, при этом комбинированная характеристика управляется прогнозными данными фильтра, выведенными из прогнозного анализатора (720).
7. Устройство по примеру 6,
в котором прогнозный анализатор (720) выполнен с возможностью определять
прогнозные данные фильтра, так чтобы использование прогнозных данных фильтра для профилирующего фильтра (740) давало в результате величину профилирования, находящуюся выше, чем величина выравнивания, полученная посредством использования прогнозных данных фильтра для выравнивания характеристики фильтра.
8. Устройство по одному из предыдущих примеров,
в котором прогнозный анализатор (720) выполнен с возможностью применять (806, 808) алгоритм Левинсона-Дурбина к фильтрованному автокорреляционному сигналу, выведенному из спектрального кадра.
9. Устройство по одному из предыдущих примеров,
в котором профилирующий фильтр (740) выполнен с возможностью применять компенсацию коэффициента усиления, так чтобы энергия профилированного спектрального кадра была равна энергии спектрального кадра, сформированного время-спектральным преобразователем (700), или находилась в пределах поля допуска в ±20% от энергии спектрального кадра.
10. Устройство по одному из предыдущих примеров,
в котором профилирующий фильтр (740) выполнен с возможностью применять выравнивающую характеристику (740a) фильтра, имеющую коэффициент усиления выравнивания, и профилирующую характеристику (740b) фильтра, имеющую коэффициент усиления профилирования, и
при этом профилирующий фильтр (740) выполнен с возможностью выполнять компенсацию коэффициента усиления для компенсации влияния коэффициента усиления выравнивания и коэффициента усиления профилирования.
11. Устройство по примеру 6,
в котором прогнозный анализатор (720) выполнен с возможностью рассчитывать коэффициент усиления выравнивания и коэффициент усиления профилирования,
при этом каскад из двух управляемых подфильтров (809, 810) дополнительно содержит отдельный усилительный каскад (811) усиления или функцию усиления, включенные в по меньшей мере один из двух подфильтров, для применения коэффициента усиления, выведенного из коэффициента усиления выравнивания и/или коэффициента усиления профилирования, или
при этом фильтр (740), имеющий комбинированную характеристику, выполнен с возможностью применять коэффициент усиления, выведенный из коэффициента усиления выравнивания и/или коэффициента усиления профилирования.
12. Устройство по примеру 5,
в котором окно содержит гауссово окно, имеющее временную задержку в качестве параметра.
13. Устройство по одному из предыдущих примеров,
в котором прогнозный анализатор (720) выполнен с возможностью рассчитывать прогнозные данные фильтра для множества кадров, так чтобы профилирующий фильтр (740), управляемый прогнозными данными фильтра, выполнял манипуляцию сигнала применительно к кадру из множества кадров, содержащих всплесковый участок, и
так что профилирующий фильтр (740) не выполняет манипуляцию сигнала или выполняет манипуляцию сигнала, являющегося меньшим, чем манипуляция сигнала для кадра, применительно к дополнительному кадру из множества кадров, не содержащих всплесковый участок.
14. Устройство по одному из предыдущих примеров,
в котором спектрально-временной преобразователь (760) выполнен с возможностью применять операцию сложения с перекрытием, вовлекающую по меньшей мере два смежных кадра спектрального представления.
15. Устройство по одному из предыдущих примеров,
в котором время-спектральный преобразователь (700) выполнен с возможностью применять размер скачка между 3 и 8 мс или окно анализа, имеющее длину окна между 6 и 16 мс, или
в котором спектрально-временной преобразователь (760) выполнен с возможностью использовать диапазон перекрытия, соответствующий размеру перекрытия перекрывающихся окон или соответствующий размеру скачка, используемому преобразователем, между 3 и 8 мс, или использовать окно синтеза, имеющее длину окна между 6 и 16 мс, или в котором окно анализа и окно синтеза идентичны друг другу.
16. Устройство по примеру 2 или 3,
в котором выравнивающая характеристика (740a) фильтра является характеристикой обратного фильтра, дающей в результате, когда применяется к спектральному кадру, модифицированный спектральный кадр, имеющий более плоскую временную огибающую по сравнению с временной огибающей спектрального кадра; или
в котором профилирующая характеристика (740b) фильтра является характеристикой синтезирующего фильтра, дающей в результате, когда применяется к спектральному кадру, модифицированный спектральный кадр, имеющий менее плоскую временную огибающую по сравнению с временной огибающей спектрального кадра.
17. Устройство по одному из предыдущих примеров, в котором прогнозный анализатор (720) выполнен с возможностью рассчитывать прогнозные данные фильтра для профилирующей характеристики (740b) фильтра, и в котором профилирующий фильтр (740) выполнен с возможностью фильтровать спектральный кадр в полученном время-спектральным преобразователем (700) виде, например, без предшествующего выравнивания.
18. Устройство по одному из предыдущих примеров, в котором профилирующий фильтр (740) выполнен с возможностью представлять собой профилирующее действие в соответствии с временной огибающей спектрального кадра с максимальным или меньшим, чем максимальное, разрешением по времени, и в котором профилирующий фильтр (740) выполнен с возможностью не представлять собой выравнивающее действие или выравнивающее действие в соответствии с разрешением по времени, являющимся меньшим, чем разрешение по времени, связанное с профилирующим действием.
19. Способ для постобработки (20) звукового сигнала, состоящий в том, что:
преобразуют (700) звуковой сигнал в спектральное представление, содержащее последовательность спектральных кадров;
рассчитывают (720) прогнозные данные фильтра для прогнозирования по частоте в пределах спектрального кадра;
профилируют (740), в ответ на прогнозные данные фильтра, спектральный кадр для улучшения качества всплескового участка в пределах спектрального кадра; и
преобразуют (760) последовательность спектральных кадров, содержащую профилированный спектральный кадр, во временную область.
20. Компьютерная программа для выполнения, при работе на компьютере или процессоре, способа по примеру 19.
Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют собой описание соответствующего способа, где вершина блок-схемы или устройство соответствуют этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующих вершины блок-схемы или элемента, либо признака соответствующего устройства.
В зависимости от требований определенной реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового запоминающего носителя, например, гибкого диска, DVD (цифрового многофункционального диска), CD (компакт-диска), ПЗУ (постоянного запоминающего устройства, ROM), ППЗУ (программируемого ПЗУ, PROM), СППЗУ (стираемого ППЗУ, EPROM), ЭСППЗУ (электрически стираемого ППЗУ, EEPROM) или памяти FLASH, имеющего электронным образом считываемые сигналы управления, хранимые на нем, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, так чтобы выполнялся соответственный способ.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронным образом считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой, так чтобы выполнялся один из способов, описанных в материалах настоящей заявки.
Вообще, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с управляющей программой, управляющая программа является действующей для выполнения одного из способов, когда компьютерный программный продукт работает на компьютере. Управляющая программа, например, может храниться на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки, хранимую на машиночитаемом носителе или энергонезависимом запоминающем носителе.
Поэтому, другими словами, вариант осуществления обладающего признаками изобретения способа является компьютерной программой, имеющей управляющую программу для выполнения одного из способов, описанных в материалах настоящей заявки, когда компьютерная программа работает на компьютере.
Поэтому, дополнительным вариантом осуществления обладающих признаками изобретения способов является носитель данных (или цифровой запоминающий носитель, или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки.
Поэтому, дополнительным вариантом осуществления обладающего признаками изобретения способа является поток данных или последовательность сигналов, представляющие собой компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки. Поток данных или последовательность сигналов, например, могут быть выполнены с возможностью передаваться через соединение передачи данных, например, через сеть Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненные с возможностью или приспособленные для выполнения одного из способов, описанных в материалах настоящей заявки.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в материалах настоящей заявки.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех из функциональных возможностей способов, описанных в материалах настоящей заявки. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, для того чтобы выполнять один из способов, описанных в материалах настоящей заявки. Обычно, способы предпочтительно выполняются каким-нибудь аппаратным устройством.
Описанные выше варианты осуществления являются всего лишь иллюстративными применительно к принципам настоящего изобретения. Понятно, что модификации и варианты компоновок и деталей, описанных в материалах настоящей заявки, будут очевидны специалистам в данной области техники. Поэтому, замысел состоит в том, чтобы ограничиваться только объемом прилагаемой патентной формулы изобретения, а не конкретными деталями, представленными в качестве описания и пояснения вариантов осуществления, приведенных в материалах настоящей заявки.
Список цитированной литературы
[1] K. Brandenburg, “MP3 and AAC explained,” in Audio Engineering Society Conference: 17th International Conference: High-Quality Audio Coding, September 1999.
[2] K. Brandenburg and G. Stoll, “ISO/MPEG-1 audio: A generic standard for coding of high-quality digital audio,” J. Audio Eng. Soc., vol. 42, pp. 780-792, October 1994.
[3] ISO/IEC 11172-3, “MPEG-1: Coding of moving pictures and associated audio for digital storage media at up to about 1.5 mbit/s - part 3: Audio,” international standard, ISO/IEC, 1993. JTC1/SC29/WG11.
[4] ISO/IEC 13818-1, “Information technology - generic coding of moving pictures and associated audio information: Systems,” international standard, ISO/IEC, 2000. ISO/IEC JTC1/SC29.
[5] J. Herre and J. D. Johnston, “Enhancing the performance of perceptual audio coders by using temporal noise shaping (TNS),” in 101st Audio Engineering Society Convention, no. 4384, AES, November 1996.
[6] B. Edler, “Codierung von audiosignalen mit transformation und adaptiven fensterfunktionen,” Frequenz - Zeitschrift Telekommunikation, vol. 43, pp. 253-256, September 1989.
[7] I. Samaali, M. T.-H. Alouane, and , “Temporal envelope correction for attack restoration im low bit-rate audio coding,” in 17th European Signal Processing Conference (EUSIPCO), (Glasgow, Scotland), IEEE, August 2009.
[8] J. Lapierre and R. Lefebvre, “Pre-echo noise reduction in frequency-domain audio codecs,” in 42nd IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 686-690, IEEE, March 2017.
[9] A. V. Oppenheim and R. W. Schafer, Discrete-Time Signal Processing. Harlow, UK: Pearson Education Limited, 3. ed., 2014.
[10] J. G. Proakis and D. G. Manolakis, Digital Signal Processing - Principles, Algorithms, and Applications. New Jersey, US: Pearson Education Limited, 4. ed., 2007.
[11] J. Benesty, J. Chen, and Y. Huang, Springer handbook of speech processing, ch. 7. Linear Prediction, pp. 121-134. Berlin: Springer, 2008.
[12] J. Makhoul, “Spectral analysis of speech by linear prediction,” in IEEE Transactions on Audio and Electroacoustics, vol. 21, pp. 140-148, IEEE, June 1973.
[13] J. Makhoul, “Linear prediction: A tutorial review,” in Proceedings of the IEEE, vol. 63, pp. 561-580, IEEE, April 2000.
[14] M. Athineos and D. P.W. Ellis, “Frequency-domain linear prediction for temporal features,” in IEEE Workshop on Automatic Speech Recognition and Understanding, pp. 261-266, IEEE, November 2003.
[15] F. Keiler, D. Arfib, and , “Efficient linear prediction for digital audio effects,” in COST G-6 Conference on Digital Audio Effects (DAFX-00), (Verona, Italy), December 2000.
[16] J. Makhoul, “Spectral linear prediction: Properties and applications,” in IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 23, pp. 283-296, IEEE, June 1975.
[17] T. Painter and A. Spanias, “Perceptual coding of digital audio,” in Proceedings of the IEEE, vol. 88, April 2000.
[18] J. Makhoul, “Stable and efficient lattice methods for linear prediction,” in IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-25, pp. 423-428, IEEE, October 1977.
[19] N. Levinson, “The wiener rms (root mean square) error criterion in filter design and prediction,” Journal of Mathematics and Physics, vol. 25, pp. 261-278, April 1946.
[20] J. Herre, “Temporal noise shaping, qualtization and coding methods in perceptual audio coding: A tutorial introduction,” in Audio Engineering Society Conference: 17th International Conference: High-Quality Audio Coding, vol. 17, AES, August 1999.
[21] M. R. Schroeder, “Linear prediction, entropy and signal analysis,” IEEE ASSP Magazine, vol. 1, pp. 3-11, July 1984.
[22] L. Daudet, S. Molla, and , “Transient detection and encoding using wavelet coeffcient trees,” Colloques sur le Traitement du Signal et des Images, September 2001.
[23] B. Edler and O. Niemeyer, “Detection and extraction of transients for audio coding,” in Audio Engineering Society Convention 120, no. 6811, (Paris, France), May 2006.
[24] J. Kliewer and A. Mertins, “Audio subband coding with improved representation of transient signal segments,” in 9th European Signal Processing Conference, vol. 9, (Rhodes), pp. 1-4, IEEE, September 1998.
[25] X. Rodet and F. Jaillet, “Detection and modeling of fast attack transients,” in Proceedings of the International Computer Music Conference, (Havana, Cuba), pp. 30-33, 2001.
[26] J. P. Bello, L. Daudet, S. Abdallah, C. Duxbury, and M. Davies, “A tutorial on onset detection in music signals,” IEEE Transactions on Speech and Audio Processing, vol. 13, pp. 1035-1047, September 2005.
[27] V. Suresh Babu, A. K. Malot, V. Vijayachandran, and M. Vinay, “Transient detection for transform domain coders,” in Audio Engineering Society Convention 116, no. 6175, (Berlin, Germany), May 2004.
[28] P. Masri and A. Bateman, “Improved modelling of attack transients in music analysis-resynthesis,” in International Computer Music Conference, pp. 100-103, January 1996.
[29] M. D. Kwong and R. Lefebvre, “Transient detection of audio signals based on an adaptive comb filter in the frequency domain,” in Conference on Signals, Systems and Computers, 2004. Conference Record of the Thirty-Seventh Asilomar, vol. 1, pp. 542-545, IEEE, November 2003.
[30] X. Zhang, C. Cai, and J. Zhang, “A transient signal detection technique based on flatness measure,” in 6th International Conference on Computer Science and Education, (Singapore), pp. 310-312, IEEE, August 2011.
[31] J. D. Johnston, “Transform coding of audio signals using perceptual noise criteria,” IEEE Journal on Selected Areas in Communications, vol. 6, pp. 314-323, February 1988.
[32] J. Herre and S. Disch, Academic press library in Signal processing, vol. 4, ch. 28. Perceptual Audio Coding, pp. 757-799. Academic press, 2014.
[33] H. Fastl and E. Zwicker, Psychoacoustics - Facts and Models. Heidelberg: Springer, 3. ed., 2007.
[34] B. C. J. Moore, An Introduction to the Psychology of Hearing. London: Emerald, 6. ed., 2012.
[35] P. Dallos, A. N. Popper, and R. R. Fay, The Cochlea. New York: Springer, 1. ed., 1996.
[36] W. M. Hartmann, Signals, Sound, and Sensation. Springer, 5. ed., 2005.
[37] K. Brandenburg, C. Faller, J. Herre, J. D. Johnston, and B. Kleijn, “Perceptual coding of high-quality digital audio,” in IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 101, pp. 1905-1919, IEEE, September 2013.
[38] H. Fletcher and W. A. Munson, “Loudness, its definition, measurement and calculation,” The Bell System Technical Journal, vol. 12, no. 4, pp. 377-430, 1933.
[39] H. Fletcher, “Auditory patterns,” Reviews of Modern Physics, vol. 12, no. 1, pp. 47-65, 1940.
[40] M. Bosi and R. E. Goldberg, Introduction to Digital Audio Coding and Standards. Kluwer Academic Publishers, 1. ed., 2003.
[41] P. Noll, “MPEG digital audio coding,” IEEE Signal Processing Magazine, vol. 14, pp. 59-81, September 1997.
[42] D. Pan, “A tutorial on MPEG/audio compression,” IEEE MultiMedia, vol. 2, no. 2, pp. 60-74, 1995.
[43] M. Erne, “Perceptual audio coders "what to listen for",” in 111st Audio Engineering Society Convention, no. 5489, AES, September 2001.
[44] C.-M. Liu, H.-W. Hsu, and W. Lee, “Compression artifacts in perceptual audio coding,” in IEEE Transactions on Audio, Speech, and Language Processing, vol. 16, pp. 681-695, IEEE, May 2008.
[45] L. Daudet, “A review on techniques for the extraction of transients in musical signals,” in Proceedings of the Third international conference on Computer Music, pp. 219-232, September 2005.
[46] W.-C. Lee and C.-C. J. Kuo, “Musical onset detection based on adaptive linear prediction,” in IEEE International Conference on Multimedia and Expo, (Toronto, Ontario), pp. 957-960, IEEE, July 2006.
[47] M. Link, “An attack processing of audio signals for optimizing the temporal characteristics of a low bit-rate audio coding system,” in Audio Engineering Society Convention, vol. 95, October 1993.
[48] T. Vaupel, Ein Beitrag zur Transformationscodierung von Audiosignalen unter Verwendung der Methode der "Time Domain Aliasing Cancellation (TDAC)" und einer Signalkompandierung im Zeitbereich. Ph.d. thesis, Universität Duisburg, Duisburg, Germany, April 1991.
[49] G. Bertini, M. Magrini, and T. Giunti, “A time-domain system for transient enhancement in recorded music,” in 14th European Signal Processing Conference (EUSIPCO), (Florence, Italy), IEEE, September 2013.
[50] C. Duxbury, M. Sandler, and M. Davies, “A hybrid approach to musical note onset detection,” in Proc. of the 5th Int. Conference on Digital Audio Effects (DAFx-02), (Hamburg, Germany), pp. 33-38, September 2002.
[51] A. Klapuri, “Sound onset detection by applying psychoacoustic knowledge,” in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, March 1999.
[52] S. L. Goh and D. P. Mandic, “Nonlinear adaptive prediction of complex-valued signals by complex-valued PRNN,” in IEEE Transactions on Signal Processing, vol. 53, pp. 1827-1836, IEEE, May 2005.
[53] S. Haykin and L. Li, “Nonlinear adaptive prediction of nonstationary signals,” in IEEE Transactions on Signal Processing, vol. 43, pp. 526-535, IEEE, February 1995.
[54] D. P. Mandic, S. Javidi, S. L. Goh, and K. Aihara, “Complex-valued prediction of wind profile using augmented complex statistics,” in Renewable Energy, vol. 34, pp. 196-201, Elsevier Ltd., January 2009.
[55] B. Edler, “Parametrization of a pre-masking model.” Personal communication, November 22, 2016.
[56] ITU-R Recommendation BS.1116-3, “Method for the subjective assessment of small impairments in audio systems,” recommendation, International Telecommunication Union, Geneva, Switzerland, February 2015.
[57] ITU-R Recommendation BS.1534-3, “Method for the subjective assessment of intermediate quality level of audio systems,” recommendation, International Telecommunication Union, Geneva, Switzerland, October 2015.
[58] ITU-R Recommendation BS.1770-4, “Algorithms to measure audio programme loudness and true-peak audio level,” recommendation, International Telecommunication Union, Geneva, Switzerland, October 2015.
[59] S. M. Ross, Introduction to Probability and Statistics for Engineers and Scientists. Elsevier, 3. ed., 2004.
Изобретение относится к средствам для постобработки звукового сигнала. Технический результат заключается в повышении эффективности обработки. Преобразуют звуковой сигнал во время-частотное представление. Оценивают место всплеска по времени для всплескового участка с использованием звукового сигнала или время-частотного представления. Манипулируют время-частотным представлением для ослабления или устранения упреждающего эха во время–частотном представлении в расположении по времени перед местом всплеска. При этом оценивают пороговые значения упреждающего эха применительно к спектральным значениям во время-частотном представлении в пределах длительности упреждающего эха, причем пороговые значения упреждающего эха указывают пороговые значения амплитуды соответствующих спектральных значений после ослабления или устранения упреждающего эха. При этом определяют пороговые значения упреждающего эха с использованием взвешивающей кривой, имеющей возрастающую характеристику от начала длительности упреждающего эха до места всплеска. Манипулируют время-частотным представлением для выполнения профилирования время–частотного представления в месте всплеска, чтобы усилить выпад всплесковой части. 3 н. и 12 з.п. ф-лы, 61 ил., 1 табл.
1. Устройство для постобработки (20) звукового сигнала, содержащее:
преобразователь (100) для преобразования звукового сигнала во время-частотное представление;
блок (120) оценки места всплеска для оценки расположения по времени всплескового участка с использованием звукового сигнала или время-частотного представления; и
манипулятор (140) сигнала для манипуляции время-частотным представлением, при этом манипулятор (140) сигнала выполнен с возможностью ослаблять (220) или устранять упреждающее эхо во время-частотном представлении в расположении по времени перед местом всплеска,
при этом манипулятор (140) сигнала содержит блок (260) оценки порогового значения упреждающего эха для оценки пороговых значений упреждающего эха применительно к спектральным значениям во время-частотном представлении в пределах длительности упреждающего эха, причем пороговые значения упреждающего эха указывают пороговые значения амплитуды соответствующих спектральных значений после ослабления или устранения упреждающего эха, и при этом блок (260) оценки порогового значения упреждающего эха выполнен с возможностью определять пороговые значения упреждающего эха с использованием взвешивающей кривой, имеющей возрастающую характеристику от начала длительности упреждающего эха до места всплеска, или
при этом манипулятор (140) сигнала выполнен с возможностью выполнять профилирование (500) время-частотного представления в месте всплеска, чтобы усилить выпад всплесковой части, при этом манипулятор (140) сигнала выполнен с возможностью делить (630) время-частотное представление в месте всплеска на установившуюся часть и всплесковую часть, причем манипулятор (140) сигнала выполнен с возможностью усиливать только всплесковую часть и не усиливать установившуюся часть, и при этом манипулятор (140) сигнала выполнен с возможностью объединять (640) установившуюся часть и усиленную всплесковую часть для получения постобработанного звукового сигнала.
2. Устройство по п.1, в котором
манипулятор (140) сигнала содержит блок (200) оценки тональности для выявления тональных составляющих сигнала во время-частотном представлении, предшествующем всплесковому участку по времени, и
манипулятор (140) сигнала выполнен с возможностью применять ослабление или устранение (220) упреждающего эха избирательным по частоте образом, так чтобы на частотах, где были выявлены тональные составляющие сигнала, манипуляция сигнала ослаблялась или выключалась по сравнению с частотами, где тональные составляющие сигнала выявлены не были.
3. Устройство по п.1, в котором манипулятор (140) сигнала содержит блок (240) оценки длительности упреждающего эха для оценки длительности по времени упреждающего эха, предшествующего месту всплеска, на основе развития энергии сигнала звукового сигнала со временем, чтобы определять начальный кадр упреждающего эха во время-частотном представлении, содержащем множество последующих кадров звукового сигнала.
4. Устройство по п.1, в котором блок (260) оценки порогового значения упреждающего эха выполнен с возможностью:
сглаживать (330) время-частотное представление на множестве следующих кадров время-частотного представления, и
взвешивать (340) сглаженное время-частотное представление с использованием взвешивающей кривой, имеющей возрастающую характеристику от начала длительности упреждающего эха до места всплеска.
5. Устройство по п.1, в котором манипулятор (140) сигнала содержит:
вычислитель (300, 160) спектральных весов для расчета отдельных спектральных весов для спектральных значений время-частотного представления; и
спектральный взвешиватель (320) для взвешивания спектральных значений время-частотного представления с использованием спектральных весов, чтобы получать манипулированное время-частотное представление.
6. Устройство по п.5, в котором вычислитель (300) спектральных весов выполнен с возможностью:
определять (450) необработанные спектральные веса с использованием действующего спектрального значения и целевого спектрального значения, или
сглаживать (460) необработанные спектральные веса по частоте в пределах кадра время-частотного представления, или
плавно повышать (430) ослабление или устранение упреждающего эха с использованием кривой регулирования уровня на множестве из кадров в начале длительности упреждающего эха, или
определять (420) целевое спектральное значение, так чтобы спектральное значение, имеющее амплитуду ниже порогового значения упреждающего эха, не подвергалось влиянию манипуляции сигнала, или
определять (420) целевые спектральные значения с использованием модели (410) упреждающего маскирования, так чтобы демпфирование спектрального значения в зоне упреждающего эха ослаблялось на основе модели (410) упреждающего маскирования.
7. Устройство по п.1, при этом время-частотное представление содержит комплекснозначные спектральные значения, причем манипулятор (140) сигнала выполнен с возможностью применять вещественнозначные спектральные весовые значения к комплекснозначным спектральным значениям.
8. Устройство по п.1, в котором манипулятор (140) сигнала выполнен с возможностью усиливать (500) спектральные значения в пределах всплескового кадра время-частотного представления.
9. Устройство по п.1, в котором манипулятор (140) сигнала выполнен с возможностью усиливать только спектральные значения выше минимальной частоты, причем минимальная частота находится выше 250 Гц и ниже 2 кГц.
10. Устройство по п.1, в котором манипулятор (140) сигнала выполнен с возможностью также усиливать временной участок время-частотного представления, следующего за местом всплеска по времени, с использованием плавно убывающей характеристики (685).
11. Устройство по п.1, при этом спектральное значение содержит установившуюся часть и всплесковую часть, причем манипулятор (140) сигнала выполнен с возможностью рассчитывать (680) спектральный весовой коэффициент для спектрального значения с использованием установившейся части спектрального значения, усиленной всплесковой части и модуля спектрального значения, при этом величина усиления усиленной всплесковой части предопределена и находится между 300% и 150%, или при этом спектральные весовые коэффициенты сглаживаются (690) по частоте.
12. Устройство по п.1, дополнительно содержащее спектрально–временной преобразователь (370) для преобразования манипулированного время-частотного представления во временную область с использованием операции сложения с перекрытием, вовлекающей, по меньшей мере, смежные кадры время-частотного представления.
13. Устройство по п.1,
в котором преобразователь (100) выполнен с возможностью применять размер скачка между 1 и 3 мс или окно анализа, имеющее длину окна между 2 и 6 мс, или
дополнительно содержащее спектрально–временной преобразователь (370) для преобразования манипулированного время-частотного представления во временную область, при этом спектрально–временной преобразователь (370) выполнен с возможностью использовать диапазон перекрытия, соответствующий размеру перекрытия перекрывающихся окон или соответствующий размеру скачка между 1 и 3 мс, используемому преобразователем (100), или использовать окно синтеза, имеющее длину окна между 2 и 6 мс, или в котором окно анализа и окно синтеза идентичны друг другу.
14. Способ постобработки (20) звукового сигнала, содержащий этапы, на которых:
преобразуют (100) звуковой сигнал во время-частотное представление;
оценивают (120) место всплеска по времени для всплескового участка с использованием звукового сигнала или время-частотного представления; и
манипулируют (140) время-частотным представлением для ослабления (220) или устранения упреждающего эха во время-частотном представлении в расположении по времени перед местом всплеска,
при этом манипулирование (140) содержит этап, на котором оценивают пороговые значения упреждающего эха применительно к спектральным значениям во время-частотном представлении в пределах длительности упреждающего эха, причем пороговые значения упреждающего эха указывают пороговые значения амплитуды соответствующих спектральных значений после ослабления или устранения упреждающего эха, и при этом оценка пороговых значений упреждающего эха содержит этап, на котором определяют пороговые значения упреждающего эха с использованием взвешивающей кривой, имеющей возрастающую характеристику от начала длительности упреждающего эха до места всплеска, или
манипулируют (140) время-частотным представлением для выполнения профилирования (500) время-частотного представления в месте всплеска, чтобы усилить выпад всплесковой части, при этом манипулирование (140) содержит этап, на котором делят (630) время-частотное представление в месте всплеска на установившуюся часть и всплесковую часть, усиливают только всплесковую часть и не усиливают установившуюся часть, и объединяют (640) установившуюся часть и усиленную всплесковую часть для получения постобработанного звукового сигнала.
15. Запоминающий носитель, на котором хранится компьютерная программа для выполнения, при ее работе на компьютере или процессоре, способа по п.14.
LAPIERRE JIMMY и др | |||
"Pre-echo noise reduction in frequency-domain audio codecs", IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), опубл | |||
Кипятильник для воды | 1921 |
|
SU5A1 |
LEE TUNG-CHIN и др | |||
"Pre-echo control using an improved post-filter in the frequency domain", THE 18TH IEEE INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS (ISCE |
Авторы
Даты
2020-10-23—Публикация
2018-03-28—Подача