Настоящая заявка относится к принятию решения относительно управления инструментом фильтрации гармоник, например, принадлежащим подходу с предварительным/пост-фильтром или только пост-фильтром. Такой инструмент, например, применим к унифицированному кодированию речи и аудиосигнала (USAC) MPEG-D и перспективному кодеку EVS 3GPP.
Аудиокодеки на основе преобразования, такие как AAC, MP3 или TCX, как правило, привносят межгармонический шум квантования при обработке гармонических аудиосигналов, особенно при низких битовых скоростях.
Этот эффект дополнительно усугубляется, когда аудиокодек на основе преобразования работает с низкой задержкой, из-за более плохого разрешения по частоте и/или избирательности, привнесенной более коротким размером преобразования и/или более плохой частотной характеристикой окна.
Этот межгармонический шум, как правило, воспринимается как очень раздражающий "переливающийся" артефакт, который значительно ухудшает рабочие характеристики аудиокодека на основе преобразования при субъективной оценке для высокотонального аудиоматериала, такого как некоторая музыка или вокализованная речь.
Обычное решение этой проблемы состоит в том, чтобы использовать методики на основе предсказания, предпочтительно предсказания с использованием авторегрессивного (AR) моделирования, основанного на прибавлении или вычитании прошлых входных или декодированных сэмплов в области преобразования или во временной области.
Однако использование таких методик в сигналах с изменяющейся временной структурой опять приводит к нежелательным эффектам, таким как временное размытие ударных музыкальных событий или взрывных звуков речи, или даже создание шлейфов импульса из-за повторения одиночного импульсоподобного транзиента (переходного процесса). Таким образом, специальным образом должны обрабатываться сигналы, которые содержат и транзиентные, и гармонические составляющие, или сигналы, в которых имеется неоднозначность между транзиентами и последовательностями импульсов (последнее относится к гармоническому сигналу, состоящему из отдельных импульсов очень короткой длительности; такие сигналы также известны как последовательности импульсов).
Существует несколько решений для улучшения субъективного качества аудиокодеков на основе преобразования для гармонических аудиосигналов. Все они используют долгосрочную периодичность (основной тон) очень гармонических, стационарных волновых форм, и основаны на предсказательных методиках либо в области преобразования, либо во временной области. Большинство решений известно либо как долгосрочное предсказание (LTP), либо как предсказание основного тона, характеризуемое применением пары фильтров к сигналу: предварительного фильтра в кодере (обычно как первого этапа во временной или частотной области) и постфильтра в декодере (обычно как последнего этапа во временной или частотной области). Несколько других решений, однако, применяют только один процесс постфильтрации на стороне декодера, известный как постфильтр гармоник или низкочастотный пост-фильтр. Все эти подходы, независимо от того, являются они парой предварительного и постфильтра или только постфильтром, мы будем далее называть инструментом фильтрации гармоник.
Примерами подходов в области преобразования являются:
[1] H. Fuchs, ʺImproving MPEG Audio Coding by Backward Adaptive Linear Stereo Predictionʺ, 99th AES Convention, New York, 1995, Preprint 4086.
[2] L. Yin, M. Suonio, M. Väänänen, ʺA New Backward Predictor for MPEG Audio Codingʺ, 103rd AES Convention, New York, 1997, Preprint 4521.
[3] Juha Ojanperä, Mauri Väänänen, Lin Yin, ʺLong Term Predictor for Transform Domain Perceptual Audio Codingʺ, 107th AES Convention, New York, 1999, Preprint 5036.
Примерами подходов во временной области, применяющих и предварительную, и постфильтрацию, являются:
[4] Philip J. Wilson, Harprit Chhatwal, ʺAdaptive transform coder having long term predictorʺ, U.S. Patent 5,012,517, April 30, 1991.
[5] Jeongook Song, Chang-Heon Lee, Hyen-O Oh, Hong-Goo Kang, ʺHarmonic Enhancement in Low Bitrate Audio Coding Using an Efficient Long-Term Predictorʺ, EURASIP Journal on Advances in Signal Processing, August 2010.
[6] Juin-Hwey Chen, ʺPitch-based pre-filtering and post-filtering for compression of audio signalsʺ, U.S. Patent 8,738,385, May 27, 2014.
[7] Jean-Marc Valin, Koen Vos, Timothy B. Terriberry, ʺDefinition of the Opus Audio Codecʺ, ISSN: 2070-1721, IETF RFC 6716, September 2012.
[8] Rakesh Taori, Robert J. Sluijter, Eric Kathmann ʺTransmission System with Speech Encoder with Improved Pitch Detectionʺ, U.S. Patent 5,963,895, October 5, 1999.
Примерами подходов во временной области, где применяется только постфильтрация, являются:
[9] Juin-Hwey Chen, Allen Gersho, ʺAdaptive Postfiltering for Quality Enhancement of Coded Speechʺ, IEEE Trans. on Speech and Audio Proc., vol. 3, January 1995.
[10] Int. Telecommunication Union, ʺFrame error robust variable bit-rate coding of speech and audio from 8-32 kbit/sʺ, Recommendation ITU-T G.718, June 2008. www.itu.int/rec/T-REC-G.718/e, section 7.4.1.
[11] Int. Telecommunication Union, ʺCoding of speech at 8 kbit/s using conjugate structure algebraic CELP (CS-ACELP)ʺ, Recommendation ITU-T G.729, June 2012. www.itu.int/rec/T-REC-G.729/e <http://www.itu.int/rec/T-REC-G.729/e>, section 4.2.1.
[12] Bruno Bessette et al., ʺMethod and device for frequency-selective pitch enhancement of synthesized speechʺ, U.S. Patent 7,529,660, May 30, 2003.
Примером детектора транзиентов является:
[13] Johannes Hilpert et al., ʺMethod and Device for Detecting a Transient in a Discrete-Time Audio Signalʺ, U.S. Patent 6,826,525, November 30, 2004.
Соответствующая литература по психоакустике:
[14] Hugo Fastl, Eberhard Zwicker, ʺPsychoacoustics: Facts and Modelsʺ, 3rd Edition, Springer, December 14, 2006.
[15] Christoph Markus, ʺBackground Noise Estimationʺ, European Patent EP 2,226,794, March 6, 2009.
Все методики, описанные выше, принимают решение, когда включать фильтр с предсказанием, на основании принятия решения с одним порогом (например, усиления предсказания [5], или усиления основного тона [4], или гармоничности, которая в основном пропорциональна нормализованной корреляции [6]). Кроме того, OPUS [7] использует гистерезис, который увеличивает порог, если основной тон изменяется, и уменьшает порог, если усиление в предыдущем кадре было выше заранее заданного фиксированного порога. OPUS [7] также отключает блок долгосрочного предсказания (предсказания основного тона), если в некоторых конкретных конфигурациях кадров обнаруживается транзиент. Причина такого дизайна, кажется, происходит из распространенного мнения, что в смеси гармонических и транзиентных компонентов сигнала транзиент доминирует, и активация LTP или предсказания основного тона для него, как обсуждалось выше, субъективно принесет больше вреда, чем улучшения. Однако для некоторых смесей волновых форм, которые обсуждаются ниже, активация блока долгосрочного предсказания или предсказания основного тона на транзиентных аудиокадрах значительно увеличивает качество кодирования или эффективность и, таким образом, является выгодной. Кроме того, может быть выгодно, при активации блока предсказания, изменять его силу на основании мгновенных характеристик сигнала помимо усиления предсказания, единственного подхода в существующем уровне техники.
Соответственно, задачей настоящего изобретения является обеспечение концепции для зависящего от гармоничности управления инструментом фильтрации гармоник аудиокодека, которое приводит к улучшению эффективности кодирования, например, улучшению объективного усиления кодирования или более высокому качеству восприятия и т.п.
Эта задача решается в независимых пунктах формулы изобретения настоящей заявки.
Основным открытием настоящей заявки является то, что эффективность кодирования аудиокодека с использованием управляемого - переключаемого или даже настраиваемого - инструмента фильтрации гармоник может быть улучшена путем выполнения зависящего от гармоничности управления этим инструментом с использованием показателя временной структуры в дополнение к показателю гармоничности для управления инструментом фильтрации гармоник. В частности, временная структура аудиосигнала оценивается методом, который зависит от основного тона. Это позволяет обеспечить адаптированное под ситуацию управление инструментом фильтрации гармоник, так что в ситуациях, в которых управление, выполняемое исключительно на основании показателя гармоничности, отклонило бы или уменьшило бы использование этого инструмента, хотя использование инструмента фильтрации гармоник в этой ситуации увеличит эффективность кодирования, инструмент фильтрации гармоник применяется, в то время как в других ситуациях, в которых инструмент фильтрации гармоник может быть неэффективным или даже деструктивным, управление должным образом уменьшает использование инструмента фильтрации гармоник.
Предпочтительные реализации настоящего изобретения на основе зависимых пунктов формулы изобретения и предпочтительных вариантов осуществления настоящего приложения излагаются ниже со ссылкой на фигуры, на которых:
фиг. 1 показывает блок-схему устройства для управления инструментом фильтрации гармоник с точки зрения усиления фильтра в соответствии с вариантом осуществления;
фиг. 2 показывает пример для возможного предварительно определенного условия, которое должно быть выполнено для применения инструмента фильтрации гармоник;
фиг. 3 показывает блок-схему последовательности операций, изображающую возможную реализацию логики принятия решения, которая, помимо всего прочего, может быть параметризована так, чтобы реализовать пример условия на фиг. 2;
фиг. 4 показывает блок-схему устройства для выполнения зависящего от гармоничности (и временного показателя) управления инструментом фильтрации гармоник;
фиг. 5 показывает схематический чертеж, изображающий местоположение во времени временной области для определения показателя временной структуры в соответствии с вариантом осуществления;
фиг. 6 схематично показывает график дискретных значений энергии, дискретизирующих во времени аудиосигнал в пределах временной области, в соответствии с вариантом осуществления;
фиг. 7 показывает блок-схему, иллюстрирующую использование устройства на фиг. 4 в аудиокодеке путем иллюстрации кодера и декодера аудиокодека, соответственно, когда кодер использует устройство на фиг. 4, в соответствии с вариантом осуществления, в котором используется инструмент предварительной/пост-фильтрации гармоник;
фиг. 8 показывает блок-схему, иллюстрирующую использование устройства на фиг. 4 в аудиокодеке путем иллюстрации кодера и декодера аудиокодека, соответственно, когда кодер использует устройство на фиг. 4, в соответствии с вариантом осуществления, в котором используется инструмент постфильтрации гармоник;
фиг. 9 показывает блок-схему контроллера на фиг. 4 в соответствии с вариантом осуществления;
фиг. 10 показывает блок-схему системы, иллюстрирующей возможность, что устройство на фиг. 4 совместно с детектором транзиентов использует дискретные значения энергии на фиг. 6;
фиг. 11 показывает график части во временной области (части волновых форм) из аудиосигнала как пример низкотонального сигнала с дополнительной иллюстрацией зависящего от основного тона расположения временной области для определения по меньшей мере одного показателя временной структуры;
фиг. 12 показывает график части во временной области из аудиосигнала как пример высокотонального сигнала с дополнительным иллюстрированием зависящего от основного тона расположения временной области для определения по меньшей мере одного показателя временной структуры;
фиг. 13 показывает иллюстративную спектрограмму импульсного и ступенчатого транзиента в гармоническом сигнале;
фиг. 14 показывает иллюстративную спектрограмму для иллюстрации влияния LTP на импульсный и ступенчатый транзиент;
фиг. 15 показывает, одну над другой, части во временной области аудиосигнала, показанного на фиг. 14, и его версии после фильтрации низкочастотным фильтром и высокочастотным фильтром, соответственно, для иллюстрации управления в соответствии с фиг. 2, 3, 16 и 17 для импульсного и ступенчатого транзиента;
фиг. 16 показывает гистограмму примера для временной последовательности энергий сегментов - последовательности дискретных значений энергии - для импульсообразного транзиента и размещение временной области для определения по меньшей мере одного показателя временной структуры в соответствии с фиг. 2 и 3;
фиг. 17 показывает гистограмму примера для временной последовательности энергий сегментов - последовательности дискретных значений энергии - для ступенчатого транзиента и размещение временной области для определения по меньшей мере одного показателя временной структуры в соответствии с фиг. 2 и 3;
фиг. 18 показывает иллюстративную спектрограмму последовательности импульсов (отрывок с использованием спектрограммы короткого FFT);
фиг. 19 показывает иллюстративные волновые формы последовательности импульсов;
фиг. 20 показывает исходную спектрограмму короткого FFT последовательности импульсов; и
фиг. 21 показывает исходную спектрограмму длинного FFT последовательности импульсов.
Следующее ниже описание начинается с первого подробного варианта осуществления управления инструментом фильтрации гармоник. Представлен краткий обзор размышлений, которые привели к этому первому варианту осуществления. Эти размышления, однако, также применимы к вариантам осуществления, объясняемым в дальнейшем. Далее представлены обобщающие варианты осуществления, за которыми следуют конкретные примеры для частей аудиосигналов для более конкретного описания эффектов, следующих из вариантов осуществления настоящей заявки.
Механизм принятия решения для включения или управления инструментом фильтрации гармоник, например, методики на основе предсказания, основан на комбинации показателя гармоничности, такого как нормализованная корреляция или усиление предсказания, и показателя временной структуры, например, показателя временной гладкости или изменения энергии.
Принятие решения может, как отмечается ниже, зависеть не только от показателя гармоничности текущего кадра, но также и от показателя гармоничности предыдущего кадра и от показателя временной структуры текущего и, опционально, предыдущего кадра.
Схема принятия решения может быть выполнена с возможностью активации методики на основе предсказания также для транзиентов всякий раз, когда ее использование будет психоакустически выгодным, как решено соответствующей моделью.
Пороги, используемые для активации методики на основе предсказания, могут, в одном варианте осуществления, зависеть от текущего основного тона вместо изменения основного тона.
Схема принятия решения позволяет, например, избежать повторения конкретного транзиента, но позволяет методику на основе предсказания для некоторых транзиентов и для сигналов с конкретными временными структурами, где детектор транзиентов будет, как правило, сигнализировать о коротких блоках преобразования (то есть о существовании одного или нескольких транзиентов).
Методика принятия решения, представленная ниже, может быть применена к любому из способов на основе предсказания, описанных выше, в области преобразования или во временной области, в подходах с постфильтром плюс предварительным фильтром или только постфильтром. Кроме того, она может быть применена к блокам предсказания, работающим с ограниченной полосой (с низкочастотным фильтром) или в поддиапазонах (с характеристиками полосы пропускания).
Главной задачей относительно активации LTP, предсказания основного тона или постфильтрации гармоник является достижение обоих следующих условий:
- получается объективная или субъективная выгода при активации фильтра,
- не вносится никаких значительных артефактов при активации упомянутого фильтра.
Определение, имеется ли объективное преимущество в использовании фильтра, обычно выполняется посредством показателя автокорреляции и/или показателя усиления предсказания для целевого сигнала, и оно хорошо известно [1-7].
Измерение субъективной выгоды также является простым, по меньшей мере для стационарных сигналов, так как данные улучшения восприятия, полученные посредством тестов на прослушивание, обычно являются пропорциональными соответствующим объективным метрикам, то есть вышеупомянутой корреляции и/или усилению предсказания.
Идентификация или предсказание существования артефактов, вызванных фильтрацией, тем не менее, требует более сложных методик, чем простые сравнения объективных метрик, как тип кадра (длинные преобразования для стационарных по сравнению с короткими преобразованиями для транзиентных кадров) или усиление предсказания, с определенными порогами, как это делается в существующем уровне техники. По существу, чтобы предотвратить артефакты, нужно гарантировать, что изменения, которые вызывает фильтрация в целевых волновых формах, значительно не превышают изменяющийся во времени спектро-временной порог маскирования нигде во времени или по частоте. Схема принятия решения в соответствии с некоторыми из вариантов осуществления, представленных ниже, таким образом, использует следующее принятие решения о фильтре и схему управления, состоящую из трех алгоритмических блоков, которые должны исполняться последовательно для каждого кадра аудиосигнала, который должен быть закодирован и/или подвергнут фильтрации:
Блок измерения гармоничности, который вычисляет обычно используемые данные фильтра гармоник, такие как нормализованная корреляция или значения усиления (называемые в дальнейшем "усилением предсказания"). Как отмечается снова ниже, слово "усиление" понимается как обобщение для любого параметра, обычно связанного с силой фильтра, например, явного коэффициента усиления, абсолютной или относительной величины набора из одного или нескольких коэффициентов фильтра.
Блок измерения T/F огибающей, который вычисляет частотно-временную (T/F) амплитуду, или энергию, или данные гладкости с заранее заданным спектральным и временным разрешением (это также может включать в себя показатель транзиентности кадра, используемый для принятия решений о типе кадра, как отмечалось выше). Основной тон, полученный в блоке измерения гармоничности, подается на вход блока измерения T/F огибающей, так как область аудиосигнала, используемая для фильтрации текущего кадра, обычно с использованием прошлых сэмплов сигнала, зависит от основного тона (и, соответственно, также зависит и вычисленная T/F огибающая).
Блок вычисления усиления фильтра, принимающий окончательное решение о том, какое усиление фильтра использовать (и, таким образом, передавать в битовом потоке) для фильтрации. В идеале этот блок должен вычислять, для каждого пригодного к передаче усиления фильтра меньше или равного усилению предсказания, спектро-временную огибающую "в виде шаблона возбуждения" целевого сигнала после фильтрации с упомянутым усилением фильтра, и он должен сравнивать эту "фактическую" огибающую с огибающей шаблона возбуждения исходного сигнала. Затем можно использовать для кодирования/передачи самое большое усиление фильтра, соответствующая спектро-временная "фактическая" огибающая которого не отличается от "исходной" огибающей более чем на определенную величину. Это усиление фильтра мы будем называть психоакустически оптимальным.
В других вариантах осуществления, описанных ниже, три блочных структуры немного модифицированы.
Другими словами, гармоничность и показатели T/F огибающей получаются в соответствующих блоках, которые впоследствии используются для получения психоакустических шаблонов возбуждения входных и фильтрованных выходных кадров, и, наконец, усиление фильтра настраивается так, что порог маскирования, который задается отношением между "фактической" и "исходной" огибающей, превышается незначительно. Для понимания этого следует отметить, что шаблон возбуждения в этом контексте во многом аналогичен спектрограммному представлению исследуемого сигнала, но он демонстрирует временное сглаживание, смоделированное по некоторым характеристикам человеческого слуха и проявляющее себя как "постмаскирование".
Фиг. 1 изображает связь между тремя блоками, представленными выше. К сожалению, покадровое получение двух шаблонов возбуждения и прямой перебор в поисках лучшего усиления фильтра часто является сложным в вычислительном отношении. Поэтому в следующем описании представлены упрощения.
Чтобы избежать затратных вычислений шаблонов возбуждения в предложенной схеме принятия решения об активации фильтра показатели огибающей низкой сложности используются в качестве оценок характеристик шаблонов возбуждения. Было установлено, что в блоке измерения T/F огибающей данные, такие как энергии сегментов (SE), показатель временной гладкости (TFM), максимальное изменение энергии (MEC) или традиционная информация о конфигурации кадра, такая как тип кадра (длинный/стационарный или короткий/транзиентный), являются достаточными для получения оценки психоакустических критериев. Эти оценки затем могут быть использованы в блоке вычисления усиления фильтра для определения, с высокой точностью, оптимального усиления фильтра, которое должно использоваться для кодирования или передачи. Чтобы предотвратить интенсивный в вычислительном отношении поиск глобально оптимального усиления, цикл величина-искажения по всем возможным усилениям фильтра (или их подмножеству) может быть заменен разовыми условными операторами. Такие "дешевые" операторы служат для того, чтобы решить, должно ли некоторое усиление фильтра, вычисленное с использованием данных от блоков измерения гармоничности и T/F огибающей, быть установлено равным нулю (решение не использовать фильтрацию гармоник) или нет (решение использовать фильтрацию гармоник). Следует отметить, что блок измерения гармоничности может остаться неизменным. Поэтапная реализация этого варианта осуществления низкой сложности описывается ниже.
Как уже отмечалось, "начальное" усиление фильтра, подвергнутое разовым условным операторам, получается с использованием данных от блоков измерения гармоничности и T/F огибающей. А именно, "начальное" усиление фильтра может быть равно произведению изменяющегося во времени усиления предсказания (от блока измерения гармоничности) и изменяющегося во времени масштабного коэффициента (из данных психоакустической огибающей блока измерения T/F огибающей). Чтобы дополнительно уменьшить вычислительную нагрузку, фиксированный, постоянный масштабный коэффициент, такой как 0.625, может использоваться вместо зависящего от сигнала изменяющегося во времени коэффициента. Это обычно сохраняет достаточное качество, и это также принимается во внимание в следующей реализации.
Ниже представлено поэтапное описание конкретного варианта осуществления для управления инструментом фильтрации.
1. Обнаружение транзиентов и временные показатели
Входной сигнал
Сигнал, отфильтрованный HP фильтром обнаружения транзиентов, обозначен как
где
Накопленная энергия вычисляется с использованием выражения:
Атака обнаруживается, если энергия сегмента
Если атака не обнаружена на основании критерия выше, но обнаружено сильное увеличение энергии в сегменте
Изменение энергии для каждого сегмента вычисляется следующим образом:
Показатель временной гладкости вычисляется следующим образом:
Максимальное изменение энергии вычисляется следующим образом:
Если индекс
Если
2. Переключение длины блока преобразования
Длина перекрытия и длина блока преобразования TCX зависят от существования транзиента и его местоположения.
Таблица 1: Кодирование перекрытия и длины преобразования на основании местоположения транзиента
0 - Длинное, 1 - Короткое
Детектор транзиентов, описанный выше, по существу возвращает индекс последней атаки с ограничением, что если имеется несколько транзиентов, тогда МИНИМАЛЬНОЕ перекрытие является предпочтительным по сравнению с ПОЛОВИННЫМ перекрытием, которое является предпочтительным по сравнению с ПОЛНЫМ перекрытием. Если атака в местоположении 2 или 6 не является достаточно сильной, тогда выбирается ПОЛОВИННОЕ перекрытие вместо МИНИМАЛЬНОГО перекрытия.
3. Оценка основного тона
Оценивается одно запаздывание основного тона (целая часть+дробная часть) на кадр (размер кадра равен, например, 20 мс). Это делается за 3 этапа для уменьшения сложности и улучшения точности оценки.
a. Первая оценка целой части запаздывания основного тона
Используется алгоритм анализа основного тона, который дает гладкий контур эволюции основного тона (например, анализ основного тона с незамкнутым циклом, описанный в Rec. ITU-T G.718, sec. 6.6). Этот анализ, в общем, делается на основе подкадра (размер подкадра равен, например, 10 мс), и дает одну оценку запаздывания основного тона на подкадр. Следует отметить, что эти оценки запаздывания основного тона не имеют никакой дробной части и, в общем, оцениваются по субдискретизированному сигналу (частота дискретизации равна, например, 6400 Гц). Используемый сигнал может быть любым аудиосигналом, например, аудиосигналом с весовыми коэффициентами LPC, как описано в Rec. ITU-T G.718, sec. 6.5.
b. Уточнение целой части запаздывания основного тона
Конечная целая часть запаздывания основного тона оценивается по аудиосигналу x[n], выполняющемуся с основной частотой дискретизации кодера, которая, как правило, выше, чем частота дискретизации субдискретизированного сигнала, используемого в a. (например, 12,8 кГц, 16 кГц, 32 кГц …). Сигнал x[n] может быть любым аудиосигналом, например, аудиосигналом с весовыми коэффициентами LPC.
Целая часть запаздывания основного тона тогда является запаздыванием , которое максимизирует автокорреляционную функцию
где находится поблизости от запаздывания основного тона , оцененного на этапе 1.a.
c. Оценка дробной части запаздывания основного тона
Дробная часть находится путем интерполяции автокорреляционной функции , вычисленной на этапе 2.b., и путем выбора дробного запаздывания основного тона , которое максимизирует интерполированную автокорреляционную функцию. Интерполяция может быть выполнена с использованием низкочастотного фильтра FIR, как описано, например, в Rec. ITU-T G.718, sec. 6.6.7.
4. Бит решения
Если входной аудиосигнал не имеет никакого гармонического содержания, или если методика на основе предсказания вносит искажения во временную структуру (например, повторение короткого транзиента), то никакие параметры не кодируются в битовом потоке. Посылается только 1 бит, так что декодер знает, должен ли он декодировать параметры фильтра или нет. Решение принимается на основании нескольких параметров:
Нормализованная корреляция при целочисленном запаздывании основного тона, оцененном на этапе 3.b.
Нормализованная корреляция равна 1, если входной сигнал совершенно предсказуем с помощью целочисленного запаздывания основного тона, и 0, если он вообще не предсказуем. Высокое значение (близкое к 1) тогда будет означать гармонический сигнал. Для более надежного принятия решения помимо нормализованной корреляции для текущего кадра (norm_corr(curr)) в принятии решения также может использоваться нормализованная корреляция прошлого кадра (norm_corr (prev)), например:
если (norm_corr(curr)*norm_corr(prev))>0,25
или
если max(norm_corr(curr),norm_corr(prev))>0,5,
тогда текущий кадр содержит некоторое количество гармонического содержания (bit=1)
a. Признаки, вычисленные детектором транзиентов (например, показатель (6) временной гладкости, максимальное изменение (7) энергии), для того, чтобы избежать активации постфильтра для сигнала, содержащего сильный транзиент или большие временные изменения. Временные признаки вычисляются для сигнала, содержащего текущий кадр (
b. Последовательности импульсов для низкотональных сигналов могут определяться как транзиент детектором транзиентов. Для сигналов с низким тоном, таким образом, игнорируются признаки от детектора транзиентов, и вместо этого имеется дополнительный порог для нормализованной корреляции, которая зависит от запаздывания основного тона, например:
Если norm_corr<=1,2-/L, то задать bit=0 и не отправлять никаких параметров.
Одно иллюстративное принятие решения показано на фиг. 2, где b1 является некоторой битовой скоростью, например 48 Кбит/с, где TCX_20 указывает, что кадр кодируется с использованием одного длинного блока, где TCX_10 указывает, что кадр кодируется с использованием 2,3,4 или более коротких блоков, где принятие решения о TCX_20/TCX_10 основано на выходе детектора транзиентов, описанного выше. tempFlatness является показателем временной гладкости, как определено в (6), maxEnergyChange является максимальным изменением энергии, как определено в (7). Условие norm_corr(curr)>1,2-/L также может быть записано как (1,2-norm_corr(curr))*L<.
Принцип логики принятия решения изображен в блок-схеме на фиг. 3. Следует отметить, что фиг. 3 является более общей, чем фиг. 2, в том смысле, что пороги не ограничиваются. Они могут быть установлены в соответствии с фиг. 2 или по-другому. Кроме того, фиг. 3 показывает, что иллюстративная зависимость от битовой скорости на фиг. 2 может быть отброшена. Естественно, логика принятия решения на фиг. 3 может быть изменена, чтобы включить в себя зависимость от битовой скорости на фиг. 2. Кроме того, фиг. 3 оставлена неопределенной относительно использования только текущего или также прошлого основного тона. В этом смысле фиг. 3 показывает, что вариант осуществления на фиг. 2 может варьироваться в этом отношении.
"Порог" на фиг. 3 соответствует различным порогам, используемым для tempFlatness и maxEnergyChange на фиг. 2. "Порог_1" на фиг. 3 соответствует 1,2-/L на фиг. 2. "Порог_2" на фиг. 3 соответствует 0,44, или max(norm_corr(curr),norm_corr(prev))>0,5 или (norm_corr(curr)*norm_corr_prev)>0,25 на фиг. 2.
Из примеров выше становится очевидно, что обнаружение транзиента влияет на то, какой механизм принятия решения для долгосрочного предсказания будет использоваться, и какая часть сигнала будет использоваться для измерений, используемых в принятии решения, и что это непосредственно не запускает отключение долгосрочного предсказания.
Временные показатели, используемые для принятия решения о длине преобразования, могут полностью отличаться от временных показателей, используемых для принятия решения о LTP, или они могут пересекаться, или быть точно теми же, но вычисленными в различных областях.
Для низкотональных сигналов обнаружение транзиентов полностью игнорируется, если достигается порог для нормализованной корреляции, которая зависит от запаздывания основного тона.
5. Оценка усиления и дискретизация
Усиление, как правило, оценивается для входного аудиосигнала при основной частоте дискретизации кодера, но это также может быть любой аудиосигнал, такой как аудиосигнал с весовыми коэффициентами LPC. Этот сигнал обозначается как y[n] и может быть тем же самым или отличающимся от x[n].
Сначала находится предсказание yP[n] для y[n] путем фильтрации y[n] с помощью следующего фильтра
где является целой частью запаздывания основного тона (оцененной in0), и является низкочастотным фильтром FIR, коэффициенты которого зависят от дробной части запаздывания основного тона (оцененной in0).
Один пример B(z), когда разрешение запаздывания основного тона равно ¼, имеет вид:
Усиление тогда вычисляется следующим образом:
и ограничено значениями между 0 и 1.
Наконец, усиление дискретизируется, например, на 2 битах, с использованием, например, равномерной дискретизации.
Если усиление дискретизируется в 0, то никакие параметры не кодируются в битовом потоке, только 1 бит принятия решения (bit=0).
Описание, представленное выше, мотивируется и подчеркивает преимущества вариантов осуществления настоящей заявки для зависящего от гармоничности управления инструментом фильтрации гармоник, а также для описанных ниже, которые представляют собой обобщенные варианты осуществления поэтапного варианта осуществления выше. Иногда описание, представленное выше, было очень конкретным, хотя концепция зависящего от гармоничности управления также может с выгодой использоваться в рамках других аудиокодеков и может варьироваться относительно конкретных подробностей, подчеркиваемых в приведенном выше. Поэтому варианты осуществления настоящей заявки описываются снова ниже в более общем виде. Однако время от времени следующее ниже описание ссылается на подробное описание, представленное выше, чтобы использовать упомянутые выше подробности для того, чтобы раскрыть, как описанные в общем элементы, описанные ниже, могут быть реализованы в соответствии с дополнительными вариантами осуществления. При этом следует отметить, что все эти подробности конкретных реализаций могут быть индивидуально перенесены из вышеупомянутого описания на элементы, описанные ниже. Соответственно, всякий раз, когда в описании, приведенном ниже, делается ссылка на описание, приведенное выше, предполагается, что эта ссылка является независимой от дальнейших ссылок на упомянутое выше описание.
Таким образом, более общий вариант осуществления, который возникает из упомянутого выше подробного описания, изображен на фиг. 4. В частности, фиг. 4 показывает устройство для выполнения зависящего от гармоничности управления инструментом фильтрации гармоник, таким как инструмент предварительной/пост-фильтрации гармоник или инструмент постфильтрации гармоник аудиокодека. Устройство в общем обозначено с использованием ссылочной позиции 10. Устройство 10 принимает аудиосигнал 12, который должен быть обработан аудиокодеком, и выводит управляющий сигнал 14 для выполнения задачи управления устройства 10. Устройство 10 содержит блок 16 оценки основного тона, выполненный с возможностью определения текущего запаздывания 18 основного тона аудиосигнала 12, и блок 20 измерения гармоничности, выполненный с возможностью определения показателя 22 гармоничности аудиосигнала 12 с использованием текущего запаздывания 18 основного тона. В частности, показатель гармоничности может быть усилением предсказания или может быть воплощен с помощью одного (одинополосного) или нескольких (многополосного) коэффициентов фильтра или максимальной нормализованной корреляции. Блок вычисления показателя гармоничности на фиг. 1 содержал задачи и блока 16 оценки основного тона и блока 20 измерения гармоничности.
Устройство 10 дополнительно содержит анализатор 24 временной структуры, выполненный с возможностью определения по меньшей мере одного показателя 26 временной структуры методом, зависящим от запаздывания 18 основного тона, показатель 26 определяет характеристики временной структуры аудиосигнала 12. Например, зависимость может основываться на расположении временной области, в пределах который показатель 26 определяет характеристики временной структуры аудиосигнала 12, как описано выше и более подробно ниже. Однако для полноты следует кратко отметить, что зависимость определения показателя 26 от запаздывания 18 основного тона может быть также воплощена по-другому по сравнению с описанием выше и ниже. Например, вместо позиционирования временной части, то есть определения окна методом, зависящим от запаздывания основного тона, зависимость может просто изменять во времени весовые коэффициенты, при которых соответствующий промежуток времени аудиосигнала в пределах окна, расположенного независимо от запаздывания основного тона относительно текущего кадра, вносит вклад в показатель 26. Относительно приведенного ниже описания это может означать, что окно 36 определения может быть устойчиво расположено так, чтобы соответствовать последовательному соединению текущего и предыдущего кадров, и что расположенная в зависимости от основного тона часть просто функционирует как окно с увеличенным весовым коэффициентом, при котором временная структура аудиосигнала влияет на показатель 26. Однако пока что предполагается, что временное окно расположено в соответствии с запаздыванием основного тона. Анализатор 24 временной структуры соответствует блоку вычисления показателя T/F огибающей на фиг. 1.
Наконец, устройство на фиг. 4 содержит контроллер 28, выполненный с возможностью вывода сигнала 14 управления в зависимости от показателя 26 временной структуры и показателя 22 гармоничности, чтобы, таким образом, управлять предварительным/пост-фильтром гармоник или постфильтром гармоник. При сравнении фиг. 4 с фиг. 1 блок вычисления оптимального усиления фильтра соответствует или представляет собой возможную реализацию контроллера 28.
Режим работы устройства 10 является следующим. В частности, задача устройства 10 состоит в том, чтобы управлять инструментом фильтрации гармоник аудиокодека, и хотя приведенное выше более подробное описание со ссылкой на фиг. 1-3 раскрывает плавное управление или настройку этого инструмента с точки зрения, например, его силы фильтра или усиления фильтра, контроллер 28 не ограничивается этим типом плавного управления. Вообще говоря, управление контроллером 28 может плавно настраивать силу фильтра или усиление инструмента фильтрации гармоник между 0 и максимальным значением, оба включительно, как это имело место в упомянутых выше конкретных примерах со ссылкой на фиг. 1-3, но также могут реализовываться различные другие возможности, такие как плавное управление между двумя ненулевыми значениями усиления фильтра, ступенчатое управление или двоичное управление, такое как переключение между включением (ненулевое) или отключением (нулевое усиление) для включения или отключения инструмента фильтрации гармоник.
Как стало ясно из приведенного выше обсуждения, инструмент фильтрации гармоник, который изображен на фиг. 4 с помощью пунктирных линий 30, направлен на улучшение субъективного качества аудиокодека, такого как аудиокодек на основе преобразования, особенно относительно гармонических фаз аудиосигнала. В частности, такой инструмент 30 особенно полезен в случаях низких битовых скоростей, в которых привнесенный шум квантования будет, без инструмента 30, приводить в таких гармонических фазах к слышимым артефактам. Однако важно, чтобы инструмент 30 фильтрации не влиял негативно на другие временные фазы аудиосигнала, которые не являются преимущественно гармоническими. Кроме того, как отмечено выше, инструмент 30 фильтрации может являться подходом с постфильтром или подходом с предварительным фильтром плюс постфильтром. Предварительный и/или постфильтры могут работать в области преобразования или временной области. Например, постфильтр инструмента 30 может, например, иметь передаточную функцию, имеющую локальные максимумы, расположенные на спектральных расстояниях, соответствующих или установленных в зависимости от запаздывания 18 основного тона. Также возможна реализация предварительного фильтра и/или постфильтра в форме фильтра LTP, в форме, например, фильтра FIR и IIR, соответственно. Предварительный фильтр может иметь передаточную функцию, являющуюся по существу обратной функцией к передаточной функции постфильтра. В действительности, предварительный фильтр стремится скрыть шум квантования в гармонической составляющей аудиосигнала путем увеличения шума квантования в гармонике текущего основного тона аудиосигнала, а постфильтр соответственно восстанавливает форму переданного спектра. В случае подхода только с постфильтром, постфильтр действительно модифицирует переданный аудиосигнал так, чтобы отфильтровать шум квантования, возникающий между гармониками основного тона аудиосигнала.
Следует отметить, что фиг. 4, в некотором смысле, нарисована в упрощенном виде. Например, хотя фиг. 4 показывает, что блок 16 оценки основного тона, блок 20 измерения гармоничности и анализатор 24 временной структуры работают, то есть выполняют их задачи, непосредственно с аудиосигналом 12 или по меньшей мере той же самой его версией, это не обязательно должно быть так. Фактически, блок 16 оценки основного тона, анализатор 24 временной структуры и блок 20 измерения гармоничности могут работать с различными версиями аудиосигнала 12, например, различными версиями исходного аудиосигнала и некоторой предварительно измененной его версией, при этом эти версии могут варьироваться между элементами 16, 20 и 24 внутренне и также относительно аудиокодека, который также может работать с некоторой измененной версией исходного аудиосигнала. Например, анализатор 24 временной структуры может работать с аудиосигналом 12 с входной частотой его дискретизации, то есть исходной частотой дискретизации аудиосигнала 12, или он может работать с внутренне кодированной/декодированной его версией. Аудиокодек, в свою очередь, может работать с некоторой внутренней основной частотой дискретизации, которая обычно ниже, чем входная частота дискретизации. Блок 16 оценки основного тона, в свою очередь, может выполнять свою задачу оценки основного тона для предварительно измененной версии аудиосигнала, такой как, например, умноженная на психоакустические весовые коэффициенты версия аудиосигнала 12, для улучшения оценки основного тона относительно спектральных компонентов, которые являются, с точки зрения восприятия, более значительными, чем другие спектральные компоненты. Например, как описано выше, блок 16 оценки основного тона может быть выполнен с возможностью определения запаздывания 18 основного тона поэтапно, за первый и второй этап, первый этап приводит к предварительной оценке запаздывания основного тона, которая затем уточняется во втором этапе. Например, как было описано выше, блок 16 оценки основного тона может определить предварительную оценку запаздывания основного тона в субдискретизированной области, соответствующей первой частоте дискретизации, и затем уточнить предварительную оценку запаздывания основного тона при второй частоте дискретизации, которая выше, чем первая частота дискретизации.
Что касается блока 20 измерения гармоничности, из обсуждения выше со ссылкой на фиг. 1-3 становится понятно, что он может определять показатель 22 гармоничности путем вычисления нормализованной корреляции аудиосигнала или его предварительно измененной версии при запаздывании 18 основного тона. Следует отметить, что блок 20 измерения гармоничности может быть даже выполнен с возможностью вычисления нормализованной корреляции при нескольких корреляционных временных интервалах помимо запаздывания 18 основного тона, например, в интервале временной задержки, включающем в себя и окружающем запаздывание 18 основного тона. Это может быть выгодно, например, в случае использования инструментом 30 фильтрации многополосного LTP или, возможно, LTP с дробным основным тоном. В этом случае блок 20 измерения гармоничности может проанализировать или оценить корреляцию даже при индексах запаздывания, граничащих с фактическим запаздыванием 18 основного тона, таких как целочисленное запаздывание основного тона в конкретном примере, приведенном выше со ссылкой на фиг. 1-3.
Для более подробной информации и возможных реализаций блока 16 оценки основного тона делается ссылка на раздел "Оценка основного тона", представленный выше. Возможные реализации блока 20 измерения гармоничности обсуждались выше со ссылкой на уравнение для norm.corr. Однако, как также было описано выше, термин "показатель гармоничности" должен включать в себя не только нормализованную корреляцию, но также и указания при измерении гармоничности, такие как усиление предсказания фильтра гармоник, при этом этот фильтр гармоник может быть равен или может отличаться от предварительного фильтра фильтра 230 в случае использования подхода с предварительным/пост-фильтром и независимо от аудиокодека, использующего этот фильтр гармоник, или относительно того, используется ли этот фильтр гармоник просто блоком 20 измерения гармоничности, чтобы определить показатель 22.
Как было описано выше со ссылкой на фиг. 1-3, анализатор 24 временной структуры может быть выполнен с возможностью определения по меньшей мере одного показателя 26 временной структуры в пределах временной области, размещенной во времени в зависимости от запаздывания 18 основного тона. Для дополнительной иллюстрации этого см. фиг. 5. Фиг. 5 изображает спектрограмму 32 аудиосигнала, то есть его спектральное разложение до некоторой самой высокой частоты fH, в зависимости от, например, частоты дискретизации версии аудиосигнала, внутренне используемого анализатором 24 временным структуры, дискретизированного во времени при некоторой блочной скорости преобразования, которая может совпадать или не совпадать с блочной скоростью преобразования аудиокодека, если таковая имеется. С целью иллюстрации фиг. 5 изображает спектрограмму 32, подразделенную во времени на кадры, в единицах которых контроллер может, например, выполнять его управление инструментом 30 фильтрации, это подразделение на кадры может, например, также совпадать с подразделением кадра, используемым аудиокодеком, содержащим или использующим инструмент 30 фильтрации.
Пока что иллюстративно предполагается, что текущий кадр, для которого выполняется задача управления контроллера 28, является кадром 34a. Как было описан выше и как изображено на фиг. 5, временная область 36, в пределах которой анализатор временной структуры определяет по меньшей мере один показатель 26 временной структуры, не обязательно совпадает с текущими кадрами 34a. Скорее и направленный во времени в прошлое конец 38, а также и направленный во времени в будущее конец 40 временной области 36 могут отклоняться от направленного во времени в прошлое и направленного во времени в будущее концов 42 и 44 текущего кадра 34a. Как было описано выше, анализатор 24 временной структуры может расположить направленный во времени в прошлое конец 38 временной области 36 в зависимости от запаздывания 18 основного тона, определенного блоком 16 оценки основного тона, который определяет запаздывание 18 основного тона для каждого кадра 34, для текущего кадра 34a. Как стало понятно из обсуждения выше, анализатор 24 временной структуры может расположить направленный во времени в прошлое конец 38 временной области так, что направленный во времени в прошлое конец 38 смещен в направлении прошлого относительно направленного в прошлое конца 42 текущего кадра 34a, например, на величину 46 времени, которая монотонно увеличивается с увеличением запаздывания 18 основного тона. Другими словами, чем больше запаздывание 18 основного тона, тем больше величина 46. Как стало понятно из обсуждения выше со ссылкой на фиг. 1-3, величина может быть установлена в соответствии с уравнением 8, где Npast является показателем для смещения 46 во времени.
Направленный во времени в будущее конец 40 временной области 36, в свою очередь, может быть установлен анализатором 24 временной структуры в зависимости от временной структуры аудиосигнала в пределах потенциальной временной области 48, простирающейся от направленного во времени в прошлое конца 38 временной области 36 до направленного во времени в будущее конца 44 текущего кадра. В частности, как обсуждалось выше, анализатор 24 временной структуры может оценить показатель различия дискретных значений энергии аудиосигнала в пределах потенциальной временной области 48, чтобы выбрать местоположение направленного во времени в будущего конца 40 временной области 36. В упомянутых выше конкретных подробностях, представленных со ссылкой на фиг. 1-3, в качестве показателя различия использовался показатель для разницы между максимальным и минимальным дискретными значениями энергии в пределах потенциальной временной области 48, например, отношение амплитуд между ними. В частности, в упомянутом выше конкретном примере переменная Nnew давала местоположение направленного во времени в будущее конца 40 временной области 36 относительно направленного во времени в прошлое конца 42 текущего кадра 34a, обозначенного как 50 на фиг. 5.
Как стало понятно из приведенного выше обсуждения, размещение временной области 36, зависящее от запаздывания 18 основного тона, полезно тем, что увеличивается возможность устройства 10 правильно идентифицировать ситуации, где инструмент 30 фильтрации гармоник может использоваться с выгодой. В частности, правильное обнаружение таких ситуаций делается более надежным, то есть такие ситуации обнаруживаются с более высокой вероятностью без существенного увеличения ложноположительных обнаружений.
Как было описано выше со ссылкой на фиг. 1-3, анализатор 24 временной структуры может определить по меньшей мере один показатель временной структуры в пределах временной области 36 на основе временной дискретизации энергии аудиосигнала в пределах этой временной области 36. Это изображено на фиг. 6, где дискретные значения энергии обозначаются точками, построенными в плоскости время/энергия с произвольными осями времени и энергии. Как объяснялось выше, дискретные значения 52 энергии могли быть получены путем дискретизации энергии аудиосигнала при частоте дискретизации выше, чем частота кадров 34. При определении по меньшей мере одного показателя 26 временной структуры анализатор 24 может, как описано выше, вычислить, например, ряд значений изменения энергии между парами следующих непосредственно друг за другом дискретных значений 52 энергии в пределах временной области 36. В упомянутом выше описании с этой целью использовалось уравнение 5. Посредством этого показателя значение изменения энергии может быть получено из каждой пары следующих непосредственно друг за другом дискретных значений 52 энергии. Анализатор 24 может затем применить к набору значений изменения энергии, полученных из дискретных значений 52 энергии в пределах временной области 36, скалярную функцию для получения по меньшей мере одного структурного энергетического показателя 26. В приведенном выше конкретном примере показатель временной гладкости, например, определялся на основе суммы по слагаемым, каждое из которых зависит в точности от одного значения изменения энергии из набора значений изменения энергии. Максимальное изменение энергии, в свою очередь, определялось в соответствии с уравнением 7 с использованием оператора нахождения максимума, примененного к значениям изменения энергии.
Как уже было замечено выше, дискретные значения 52 энергии не обязательно измеряют энергию аудиосигнала 12 в его исходной, немодифицированной версии. Скорее дискретное значение 52 энергии может измерять энергию аудиосигнала в некоторой измененной области. В конкретном примере выше, например, дискретные значения энергии измеряют энергию аудиосигнала, полученного после применения к нему высокочастотной фильтрации. Соответственно, энергия аудиосигнала в спектрально более низкой области влияет на дискретные значения 52 энергии меньше, чем спектрально более высокие компоненты аудиосигнала. Однако также существуют другие возможности. В частности, следует отметить, что пример, где анализатор 24 временной структуры просто использует одно значение по меньшей мере одного показателя 26 временной структуры на каждый момент времени дискретизации в соответствии с примерами, представленными выше, является просто одним вариантом осуществления, и существуют альтернативы, в соответствии с которыми анализатор временной структуры определяет показатель временной структуры спектрально различным образом, чтобы получить одно значение по меньшей мере одного показателя временной структуры на каждый спектральный диапазон множества спектральных диапазонов. Соответственно, анализатор 24 временной структуры тогда будет обеспечивать для контроллера 28 более чем одно значение по меньшей мере одного показателя 26 временной структуры для текущего кадра 34a, как определено в пределах временной области 36, а именно один на такой спектральный диапазон, при этом область спектральных диапазонов, например, является всем спектральным интервалом спектрограммы 32.
Фиг. 7 изображает устройство 10 и его использование в аудиокодеке, поддерживающем инструмент 30 фильтрации гармоник в соответствии с подходом с предварительной/пост-фильтрацией гармоник. Фиг. 7 показывает кодер 70 на основе преобразования, а также декодер 72 на основе преобразования, при этом кодер 70 кодирует аудиосигнал 12 в поток 74 данных, а декодер 72 принимает поток 74 данных, чтобы реконструировать аудиосигнал либо в спектральной области, как изображено с помощью номера позиции 76, либо, опционально, во временной области, как изображено с помощью номера позиции 78. Должно быть ясно, что кодер и декодер 70 и 72 являются дискретными/отдельными объектами, и они показаны на фиг. 7 одновременно просто с целью иллюстрации.
Кодер 70 на основе преобразования содержит преобразователь 80, который подвергает аудиосигнал 12 преобразованию. Преобразователь 80 может использовать преобразование с перекрытием, такое как критически дискретизированное преобразование с перекрытием, примером которого является MDCT. В примере на фиг. 7 аудиокодер 70 на основе преобразования также содержит формирователь 82 спектра, который придает форму спектру аудиосигнала, выводимого преобразователем 80. Формирователь 82 спектра может придать форму спектру аудиосигнала в соответствии с передаточной функцией, являющейся по существу функцией, обратной спектральной функции восприятия. Спектральная функция восприятия может быть получена посредством линейного предсказания, и, таким образом, информация относительно спектральной функции восприятия может быть передана декодеру 72 в потоке 74 данных в форме, например, коэффициентов линейного предсказания в форме, например, квантованных линейных спектральных пар значений линейных спектральных частот. Альтернативно, может использоваться модель восприятия для определения спектральной функции восприятия в форме масштабных коэффициентов, одного масштабного коэффициента на полосу масштабного коэффициента, эти полосы масштабных коэффициентов могут, например, совпадать с полосами Барка. Кодер 70 также содержит квантизатор 84, который квантует спектр с приданной ему спектральной формой, например, с помощью функции квантования, которая одинакова для всех спектральных линий. Таким образом квантованный спектр с приданной ему спектральной формой подается в потоке 74 данных декодеру 72.
Для полноты картины следует отметить, что порядок между преобразователем 80 и формирователем 82 спектра был выбран на фиг. 7 только с целью иллюстрации. Теоретически, формирователь 82 спектра может выполнять формирование спектра фактически во временной области, то есть перед преобразователем 80. Кроме того, чтобы определить спектральную функцию восприятия, формирователь 82 спектра может иметь доступ к аудиосигналу 12 во временной области, хотя конкретно это не указано на фиг. 7. На стороне декодера на фиг. 7 изображен декодер 72, который содержит формирователь 86 спектра, выполненный с возможностью придания формы входящему квантованному спектру с приданной ему спектральной формой, полученному из потока 74 данных, с помощью функции, обратной передаточной функции формирователя 82 спектра, то есть по существу с помощью спектральной функции восприятия, за которым следует опциональный обратный преобразователь 88. Обратный преобразователь 88 выполняет обратное преобразование относительно преобразователя 80 и может, например, с этой целью выполнять основанное на блоке преобразования обратное преобразование, сопровождаемое "добавляющим перекрытие процессом", чтобы выполнить устранение искажений во временной области, тем самым реконструируя аудиосигнал во временной области.
Как изображено на фиг. 7, предварительный фильтр гармоник может входить в состав кодера 70 перед или после преобразователя 80. Например, предварительный фильтр 90 гармоник перед преобразователем 80 может подвергать аудиосигнал 12 во временной области фильтрации для эффективного ослабления спектра аудиосигнала в гармониках в дополнение к передаточной функции или формирователю 82 спектра. Альтернативно, предварительный фильтр гармоник может быть расположен после преобразователя 80, при этом такой предварительный фильтр 92 выполняет или вызывает такое же ослабление в спектральной области. Как показано на фиг. 7, соответствующие постфильтры 94 и 96 располагаются в декодере 72: в случае предварительного фильтра 92, в спектральной области постфильтр 94, расположенный перед обратным преобразователем 88, инверсно формирует спектр аудиосигнала обратным образом к передаточной функции предварительного фильтра 92, и в случае использования предварительного фильтра 90, пост-фильтр 96 выполняет фильтрацию реконструированного аудиосигнала во временной области, после обратного преобразователя 88, с передаточной функцией, которая является обратной к передаточной функции предварительного фильтра 90.
В случае фиг. 7 устройство 10 управляет инструментом фильтрации гармоник аудиокодека, реализованным с помощью пары 90 и 96 или 92 и 94, путем явной сигнализации управляющих сигналов 98 через поток 74 данных аудиокодека стороне декодирования для управления соответствующим постфильтром и, в соответствии с управлением постфильтром на стороне декодирования, управления предварительным фильтром на стороне кодера.
Для полноты картины фиг. 8 изображает использование устройства 10 с использованием аудиокодека на основе преобразования, также включающего в себя элементы 80, 82, 84, 86 и 88, однако здесь изображается случай, в котором аудиокодек поддерживает подход только с пост-фильтром гармоник. Здесь, инструмент 30 фильтрации гармоник может быть воплощен с помощью постфильтра 100, расположенного перед обратным преобразователем 88 в декодере 72, для выполнения постфильтрации гармоник в спектральной области, или путем использования постфильтра 102, расположенного после обратного преобразователя 88 для выполнения постфильтрации гармоник в декодере 72 во временной области. Режим работы постфильтров 100 и 102 является, по существу, таким же, как режим работы постфильтров 94 и 96: задача этих постфильтров состоит в том, чтобы ослабить шум квантования между гармониками. Устройство 10 управляет этими постфильтрами посредством явной сигнализации в потоке 74 данных, явная сигнализация указана на фиг. 8 с использованием ссылочной позиции 104.
Как уже было описано выше, управляющий сигнал 98 или 104 посылается, например, на регулярной основе, например, для каждого кадра 34. Что касается кадров, следует отметить, что они не обязательно имеют одинаковую длину. Длина кадров 34 также может варьироваться.
Приведенное выше описание, в частности описание со ссылкой на фиг. 2 и 3, раскрыло возможности относительно того, как контроллер 28 управляет инструментом фильтрации гармоник. Как стало понятно из этого обсуждения, может случиться так, что по меньшей мере один показатель временной структуры измеряет среднее или максимальное изменение энергии аудиосигнала в пределах временной области 36. Кроме того, контроллер 28 может включать в себя, среди его опций управления, отключение инструмента 30 фильтрации гармоник. Это изображено на фиг. 9. Фиг. 9 показывает контроллер 28, содержащий логическую схему 120, выполненную с возможностью проверки, удовлетворяется ли предварительно определенное условие по меньшей мере одним показателем временной структуры и показателем гармоничности, чтобы получить результат 122 проверки, который имеет двоичную природу и указывает, выполняется ли предварительно определенное условие. Показано, что контроллер 28 содержит переключатель 124, выполненный с возможностью переключения между включением и отключением инструмента фильтрации гармоник в зависимости от результата 122 проверки. Если результат 122 проверки указывает, что логической схемой 120 было подтверждено, что предварительно определенное условие удовлетворяется, переключатель 124 или непосредственно указывает ситуацию посредством управляющего сигнала 14, или переключатель 124 указывает ситуацию наряду со степенью усиления фильтра для инструмента 30 фильтрации гармоник. То есть, в последнем случае переключатель 124 не будет переключаться между отключением инструмента 30 фильтрации гармоник полностью и включением инструмента 30 фильтрации гармоник полностью, а будет только устанавливать инструмент 30 фильтрации гармоник в некоторое промежуточное состояние, изменяющееся по силе фильтра или усилению фильтра, соответственно. В этом случае, то есть если переключатель 124 также настраивает/управляет инструментом 30 фильтрации гармоник где-то между полным отключением и полным включением инструмента 30, переключатель 124 может полагаться по меньшей мере на показатель 26 временной структуры и показатель 22 гармоничности, чтобы определить промежуточные состояния управляющего сигнала 14, то есть чтобы настроить инструмент 30. Другими словами, переключатель 124 может определить коэффициент усиления или фактор настройки для управления инструментом 30 фильтрации гармоник также на основе показателей 26 и 22. Альтернативно, переключатель 124 использует для всех состояний управляющего сигнала 14, не указывающего состояние "выключено" инструмента 30 фильтрации гармоник, непосредственно аудиосигнал 12. Если результат 122 проверки указывает, что предварительно определенное условие не удовлетворяется, то управляющий сигнал 14 указывает отключение инструмента 30 фильтрации гармоник.
Как стало понятно из приведенного выше описания фиг. 2 и 3, предварительно определенное условие может удовлетворяться, если и по меньшей мере один показатель временной структуры меньше, чем предварительно определенный первый порог, и показатель гармоничности для текущего кадра и/или предыдущего кадра выше второго порога. Также может существовать альтернатива: предварительно определенное условие может дополнительно удовлетворяться, если показатель гармоничности для текущего кадра выше третьего порога, и показатель гармоничности для текущего кадра и/или предыдущего кадра выше четвертого порога, который уменьшается с увеличением запаздывания основного тона.
В частности, в примере на фиг. 2 и 3 было фактически три альтернативы, для которых предварительно определенное условие удовлетворяется, альтернативы, которые зависят по меньшей мере от одного показателя временной структуры:
1. Один показатель временной структуры < порога и объединенная гармоничность для текущего и предыдущего кадра>второго порога;
2. Один показатель временной структуры < третьего порога и (гармоничность для текущего или предыдущего кадра) >ч етвертого порога;
3. (Один показатель временной структуры < пятого порога или все временные показатели < порогов) и гармоничность для текущего кадра>шестого порога.
Таким образом, фиг. 2 и фиг. 3 раскрывают возможные примеры реализации для логической схемы 124.
Как было проиллюстрировано выше со ссылкой на фиг. 1-3, возможно, что устройство 10 используется не только для управления инструментом фильтрации гармоник аудиокодека. Скорее устройство 10 может формировать, наряду с обнаружением транзиентов, систему, которая может выполнять и управление инструментом фильтрации гармоник, и также обнаружение транзиентов. Фиг. 10 изображает эту возможность. Фиг. 10 показывает систему 150, состоящую из устройства 10 и детектора 152 транзиентов, и тогда как устройство 10 выводит управляющие сигналы 14, как обсуждалось выше, детектор 152 транзиентов выполнен с возможностью обнаружения транзиентов в аудиосигнале 12. Для этого, однако, детектор 152 транзиентов использует промежуточный результат, возникающий в устройстве 10: детектор 152 транзиентов использует для его обнаружения дискретные значения 52 энергии временным образом или, альтернативно, спектро-временным образом дискретизирующих энергию аудиосигнала, однако, с опциональной оценкой дискретных значений энергии в пределах временной области помимо временной области 36, например, в пределах текущего кадра 34a. На основе этих дискретных значений энергии детектор 152 транзиентов выполняет обнаружение транзиентов и сигнализирует об обнаруженных транзиентах посредством сигнала 154 обнаружения. В случае приведенного выше примера сигнал обнаружения транзиентов по существу указывает местоположения, где условие уравнения 4 выполняется, то есть где изменение энергии последовательных во времени дискретных значений энергии превышает некоторый порог.
Также как стало понятно из приведенного выше обсуждения, кодер на основе преобразования, такой как кодер, изображенный на фиг. 8, или кодер с кодированным с помощью преобразования возбуждением, может содержать или использовать систему на фиг. 10 для переключения блока преобразования и/или длины перекрытия в зависимости от сигнала 154 обнаружения транзиентов. Кроме того, дополнительно или альтернативно аудиокодер, содержащий или использующий систему на фиг. 10, может иметь тип с переключением режимов. Например, USAC и EVS используют переключение между режимами. Таким образом, такой кодер может быть выполнен с возможностью поддержки переключения между режимом с кодированным с помощью преобразования возбуждением и режимом линейного предсказания с кодовым возбуждением, и кодер может быть выполнен с возможностью выполнения переключения, зависящего от сигнала 154 обнаружения транзиентов системы на фиг. 10. Что касается режима с кодированным с помощью преобразования возбуждением, переключение блока преобразования и/или длины перекрытия может, опять же, зависеть от сигнала 154 обнаружения транзиентов.
Примеры для преимуществ упомянутых выше вариантов осуществления
Пример 1:
Размер области, в которой вычисляются временные показатели для принятия решения о LTP, зависит от основного тона (см. уравнение (8)), и эта область отличается от области, где вычисляются временные показатели для длины преобразования (обычно текущий кадр плюс опережающий просмотр).
В примере на фиг. 11 транзиент находится в области, где вычисляются временные показатели, и, таким образом, он влияет на принятие решения о LTP. Мотивация, как указано выше, состоит в том, что LTP для текущего кадра, используя прошлые сэмплы из сегмента, обозначенного как "запаздывание основного тона", будет достигать части транзиента.
В примере на фиг. 12 транзиент находится вне области, где вычисляются временные показатели, и, таким образом, не влияет на принятие решения о LTP. Это приемлемо, так как в отличие от предыдущей фигуры LTP для текущего кадра не будет достигать транзиента.
В обоих примерах (фиг. 11 и фиг. 12) решение о конфигурации длины преобразования принимается на основании только временных показателей в пределах текущего кадра, то есть области, отмеченной как "длина кадра". Это означает, что в обоих примерах транзиент не будет обнаружен в текущем кадре и, предпочтительно, будет использоваться одиночное длинное преобразование (вместо множества последовательных коротких преобразований).
Пример 2:
Здесь мы обсуждаем поведение LTP для импульсного и ступенчатого транзиентов в гармоническом сигнале, пример которого дается спектрограммой сигнала на фиг. 13.
Когда кодирование сигнала включает в себя LTP для полного сигнала (потому что принятие решения о LTP основано только на усилении основного тона), спектрограмма выходного сигнала выглядит как показано на фиг. 14.
Волновая форма сигнала, спектрограмма которого показана на фиг. 14, представлена на фиг. 15. Фиг. 15 также включает в себя тот же самый сигнал после низкочастотной (LP) фильтрации и высокочастотной (HP) фильтрации. В сигнале после LP фильтрации гармоническая структура становится более очевидной, а в сигнале после HP фильтрации более очевидно местоположение импульсообразного транзиента и его шлейфы. Уровень полного сигнала, LP сигнала и HP сигнала изменен на фигуре с целью показа.
Для коротких импульсообразных транзиентов (как первый транзиент на фиг. 13), долгосрочное предсказание дает повторения транзиента, как видно на фиг. 14 и фиг. 15. Использование долгосрочного предсказания во время ступенчатых длинных транзиентов (как второй транзиент на фиг. 13) не вносит дополнительных искажений, поскольку транзиент достаточно силен в течение более длинного периода, и, таким образом, маскирует (одновременное и постмаскирование) части сигнала, сконструированные с использованием долгосрочного предсказания. Механизм принятия решения активирует LTP для ступенчатых транзиентов (чтобы использовать преимущество предсказания) и отключает LTP для коротких импульсообразных транзиентов (чтобы предотвратить артефакты).
На фиг. 16 и фиг. 17 показаны энергии сегментов, вычисленные в детекторе транзиентов. Фиг. 16 показывает импульсообразный транзиент. Фиг. 17 показывает ступенчатый транзиент. Для импульсообразного транзиента на фиг. 16 временные признаки вычисляются для сигнала, содержащего текущий кадр (
Пример 3:
Однако в некоторых случаях использование временных показателей может быть невыгодным. Спектрограмма на фиг. 18 и волновая форма на фиг. 19 изображают отрывок приблизительно в 35 миллисекунд из начала песни "Kalifornia" группы Fatboy Slim.
Принятие решения о LTP, которое зависит от показателя временной гладкости и от максимального изменения энергии, отключает LTP для этого типа сигнала, поскольку оно детектирует огромные временные флуктуации энергии.
Этот сэмпл является примером неоднозначности между транзиентами и последовательностью импульсов, которые формируют низкотональный сигнал.
Как можно видеть на фиг. 20, где представлен 600 миллисекундный отрывок из того же самого сигнала, сигнал содержит повторяющийся очень короткий импульсообразный транзиент (спектрограмма получена с использованием FFT с короткой длиной).
Как можно видеть на том же самом 600 миллисекундном отрывке на фиг. 21, сигнал выглядит так, как будто он содержит очень гармонический сигнал с низким и изменяющимся основным тоном (спектрограмма получена с использованием FFT с большой длиной).
Для такого типа сигналов выгодно LTP, так как имеется очевидная периодически повторяющаяся структура (эквивалентная четкой гармонической структуре). Так как имеется очевидная флуктуация энергии (которую можно видеть на фиг. 18, фиг. 19 и фиг. 20), LTP будет отключено из-за превышения порога для показателя временной гладкости или для максимального изменения энергии. Однако в нашем предложении LTP активируется из-за превышения нормализованной корреляцией порога, зависящего от запаздывания основного тона (norm_corr(curr)<=1,2-/L).
Таким образом, приведенные выше варианты осуществления, помимо всего прочего, раскрывают, например, концепцию для более качественного принятия решения о фильтре гармоник для кодирования аудиосигнала. Следует вновь отметить, что возможны небольшие отклонения от упомянутой концепции. В частности, как отмечалось выше, аудиосигнал 12 может быть речью или музыкальным сигналом, и он может быть заменен на предварительно обработанную версию сигнала 12 с целью оценки основного тона, измерения гармоничности, анализа или измерения временной структуры. Кроме того, оценка основного тона не может быть ограничена измерениями запаздываний основного тона, но, как должно быть известно специалистам в области техники, может также выполняться посредством измерения основной частоты во временной или спектральной области, которое может легко быть преобразовано в эквивалентное запаздывание основного тона посредством уравнения, такого как "запаздывание основного тона=частота дискретизации/частота основного тона". Таким образом, вообще говоря, блок 16 оценки основного тона оценивает основной тон аудиосигнала, который, в свою очередь, проявляет себя в запаздывании основного тона и частоте основного тона.
Хотя некоторые аспекты были описаны в контексте устройства, очевидно, что эти аспекты также представляют собой описание соответствующего способа, где блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока, или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут исполняться (с использованием) аппаратным устройством, таким как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления некоторый один или несколько наиболее важных этапов способа могут исполняться таким устройством.
Кодированный аудиосигнал согласно изобретению может быть сохранен на носителе цифровых данных или может быть передан по передающей среде, такой как среда беспроводной передачи или среда проводной передачи, такая как Интернет.
В зависимости от некоторых требований реализации варианты осуществления изобретения могут быть реализованы в виде аппаратного обеспечения или в виде программного обеспечения. Реализация может быть выполнена с использованием носителя цифровых данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROМ или флэш-памяти, имеющей сохраненные на ней электронно считываемые управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, так что выполняется соответствующий способ. Поэтому носитель цифровых данных может быть машиночитаемым.
Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий электронно считываемые управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой, так что выполняется один из способов, описанных в настоящем описании.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный используется для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может быть сохранен, например, на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в настоящем описании, сохраненного на машиночитаемом носителе.
Другими словами, вариант осуществления способа согласно изобретению является компьютерной программой, имеющей программный код для выполнения одного из способов, описанных в настоящем описании, когда компьютерная программа выполняется на компьютере.
Дополнительный вариант осуществления способов согласно изобретению является носителем данных (или носителем цифровых данных, или машиночитаемым носителем), содержащим записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем описании. Носитель данных, носитель цифровых данных или носитель с записанными данными являются, как правило, материальными и/или долговременными.
Дополнительный вариант осуществления способа согласно изобретению является потоком данных или последовательностью сигналов, представляющих собой компьютерную программу для выполнения одного из способов, описанных в настоящем описании. Поток данных или последовательность сигналов могут быть выполнены с возможностью, например, передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью выполнения одного из способов, описанных в настоящем описании.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем описании.
Дополнительный вариант осуществления в соответствии с изобретением содержит устройство или систему, выполненную с возможностью передачи (например, электронным или оптическим образом) компьютерной программы для выполнения одного из способов, описанных в настоящем описании, приемнику. Приемник может быть, например, компьютером, мобильным устройством, запоминающим устройством и т.п. Устройство или система могут содержать, например, файловый сервер для передачи компьютерной программы приемнику.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей способов, описанных в настоящем описании. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в настоящем описании. Как правило, способы предпочтительно выполняются любым аппаратным устройством.
Описанные выше варианты осуществления являются просто иллюстрацией принципов настоящего изобретения. Следует понимать, что модификации и вариации конструкций и подробностей, описанных в настоящем описании, будут очевидны для специалистов в области техники. Поэтому предполагается, что изобретение ограничивается только объемом прилагаемой формулы изобретения, а не конкретными подробностями, представленными посредством описания и объяснения вариантов осуществления в настоящем описании.
Изобретение относится к средствам для принятия решений относительно управления инструментами фильтрации гармоник. Технический результат заключается в повышении эффективности кодирования. Определяют основной тон (18) аудиосигнала (12), который должен быть обработан аудиокодеком. Определяют показатель (22) гармоничности аудиосигнала (12) с использованием основного тона (18). Определяют в зависимости от основного тона (18) по меньшей мере один показатель (26) временной структуры, измеряющий характеристики временной структуры аудиосигнала. Осуществляют управление инструментом (30) фильтрации гармоник в зависимости от показателя (26) временной структуры и показателя (22) гармоничности. 7 н. и 20 з.п. ф-лы, 21 ил.
1. Устройство (10) для выполнения зависящего от гармоничности управления инструментом фильтрации гармоник аудиокодека, содержащее
блок (16) оценки основного тона, выполненный с возможностью определения основного тона (18) аудиосигнала (12), который должен быть обработан аудиокодеком;
блок (20) измерения гармоничности, выполненный с возможностью определения показателя (22) гармоничности аудиосигнала (12) с использованием основного тона (18);
анализатор (24) временной структуры, выполненный с возможностью определения в зависимости от основного тона (18) по меньшей мере одного показателя (26) временной структуры, измеряющего характеристики временной структуры аудиосигнала (12);
контроллер (28), выполненный с возможностью управления инструментом (30) фильтрации гармоник в зависимости от показателя (26) временной структуры и показателя (22) гармоничности.
2. Устройство по п. 1, в котором блок (20) измерения гармоничности выполнен с возможностью определения показателя (22) гармоничности путем вычисления нормализованной корреляции аудиосигнала (12) или предварительно измененной его версии при или вблизи запаздывания основного тона (18).
3. Устройство по п. 1, в котором блок (16) оценки основного тона выполнен с возможностью поэтапного определения основного тона (18), содержащего первый этап и второй этап.
4. Устройство по п. 3, в котором блок (16) оценки основного тона выполнен с возможностью на первом этапе определять предварительную оценку основного тона в субдискретизированной области с первой частотой дискретизации и на втором этапе уточнять предварительную оценку основного тона при второй частоте дискретизации, которая выше, чем первая частота дискретизации.
5. Устройство по п. 1, в котором блок (16) оценки основного тона выполнен с возможностью определения основного тона (18) с использованием автокорреляции.
6. Устройство по п. 1, в котором анализатор (24) временной структуры выполнен с возможностью определения по меньшей мере одного показателя (26) временной структуры в пределах временной области, размещенной во времени в зависимости от основного тона (18).
7. Устройство по п. 6, в котором анализатор (24) временной структуры выполнен с возможностью расположения направленного во времени в прошлое конца (38) временной области или области, имеющей более высокое влияние на определение показателя (26) временной структуры, в зависимости от основного тона (18).
8. Устройство по п. 7, в котором анализатор (24) временной структуры выполнен с возможностью расположения направленного во времени в прошлое конца (38) временной области или области, имеющей более высокое влияние на определение показателя временной структуры, так, что направленный во времени в прошлое конец (38) временной области или области, имеющей более высокое влияние на определение показателя временной структуры, смещен в направлении прошлого на величину времени, монотонно увеличивающуюся с уменьшением основного тона (18).
9. Устройство по п. 7, в котором анализатор (24) временной структуры выполнен с возможностью расположения направленного во времени в будущее конца (40) временной области (36) или области, имеющей более высокое влияние на определение показателя (26) временной структуры, в зависимости от временной структуры аудиосигнала (12) в пределах потенциальной временной области, простирающейся от направленного во времени в прошлое конца (38) временной области или области, имеющей более высокое влияние на определение показателя временной структуры, до направленного во времени в будущее конца (44) текущего кадра (34a).
10. Устройство по п. 9, в котором анализатор (24) временной структуры выполнен с возможностью использования амплитуды или отношения между максимальными и минимальными дискретными значениями энергии в пределах потенциальной временной области для расположения направленного во времени в будущее конца (40) временной области (36) или области, имеющей более высокое влияние на определение показателя (26) временной структуры.
11. Устройство по п. 1, в котором контроллер (28) содержит:
логическую схему (120), выполненную с возможностью проверки, удовлетворяет ли предварительно определенному условию по меньшей мере один показатель (26) временной структуры и показатель (22) гармоничности, для получения результата проверки; и
переключатель (124), выполненный с возможностью переключения между включением и отключением инструмента (30) фильтрации гармоник в зависимости от результата проверки.
12. Устройство по п. 11, в котором по меньшей мере один показатель (26) временной структуры измеряет среднее или максимальное изменение энергии аудиосигнала в пределах временной области, и логическая схема сконфигурирована так, что предварительно определенное условие удовлетворяется, если
по меньшей мере один показатель (26) временной структуры меньше, чем предварительно определенный первый порог, и показатель (22) гармоничности для текущего кадра и/или предыдущего кадра выше второго порога.
13. Устройство по п. 12, в котором логическая схема (120) сконфигурирована так, что предварительно определенное условие также удовлетворяется, если
показатель (22) гармоничности для текущего кадра выше третьего порога и показатель гармоничности для текущего кадра и/или предыдущего кадра выше четвертого порога, который уменьшается с увеличением запаздывания основного тона (18).
14. Устройство по п. 1, в котором контроллер (28) выполнен с возможностью управления инструментом (30) фильтрации гармоник посредством
явной сигнализации управляющего сигнала через поток данных аудиокодека стороне декодирования; или
явной сигнализации управляющего сигнала через поток данных аудиокодека стороне декодирования для управления постфильтром на стороне декодирования и, в соответствии с управлением постфильтром на стороне декодирования, управления предварительным фильтром на стороне кодера.
15. Устройство по п. 1, в котором анализатор (24) временной структуры выполнен с возможностью определения по меньшей мере одного показателя (26) временной структуры спектрально различающим образом для получения одного значения по меньшей мере одного показателя (26) временного структуры на каждый спектральный диапазон из множества спектральных диапазонов.
16. Устройство по п. 1, в котором контроллер (28) выполнен с возможностью управления инструментом (30) фильтрации гармоник в единицах кадров и анализатор (24) временной структуры выполнен с возможностью дискретизации энергии аудиосигнала (12) при частоте дискретизации выше, чем частота кадров, для получения дискретных значений энергии аудиосигнала и определения по меньшей мере одного показателя (26) временной структуры на основе дискретных значений энергии.
17. Устройство по п. 16, в котором анализатор (24) временной структуры выполнен с возможностью определения по меньшей мере одного показателя (26) временной структуры в пределах временной области, размещенной во времени в зависимости от основного тона (18), и анализатор (24) временной структуры выполнен с возможностью определения по меньшей мере одного показателя (26) временной структуры на основе дискретных значений энергии путем вычисления набора значений изменения энергии, измеряющих изменение между парами непосредственно следующих друг за другом дискретных значений энергии в пределах временной области, и применения к набору значений изменения энергии скалярной функции, в том числе оператора нахождения максимума или суммы по слагаемым, каждое из которых зависит в точности от одного значения из набора значений изменения энергии.
18. Устройство по п. 16, в котором анализатор (24) временного спектра выполнен с возможностью выполнения дискретизации энергии аудиосигнала (12) в пределах области с примененным высокочастотным фильтром.
19. Устройство по п. 1, в котором блок (16) оценки основного тона, блок (20) измерения гармоничности и анализатор (24) временной структуры выполняют свое определение на основании различных версий аудиосигнала (12), в том числе исходного аудиосигнала и некоторой предварительно измененной его версии.
20. Устройство по п. 1, в котором контроллер (28) выполнен с возможностью, при управлении инструментом (30) фильтрации гармоник, в зависимости от показателя (26) временной структуры и показателя (22) гармоничности
переключать между включением и отключением предварительный фильтр и/или постфильтр инструмента (30) фильтрации гармоник, или
постепенно настраивать силу фильтра для предварительного фильтра и/или постфильтра инструмента (30) фильтрации гармоник,
при этом инструмент (30) фильтрации гармоник относится к подходу с предварительным фильтром плюс постфильтром, и предварительный фильтр инструмента (30) фильтрации гармоник выполнен с возможностью увеличения шума квантования в пределах гармоники основного тона аудиосигнала, а постфильтр инструмента (30) фильтрации гармоник выполнен с возможностью, соответственно, восстановления формы переданного спектра, или инструмент (30) фильтрации гармоник относится к подходу только с постфильтром, и постфильтр инструмента (30) фильтрации гармоник выполнен с возможностью фильтрации шума квантования, возникающего между гармониками основного тона аудиосигнала.
21. Аудиокодер или аудиодекодер, содержащий инструмент (30) фильтрации гармоник и устройство для выполнения зависящего от гармоничности управления инструментом фильтрации гармоник в соответствии с любым из предыдущих пунктов.
22. Система управления инструментом фильтрации гармоник и обнаружения транзиентов, содержащая
устройство (10) для выполнения зависящего от гармоничности управления инструментом фильтрации гармоник по любому из пп. 16-18, и
детектор транзиентов, выполненный с возможностью обнаружения транзиентов в аудиосигнале, который должен быть обработан аудиокодеком, на основе дискретных значений энергии.
23. Кодер на основе преобразования, содержащий систему по п. 22, выполненный с возможностью переключения блока преобразования и/или длины перекрытия в зависимости от обнаруженных транзиентов.
24. Аудиокодер, содержащий систему по п. 22, выполненный с возможностью поддержки переключения между режимом с кодированным с помощью преобразования возбуждением и режимом линейного предсказания с кодовым возбуждением в зависимости от обнаруженных транзиентов.
25. Аудиокодер по п. 24, выполненный с возможностью переключения блока преобразования и/или длины перекрытия в режиме с кодированным с помощью преобразования возбуждением в зависимости от обнаруженных транзиентов.
26. Способ (10) для выполнения зависящего от гармоничности управления инструментом фильтрации гармоник аудиокодека, содержащий этапы, на которых
определяют основной тон (18) аудиосигнала (12), который должен быть обработан аудиокодеком;
определяют показатель (22) гармоничности аудиосигнала (12) с использованием основного тона (18);
определяют в зависимости от основного тона (18) по меньшей мере один показатель (26) временной структуры, измеряющий характеристики временной структуры аудиосигнала;
осуществляют управление инструментом (30) фильтрации гармоник в зависимости от показателя (26) временной структуры и показателя (22) гармоничности.
27. Компьютерно-читаемый носитель, хранящий компьютерную программу, имеющую программный код для выполнения способа по п. 26 при выполнении на компьютере.
US 8095359 B2, 10.01.2012 | |||
VILLAVICENCIO FERNANDO et al, "Improving Lpc Spectral Envelope Extraction Of Voiced Speech By True-Envelope Estimation", IEEE INTERNATIONAL CONFERENCE ON TOULOUSE, FRANCE 14-19 MAY 2006 | |||
US 7546240 B2, 09.06.2009 | |||
US 20040181403 A1, 16.09.2004 | |||
US 20050143979 A1, 30.06.2005 | |||
СИСТЕМЫ, СПОСОБЫ И УСТРОЙСТВА ДЛЯ ВЫСОКОПОЛОСНОГО ПРЕДЫСКАЖЕНИЯ ШКАЛЫ ВРЕМЕНИ | 2006 |
|
RU2376657C2 |
Авторы
Даты
2019-06-11—Публикация
2015-07-27—Подача