В мультимедийных приложениях аудиосигналы часто кодируются с использованием специализированных способов перцепционного кодирования, таких как MPEG1/2 Layer 3 ("mp3"), MPEG2/4 Advanced audio coding (AAC) и т.д. При декодировании закодированного аудиосигнала могут быть применены разнообразные способы обработки, чтобы воссоздать аудиосигнал, который был первоначально закодирован. Однако вследствие операций кодирования с потерями, таких как квантование с перцепционной адаптацией, или методик параметрического кодирования, таких как репликация спектральной полосы (Spectral Bandwidth Replication, SBR), в декодированном аудиосигнале возможно получить артефакты, которые могут создавать помехи.
В течение довольно долгого времени перцепционное аудиокодеры разрабатывались прежде всего для сохранения качества восприятия первоначальных сигналов. Если закодированный и незакодированный сигналы неразличимы по восприятию, это свойство называют "перцепционной прозрачностью".
Однако прозрачность может быть достигнута, только если доступная битовая скорость (т.е. используемый объем данных) достаточно высока. В последние годы стало ясно, что в смысле прозрачности на низких битовых скоростях удовольствие от восприятия становится более важным, чем близость к оригиналу. Таким образом, известные схемы перцепционного кодирования, такие как MP3 или AAC, могут оказаться недостаточно оптимальными в настоящее время по сравнению с современными подходами кодирования, нацеленными на удовольствие от восприятия.
Далее кратко описаны некоторые артефакты кодирования.
Артефакт "птичьего свиста"
При кодировании с преобразованием с низкой битовой скоростью квантователи для кодирования спектральных линий часто должны быть настроены на очень грубую точность, таким образом, их динамический диапазон плохо адаптирован к сигналу. В результате многие спектральные линии квантуются как 0 посредством мертвой зоны квантователя или как значение 1, соответствующее первому этапу квантователя. Со временем спектральные линии или группы линий могут переключаться между 0 и 1, тем самым внося нежелательную временную модуляцию. Этот артефакт называют "птичьим свистом", напоминающим щебет птицы. Таким образом, это сильно изменяющееся во времени наличие спектральных провалов и спектральных островков является нежелательным поведением кодека, приводящим к нежелательным перцепционным артефактам, см. [2] и [3].
Ограничение частотной полосы
Другим известным артефактом кодирования является ограничение частотной полосы. Если в условиях кодирования с низкой битовой скоростью доступный запас битов недостаточен для обеспечения необходимой точности для прозрачности, кодеки прежних версий часто вносили статическую низкочастотную фильтрацию, чтобы ограничить полосу частот аудиосигнала. Это может привести к созданию впечатления тусклого и приглушенного звука, см. [2] и [3].
Артефакт тонального всплеска
Этот артефакт появляется в связи с искусственными способами расширения частотной полосы, такими как репликация спектральной полосы (SBR), см. [4], когда отношение тона к шуму было преувеличено. В этом случае тональные компоненты воссоздаются со слишком большим количеством энергии, что приводит к металлическому звуку, см. [3].
Артефакт биения
Как и артефакт тонального всплеска, артефакт биения появляется совместно с искусственным расширением частотной полосы. Биение создает впечатление шероховатости и возникает из двух тональных компонентов с близким расстоянием по частоте, которые могут быть вызваны копированием, используемым в SBR, см. [3].
Таким образом, задачей является обнаружение, был ли аудиосигнал подвергнут обработке, которая способна вносить артефакты, и/или сокращение таких артефактов.
Примером способа обработки, который может быть источником артефактов, является репликация спектральной полосы (SBR), представляющая собой полупараметрический способ для расширения частотной полосы аудиосигнала на стороне декодера. На первом этапе части спектра переданного низкочастотного сигнала реплицируются посредством копирования спектральных коэффициентов из области более низких частот в область более высоких частот. На втором этапе корректируется огибающая спектра. Коррекция огибающей спектра выполняется таким образом, что грубая форма спектра подбирается под заданную цель, тогда как тонкая структура остается не модифицированной.
Обнаружение SBR желательно потому, что из полученной информации могут быть сделаны следующие выводы.
1. Сигналы были сжаты посредством перцепционного аудиокодирования (т.е. с потерями). Из этого следует, что применение способов улучшения, направленных на упомянутые выше типы артефактов, является уместным.
2. Качество звука сигнала потенциально может быть улучшено с помощью специализированных способов для сокращения слышимости артефактов, которые были внесены посредством SBR. Для таких способов полезно знание о начальной частоте, на которой применяется SBR.
Начальная частота, на которой применяется SBR, представляет интерес для последующих обработок, которые улучшают качество звука, смягчая артефакты, внесенные посредством SBR. Таким образом, имеется потребность в обнаружении SBR и в оценке начальной частоты SBR. В частности, желательно определить, требуется ли такое улучшение. Например, оно не подходит для сигналов высококачественного звука, поскольку применение алгоритма улучшения может ухудшить качество звука, когда аудиосигнал имеет высокое качество звука.
Способ для обнаружения SBR описан в документе US 9,117,440 B2. Описанный способ воздействует на субполосные сигналы, которые вычислены с использованием набора фильтров или частотно-временного преобразования. Затем он определяет количественное соотношение между несколькими подполосами посредством взаимной корреляции, т.е. умножая соответствующие отсчеты и накапливая эти произведения по времени.
Другим примером источника артефактов является сокращение частотной полосы (BR), которое также называется ограничением частотной полосы (BL). Когда частотная полоса сильно ограничена, ощущается ухудшение качества звука и требуется улучшение качества. Такое повышение качества может содержать расширение частотной полосы (BWE), которое должно применяться только в случае необходимости, т.е. когда естественная частотная полоса сигналов была искусственно сильно сокращена. Способ для BWE, который использует оценку частотной полосы, описан в [1]. Частотная полоса оценивается посредством обнаружения наиболее высокой частоты, присутствующей в сигнале в любой заданный момент времени. Этот способ подвержен ложноположительным ошибкам обнаружения, поскольку аудиосигнал может по своей природе иметь ограниченную частотную полосу как механизм, который сформировал сигнал, имеет сформированную энергию только на низких частотах.
В итоге, перцепционные аудиокодеры широко используются, когда пространство памяти или потоковая частотная полоса для звукового содержимого ограничены. Если примененная скорость сжатия очень высокая (и используемая скорость передачи данных после сжатия очень низкая), вносится несколько артефактов кодирования, которые ухудшают качество воспринимаемого звука.
Таким образом, задача изобретения состоит в том, чтобы обеспечить идентификацию улучшения аудиосигналов, содержащих характеристику, получаемую посредством обработки аудиоданных, подверженной внесению артефактов, и/или обеспечить концепцию для сокращения таких артефактов через применение специализированных последующих обработок к такому аудиоматериалу.
Эта задача решается посредством объекта изобретения в соответствии с независимыми пунктами формулы изобретения.
В соответствии с первым аспектом авторы изобретения обнаружили, что посредством использования сигнала локального максимума, выявленного из аудиосигналов, и посредством определения сходства между сегментами сигнала локального максимума может быть получена безопасная и эффективная идентификация характеристик, относящихся к обработке спектрального улучшения, в результате чего может быть реализована соответствующая последующая обработка для соответствующего аудиосигнала, например, для сокращения артефакта тонального всплеска и/или артефакта биения. На основе оценки сигнала может не требоваться вспомогательная информация, указывающая реализованную обработку аудиоданных, в результате чего возможна слепая операция модуля.
В соответствии с вариантом осуществления первого аспекта устройство для определения предварительно определенной характеристики, относящейся к обработке спектрального улучшения аудиосигнала, содержит модуль выявления, выполненный с возможностью получения спектра аудиосигнала и выявления информации, относящейся к тонкой структуре спектра. Устройство содержит модуль определения, выполненный с возможностью определения сходства в тонкой структуре спектра. Устройство дополнительно содержит процессор для обеспечения информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, в зависимости от оценки сходства. Для сравнения сходства между сегментами информации, относящейся к тонкой структуре, может потребоваться малое количество вычислительных затрат. Кроме того, может быть получено точное и безопасное определение сходных сегментов, указывающих, что обработка спектрального улучшения, возможно, была выполнена.
В соответствии с дополнительным вариантом осуществления первого аспекта способ для определения предварительно определенной характеристики, относящейся к обработке спектрального улучшения аудиосигнала, содержит получение спектра аудиосигнала и выявление информации, относящейся к тонкой структуре спектра. Способ содержит определение сходства в тонкой структуре, например, между сегментами информации, относящейся к тонкой структуре, и содержит обеспечение информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, в зависимости от оценки сходства.
В соответствии с дополнительным вариантом осуществления первого аспекта некратковременный запоминающий носитель имеет сохраненную на нем компьютерную программу, имеющую программный код, который при его исполнении на компьютере выполняет такой способ.
В соответствии со вторым аспектом авторы изобретения обнаружили, что посредством оценки спектра аудиосигнала относительно наклона спектра может быть получено безопасное и эффективное выявление характеристик аудиосигнала, содержащее характеристику, относящуюся к искусственной обработке ограничения частотной полосы, чтобы разрешить соответствующую последующую обработку, например, для сокращения или устранения артефакта "птичьего свиста" и/или артефакта ограничения частотной полосы. На основе оценки сигнала может не требоваться вспомогательная информация, указывающая реализованную обработку аудиоданных, в результате чего возможна слепая операция модуля.
В соответствии с вариантом осуществления второго аспекта устройство для определения предварительно определенной характеристики, относящейся к искусственной обработке ограничения частотной полосы аудиосигнала, содержит модуль оценки наклона, выполненный с возможностью оценки наклона спектра аудиосигнала для получения результата оценки наклона. Устройство дополнительно содержит процессор для обеспечения информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, зависящую от оценки результата оценки наклона. Посредством обоснования оценки, содержит ли аудиосигнал характеристику, относящуюся к искусственной обработке ограничения частотной полосы, на наклоне спектра, например, на границе со спадом спектра может быть получено точное обнаружение искусственной обработки ограничения частотной полосы с использованием малых вычислительных затрат.
В соответствии с другим вариантом осуществления второго аспекта способ для определения предварительно определенной характеристики, относящейся к искусственной обработке ограничения частотной полосы аудиосигнала, содержит оценку наклона спектра аудиосигнала для получения результата оценки наклона. Способ содержит обеспечение информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, в зависимости от оценки результата оценки наклона.
В соответствии с вариантом осуществления второго аспекта некратковременный запоминающий носитель имеет сохраненную на нем компьютерную программу, имеющую программный код, который при его исполнении на компьютере выполняет такой способ.
И первый, и второй аспекты позволяют различать между аудиосигналами или их кадрами, подвергаемыми соответствующей обработке, и аудиосигналам или их кадрам, которые не были подвергнуты, чтобы предотвратить последующую обработку не подвергнутых кадров.
В соответствии с третьим аспектом авторы изобретения обнаружили, что посредством выполнения расширения частотной полосы для разных участков, имеющих разные характеристики сигнала аудиосигнала, по-разному, улучшение разных участков и/или характеристик может быть выполнено независимо друг от друга, чтобы получить объединенный сигнал с высоким качеством, содержащий улучшенные первые участки и улучшенные вторые участки. Обработка разных характеристик сигнала по-разному может позволить адаптировать обработку на основе соответствующих характеристик.
В соответствии с вариантом осуществления третьего аспекта устройство для обработки аудиосигнала содержит модуль отделения для отделения первого участка спектра аудиосигнала от второго участка спектра аудиосигнала. Первый участок имеет первую характеристику сигнала, и второй участок имеет вторую характеристику сигнала. Устройство содержит первый расширитель частотной полосы для расширения частотной полосы первого участка с использованием первых параметров, ассоциированных с первой характеристикой сигнала, для получения первого расширенного участка. Устройство содержит второй расширитель частотной полосы для расширения частотной полосы второго участка с использованием вторых параметров, ассоциированных со второй характеристикой сигнала, для получения второго расширенного участка. Устройство дополнительно содержит блок объединения, выполненный с возможностью использования первого расширенного участка и второго расширенного участка для получения расширенного объединенного аудиосигнала. Это может позволить улучшить разные участки, имеющие разные характеристики сигнала, независимые друг от друга, чтобы получить объединенный аудиосигнал с высоким качеством.
В соответствии с другим вариантом осуществления третьего аспекта способ для обработки аудиосигнала содержит отделение первого участка спектра аудиосигнала от второго участка спектра аудиосигнала, первый участок имеет первую характеристику сигнала, и второй участок имеет вторую характеристику сигнала. Способ содержит расширение частотной полосы первого участка с использованием первых параметров, ассоциированных с первой характеристикой сигнала, для получения первого расширенного участка. Способ содержит расширение частотной полосы второго участка с использованием второго параметра, ассоциированного со второй характеристикой сигнала, для получения второго расширенного участка. Способ дополнительно содержит использование первого расширенного участка и второго расширенного участка для получения расширенного объединенного аудиосигнала.
В соответствии с другим вариантом осуществления третьего аспекта некратковременный запоминающий носитель имеет сохраненную на нем компьютерную программу, имеющую программный код, который при его исполнении на компьютере выполняет такой способ.
В соответствии с четвертым аспектом авторы изобретения обнаружили, что посредством сдвига фазы участка аудиосигнала относительно другого участка аудиосигнала может быть сокращена воспринимаемая шероховатость. В частности, участок, который мог бы быть формирован или скопирован для расширения частотной полосы, может быть сдвинут по фазе по сравнению с не расширенным спектром.
В соответствии с вариантом осуществления четвертого аспекта устройство для обработки аудиосигнала содержит фильтр устранения шероховатости для сдвига фазы по меньшей мере участка аудиосигнала для получения сдвинутого по фазе сигнала. Устройство содержит высокочастотный фильтр, выполненный с возможностью фильтрации сдвинутых по фазе сигналов, для получения первого отфильтрованного сигнала. Устройство содержит низкочастотный фильтр, выполненный с возможностью фильтрации аудиосигнала, для получения второго отфильтрованного сигнала. Устройство содержит модуль объединения, выполненный с возможностью объединения первого отфильтрованного сигнала и второго отфильтрованного сигнала, для получения улучшенного аудиосигнала. Устройство позволяет сдвигать фазу участков сдвига фазы, оставленных высокочастотным фильтром, по сравнению с участками, оставленными низкочастотным фильтром, в результате чего первый отфильтрованный сигнал может содержать сдвинутые по фазе участки по сравнению с аудиосигналом, второй отфильтрованный сигнал соответственно. Это может позволить получить низкую шероховатость в объединенном сигнале.
В соответствии с другим вариантом осуществления четвертого аспекта способ для обработки аудиосигнала содержит сдвиг фазы по меньшей мере участка аудиосигнала для получения сдвинутого по фазе сигнала. Способ содержит фильтрацию сдвинутых по фазе сигналов с использованием высокочастотного фильтра для получения первого фильтрованного сигнала. Способ дополнительно содержит фильтрацию аудиосигнала с использованием низкочастотного фильтра для получения второго отфильтрованного сигнала. Способ дополнительно содержит объединение первого фильтрованного сигнала и второго фильтрованного сигнала для получения улучшенного аудиосигнала.
В соответствии с другим вариантом осуществления четвертого аспекта некратковременный запоминающий носитель имеет сохраненную на нем компьютерную программу, имеющую программный код, который при его исполнении на компьютере выполняет такой способ.
Дополнительные варианты осуществления настоящего изобретения определены в зависимых пунктах.
Для более полного понимания настоящего раскрытия и его преимуществ теперь рассматриваются последующие описания, взятые вместе с прилагаемыми чертежами.
Фиг. 1 показывает блок-схему устройства для определения предварительно определенной характеристики, относящейся к обработке спектрального улучшения аудиосигнала, в соответствии с вариантом осуществления первого аспекта;
Фиг. 2a показывает схематический график, демонстрирующий иллюстративный спектр в соответствии с вариантом осуществления первого аспекта, который может быть выявлен из аудиосигнала, из которого может быть получен спектр на фиг. 1;
Фиг. 2b показывает иллюстративную схему сигнала локального максимума по такой же оси абсцисс частоты, как на фиг. 2a, в соответствии с вариантом осуществления первого аспекта;
Фиг. 3 показывает схематический график в соответствии с вариантом осуществления первого аспекта для определения сходства с использованием правила определения;
Фиг. 4 показывает пример подвергнутой последующей обработке функции сходства в соответствии с вариантом осуществления первого аспекта, иллюстрированной как ее отфильтрованное значение;
Фиг. 5 показывает блок-схему устройства в соответствии с вариантом осуществления первого аспекта, содержащего модуль оценки частоты;
Фиг. 6a показывает схематическое графическое представление иллюстративной матрицы локального сходства в соответствии с вариантом осуществления первого аспекта;
Фиг. 6b показывает схему линии матрицы, проиллюстрированной на фиг. 6a, в соответствии с вариантом осуществления первого аспекта;
Фиг. 7 показывает блок-схему устройства в соответствии с вариантом осуществления первого аспекта, содержащего калькулятор спектра;
Фиг. 8 показывает блок-схему последовательности этапов способа для определения предварительно определенной характеристики, относящейся к обработке спектрального улучшения аудиосигнала, в соответствии с вариантом осуществления первого аспекта;
Фиг. 9 показывает блок-схему устройства в соответствии с вариантом осуществления второго аспекта;
Фиг. 10 показывает схему, демонстрирующую иллюстративный спектр, в связи с вариантом осуществления второго аспекта;
Фиг. 11 показывает схему иллюстративного результата функции спектрального различия в соответствии с вариантом осуществления второго аспекта;
Фиг. 12a показывает блок-схему устройства в соответствии с вариантом осуществления второго аспекта, содержащего модуль оценки энергии;
Фиг. 12b показывает иллюстративный спектр, содержащий границу со спадом на частоте среза, в соответствии с вариантом осуществления второго аспекта;
Фиг. 12c показывает блок-схему устройства, выполненного с возможностью обработки аудиосигнала, который может быть принят от декодера, в соответствии с вариантом осуществления второго аспекта;
Фиг. 12d показывает блок-схему функциональности процессора для определения спектральных весовых коэффициентов в соответствии с вариантом осуществления второго аспекта;
Фиг. 12e показывает блок-схему модуля улучшения сигнала в соответствии с вариантом осуществления второго аспекта, выполненного с возможностью сокращения артефакта "птичий свист";
Фиг. 12f показывает блок-схему последовательности этапов способа для обработки аудиосигнала в соответствии с вариантом осуществления второго аспекта;
Фиг. 13a показывает блок-схему последовательности этапов способа для определения предварительно определенной характеристики, относящейся к искусственной обработке ограничения частотной полосы аудиосигнала, в соответствии с вариантом осуществления второго аспекта;
Фиг. 13b показывает блок-схему последовательности этапов дополнительного способа для определения предварительно определенной характеристики, относящейся к искусственной обработке ограничения частотной полосы аудиосигнала в соответствии с вариантом осуществления второго аспекта, способ также оценивает частоту среза;
Фиг. 14 показывает блок-схему устройства в соответствии с вариантом осуществления третьего аспекта;
Фиг. 15 показывает схему, демонстрирующую иллюстративный спектр, содержащий разные компоненты, в соответствии с вариантом осуществления третьего аспекта;
Фиг. 16 показывает блок-схему устройства в соответствии с вариантом осуществления третьего аспекта;
Фиг. 17a показывает иллюстративный спектр первого участка аудиосигнала в соответствии с вариантом осуществления третьего аспекта;
Фиг. 17b показывает схему первого участка, расширяемого двумя дублированными частями, в соответствии с вариантом осуществления третьего аспекта;
Фиг. 17c показывает иллюстративный спектр магнитуды, который может быть получен из формирователя огибающей, выполненного с возможностью придания формы по меньшей мере расширенным участкам на фиг. 17b, в соответствии с вариантом осуществления третьего аспекта;
Фиг. 18 показывает блок-схему спектрального модуля выбеливания, выполненного с возможностью выбеливания аудиосигнала, в соответствии с вариантом осуществления третьего аспекта;
Фиг. 19 показывает функциональность факультативных блоков, представляющих собой анализатор сигнала и таблицу поиска устройства на фиг. 16, в соответствии с вариантом осуществления третьего аспекта;
Фиг. 20 показывает блок-схему последовательности этапов способа в соответствии с вариантом осуществления третьего аспекта;
Фиг. 21 показывает схему устройства в соответствии с вариантом осуществления четвертого аспекта;
Фиг. 22 показывает блок-схему устройства, содержащего модуль отделения, в соответствии с вариантом осуществления четвертого аспекта; и
Фиг. 23 показывает блок-схему последовательности этапов способа для обработки аудиосигнала в соответствии с вариантом осуществления третьего аспекта.
Одинаковые или эквивалентные элементы или элементы с одинаковой или эквивалентной функциональностью в последующем описании обозначены одинаковыми или эквивалентными номерами для ссылок, даже если они встречаются на разных фигурах.
Также следует отметить, что варианты осуществления, описанные в настоящем документе, относятся к цифровой обработке сигналов. Таким образом, все сигналы ограничены частотами ниже половины частоты дискретизации вследствие дискретизации. (Искусственное) ограничение частотной полосы, обсуждаемое в настоящем документе, относится к дополнительному ограничению частотной полосы, в результате чего частотная полоса сигнала меньше, чем позволило бы цифровое представление.
Первый аспект и второй аспект относятся к идентификации характеристик сигнала в аудиосигнале, которые указывают, что соответствующий аудиосигнал был подвергнут заданной обработке. Посредством идентификации соответствующей характеристики и относящихся к ней параметров могут быть выполнены или исполнены надлежащие действия и обработка, чтобы сократить или устранить артефакты, которые могут возникнуть в ответ на обработку. Таким образом, сокращение артефактов, которые вероятно были внесены в обработанный аудиосигнал, может рассматриваться как относящееся к первому аспекту, второму аспекту соответственно.
Третий и четвертый аспекты относятся к последующей обработке аудиосигналов. Для последующей обработки аудиосигналов, чтобы улучшить качество звука, может использоваться информация, связанная с ранее выполненной обработкой аудиосигнала, например, информация, выявленная в соответствии с первым и вторым аспектом, и/или может использоваться вместе с другими аудиосигналами.
Таким образом, далее сначала будут рассмотрены первый и второй аспекты, прежде чем обратиться к третьему и четвертому аспектам. Объем первого аспекта представляет собой улучшение качества звука аудиосигналов, особенно аудиосигналов, которые были закодированы с использованием сжатия с потерями или другой обработки сигналов. Репликация спектральной полосы (Spectral Band Replication; SBR) представляет собой способ для параметрического аудиокодирования для синтеза высокочастотного контента реплицированных частей спектра аудиосигнала из более низких частот, обычно направляемое посредством вспомогательной информации, которая передается в битовом потоке. Знание о присутствии SBR и стартовой частоты, на которой применяется SBR (или синонимично частоты среза, на которой сигнал был подвергнут ограничению полосы перед SBR), используется или требуется для увеличения или улучшения качества звука аудиосигналов. Варианты осуществления в соответствии с первым аспектом обеспечивает аналитическую концепцию для извлечения этой информации из аудиосигнала после его декодирования без использования информации в битовом потоке. Описанная концепция может обнаруживать SBR и другую обработку, которые копируют части спектра в нижней подполосе и присоединяют их к более высоким частотам. Другом примером, отличающимся от SBR, для такого способа является основанное на заданной конфигурации интеллектуальное заполнение провалов (Intelligent Gap Filling; IGF).
При сравнении со способом, раскрытым в документе US 9,117,440 B2, варианты осуществления в соответствии с первым аспектом улучшают надежность анализа относительно модификации огибающей спектра посредством анализа и, вероятно, исключительного анализа тонкой структуры спектра. Кроме того, они имеют меньшую вычислительную нагрузку, поскольку соотношение вычисляется с использованием суммирования двоичных чисел вместо умножения.
Фиг. 1 показывает блок-схему устройства 10 для определения предварительно определенной характеристики, относящейся к обработке спектрального улучшения аудиосигнала 12, например, SBR и/или IGF. Устройство 10 содержит модуль 14 выявления, выполненный с возможностью получения спектра аудиосигнала 12 и выявления информации, относящейся к тонкой структуре спектра. Тонкая структура может относиться к порядку следования спектральных линий в спектре. Такая информация может быть представлена, например, с использованием сигнала локального максимума, указывающего локальные экстремумы, например, максимумы и/или минимумы в спектре. Например, сигнал локального максимума может иметь предварительно определенное значение s, например, максимальное значение или минимальное значение в местоположении локального максимума и другое значение в других местоположениях. Например, в других местоположениях сигнал локального максимума может содержать минимальное значение. В качестве альтернативы сигнал локального максимума может содержать минимальное значение в локальном максимуме и максимальное значение в иных случаях. В качестве альтернативы или в дополнение сигнал локального максимума может представлять и локальные максимумы, и локальные минимумы. Тем самым тонкая структура спектра может поддерживаться при ослаблении или исключении другой информации. Только посредством неограничивающего примера варианты осуществления, описанные в настоящем документе, могут относиться к сигналу локального максимума, выявляемому посредством модуля 14 выявления.
Для выявления сигнала локального максимума из спектра модуль 14 выявления может либо выявить, либо вычислить, либо определить спектр на основе аудиосигнала 12. В качестве альтернативы модуль 14 выявления может принять сигнал, содержащий информацию, указывающую спектр, или сам спектр. Таким образом, проиллюстрированный сигнал 12 может представлять собой сигнал во временной области или в частотной области. Спектр, выявляемый модулем 14 выявления или принятый модулем 14 выявления, может представлять собой, например, спектр магнитуды или спектр мощности. Для получения или вычисления такого спектра может использоваться оконное преобразование Фурье (STFT) или другие подходящие преобразования. Посредством использования STFT аудиосигнал 12 может быть разделен или отделен в нескольких подходящих блоках, и каждый блок может быть подвергнут STFT. Это может позволить получить множество спектров аудиосигнала, например, одного спектра для каждого блока.
Например, субполосные сигналы могут быть вычислены с использованием набора фильтров. SBR представляет собой обработку, в которой части спектра реплицируются. То же самое верно для гармонической транспортировки. В IGF некоторые части спектра, например, содержащие высокочастотный диапазон, ослабляются или устанавливаются равными 0, и впоследствии снова наполняются. Что касается SBR, огибающая спектра может быть модифицирована, тогда как тонкая структура спектра может сохраняться. Таким образом, варианты осуществления в соответствии с первым аспектом предлагают концепцию, которая является устойчивой к модификациям огибающей спектра. С этой целью модуль 14 выявления выполнен с возможностью выявлять сигнал локального максимума из спектра. Сигнал локального максимума может быть определен как вектор заданной длины, например, в соответствии с элементами разрешения по частоте в спектре, элементы которого устанавливаются равными 1 в индексах, в которых спектр имеет локальный максимум, и устанавливаются равными 0 в ином случае. Следует упомянуть, что могут быть применены другие правила. Например, дополнительно к локальным максимумам локальные минимумы могут быть установлены равными заданному значению, например, 1. В качестве альтернативы или дополнительно другое значение, например, 0 или значение, отличающееся от 1, может использоваться для указания локальных максимумов и/или минимумов. Эта обработка может быть сходна с операцией выравнивания или сглаживания, которая сохраняет тонкую структуру и удаляет всю другую информацию. Сигнал локального максимума может позволить улучшить идентификацию сходств, поскольку сравнение может быть реализовано таким образом, чтобы сосредоточиться на структуре сравниваемых сегментов.
Фиг. 2a показывает схематический график, демонстрирующий иллюстративный спектр 16, который может быть выявлен из сигнала 12 или может являться сигналом 12. Абсцисса иллюстрирует индекс k частоты, и ордината иллюстрирует значение X(k) магнитуды спектра 16.
Фиг. 2b показывает схематическую иллюстративную диаграмму сигнала Z локального максимума по той же самой абсциссе частоты k. В элементах разрешения по частоте с k1 по k7, в котором спектр 16 содержит локальные максимумы с 181 по 187, функция Z (k) локального максимума установлена равной нормализованному максимальному значению, такому как 1, и также установлена равной нормализованному минимальному значению, такому как 0, в других местоположениях. Треугольная форма на фиг. 2b может являться результатом интерполяции между разными элементами разрешения по частоте для лучшего понимания фигур. Сигнал Z локального максимума может содержать такую же длину, как спектр X(k). Модуль 14 выявления может быть выполнен с возможностью обеспечения сигнала 22, содержащего информацию, указывающую сигнал Z(k) локального максимума, выявленный из спектра 16.
Устройство 10 может содержать модуль 24 определения, выполненный с возможностью определения сходства C(τ) между сегментами сигнала локального максимума. Для обнаружения обработки спектрального улучшения сходство между первым сегментом вектора Z(k), k=k0, …, kl, и вторым сегментом вектора Z(k+τ) может быть определено или вычислено модулем 24 выявления как функция задержки или сдвига τ. Например, сходство C(τ) может быть вычислено как сумма абсолютных значений разности этих двух векторов, т.е. сегментов сигнала локальных максимумов.
Сегменты, которые будут сравниваться, могут иметь одинаковую длину. Длина зависит от частотного разрешения, при котором были вычислены спектр и сигнал локальных максимумов. Частотное разрешение зависит от количества спектральных коэффициентов, которые вычислены. Количество коэффициентов для спектра и сигнала локальных максимумов составляет по меньшей мере 16 или максимально 16384, но обычно выбирается между 256 и 4096. Точное значение может быть выбрано в зависимости от частоты дискретизации сигнала. Первый сегмент может содержать элементы вектора сигнала локальных максимумов, которые соответствуют, например, частотам в диапазоне между 2000 и 15 000 Гц.
Параметр τ может изменяться от 1 до максимального возможного значения в сигнале, например, представляющего максимальную частоту или максимальную частоту поиска, например, относящуюся к частоте среза в аудиосигнале 12. Это может быть представлено как правило определения
Фиг. 3 показывает схематический график в соответствии с примером, который может быть получен, причем определение сходства с использованием правила определения, заданного выше. Абсцисса графика показывает задержку или сдвиг τ, и ордината показывает значение функции C(τ) сходства.
Посредством определения значения C(τ) сходства для множества значений параметра τ может быть получен график, проиллюстрированный на фиг. 3. В областях с 261 по 263 могут быть получены вариации сигнала, ассоциированные со значениями τ1, τ2, τ3, соответственно, параметра τ. Эти вариации могут содержать локальный максимум и/или локальный минимум в функции C(τ) сходства. Т.е., посредством сдвига или применения задержки τ1, τ2, τ3 функция сходства может проявлять локальный максимум или минимум, и, таким образом, указывать на то, что посредством сдвига соответствующего сегмента на задержку τ1, τ2, τ3 получается сходный сигнал, и это может являться индикатором для обработки спектрального улучшения. В приведенном выше примере максимальная задержка τ составляет 20000 Гц.
Модуль определения может быть выполнен с возможностью для выбора по меньшей мере одного локального максимума и/или локального минимума из значений сходства и/или может выбирать значения, выявленные из них, для определения сходства. В частности, вариации в областях 261, 262 и 263 указывают высокое сходство между сегментами, используемыми при сдвиге, обозначенном параметром τ1, τ2, τ3, соответственно.
Снова обратимся к фиг. 1, где показано, что модуль 24 определения может быть выполнен с возможностью для предоставления информации или сигнала 28, указывающих результат сходства, например, значения τ1, τ2, и/или τ3 параметра τ или значения, выявленные из него. Устройство 10 может содержать процессор 32 для предоставления информации 34, указывающей, что аудиосигнал 12 содержит предварительно определенную характеристику, зависящую от оценки сходства, например, посредством оценки сигнала 28. В некоторых случаях полученная аналитическая функция, т.е., функция сходства может быть далее обработана, например, модулем 24 определения и/или процессором 32. Например, может быть выполнена полосовая фильтрация, чтобы ослабить компоненты смещения в функции сходства и увеличить контрастность локальных максимумов, рассматриваемых в функции C(τ) сходства. Устройство 10, например, модуль 24 определения может содержать фильтр, выполненный с возможностью фильтрации значений сходства, чтобы получить отфильтрованные значения сходства, проиллюстрированные на фиг. 4. Процессор 32 может быть выполнен с возможностью предоставлять информацию 34, чтобы она содержала информацию, указывающую по меньшей мере один из следующих параметров: признак того, что аудиосигнал был подвергнут обработке спектрального улучшения, начальная частота и/или конечная частота обработки спектрального улучшения.
Фиг. 4 показывает пример подвергнутой последующей обработке функции сходства, проиллюстрированной как ее отфильтрованное значение, а именно, H(C(τ)) на оси ординат и с осью абсцисс, показывающей параметр τ. Например, фильтр реализован как фильтр с конечной импульсной характеристикой (КИХ) (Finite Impulse Response; FIR), имеющий коэффициенты фильтра h = [-1 2 -1]. Это означает, что k-й выходной элемент отфильтрованного вектора вычисляется посредством линейной комбинации элементов с индексами k-1, k и k+1, нагруженным с помощью h(1)=-1, h(2)=2 и h(3)=-1. Это может быть представлено на основе правила определения:
y(k) = h(1) x_{k-1} + h(2) x_{k} + h(3) x_{k+1}
Наибольшие три локальных максимума при значениях параметров τ1, τ2 и τ3 вызваны обработкой спектрального улучшения, например, репликацией спектральной полосы. Например, SBR может быть обнаружена, когда в функции появляется небольшое количество локальных максимумов с большой магнитудой. Небольшое количество может соответствовать по большей мере 15, по большей мере 10 или по большей мере 5 максимумам. В соответствии с вариантом осуществления должны быть исследованы по большей мере 13 локальных максимумов, чтобы обнаружить SBR в соответствии с распространенными современными конфигурациями SBR.
Большая магнитуда может относиться к значению, составляющему по меньшей мере 3 дБ при сравнении с обычным сигналом, по меньшей мере 5 дБ или по меньшей мере 6 дБ. Снова со ссылкой на фиг. 3 локальные максимумы в областях 261, 262 и 263 могут относиться к сигналу около соответствующей области, являющемуся шумом. Такой шум может быть ослаблен последующей обработкой, чтобы улучшить определение максимума, как описано в связи с фиг. 4. Большая магнитуда локальных максимумов определена как величина больше порога. Точное значение порога может быть установлено, например, вручную, в диапазоне от 0,1 до 10, в зависимости от количества значений, которые были использованы для вычисления функции сходства. Обычно может использоваться значение 5.
Т.е. процессор 32 может быть выполнен с возможностью оценки количества локальных максимумов 26 из значений сходства или значений, выявленных из него, и оценки амплитуды локальных максимумов 26. Процессор 32 может быть выполнен с возможностью предоставления информации 34, указывающей, что аудиосигнал 12 содержит предварительно определенную характеристику, когда количество максимумов 26, которые содержат по меньшей мере пороговое значение 27 амплитуды, ниже порогового значения количества, т.е. количество локальных максимумов, превышающих порог амплитуды, 27, является достаточно низким.
Другими словами, фиг. 4 показывает функцию сходства последующей обработки. Локальные максимумы показаны как круг, глобальный максимум выделен крестом. Модуль 24 определения может быть выполнен с возможностью выбора по меньшей мере одного локального максимума из отфильтрованных значений сходства. Гармонические сигналы состоят из одной или более синусоид с основной частотой и их гармониками, т.е., парциальными тонами, частоты которых являются приблизительно целыми кратными основной частоты. Таким образом, один или несколько локальных максимумов могут оказаться в функции сходства, такой как функция автокорреляции (ACF). Чтобы делать различие между локальными максимумами, соответствующими гармоническим парциальным тонам и SBR или другой обработке спектрального улучшения, для диапазона поиска могут быть установлены подходящие значения, которые заметно больше для SBR, чем для гармонических парциальных тонов. Таким образом, процессор 32 может быть выполнен с возможностью исключения гармоник аудиосигнала из оценки сходства. Это может быть сделано посредством выбора тех частей спектра аудиосигнала, которые, как ожидается, будут иметь малое количество гармоник или даже не иметь гармоник.
Обнаружение локальных максимумов при значениях параметров τ1, τ2, и τ3 может быть достаточным индикатором наличия обработки спектрального улучшения. Однако может быть полезна дальнейшая оценка начальной частоты обработки спектрального улучшения, например, SBR. Результат функции сходства или локальный максимум могут описать сдвиг, при котором участок спектра был скопирован и присоединен. Для полноты может представлять интерес информация о начальной и конечной частотах спектра исходной подполосы или спектра целевой подполосы.
Фиг. 5 показывает блок-схему устройства 50 в соответствии с вариантом осуществления. Устройство 50 может представлять собой расширенную версию устройства 10 и может дополнительно содержать модуль 36 оценки частоты, выполненный с возможностью определения начальной частоты и/или конечной частоты обработки спектрального улучшения. Модуль 36 оценки частоты может быть выполнен с возможностью предоставления информации или сигнала 38, содержащего соответствующую информацию, указывающую начальную частоту и/или конечную частоту. Модуль 36 оценки частоты может быть выполнен с возможностью использования сигнала Z(k) локального максимума, например, посредством получения или приема сигнала 22 для определения сходства элементов между элементом первого сегмента сигнала локального максимума и соответствующим элементом второго сегмента сигнала локального максимума. Второй сегмент может быть сдвинут относительно первого сегмента на количество τ отсчетов. Это может называться анализом локального сходства (LSA). На входе может быть представление тонкой структуры спектра магнитуды, например, сигнал Z(k) локального максимума. Модуль 36 оценки частоты при исполнении LSA может работать с поэлементным сходством между k-м элементом в первом векторе Z(k) и элементом в позиции k+τ, Z(k+τ). С этой целью матрица локального сходства может быть вычислена как абсолютное значение разности двух двоичных чисел Z(k) и Z(k+τ) в соответствии с правилом определения
Значение L(k, τ) матрицы локального сходства затем может быть обработано посредством рекурсивного усреднения по времени. Это может быть выполнено в соответствии с правилом определения.
(3)
где B(k, τ) обозначает буфер, который хранит выходные данные рекурсивного усреднения из предыдущего временного шага (кадра) аудиосигнала, и 0< b < 1 является временной константой, которая управляет временным усреднением. Таким образом, модуль 36 оценки частоты может быть выполнен с возможностью подвергать сходство элементов из множества элементов для первого и второго сегментов рекурсивному усреднению по времени, чтобы получить усредненное сходство элементов, и определять начальную частоту и/или конечную частоту с использованием усредненного сходства элементов. Временное усреднение в некоторых случаях может быть применено только тогда, когда текущий кадр не представляет тишину, т.е., его энергия больше порога 27, отличающего кадр с тишиной от кадра без тишины.
Кадр может быть определен как беззвучный, если его энергия меньше порога, причем точное значение порога может быть установлено в зависимости от длины кадра и диапазона, в котором представлены значения отсчетов. В общем случае такой порог может быть выбран таким образом, что он равен энергии сигнала розового шума, который масштабирован так, что он едва слышим при его воспроизведении с помощью типичного оборудования воспроизведения звука (мобильный телефон или телевизор) с установкой уровня громкости от среднего до высокого.
Т.е. модуль оценки частоты может быть выполнен с возможностью подвергать сходство элементов из множества элементов первого и второго сегментов рекурсивному усреднению по временем, чтобы получить усредненное сходство элементов, и определять начальную частоту и/или конечную частоту с использованием усредненного сходства. Каждый отсчет спектра может иметь быть ассоциирован с кадром. Модуль оценки частоты может быть выполнен с возможностью исключать из рекурсивного усреднения по времени кадры, имеющие спектральную энергию ниже порогового уровня 27 энергии, пороговый уровень 27 энергии относится к рассмотрению, является ли кадр или спектр беззвучным. Тем самым несогласованных результатов можно избежать посредством исключения кадров, считающихся беззвучными, поскольку эти кадры также могут считаться не подвергнутыми обработке аудиоданных.
Как описано в связи с фиг. 4, результат рекурсивного усреднения L(k, τ) может быть обработан посредством полосовой фильтрации, чтобы ослабить компонент смещения и увеличить контрастность рассматриваемых локальных максимумов, например, посредством свертки каждой строки матрицы с ядром, таким как h = [-1 2-1].
Фиг. 6a показывает схематическое графическое представление иллюстративной матрицы L(k, τ) локального сходства, на котором абсцисса иллюстрирует элементы k разрешения по частоте (позиции), и ордината представляет задержку τ. Для лучшей видимости показаны абсолютные значения матрицы L. Единичными элементами для позиции k и задержки τ являются элементы разрешения по частоте. Посредством не ограничивающего примера один элемент разрешения по частоте может иметь значение 46,9 Гц, причем может быть получено любое другое меньшее или большее значение. Таким образом, фиг. 4 показывает пример подвергнутой последующей обработке матрицы L(k, τ) сходства, содержащий следующую информацию.
Глобальное сходство, как описано в связи с фиг. 4, может быть получено из L(k, τ) как абсолютное значение результата суммирования вдоль оси x (параметр k). Три горизонтальных линии 381, 382 и 383 в данном примере соответствуют локальным максимумам на фиг. 4. Линии 381, 382 и 383 могут соответствовать линиям, вдоль которых соответствующее значение функции L(k, τ), т.е. сумма значений, превышает значение определенного порога, например, 0,1, 0,2 или 0,3 из диапазона значений в пределах от 0-1. Начальная позиция и конечная позиция горизонтальных линий соответствуют начальной частоте ks1, ks2, ks3 соответственно и конечной частоте ke1, ke2, ke3 соответственно повторных частей спектра.
Фиг. 6b показывает схему линии матрицы, проиллюстрированной на фиг. 6a, с параметром τ2. На фиг. 6b график 42a показывает, например, неотфильтрованные значения, и график 42b может показывать усредненные или отфильтрованные значения. Например, график 42b сравнивается с пороговым значением 27, например, равным 0,2. Диапазон, в котором усредненное значение матрицы L(k, τ) локального сходства соответственно превышает пороговое значение 27, соответствует горизонтальной линии 382 с индексом τ2. В качестве альтернативы или в дополнение может быть оценена крутизна (ΔL(k, τ)/k) матрицы локального сходства. Граница с крутым нарастанием, возвышающимся на некоторое значение, например, по меньшей мере 0,5, по меньшей мере 1 или по меньшей мере 1,5, может быть определена как граница, идентифицирующая начальную частоту ks2. Соответственно, граница с крутым и большим спадом может идентифицировать конечную частоту ke2. В качестве альтернативы или в дополнение может быть выполнено временное усреднение входного спектра и конечного результата или результатов. Использование временного усреднения может позволить предотвратить ложноположительные обнаружения. Временное усреднение входного спектра может называться предварительной обработкой, и временное усреднение конечного результата может называться последующей обработкой. Причина предотвращения ложноположительных обнаружений состоит в том, что локальные максимумы обычно являются переменными во времени вследствие парциальных тонов. Т.е. поскольку разные музыкальные частотные интервалы воспроизводятся в мелодии, или вследствие гармонических изменений в музыке локальные максимумы могут варьироваться со временем. В отличие от этого некоторые параметры обработки спектрального улучшения, такого как SBR, могут представлять собой технический процесс, который обычно не зависим от времени, например, граничная частота, от которой спектр увеличивается, например, частота среза выполненной ранее фильтрации, или начальная и конечная частоты частотного диапазона, который реплицируется.
В соответствии с примером для оценки начальной частоты LSA-матрица L анализируется, чтобы идентифицировать начальную позицию и конечную позицию каждой горизонтальной линии. Начальная позиция ks может соответствовать началу спектра, который был реплицирован. Конечная позиция ke может соответствовать концу спектра, который был реплицирован. Наибольшая конечная позиция первоначального спектра, которая использовалась для репликации, является оценочным значением для начальной частоты, в которой применяется SBR. Это может быть, например, ke3 на фиг. 6a.
Сначала глобальное сходство может быть вычислено как
где v1 и v2 - параметры, которые определяют диапазон значение L(k, τ) и могут быть выбраны, например, для определения диапазона L(k, τ), имеющего значения в диапазоне по меньшей мере от 500 Гц и по большей мере до 15 кГц.
Затем обнаруживаются локальные максимумы mi, т.е., 26 в C(τ), которые больше порога, например, см. фиг. 4. Для каждого локального максимума анализируются соответствующие строки в L(k, τ). Например, второй локальный максимум m2 индексирует строку R2= L(k, τ2) и показан на фиг. 6b. Для этого локального максимума значение τ=133 может быть пригодным и может начинаться с k=74 в соответствии с фиг. 5.
Начальный индекс ks и конечный индекс ke могут быть вычислены посредством первого сглаживания соответствующих линий Ri, чтобы получить график 42b, например, посредством временного или скользящего усреднения нескольких смежных значений, например, по меньшей мере 3, по меньшей мере 5 или по меньшей мере 10. Затем обнаруживаются позиции, в которых сглаженная линия имеет самое крутое увеличение и уменьшение наклонов. В качестве альтернативы или дополнительно, наклон, превышающий пороговое значение, например, 0,2, может представлять собой критерий оценки соответствующей линии. Т.е. модуль 36 оценки частоты может быть выполнен с возможностью подвергать сходство элементов из множества элементов первого и второго сегментов рекурсивному усреднению по времени, чтобы получить усредненное сходство 42b элементов, и определять начальную частоту и/или конечную частоту с использованием усредненного сходства 42b элементов. В качестве альтернативы или в дополнение устройство может быть выполнено с возможностью выполнения временного усреднения спектра сигнала локального максимума или выявленного из него сигнала, причем процессор может быть выполнен с возможностью обеспечения информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, на основе усредненной по времени информации спектра, сигнала локального максимума или выявленного из него сигнала.
Снова обратимся к фиг. 6a, где показано, что имеются три заметные горизонтальные линии 381, 382 и 383 для заданных примеров с индексами τ1, τ2 и τ3. Линия с индексом τ2 может соответствовать первой части спектра, который был реплицирован как проявляющий наиболее раннее начало, т.е., наименьшие параметры ks. Горизонтальная линия начинается в индексе ks1 и может соответствовать задержке τ2. Таким образом, первая реплицированная часть спектра начинается с индекса ks2 и была скопирована в индексе ks2+τ2. Посредством не ограничивающего примера τ1 может быть равно 104, τ2 может быть равно 133, и τ3 может составлять 236. ks2 может содержать, например, значение 74. Таким образом, первая реплицированная часть спектра начинается с индекса 74 и могла быть скопирована в индексе 74+133. Этот индекс, таким образом, соответствует частоте, на которой была применена обработка спектрального улучшения (SBR).
Модуль 36 оценки частоты, описанный в связи с фиг. 5, может быть выполнен с возможностью вычисления матрицы локального сходства или другого описания локального сходства. Только посредством не ограничивающего примера вектор или другой ряд (строка) значений, имеющих предварительно определенную структуру - например, каждый ряд присоединен к предыдущему ряду - могут обеспечить ту же самую информацию. Модуль 36 оценки частоты может определить описание локального сходства (матрицу локального сходства L) и может быть выполнен с возможностью определения в нем участков, например, линий, которые указывают обработку расширения частотной полосы. Для определения участков, указывающих обработку расширения частотной полосы, модулем 36 оценки частоты могут быть оценены крутизна сигнала в описании локального сходства и/или достижение или превышение порогового значения 27.
Хотя матрица L локального сходства описана как оценочные строки, ясно, что она может содержать другую структуру, например, с заменой строк на столбцы и наоборот, и т.п. Модуль оценки частоты может таким образом быть выполнен с возможностью для определения L матрицы локального сходства как описание локального сходства и для определения начальной частоты ks и/или конца ke частота обработки спектрального улучшения, используя крутизну между значениями (например, смежными значениями в ряду или столбце) в рядах или столбцах и/или используя оценку значений в рядах или столбцах, по меньшей мере достигающих или даже превышающих пороговое значение 27.
Фиг. 7 показывает блок-схему устройства 70, которое расширяет устройство 10. Хотя разъяснение в связи с фиг. 7 дается как расширение устройства 10, оно также может использоваться для расширения устройства 50. Устройство 70 может содержать калькулятор 44 спектра, выполненный с возможностью приема аудиосигнала 12 как сигнала во временной области, и выполненный с возможностью вычисления спектра из аудиосигнала 12 и обеспечения сигнала 12', содержащего спектр. На основе этого блок 14 выявления может быть выполнен с возможностью приема спектра 12'. В качестве альтернативы блок 14 выявления может быть выполнен с возможностью выявлять спектр 12' самостоятельно.
Блок 14 определения может содержать фильтр 46, выполненный с возможностью фильтрации значений сходства для получения отфильтрованных значений сходства, как описано в связи с фиг. 3 и 4. Блок 14 определения может быть выполнен с возможностью выбора по меньшей мере одного локального максимума из отфильтрованных значений сходства для дальнейшего рассмотрения, например, как индекс строки в матрице L(k, τ) сходства. Т.е. выбор локального максимума из значений сходства или значений, полученных из них, может относиться к их дальнейшему использованию для определения начальной частоты и/или конечной частоты обработки спектрального улучшения.
Устройство 70 может содержать модуль 48 улучшения сигнала, выполненный с возможностью приема аудиосигнала 12 и приема информации о том, что была выполнена обработка спектрального улучшения, например, посредством приема информации 34. Модуль улучшения сигнала выполнен с возможностью сокращения артефактов, вызванных обработкой спектрального улучшения аудиосигнала, с использованием информации 34, т.е., в зависимости информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, и в некоторых случаях включающей в себя дополнительные подробности, например, начальную частоту и/или конечную частоты процесса репликации.
Фиг. 8 показывает блок-схему последовательности этапов способа 1000 для определения предварительно определенной характеристики, относящейся к обработке спектрального улучшения аудиосигнала. Способ 1000 содержит этап 1100, на котором получают спектр аудиосигнала и выявляют информацию, относящуюся к тонкой структуре спектра, например, сигнал локального максимума. Этап 1200 содержит определение сходства в тонкой структуре между сегментами сигнала локального максимума. Этап 1300 содержит обеспечение информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, зависящую от оценки сходства.
Далее будет рассмотрен второй аспект. В соответствии со вторым аспектом он заключается в улучшении качества звука аудиосигналов, в частности, аудиосигналов, которые были закодированы с использованием сжатия с потерями. Описанная концепция относится к частотной полосе аудиосигнала, которая ограничена в приложениях цифровой обработки сигналов. Предлагается концепция анализа сигнала, обнаруживающая наличие (искусственного) сокращения частотной полосы (BR), и предназначенная для оценки частоты среза, на которой применялось ограничение частотной полосы (BL). Полученные результаты используются для управления последующей обработкой для восстановления частотной полосы посредством расширения частотной полосы (BWE), а также для управления улучшением качества звука другими средствами, такими как фильтрация.
Для улучшения качества звука первостепенную важность представляет различение между сигналом, имеющим первоначально низкую частотную полосу (например, низкая нота, извлеченная на басовом инструменте), и сигналом, который был подвергнут ограничению частотной полосы, посредством обработки сигналов, например, вследствие кодирования с потерями или уменьшения частоты дискретизации. Такое различение невозможно посредством анализа сигнала, "чтобы найти наиболее высокую частоту, присутствующую в сигнале", т.е. посредством определения частоты, выше которой присутствует только незначительная энергия, как описано в [1]. Напротив, второй аспект предлагает оценивать дополнительную информацию, как описано далее.
Цель предложенного анализа искусственного ограничения частотной полосы (ABLA) состоит из следующих двух частей.
1) Обнаружить присутствие сокращения частотной полосы (BR) во входном сигнале, которое, вероятно, вызвано сжатием с потерями или другой обработкой сигнала, и, таким образом, рассматривается как артефакт. На входе может быть, например, двоичная переменная, обозначенная здесь как D, где D=1, если было обнаружено ограничение частотной полосы, и 0 в ином случае.
2) Оценить частоту среза ограничения частотной полосы. Оценочная величина обозначена как fc.
Фиг. 9 показывает блок-схему устройства в соответствии с вариантом осуществления второго аспекта. Устройство может использоваться для определения предварительно определенной характеристики, относящейся к искусственной обработке ограничения частотной полосы аудиосигнала. Устройство 90 содержит модуль 52 оценки наклона, выполненный с возможностью оценки наклона спектра аудиосигнала 12, например, спектра 12'. Модуль 52 оценки наклона может быть выполнен с возможностью обеспечения результата 56 оценки наклона. Результат 56 оценки наклона может содержать информацию о максимуме, минимуме или среднем значении наклона (огибающей) по меньшей мере части спектра, о границе с нарастанием и границе со спадом в спектре или их наклоне, или другую информацию, относящуюся к наклону 54.
Устройство 90 может в некоторых случаях дополнительно содержать модуль 58 оценки частоты, выполненный с возможностью оценки частоты fc среза спектра 12' аудиосигнала для получения результата 62 оценки частоты, содержащего информацию, указывающую частоту fc среза.
Устройство 90 содержит процессор 64 для обеспечения информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, относящуюся к искусственной обработке ограничения частотной полосы. Процессор выполнен с возможностью использования результата оценки наклона для обеспечения информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, т.е. процессор может обеспечить информацию, зависящую от результата оценки наклона. Например, это позволяет определить, требует ли аудиосигнал последующей обработки, например, с точки зрения информации "да/нет", или выбора из двух альтернатив. Это может позволить исключить из последующей обработки такие кадры, которые оценены как не содержащие соответствующей характеристики. Эти кадры могут быть идентифицированы как не подвергнутые искусственному ограничению частотной полосы, и, таким образом, следует избежать последующей обработки. В качестве варианта устройство может содержать блок 58 оценки частоты для определения частоты среза. Это может позволить идентифицировать дополнительную информацию, используемую или требуемую для последующей обработки, например, подвергнутых обработке кадров. Таким образом, в некоторых случаях процессор может быть выполнен с возможностью обеспечения информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, зависящую от оценки результата 56 оценки наклона и результата 62 оценки частоты. Посредством оценки результата 56 оценки наклона и результата 62 оценки частоты для спектра 12' и/или для дополнительных кадров аудиосигнала, приводящих к дополнительным спектрам 12', процессор 64 может выявить информацию о том, был ли подвергнут искусственному ограничению частотной полосы аудиосигнал, из которого выявлен спектр 12'. Например, модуль 52 оценки наклона может быть выполнен с возможностью оценки наклона для ослабления в спектре. Спектр может быть определен количественно или оценен относительно крутизны наклона, т.е. как указано посредством коэффициента сглаживания.
В качестве примера модуль 52 оценки наклона может быть выполнен с возможностью оценки ослабления в спектре 12' и для обеспечения результата 56 оценки наклона, чтобы указать меру для ослабления. Процессор 64 может быть выполнен с возможностью предоставления информации 66, указывающей, что аудиосигнал содержит предварительно определенную характеристику, если мерой для ослабления является по меньшей мере пороговое значение крутизны. В некоторых случаях устройство может содержать модуль оценки передискретизации, например, являющийся частью процессора 64 или реализованный отдельно. Модуль оценки передискретизации может быть выполнен с возможностью оценки аудиосигнала для предварительно определенной характеристики, относящейся к увеличению частоты дискретизации. Увеличение частоты дискретизации может быть реализовано посредством использования частоты дискретизации, например, общая частота дискретизации может составить 11025 Гц, 22050 Гц и/или 32000 Гц. Устройство 90 и/или 120 может быть выполнено с возможностью адаптировать частотные диапазоны модуля 52 оценки наклона и/или модуля 58 оценки частоты на основе частоты дискретизации в случае, когда обнаружена передискретизация. Посредством использования передискретизации частотный диапазон спектра может быть адаптирован или увеличен, причем низкая частота дискретизации может соответствовать низкочастотному диапазону, и высокая частота дискретизации может позволить спектру содержать высокочастотные диапазоны в соответствии с критерием Найквиста. Модуль оценки передискретизации может быть выполнен с возможностью наблюдения или оценки заданного набора ожидаемых частот дискретизации и может оценить, имеется ли на этой частоте в спектре значительное уменьшение, и не имеется ли более значительной энергии выше. В таком случае, когда в наклоне имеется крутая граница, как описано выше, и отсутствует значительная энергия выше порогового значения энергии, модуль оценки энергии может рассматривать аудиосигнал как передискретизированный с использованием соответствующей частоты передискретизации или частоты дискретизации. Модуль оценки передискретизации может быть выполнен с возможностью получения отрицательного результата оценки, когда на определенной или оценочной частоте, соответствующей частоте дискретизации, применяется правило определения
X(k) > порог
означающее, что значение спектра на частоте k больше порога, и это указывает на то, что в точке k в спектре имеется значительная энергия. Далее может быть применено правило определения
X(k) < X(k+1) - параметр смещения
и это указывает, что с увеличением частоты k+1 энергия спектра соответственно увеличивается. Это определение может быть нормализовано посредством вычитания параметра смещения, например, 0,1, 0,2, 0,3, 0,5 или 1 дБ, или другого значения, т.е. спектр должен увеличиться больше, чем параметр смещения, для выполнения правила определения. Это позволяет исключить эффекты, вызванные шумом и т.п. Таким образом, магнитуда увеличивается до более высоких частот в частотной точке k выше ограничения частотной полосы более чем 0,5 дБ. Порог может быть равен, например, -30 дБ, -40 дБ, -50 дБ или -60 дБ, как разъяснено выше. Это означает, что для отрицательного решения либо не имеется крутого ослабления, либо вне соответствующего значения частоты имеется увеличенная магнитуда.
Положительный результат оценки, указывающий, что аудиосигнал был подвергнут дискретизации, ограничивающей частотную полосу в индексе k частоты, может быть определен, например, когда функция s(k) спектрального различия или другая подходящая функция, как описано выше, выдает значение, превышающее или по меньшей мере равное пороговому значению. Таким образом, может применяться правило определения
S(k) > порог
и функция спектрального различия может указать крутое и сильное ослабление и, таким образом, может означать передискретизацию. Таким образом, когда максимум 72 на фиг. 11 расположен на ожидаемой частоте передискретизации или вблизи нее, может быть определено присутствие передискретизации.
Кроме того, ослабление может быть оценено относительно величины, т.е., половины границы со спадом в спектре. Например, модуль 52 оценки наклона может оценить наклон 54 относительно уменьшения в заданном частотном диапазоне, например, 100 Гц, 1 кГц или 2 кГц и/или для общей величины уменьшения на границе со спадом.
Процессор 64 может быть выполнен с возможностью принятия решения, были ли спектр 12' подвергнут искусственному ограничению частотной полосы, и может быть дополнительно выполнен с возможностью принятия решения, на какой частоте fc среза упомянутое ограничение было применено. Таким образом, информация 66 может содержать переменную D или сходную информацию и может дополнительно содержать информацию, указывающую частоту среза, по меньшей мере, когда процессор 64 определяет спектр 12' как примененный к искусственной обработке ограничения частотной полосы.
Фиг. 10 показывает схему, демонстрирующую иллюстративный спектр 12', имеющий наклон 54. Модуль 52 оценки наклона может быть выполнен с возможностью оценки наклона 54 относительно крутизны спектра 12' границы 68 со спадом, соответственно. Модуль 52 оценки наклона может быть выполнен с возможностью обеспечения результата 56 оценки наклона 56, содержащего информацию, указывающую меру крутизны. Мера крутизны может быть получена, например, посредством привязки уменьшения ΔX1 магнитуды X(f) и частотного диапазона Δf, например, как уменьшения ΔX1 на частотный диапазон Δf, или с точки зрения частотного диапазона Δf, используемого для получения уменьшения ΔX1.
Процессор 64 может быть выполнен с возможностью обеспечения информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, если мерой крутизны является по меньшей мере пороговое значение крутизны. Мера крутизны может увеличиваться для возрастающих значений выражения ΔX1/Δf и/или может увеличиваться для уменьшающихся значений выражения Δf/ΔX1. Например, пороговое значение крутизны может содержать значение, равное или пропорциональное по меньшей мере 25 дБ/1 кГц, 30 дБ/1 кГц, 40 дБ/1 кГц или 50 дБ/1 кГц или выше.
Модуль 52 оценки наклона может быть выполнен с возможностью определения функции спектрального различия спектра 12', например, с использованием оконной функции, которая выбирает для оценки только часть спектра 12'. Оконная функция может объединить множество значений частоты спектра 12', наклон 54, соответственно, и может позволить модулю 52 оценки наклона определить меру ослабления с использованием результатов оконной функции. Это также можно назвать оконной фильтрацией. Посредством объединения, например, вычитания значений разных окон может быть получена мера крутизны. В качестве альтернативы может использоваться любой другой подходящий процесс для оценки крутизны наклона 54. В качестве альтернативы или в дополнение модуль оценки частоты может быть выполнен с возможностью оценки ослабления между первым энергетическим уровнем первой частотной полосы спектра 12' и вторым энергетическим уровнем второй энергетической частотной полосы спектра.
Первая и вторая энергетические частотные полосы могут представлять собой, например, так называемые низкочастотную полосу и так называемую высокочастотную полосу. Высокочастотная полоса может представлять собой частотную полосу, которая, как ожидают, будет беззвучной после низкочастотной фильтрации, например, частоты выше 3 кГц. Низкочастотная область может относиться к частотной области, имеющей частоты ниже такого частотного диапазона. Таким образом, первая энергетическая частотная полоса может содержать первый частотный диапазон f1, являющийся низким по сравнению со вторым частотным диапазоном f2 второй частотной полосы. Модуль 52 оценки наклона может быть выполнен с возможностью обеспечения результата 56 оценки наклона, чтобы указать меру ослабления ΔX2. Процессор 64 может быть выполнен с возможностью обеспечения информации 66 о том, является ли мера ослабления по меньшей мере пороговым значением ослабления. Пороговое значение ослабления может быть равно, например, по меньшей мере 30 дБ, по меньшей мере 40 дБ, по меньшей мере 50 дБ или по меньшей мере 60 дБ, или еще выше.
Другими словами, ослабление можно рассматривать как высокое, когда в высокочастотной полосе после фильтрации остается лишь незначительная энергия. Например, магнитуда в области f2 верхних частот составляет менее -60 дБ (пороговое значение ослабления) по сравнению со средней магнитудой в частотной полосе пропускания, т.е., частотной области f1. Комбинация оценки крутизны спектра и оценки величины ослабления может позволить определить, что текущий кадр спектра 12' был подвергнут искусственному ограничению частотной полосы. Таким образом, если по меньшей мере одна или предпочтительно обе оценки дают указание на такую обработку, переменная D может быть установлена равной 1. Если по меньшей мере один или предпочтительно оба критерия оценки определены отрицательно, переменная D может быть установлена равной 0, т.е., можно определить, что искусственное ограничение частотной полосы не было применено.
Другими словами, крутизна ослабления может быть определена количественно посредством сравнения спектральных магнитуд в нижней подполосе f1 и спектральных магнитуд в верхней подполосе f2 вокруг индекса k частоты и его повторения для всех индексов частот в рассматриваемом диапазоне. Примером является функция S(k) спектрального различия, которая может быть сформирована следующим образом:
S(k) = max X1 - max X2
Функция S(k) спектрального различия может количественно определить ослабление как разность максимальной магнитуды нижней подполосы и максимальной магнитуды верхней подполосы. Параметр k может относиться к индексу частоты. X(k) может обозначить спектр магнитуды. Операция max может возвращать максимальное значение вектора, причем X1=(xk-a, …, xk-b) может обозначать сегмент спектра ниже индекса частоты k, и x2=(xk+b, …, xk+a) может обозначать сегмент спектра выше индекса частоты k, причем a>b. Длина вектора, т.е., количество отсчетов, которые будут использоваться в векторах X1 и/или X2, может составлять, например, 3, 5, 8, 10 или еще больше. В одном неограничивающем варианте осуществления первый сегмент длиной 7 и второй сегмент длиной 7 используются вместе с промежутком из 5 значений между обоими сегментами. В соответствии с этим максимум из элементов 1, 2, 3, 4, 5, 6, 7 определяется и сравнивается с максимумом из элементов 13, 14, 15, 16, 17, 18, 19.
В качестве альтернативы могут использоваться другие функции, например, S2(k)=min X1 - max X2 или разность, определенная из средних значений X1 и X2.
Модуль 58 оценки частоты может быть выполнен с возможностью определения меры энергии в частотной полосе аудиосигнала и для определения частоты fc среза на основе энергии. Например, модуль оценки частоты может оценивать энергию в частотных полосах с уменьшающимися значениями частоты, т.е., в уменьшающихся частотных диапазонах. Со ссылкой на фиг. 10 для самой верхней проиллюстрированной частоты модуль оценки частоты может определить, например, малую величину энергии в частотном диапазоне f2. При оценке сравнительно малых частотных диапазонов из нескольких элементов разрешения по частоте, или даже содержащих лишь один элемент разрешения по частоте, модуль 58 оценки частоты может определить наклон 54 с уменьшающейся частотой f и увеличением энергии, как указано. На частоте fc среза модуль 58 оценки частоты может определить сильное увеличение энергии, например, по меньшей мере на 30 дБ, 40 дБ, 50 дБ или даже 60 дБ по сравнению с низким энергетическим уровнем в частотном диапазоне f2. На основе этого, т.е., на основе увеличения энергии в частотном диапазоне модуль 58 оценки частоты может определить частоту fc среза. Это также может упоминаться как определение частоты fc среза как частоты, на которой увеличивается энергия подполосы.
Фиг. 11 показывает схему иллюстративного результата функции S(k) спектрального различия. Ордината показывает результат функции S(k) спектрального различия, и абсцисса показывает такую же ось частот, как на фиг. 10. Функция спектрального различия может позволить получить меру крутизны наклона 54. Локальный или даже глобальный максимум 72 функции S(k) спектрального различия может указать частоту, на которой наклон 54 содержит самое резкое изменение, т.е., где ослабление является очень резким. Таким образом, в качестве альтернативы или в дополнение эта мера может использоваться модулем оценки частоты в качестве меры для частоты fc среза.
Уменьшение наклона 54 и, таким образом, ослабление могут быть расположены вдоль большого количества отсчетов, в результате чего различие с использованием максимального значения соответствующего вектора может обеспечить достаточную точность. В качестве альтернативы функция спектрального различия может быть определена для отдельных значений частоты, т.е. векторы X1 и X2 могут иметь длину 1.
Для улучшения качества звука первостепенную важность представляет различение между сигналом, имеющим первоначально низкую частотную полосу (например, низкая нота, извлеченная на басовом инструменте), и сигналом, который был подвергнут ограничению частотной полосы, посредством обработки сигналов, например, вследствие кодирования с потерями или уменьшения частоты дискретизации. Это важно для предотвращения какой-либо последующей обработки сигнала, имеющего высокое качество звука, и применения обработки улучшения только при необходимости, т.е. применения последующего расширения частотной полосы (BWE) только для восстановления высокочастотной энергии, которая была искусственно удалена из сигнала, без обработки сигналов, имеющих низкую частотную полосу по своей природе. Для такой цели сигнал может быть проанализирован относительно трех характеристик, заданных крутизной ослабления, величиной ослабления и частотой среза. Это может быть выполнено посредством следующих этапов обработки, исполняемых, например, устройством в соответствии со вторым аспектом.
Фиг. 12a показывает блок-схему устройства 120 в соответствии с вариантом осуществления второго аспекта. По сравнению с устройством 90 устройство 120 выполнено с возможностью определения предварительно определенной характеристики для множества спектров с 121' по 123', которые могут быть выявлены из нескольких блоков аудиосигнала. Т.е. аудиосигнал может быть разделен на блоки, и из каждого блока может быть выявлен спектр 12'. Модуль 52 оценки наклона выполнен с возможностью оценки наклона 54 каждого из спектров с 121' по 123'. В соответствии с этим модуль 58 оценки частоты выполнен с возможностью оценки каждого из спектров с 121' по 123'.
Процессор 64 может быть выполнен с возможностью обеспечения информации 66, указывающей, что аудиосигнал содержит предварительно определенную характеристику для каждого из спектров с 121' по 123'. Несколько блоков, на которые разделен аудиосигнал, могут быть произвольными. Например, продолжительность каждого блока по времени может быть постоянной, и, таким образом, количество блоков может зависеть от продолжительности аудиосигнала.
Устройство 120 может содержать фильтр 74, соединенный с модулем 58 оценки частоты, и выполненный с возможностью приема результата 62 оценки частоты. Фильтр 74 может быть выполнен с возможностью обеспечения отфильтрованного результата 62' оценки частоты. Процессор может быть выполнен с возможностью обеспечения информации 66, указывающей, что аудиосигнал содержит предварительно определенную характеристику, на основе множества результатов 56 оценки наклона для каждого из спектров с 121' по 123' и/или их отфильтрованной версии и отфильтрованного результата 62' оценки частоты, ассоциированного с множеством спектров с 121' по 123' аудиосигнала. Частота среза, используемая для кодирования аудиосигнала, может быть существенно не зависимой от времени, не зависимой от времени, или может являться параметром, который редко или нечасто изменяется со временем, в результате чего низкочастотная фильтрация, фильтрация со скользящим максимумом, скользящим средним или скользящей медианой, реализованная фильтром 74, может позволить получить отфильтрованные значения 62', остающиеся неизменными, или постоянными, или по меньшей мере изменяющимися с низкой скоростью, для дальнейшей обработки, например, когда модуль 58 оценки частоты определяет немного отличающиеся частоты fc среза между разными спектрами с 121' по 123'. Т.е., последующая обработка полученных значений fc может быть выполнена посредством низкочастотной фильтрации или в качестве альтернативы посредством другой фильтрации.
Аналогичным образом, искусственное ограничение частотной полосы обычно выполняется для полного аудиосигнала или по меньшей мере его значительной части, в результате чего маловероятно, что изменение характеристики, относящейся к искусственной обработке ограничения частотной полосы, присутствует в одном кадре и не присутствует или отсутствует в последующем кадре. Таким образом, процессор 64 может выполнить последующую обработку переменной D или соответствующего результата или значения, например, с использованием медианной фильтрации и т.п. для множества кадров, т.е., для множества спектров с 121' по 123'. Процессор может быть выполнен с возможностью обеспечения информации 66, указывающей, что аудиосигнал содержит предварительно определенную характеристику, посредством обеспечения соответствующей информации для каждого из множества кадров аудиосигнала и обеспечения объединенного или отфильтрованного результата 66', объединяющего результаты кадров таким образом, что объединенный результат 66' пригоден для множества кадров, подвергаемых фильтрации и влияющих на выходные данные фильтра. Например, с использованием медианной фильтрации несколько кадров и/или спектров с 121' по 123' учитываются в соответствующем фильтре, например, в фильтре 76, соединенным с процессором 64, или являющимся частью процессора 64, или реализованным посредством процессора 64. Выходные данные 66' фильтра 76 могут представлять собой объединенное подвергнутое медианной фильтрации значение, полученное из рассматриваемых кадров. Хотя фильтр 76 проиллюстрирован как отдельный блок, он может быть реализован как часть другого вычислительного блока.
В качестве альтернативы или в дополнение устройство 120 может содержать модуль 78 определения, выполненный с возможностью определения энергии E частотной полосы спектров с 121' по 123' и обеспечения сигнала 82, указывающего присутствие и/или величину энергии E в соответствующей частотной полосе. Сигнал 82 или сигнал, полученный из него, могут быть обеспечены процессору 64, в результате чего процессор 64 может знать об определенной энергии. Может представлять интерес, присутствует ли энергия в так называемой высокочастотной области fh. Например, высокочастотная область fh может представлять собой частотную область, имеющую частотные значения, составляющие по меньшей мере или выше 1 кГц, 2 кГц, 3 кГц, 4 кГц или другое значение, т.е. разные ограничивающие частоты частотных полос. Например, кодеры могут отбросить частоты, которые выше некоторого частотного значения. Частотное значение может соответствовать заданному приложению, например, составлять 3 кГц или 4 кГц для приложений, связанных с речью.
Модуль 78 определения может определить, содержат ли спектры с 121' по 123' энергию, которая равна или больше определенного порога, в высокочастотной области fh. В случае, когда модуль 78 определения определяет, что соответствующий спектр с 121' по 123' не содержит энергии E или содержит малую величину энергии в высокочастотной области fh, надежное определение частоты среза и/или ослабления может быть затруднительным или даже невозможным, например, поскольку соответствующий кадр не обеспечивает подходящий наклон. Только посредством не ограничивающего примера, принимая во внимание беззвучный спектр, не имеющий энергию в полном спектре, не могут быть определены ни частота среза, ни ослабление наклона 54. Такая информация может быть предоставлена сигналом 82. Процессор может пропустить оценку фактического кадра или спектра с 121' по 123' и может быть выполнен с возможностью обеспечения информации 66 на основе предыдущего спектра, наблюдавшегося или оцененного ранее, если энергия E ниже порогового уровня энергии, который осуществляет различие между наличием и отсутствием релевантной энергии. Помещенный в другие условия процессор может базировать свое решение на предыдущем кадре в случае, когда текущий спектр не способен обеспечить достаточную информацию.
- На факультативном этапе может быть выполнено разбиение аудиосигнала/входного сигнала на короткие блоки, т.е., может быть получено несколько блоков. Длина блока может составлять, например, по меньшей мере 0,5 мс, по меньшей мере 1 мс или по меньшей мере 5 мс, и по большей мере 1 с, 500 мс или 100 мс. Один иллюстративный интервал содержит значения по меньшей мере 2 мс и по большей мере 80 мс.
- В некоторых случаях вычисление спектра магнитуды для каждого блока, например, посредством преобразования или набора фильтров. Таким образом, устройство 19 может содержать, например, модуль выявления частоты для получения спектра, такого как спектр магнитуды, чтобы обеспечить спектр 12'. Для каждого блока может быть получен спектр, соответствующий или сходный со спектром, проиллюстрированным на фиг. 10.
- В некоторых случаях может быть выполнена низкочастотная фильтрация спектральных коэффициентов относительно времени и частоты. Например, может быть выполнено скользящее усреднение или рекурсивное усреднение, например, модулем 51 оценки наклона, и/или модулем 58 оценки частоты, и/или процессором, реализующим и модуль 52 оценки наклона, и модуль 58 оценки частоты. Это может позволить сократить вычислительную нагрузку, поскольку ослабление и крутизна ослабления, а также частота среза расположены в заданном частотном диапазоне, расширенном вне одиночных частотных значений, в результате чего оценка частотных диапазонов может позволить достаточную точность.
- В некоторых случаях, когда входной сигнал является беззвучным или не содержит энергию в высокочастотной области, получение надежной оценки может быть затруднительным или невозможным. Таким образом, может использоваться результат обнаружения предыдущего кадра, если максимальная энергия подполосы выше 3 кГц находится ниже порога, поскольку этот кадр не содержит требуемую информацию.
- В некоторых случаях, например, с использованием модуля 78 определения определяется, было применено к сигналу повышение частоты дискретизации. Закодированный сигнал на низкой битовой скорости обычно кодируется с низкой частотой дискретизации, которая может быть ниже, чем частота дискретизации, на которой работает текущая платформа обработки. Когда после декодирования было обнаружено повышение частоты дискретизации или передискретизация, диапазон поиска искусственного анализа ограничения частотной полосы (ABLA) в соответствии со вторым аспектом может быть модифицирован таким образом, что наиболее высокая частота, которая должна быть обнаружена, равна частоте дискретизации кодера. Обнаружение передискретизации может выполняться для набора широко распространенных частот дискретизации, таких как 11025 Гц, 22050 Гц, 32000 Гц и/или 44100 Гц. Когда максимальная магнитуда спектральных коэффициентов в диапазоне выше половины частоты дискретизации находится ниже порога, может быть обнаружена передискретизация. Это основано на критерии Найквиста, позволяющему получить частоты с половиной частотного значения по сравнению с частотой дискретизации. Таким образом, когда энергия ниже порога в верхней половине, это может быть вызвано используемой частотой дискретизации. Тогда дальнейшая обработка ABLA модифицируется таким образом, что модифицируется диапазон поиска, в результате чего наиболее высокая частота, которая должна быть обнаружена, равна обнаруженной частоте дискретизации кодера, и, таким образом, это позволяет осуществлять поиск только в участке соответствующего спектра. Другим участком, например, верхней половиной, можно пренебречь как вызванным повышением частоты дискретизации. Ослабление вследствие передискретизации может быть больше, чем ослабление кодирования. Обнаружение передискретизации может гарантировать, что передискретизация не обнаружена ошибочно, как ограничение частотной полосы на нижней частоте fc среза.
- Вычисление функции обнаружения, например, функции спектрального различия, которая количественно определяет крутизну ослабления по частоте. Может использоваться функция спектрального различия или альтернативная версия по сравнении с фиг. 11. Функция обнаружения может обеспечить информацию разности уровня между смежными частотными полосами.
- Обнаружение искусственного ограничения частотной полосы (ABL) с использованием набора правил, которые оценивают функцию спектрального различия, и энергии подполосы и порогового параметра. Начиная с индекса частоты k верхнего конца диапазона поиска, магнитуда X спектральных коэффициентов и функция спектрального различия S(k) или сходная функция или количество могут быть проверены относительно набора условий, пока условие не станет применимым, или пока не будет достигнут нижний конец диапазона. Все пороги являются параметрами, которые могут регулироваться для изменения компромисса между ложноположительными и ложноотрицательными обнаружениями. Следующие условия
1) x(k) > порог; и
2) X(k) < X(k+1) - (параметр смещения) И x(k) больше порога,
т.е., увеличение магнитуды по направлению к более высоким частотам выше ограничения частотной полосы (BL) превышает параметр смещения, например, 0,5 дБ, когда магнитуды больше порога, например, -60 дБ,
могут привести к отрицательному обнаружению. Следующие условия
1) S(k) > порог; и
2) была обнаружена передискретизация
могут привести к положительному обнаружению.
- Определение частоты fc среза как частоты, на которой энергия подполосы увеличивается, например, с использованием модуля 58 оценки частоты.
⋅ В некоторых случаях последующая обработка fc посредством низкочастотной фильтрации, например, с использованием фильтра 74.
⋅ В некоторых случаях последующая обработка D посредством медианной фильтрации, например, с использованием фильтра 76.
Устройство 90 и/или устройство 120 могут дополнительно содержать модуль улучшения сигнала, например, модуль 38 улучшения сигнала, описываемый в связи с первым аспектом. Модуль 48 улучшения сигнала может быть выполнен с возможностью сокращения артефактов, вызванных искусственной обработкой ограничения частотной полосы аудиосигнала, в зависимости от информации 66, указывающей, что аудиосигнал содержит предварительно определенную характеристику. Т.е., модуль улучшения сигнала может быть адаптирован к артефактам, вызываемым искусственным ограничением частотной полосы.
Далее будет рассмотрено устройству, выполненное с возможностью подавления или по меньшей мере сокращения артефакта кодирования "птичий свист" и улучшения воспринимаемого качества звука в соответствии со вторым аспектом. Соответствующее устройство или способ могут использоваться в случае, когда была выявлена информация, что аудиосигнал содержит характеристику, относящуюся к искусственному ограничению частотной полосы и/или к обработке спектрального улучшения, например, к репликации спектральной полосы. Например, устройство может использоваться в случае, когда было обнаружено по меньшей мере либо искусственное ограничение частотной полосы, либо репликация спектральной полосы.
Таким образом, когда обнаружено по меньшей мере либо искусственное ограничение частотной полосы, либо обработка спектрального улучшения, концепция, в соответствии с которой обнаружено искусственное ограничение частотной полосы, может быть снова использована или может быть использована для обнаружения областей с большой крутизной и высоким ослаблением в спектре, которые могут упоминаться как спектральные провалы. Спектральный провал может содержать первую и вторую границы. Соответственно, спектральный островок также может содержать первую и вторую границы, причем между соответствующими границами может быть расположен промежуток или островок.
Теперь обратимся к фиг. 12b, где показан иллюстративный спектр, содержащий границу 68 со спадом на частоте fc среза. Кроме того, в частотных диапазонах ниже этой частоты среза fc расположены иллюстративный спектральный провал 202 и иллюстративный спектральный островок 204. Начинаясь с низких частот, сначала располагается граница 2061 со спадом и затем располагается граница 2062 с нарастанием, причем в частотных диапазонах между ними может быть расположен провал 202. Соответственно, спектральный островок 204 может быть расположен между границами 2063 и 2064. Границы могут быть локализованы, количественно определены и квалифицированы с использованием раскрытых в настоящем документе идей для нахождения границы 68, в частности, может быть выполнена оценка частоты/энергии.
В отличие от частоты fc среза, местоположение, наличие и магнитуда провала 202 и островка 204, а также их количество могут изменяться между кадрами аудиосигнала. Упрощенно, заполнение промежутка 202 и/или ослабление островка 204 может быть выполнено после использования концепции нахождения границ с 2061 по 2064, как было описано в связи с частотой fc среза, за исключением того, что соответствующие частоты являются переменными. Т.е. устройство или модуль улучшения сигнала могут быть выполнены с возможностью заполнения спектрального провала и/или ослабления спектрального островка. Таким образом, могут использоваться спектральные весовые коэффициенты, которые могут быть определены на основе самого аудиосигнала, т.е., вспомогательная информация может остаться необязательной. Посредством подавления артефакта кодирования "птичий свист", воспринимаемое качество звука может быть улучшено. Введенная концепция может использоваться в качестве концепции последующей обработки, которая расположена после декодера. Она может работать вслепую, не имея доступа к несжатому аудиосигналу и к другой вспомогательной информации.
Концепция, которая описана далее, чтобы сократить артефакт "птичий свист", может использовать базовый принцип, называемый спектральным взвешиванием или краткосрочным спектральным ослаблением. Таким образом, сигнал X[n] во временной области может быть преобразован в его представление в частотной области X[k, m], где k и m обозначают частоту и индекс периода времени, соответственно. В описанных вариантах осуществления может быть применено оконное преобразование Фурье (STFT), но также могут использоваться и другие преобразования. Выходной сигнал Y спектрального взвешивания может быть задан в следующем уравнении:
Y[k, m] = G[k, m] ⋅ X[k, m].
Представление Y[n] во временной области сигнала Y[n] в частотной области может быть вычислено посредством обратного преобразования, в вариантах осуществления посредством обратного преобразования STFT. Далее сигналы во временной области сигналы будут обозначаться строчными буквами, и сигналы в частотной области - прописными буквами. Индексы k и m сигналов в частотной области будут опущены для лучшей читаемости.
Фиг. 12c показывает блок-схему устройства 125, выполненного с возможностью обработки аудиосигнала 91, который может быть принят от декодера и который, возможно, был подвергнут искусственному ограничению частотной полосы и/или спектральному улучшению, такому как репликация спектральной полосы. Устройство 125 содержит модуль оценки наклона 52 и модуль оценки частоты 58. Модуль оценки наклона 52 выполнен с возможностью для оценки наклона спектра аудиосигнала 91, чтобы получить наклонный результат, как описано в связи с фиг. 9 и/или фиг. 12a. Модуль оценки частоты может быть выполнен с возможностью для оценки по меньшей мере первого и второй частоты в, например, границы 2061 и 2062 и/или окружение границ 2063 и/или 2064 годов, ограничение или ограждение соответствующий артефакт, т.е. промежуток 202 и/или спектральный островок 204.
Устройство 125 содержит процессор 208, выполненный с возможностью определения спектрального весового коэффициента G и/или W и для обработки аудиосигнала 91 по меньшей мере в спектральной области между соответствующими границами 2061 и 2062, 2063 и 2064, соответственно, с использованием спектральных весовых коэффициентов G и/или W. Устройство 125 может быть выполнено с возможностью определения спектральных весовых коэффициентов G и/или W для каждой из частотных областей, элементов разрешения по частоте и/или кадров аудиосигнала 91. Спектральные весовые коэффициенты G могут использоваться для формирования или придания формы заполняющего сигнала S, который должен быть объединен с аудиосигналом для заполнения спектральных провалов. Спектральные весовые коэффициенты W могут использоваться для ослабления спектральных островков. Т.е. для сокращения артефакта в спектральном провале 202 может использоваться сигнал F заполнения. Для сокращения артефактов, вызванных спектральным островком 204, спектральные весовые коэффициенты W могут использоваться для уменьшения высоты островка. Для множества частотных значений в соответствующем спектральном провале 202 и соответствующем спектральном островке 204 может быть определено множество спектральных весовых коэффициентов.
Фиг. 12d показывает блок-схему функциональности, которая может быть реализована процессором 208 для определения спектральных весовых коэффициентов G. Спектральные провалы могут быть определены как резкое уменьшение, т.е., по меньшей мере на 30 дБ, по меньшей мере на 40 дБ или по меньшей мере на 50 дБ областей спектральных магнитуд в частотной и временной области/направлении. Дополнительная оценка по времени показывает, что спектральные области между гармоникой тонального сигнала не являются неверно обнаруженными как спектральные провалы. В документе [5] способ обнаружения выполняет поиск полных нулей в спектральной области. Это возможно, поскольку способ расположен в декодере и имеет доступ к тому же набору фильтров и блокировке, как и кодер. Описанные варианты осуществления относятся к последующей обработке декодера, которая оценивают резкие относительные спектральные изменения с использованием разности спектра X магнитуды и его сглаженной копии. Поток сигнала для обнаружения и спектральных провалов, и спектральных островков проиллюстрирован на фиг. 12d. Преобразование STFT или другой калькулятор 44 спектра может использоваться для получения спектрального представления аудиосигнала 91. Модуль 212 формирования абсолютного значения (abs) может быть выполнен с возможностью выдачи спектра X магнитуды. Логарифм 214 (mag2db) выполнен с возможностью преобразования спектра X магнитуды в логарифмическую область для использования логарифмического преобразования, такого как
X'=20log10(X).
Полученный логарифмический спектр X' магнитуды может быть сглажен параллельно двумя низкочастотными фильтрами (LPF), причем первый низкочастотный фильтр 216a может быть выполнен с возможностью сглаживания спектра аудиосигнала, т.е., аудиосигнала в частотной области, чтобы получить сигнал Y', сглаженный в частотной области. Второй низкочастотный фильтр 216b может быть выполнен с возможностью сглаживания спектра X' магнитуды во временной области, чтобы получить сглаженный сигнал Z'. Хотя сглаживание описано как сглаживание в логарифмической области, сглаживание также может быть выполнено в линейной области или другой области. Т.е. логарифм 214 также может отсутствовать или может быть расположен после низкочастотных фильтров. Т.е. логарифмический спектр X' магнитуды может быть сглажен двумя низкочастотными фильтрами и по частоте, и по времени, что может привести к сигналам Y' и Z', соответственно. Для вычисления специальных весовых коэффициентов G могут быть вычислены линейные значения:
.
Эти линейные значения могут быть сравнены со спектром X магнитуды для получения значения разности по частоте и/или значение разности по времени. Относительные разности Δt и Δf, сравнивающие спектральные магнитуды X с их сглаженными версиями по времени Z' и частоте Y', могут быть вычислены в логарифмической области, например, для каждого спектрального коэффициента и для каждого кадра:
и
причем Δf относится к значению разности по частоте, и Δt относится к значению разности по времени.
Калькулятор 218 спектрального весового коэффициента может быть выполнен с возможностью вычисления спектрального весового коэффициента G в соответствии с
т.е. спектральный весовой коэффициент G устанавливается равным ненулевому значению, если значение разности Δf по частоте больше или равно порогу Δf разности по частоте, и если значение разности Δt по времени больше или равно пороговому значению Δt разности по времени. Хотя параметр усиления описан как требующий, чтобы значения Δf и Δt разности по времени были больше, чем их соответствующие пороговые значения Δf, Δt соответственно, на основе других пороговых значений или пороговых значений, выбранных иным образом, он также может быть равен Г, когда равен пороговым значениям. Может применяться следующее правило определения:
где Δf и Δt обозначают пороговые параметры. α, β и γ являются параметрами, которые влияют на характеристики вычисления спектрального весового коэффициента. Все параметры являются настраиваемыми параметрами. κ используется для увеличения воздействия весового коэффициента и может быть вычислено в соответствии с правилом определения или основано на нем:
Вычисленные спектральные усиления сглаживаются по времени и частоте, например, с использованием низкочастотных фильтров 222a, 222b соответственно. Спектральные усиления затем используются для спектрального взвешивания исходного сигнала S заполнения, описываемого в связи с фиг. 12e.
Фиг. 12e показывает блок-схему модуля 200 улучшения сигнала выполненного с возможностью сокращения артефакта "птичий свист". Обработка может быть сделана, например, с использованием процессора 208. Устройство 200 может содержать блок 224 объединения для объединения сигнала S источника заполнения спектральными весовыми коэффициентами G, например, посредством умножения, чтобы получить сигнал F заполнения. Сигнал F заполнения может содержать структуру, в соответствии с которой он содержит только ненулевые значения в местоположениях, в которых были оценены спектральные провалы. Дополнительный блок 226 объединения может быть выполнен с возможностью объединять сигнал F заполнения со спектром X магнитуды, например, посредством суммирования. Т.е., сигнал F заполнения добавляется ко входному сигналу X. Сигнал источника S заполнения может быть получен или сформирован посредством фильтрации аудиосигнала 91 во временной области, который продлевает информацию из предыдущих кадров. В качестве альтернативы сигнал источника заполнения может быть получен посредством копирования спектральных коэффициентов из других позиций в одном спектральном кадре, посредством копирования спектральных коэффициентов из другого аудиоканала, который не проявляет спектральный провал в соответствующем местоположении, и/или посредством копирования спектральных коэффициентов из предыдущего спектрального кадра, который не проявляет спектральный провал.
В известных концепциях, например, используется шумовая замена из инструмента перцепционной шумовой замены (Perceptual Noise Substitution; PNS) усовершенствованного кодирования звука (Advanced Audio Coding; AAC). Шумоподобные участки спектра заменяются в декодере псевдослучайной последовательностью значений, масштабированных с подбором под соответствие заданной целевой энергии. Процессом управляет вспомогательная информация. Кроме того, известна методика, называемая заполнением шумом. Заполнение шумом используется в кодеке унифицированного кодирования речи и звука (Unified Speech and Audio Coding; USAC), чтобы заполнить спектральные провалы, вызванные мертвой зоной блока квантования, работающего при ограничениях малого запаса разрядов. Псевдослучайная последовательность значений используется для заполнения этих спектральных нулей. Кроме того, методика под названием интеллектуальное заполнение провалов (IGF) известна из MPEG-H и 3GPP EVS. Здесь спектральные провалы заполняются либо шумом, либо с использованием спектральных фрагментов из отдаленного спектрального местоположения. Процессом управляет вспомогательная информация. Варианты осуществления, описанные в настоящем документе, отличаются от заполнения шумом таким образом, что для заполнения спектральных провалов используется распределение частотно-временной информации из предыдущих временных кадров. В отличие от PNS отфильтрованный выходной сигнал заполняется только в спектральных провалах, а не во всех частотных полосах PNS. В отличие от PNS и IGF варианты осуществления могут использоваться в качестве ненаправляемой обработки, т.е. без использования вспомогательной информации.
Устройство 200 может содержать калькулятор 228 весового коэффициента спектральных островков, который также может быть реализован посредством процессора 208. Спектральные островки, содержащиеся в сигнале Z, принимаемом от модуля 226 объединения и получаемом посредством сложения входного спектра X и сигнала F заполнения в соответствии со следующим выражением
Z=X+F,
могут быть подавлены посредством спектрального взвешивания в соответствии с выражением
Y=W ⋅ Z
G, W являются спектральными весовыми коэффициентами, которые повторно вычисляются для каждого кадра m и спектрального коэффициента k. Чтобы обеспечить сохранность как можно большей частотной полосы, подавление спектральных островков выполняется после того, как были заполнены спектральные провалы. Окончательно подавляются только изолированные спектральные островки, которые не могли быть присоединены к основной части спектра. Чтобы достигнуть частичного улучшения, подавление спектральных островков может быть выполнено без заполнения спектральных провалов. В качестве альтернативы заполнение спектральных провалов может быть выполнено без вычисления спектральных весовых коэффициентов.
Для подавления вычисления спектральных весовых коэффициентов и для вычисления спектрального весового коэффициента W может быть реализована следующая идея. Спектральные островки могут быть определены как резкое увеличение областей спектральной магнитуды в частотном и временном направлении, окруженное очень низкими значениями спектральной магнитуды. Повышение магнитуд может составлять, например, по меньшей мере 30 дБ, по меньшей мере 40 дБ или по меньшей мере 50 дБ. Спектральные островки могут быть подавлены посредством ослабления соответствующих спектральных коэффициентов с помощью спектрального взвешивания. Для получения спектральных весовых коэффициентов W может быть выполнена обработка, сходная описанной в связи с фиг. 12d. Как описано для спектральных весовых коэффициентов G, могут быть определены значение Δt разности по времени и значение Δf разности по частоте. Спектральный весовой коэффициент W может быть получен на основе правила определения:
причем
Δp является порогом, который отражает предположение, что спектральные островки окружены спектральными коэффициентами с низкой энергией. Δf и Δt являются пороговыми параметрами. Как описано выше, α, β и γ являются настраиваемыми параметрами. С учетом приведенного выше правила определения в диапазонах спектрального островка определяется спектральный весовой коэффициент Ω, позволяющий ослабить сигнал Z, Y, соответственно, т.е., Ω является значением меньше 1. В диапазоне за пределами спектрального островка W является значением, равным 1, т.е., ослабление не выполнено. Устройство 200 может содержать модуль 232 объединения для объединения спектральных весовых коэффициентов W с сигналом Z, например, с использованием умножения. Преобразователь 234 сигнала может использоваться для выполнения ISTFT, т.е., чтобы получить сигнал во временной области.
Другими словами, концепция подавления "птичьего свиста" может быть разбита на заполнение спектральных провалов и подавление спектральных островков. Сигнал F заполнения может быть вычислен посредством фильтрации широкополосного сигнала S источника заполнения со спектральными весовыми коэффициентами G. Сигнал F содержит только ненулевые значения, когда спектральные провалы были идентифицированы в X, и определен в соответствии с выражением
F=G ⋅ S
Фиг. 12f показывает блок-схему последовательности этапов способа 1500 для обработки аудиосигнала. Способ 1500 содержит этап 1600, на котором оценивается наклон спектра аудиосигнала для получения результата оценки наклона. Этап 1700 содержит оценку по меньшей мере первой и второй частотных границ, на которых спектр содержит границу, чтобы получить результат оценки частоты. Этап 1800 содержит определение спектрального весового коэффициента и обработку аудиосигнала в спектральной области между первой и второй частотными границами с использованием спектрального весового коэффициента.
Фиг. 13a показывает схематическую блок-схему последовательности этапов способа 2000 для определения предварительно определенной характеристики, относящейся к искусственной обработке ограничения частотной полосы аудиосигнала. Способ 2000 содержит этап 2100, содержащий оценку наклона спектра аудиосигнала для получения результата оценки наклона. Этап 2200 содержит обеспечение информации, указывающей, что аудиосигнал содержит предварительно определенную характеристику, зависящую от оценки результата оценки наклона. Информация 66, обеспеченная процессором 64, может содержать переменную, упоминаемую здесь далее как D, которая может использоваться для активации расширения частотной полосы, которая применяется для улучшения качества звука аудиосигнала, например, с использованием модуля улучшения сигнала. В некоторых случаях может быть определена частота fc среза, т.е. факультативный этап может содержать оценку частоты среза спектра аудиосигнала для получения результата оценки частоты таким образом, что информация, указывающая, что аудиосигнал содержит предварительно определенную характеристику, может быть обеспечен в зависимости от результата оценки наклона и в зависимости от результата оценки частоты. Частота fc среза может использоваться для управления расширением частотной полосы (BWE) посредством определения частотного диапазона, в котором функционирует BWE таким образом, что восстанавливает только ту частотную область, которая отсутствует. Это проиллюстрировано на фиг. 13b, показывающей блок-схему последовательности этапов способа 2500 в соответствии с другими вариантами осуществления, способ содержит этап 2150, содержащий оценку частоты среза спектра аудиосигнала для получения результата оценки частоты.
Вторым приложением, в котором может использоваться или требоваться ABLA, т.е. обнаружение соответствующей характеристики, является классификация аудиосигнала как сигнала с низким качеством звука вследствие сжатия с потерями. Эта классификация может базироваться только на описанном анализе или на его комбинации с другой информацией, которая может быть извлечена из аудиосигнала. Примерами для получения дополнительной информации, которая может использоваться в этом контексте, являются ширина стереосигнала или присутствие репликации спектральной полосы (SBR), т.е., способа, который применяется кодеками с потерями. Тогда ABLA используется, чтобы активировать другую обработку, которая улучшает качество звука сигналов со сжатием с потерями, без ограничения обработкой BWE. Примером является фильтрация для увеличения ширины стерео и переходных компонентов сигнала.
Результаты ABLA, а именно, параметр D и частота fc среза могут использоваться или даже могут являться необходимыми для автоматического восстановления таких артефактов без вовлечения человека-оператора. Первостепенное значение может иметь применение улучшения качества звука только к сигналам, имеющим ухудшенное качество звука. Сигналы, имеющие высокое качество, не должны обрабатываться посредством такого способа, поскольку качество звука может быть негативно затронуто. Варианты осуществления в соответствии со вторым аспектом позволяют с высокой точностью обнаруживать аудиокадры или аудиосигналы, подвергаемые искусственному ограничению частотной полосы. Аудиосигналы имеют естественную частотную полосу, которая определена процессом формирования звука. Частотная полоса может изменяться вследствие различных технических процессов, в том числе ограничения частотной полосы, которое применено для захвата, хранения, обработки и передачи сигнала. Ограничение частотной полосы представляет собой низкочастотную фильтрацию, имеющую характеристики очень резкого ослабления, очень большого ослабления и частоты среза, как описано выше.
Далее будут рассмотрены третий и четвертый аспекты настоящего изобретения, относящиеся к концепции для расширения частотной полосы сигнала с ограниченной частотной полосой в третьем аспекте, например, в ответ на определение искусственного ограничения частотной полосы в соответствии со вторым аспектом. Таким образом, варианты осуществления в соответствии с третьим аспектом могут использоваться в качестве модуля улучшения сигнала в связи со вторым аспектом.
Концепция в соответствии с третьим аспектом нацелена на подавление нескольких артефактов кодирования для улучшения воспринятого качества звука. Технические этапы могут быть реализованы как последующая обработка и могут быть частично реализованы с использованием программного обеспечения, которое может использоваться декодером. Концепция может работать вслепую без доступа к несжатому аудиосигналу и к другой вспомогательной информации. Обработка улучшения кодирования с низкой битовой скоростью в соответствии с третьим аспектом содержит или даже по существу состоит из постпроцессора, который вносит или улучшает удовольствие от восприятия, относящееся к концепциям для ненаправляемой последующей обработки аудиоматериала, который был предварительно закодирован перцептивными кодерами предыдущих версий. Тем самым предварительно закодированный аудиоматериал может извлечь выгоду из современных концепций удовольствия от восприятия.
Варианты осуществления, которые описаны в связи с третьим и четвертым аспектами, могут использовать основной принцип, называемый спектральным взвешиванием или краткосрочным спектральным ослаблением. может использовать базовый принцип, называемый спектральным взвешиванием или краткосрочным спектральным ослаблением. Таким образом, сигнал x[n] во временной области может быть преобразован в его представление в частотной области X[k, m], где k и m обозначают частоту и индекс периода времени, соответственно. В соответствии с вариантами осуществления может быть применено оконное преобразование Фурье (STFT), но также могут использоваться и другие преобразования. Выходной сигнал Y спектрального взвешивания может быть задан следующим уравнением
Y[k, m] = G[k, m]⋅ X[k, m]
причем представление y[n] во временной области сигнала Y[k, m] в частотной области может быть вычислено посредством обратного преобразования, например, обратного преобразования STFT, т.е., ISTFT. В следующих разделах сигналы во временной области могут обозначаться строчными буквами, и сигналами в частотной области - прописными буквами. Индексы k и m или сигналы в частотной области будут опускаться для лучшей читаемости. Спектральное взвешивание будет разъяснено более подробно в связи с аспектом, упоминающимся как спектральное взвешивание, в котором разъясняются подробности для спектральных весовых коэффициентов G[k, m].
Фиг. 14 показывает блок-схему устройства 140 в соответствии с вариантом осуществления третьего аспекта. Устройство 140 выполнено с возможностью обработки аудиосигнала и может принимать спектр 12' аудиосигнала для обработки. Устройство 140 может быть выполнено с возможностью приема представления во временной области аудиосигнала, т.е. аудиосигнала 12 и может выявить спектр 12', например, для такой цели устройство 140 может содержать калькулятор 44 спектра.
Устройство 140 содержит модуль 92 отделения для отделения первого участка 91'a спектра 91' аудиосигнала 91 от второго участка 91'b спектра 91' аудиосигнала 91. Первый участок 91'a имеет первую характеристику сигнала, и второй участок 91'b имеет вторую характеристику сигнала. Аудиосигнал 91 может быть принят устройством 91 во временной области и/или в частотной области и может быть, например, ограничен частотной полосой с использованием частоты fc среза и может быть подвергнут последующей обработке. Один основной признак третьего аспекта, относящийся к расширению частотной полосы, состоит в том, что входной сигнал может быть разбит на разные характеристики, такие как переходные и устойчивые участки сигнала, которые рассматриваются независимо посредством применения разных установок параметров для модулей в каждой части.
Первая и вторая характеристики сигнала могут отличаться друг от друга посредством разного восприятия и/или разными характеристиками в частотном диапазоне. Хотя варианты осуществления не ограничены этим, первая и вторая характеристики сигнала могут быть взаимодополняющими относительно друг друга, т.е. при удалении, исключении или вычитании одной характеристики сигнала из общего спектра 91' остающийся участок формирует другую характеристику. Посредством не ограничивающего примера первой характеристикой сигнала может являться частотный диапазон спектра среднего сигнала, и второй характеристикой сигнала может являться частотный диапазон спектра бокового сигнала. В качестве альтернативы первой характеристикой сигнала может являться характеристика прямого сигнала аудиосигнала, и второй характеристикой сигнала может являться характеристика окружающего сигнала аудиосигнала. В соответствии с другим вариантом осуществления первой характеристикой сигнала может являться характеристика тонального сигнала аудиосигнала, и второй характеристикой сигнала может являться характеристика устойчивого сигнала аудиосигнала, которая может упоминаться как транзиент и т.п. В качестве альтернативы первой характеристикой сигнала может являться характеристика речевого сигнала аудиосигнала, и второй характеристикой сигнала может являться характеристика неречевого сигнала аудиосигнала. Также возможны другие характеристики сигнала. Кроме того, возможно сформировать их комбинации, т.е., объединить две или более из упомянутых выше идентифицированных характеристик. Первый и второй участки 91'a и 91'b могут содержать сопоставимую или одну и ту же частотную полосу, начальную частоту и конечную частоту, и при их объединении друг с другом могут снова формировать спектр 91'. Т.е. разбиение или разделение могут быть выполнены посредством декомпозиции "переходный-устойчивый" сигнал. В качестве альтернативы или в дополнение возможны другие правила или способы декомпозиции, такие как декомпозиция "средний-боковой" сигнал, декомпозиция "прямой-окружающий" сигнал или декомпозиция "передний план/фон" и/или декомпозиция "речь - не речь" и т.д.
Устройство 140 может содержать первый расширитель 941 частотной полосы для расширения частотной полосы первого участка 91'a с использованием первых параметров 961, ассоциированных с первой характеристикой сигнала, для получения первого расширенного участка 98a. Устройство 140 дополнительно содержит второй расширитель 942 частотной полосы для расширения частотной полосы второго участка 91'b с использованием вторых параметров 962, ассоциированных со второй характеристикой сигнала, для получения второго расширенного участка 98b. Расширение частотной полосы может содержать формирование дополнительных частей или участков частот в спектре, которые будут объединены с первоначальным сигналом. Это может включить в себя копирование и/или формирование таких дополнительных частотных областей посредством транспонирования, спектрального растяжения или формирования обертонов через применение нелинейности. Посредством использования первого и второго расширителей частотной полосы различные характеристики сигнала, присутствующие в разных участках 91'a и 91'b, могут рассматриваться по-разному посредством соответствующего расширителя 941 и 942 частотной полосы. Например, частотная полоса скопированного участка, количество копий, чередование копий, формирование спектра получаемого сигнала и/или частотные характеристики спектральных искусственно формируемых участков могут изменяться между разными характеристиками сигнала, которые могут рассматриваться посредством использования разных наборов параметров 961 и 962 в связи с разными характеристиками сигнала. Это позволяет хорошо адаптировать расширение частотной полосы к характеристике сигнала.
Хотя устройство 140 описано как содержащее первый и второй расширители частотной полосы для рассмотрения первой и второй характеристик сигнала, устройство в соответствии с дополнительными вариантами осуществления может быть выполнено с возможностью подвергать разным расширениям частотных полос более двух участков, например, три, четыре, пять или даже больше. Такое устройство может содержать соответствующее количество расширителей частотной полосы, но также может использовать один расширитель частотной полосы по меньшей мере для двух расширений частотных полос, например, последовательно обрабатывая разные характеристики сигнала. В соответствии с этим устройство 140 может быть реализовано с одним расширителем 94 частотной полосы и для последовательной адаптации расширителя частотной полосы к разным параметрам 961 и 962 при последовательной обработке разных участков 91'a и 91'b.
Устройство 140 содержит модуль 102 объединения, выполненный с возможностью использования первого и второго расширенных участков 98a и 98b для получения расширенного объединенного аудиосигнала 104. Расширенные участки 98a и 98b могут быть приняты от модуля 102 объединения как представление во временной области, в результате чего объединенный аудиосигнал 104 также может находиться во временной области. В качестве альтернативы расширенные участки 98a и 98b могут быть приняты модулем объединения в частотной области, в результате чего объединенный аудиосигнал 104 также может находиться в частотной области и быть преобразован во временную область впоследствии. В качестве альтернативы модуль 102 объединения может быть выполнен с возможностью преобразовывать каждый из отдельных участков 98a и 98b или их объединенную версию во временную область для обеспечения объединенного аудиосигнала 104 во временной области.
Фиг. 15 является схемой, демонстрирующей иллюстративный спектр, содержащий разные компоненты 106a и 106b. Например, компонент 106a может относиться к переходному сигналу спектра, например, получен с помощью малого барабана. Такие сигналы могут иметь более высокую корреляцию в одном спектральном кадре и также могут иметь более высокую частотную полосу, чем устойчивый сигнал, например, обозначенный спектральным участком 106, который может относиться к человеческому голосу. На фиг. 15 можно заметить, что переходный участок 106a имеет значительно большую частотную полосу, чем участок 106b, например, певческий голос.
Фиг. 16 показывает блок-схему устройства 160 в соответствии с вариантом осуществления третьего аспекта. Далее будет рассмотрен аудиосигнал и полученные из него сигналы. Аудиосигнал может присутствовать и/или обрабатываться во временной области и/или в частотной области, причем обе модификации могут быть преобразованы друг в друга посредством частотно-временного или временно-частотного преобразования. Таким образом, упоминание аудиосигнала может относиться к представлению во временной области и к представлению в частотной области, и в ином случае дается явное разъяснение.
Устройство 160 содержит модуль 92 отделения, выполненный с возможностью приема представления 91' в частотной области аудиосигнала. С этой целью устройство 160 может содержать калькулятор 44 спектра для получения представления 91' в частотной области из представления во временной области.
Модуль 92 отделения может содержать подавитель 108 переходного участка, выполненный с возможностью приема аудиосигнала, например, его представления в частотной области для сокращения переходных участков в аудиосигнале 91, чтобы получить первый модифицированный аудиосигнал. Модуль 92 отделения может быть выполнен с возможностью получения первого участка 98a на основе первого модифицированного аудиосигнала. В соответствии с вариантом осуществления первый участок 98a соответствует первому модифицированному аудиосигналу. В соответствии с другим вариантом осуществления выполняется обработка первого модифицированного участка, например, фильтрация, усиление, ослабление и т.п.
Модуль 92 отделения может содержать модуль 112 вычитания для вычитания первого модифицированного аудиосигнала, например, первого участка 91'a из аудиосигнала 91, чтобы получить второй модифицированный сигнал. В соответствии с вариантом осуществления вторым модифицированным сигналом является второй участок 91'b. Как описано для первого участка 91'a, второй участок 91'b также может быть получен на основе обработки полученного результата вычитания. Таким образом, посредством удаления первого участка 91'a из аудиосигнала 91 может быть получен второй участок 91'b. Посредством получения первого модифицированного сигнала и вычитания его из аудиосигнала, чтобы получить второй модифицированный сигнал, может быть выполнена декомпозиция аудиосигнала на два участка.
Модуль 92 отделения может быть выполнен с возможностью работать в частотной области или во временной области и обрабатывать аудиосигнал 91 таким образом, что подавитель 108 переходного участка сокращает или устраняет переходные и/или тональные участки для каждой подполосы спектра аудиосигнала 91. Это может привести к меньшей обработке или даже к отсутствию обработки для подполос, содержащих малые непереходные или малые нетональные (т.е. шумные) участки. Подавитель 108 переходного участка может содержать этап обработки переходного участка, этап обработки тонального участка и/или этап объединения, чтобы обработать одну из характеристик, которые будут выделены, посредством их подавления или усиления. Представление в частотной области аудиосигнала 91 может содержать множество подполос (частотных полос), причем этап обработки переходного участка и/или этап обработки тонального участка выполнены с возможностью обрабатывать каждую из частотных полос. В качестве альтернативы спектр, полученный частотным преобразованием аудиосигнала 91, может быть сокращен, т.е. обрезан, чтобы исключить некоторые частотные диапазоны или частотные полосы из последующей обработки, например, частотные полосы, содержащие выбранную характеристику или не содержащие выбранную характеристику. Это может позволить сократить вычислительные затраты и, таким образом, ускорить обработку и/или повысить ее точность.
Этап обработки переходного участка может быть выполнен с возможностью определять для каждой из обработанных частотных полос, содержит ли частотная полоса переходные участки. Этап обработки тонального участка может быть выполнен с возможностью определять для каждой из частотных полос, содержит ли аудиосигнал 91 тональные участки в частотной полосе. Этап обработки переходного участка может быть выполнен с возможностью определять по меньшей мере для частотных полос, содержащих переходные участки, спектральные весовые коэффициенты, причем спектральные весовые коэффициенты имеют отношение к соответствующей частотной полосе и могут позволить ослаблять/исключать или усиливать соответствующие участки. Характеристики переходного и тонального сигнала могут быть идентифицированы посредством спектральной обработки. Уровень переходности и/или тональности может быть измерен посредством этапа обработки переходного участка и/или этапа обработки тонального участка модуля 92 отделения и может быть преобразован в спектральный весовой коэффициент. Модуль 92 отделения может быть выполнен с возможностью определять спектральные весовые коэффициенты по меньшей мере для частотных полос, содержащих тональные участки. Спектральные весовые коэффициенты могут содержать множество возможных значений, магнитуда спектральных весовых коэффициентов указывает величину переходных и/или тональных участков в частотной полосе.
Спектральные весовые коэффициенты могут содержать абсолютное или относительное значение. Например, абсолютное значение может содержать значение энергии переходного и/или тонального звука в частотной полосе. В качестве альтернативы спектральные весовые коэффициенты могут содержать относительное значение, такое как значение между 0 и 1, значение 0 указывает, что частотная полоса не содержит или почти не содержит переходные или тональные участки, и значение 1 указывает частотную полосу, содержащую большое количество переходных и/или тональных участков, или полностью состоит из них. Спектральные весовые коэффициенты могут содержать одно из множества значений, таких как 3, 5, 10 или больше значений (шагов), например, (0, 0,3 и 1), (0,1, 0,2, …, 1) и т.п. Размер масштабирования, количество шагов между минимальным значением и максимальным значением может быть равно по меньшей мере нулю, но предпочтительно по меньшей мере одному и более предпочтительно по меньшей мере пяти. Предпочтительно множество значений спектральных весовых коэффициентов содержит по меньшей мере три значения, содержащие минимальное значение, максимальное значение и значение, которое находится между минимальным значением и максимальным значением. Большее количество значений между минимальным значением и максимальным значением может обеспечить более непрерывное взвешивание каждой из частотных полос. Минимальное значение и максимальное значение могут быть масштабированы в диапазон между 0 и 1 или в другие значения. Максимальное значение может указывать наиболее высокий или наиболее низкий уровень переходности и/или тональности.
Этап объединения модуля 92 отделения может быть выполнен с возможностью объединять спектральные весовые коэффициенты для каждой из частотных полос с аудиосигналом. Модуль 92 отделения может быть выполнен с возможностью применять объединенные спектральные весовые коэффициенты к каждой из частотных полос. Например, спектральные весовые коэффициенты могут быть умножены на спектральные значения аудиосигнала 91 в обработанной частотной полосе.
Посредством подавления или исключения некоторых участков/характеристик из аудиосигнала 91 может быть получен первый модифицированный сигнал, не содержащий соответствующую характеристику, но содержащий другую характеристику. Посредством вычитания сигнал из аудиосигнала может быть получен обратный сигнал, содержащий подавленную характеристику и не содержащий характеристику первого модифицированного сигнала, посредством второго модифицированного сигнала.
Далее будет рассмотрена иллюстративная конфигурация расширителей 941 и 942 частотной полосы. Каждый из расширителей 941 и 942 частотной полосы может содержать модуль 114 дублирования для дублирования по меньшей мере части соответствующего участка, может содержать формирователь 116 огибающей, придающий форму по меньшей мере расширенным участкам, сформированным модулем дублирования, может содержать модуль 118 выбеливания для выравнивания по меньшей мере расширенных участков и/или может содержать фильтр 122 устранения шероховатости для сдвига фазы по меньшей мере части расширенного участка. Каждый из этих элементов может быть размещен вместе с другими упомянутыми элементами. В качестве альтернативы некоторые или все из этих элементов могут отсутствовать и/или могут быть заменены другими элементами. Например, вместо копирования, выполняемого модулем дублирования, искусственное формирование частотной полосы может быть реализовано расширителем частотной полосы таким образом, что блок формирования частотной полосы может заменить модуль 114 дублирования. В качестве альтернативы придание формы или выбеливание спектра могут быть опущены и/или может использоваться другая обработка. Кроме того, фильтр 122 устранения шероховатости является факультативным. Хотя фильтр устранения шероховатости проиллюстрирован как фильтрация соответствующего сигнала во временной области посредством блока 124 обратного оконного преобразования Фурье, он может быть выполнен с возможностью работы в частотной области и, таким образом, может быть расположен перед соответствующим блоком 124 обратного оконного преобразования Фурье. Таким образом порядок расположения блоков также может быть изменен.
Каждый из расширителей 941 и 942 частотной полосы может содержать соответствующий первый и второй модуль 1141 и 1142 дублирования. Модули 1141 и 1142 дублирования выполнены с возможностью дублирования по меньшей мере части соответствующего первого или второго участков 91'a и 91'b и для объединения по меньшей мере одной версии дублированной части первого участка, второго участка соответственно с первым участком, вторым участком 91'a, 91'b, соответственно, чтобы получить соответствующий расширенный участок 126a, 126b, соответственно.
Теперь обратимся к фиг. 17a, где показан иллюстративный спектр первого участка 91'a, причем данное объяснение относится и ко второму участку 91'b без какого-либо ограничения. Участок 91'a может иметь релевантную энергию или амплитуду |X| ниже частоты fc среза и может содержать низкую величину энергии или даже не содержать энергии выше частоты fc среза. Спектр может уменьшаться с увеличением частоты. Другими словами, фиг. 17a показывает спектр |X| магнитуды сигнала с ограниченной частотной полосой. Частота среза обозначена как fc.
Фиг. 17b показывает схему первого участка 91'a, расширенного на две дублированных части 1281 и 1282. Каждая из дублированных частей 1281 и 1282 может являться копией частотной полосы w первого участка 91'a, скопированной в частотный диапазон, не занятый участком 91'a, т.е., в частотный диапазон выше частоты fc среза, причем предпочтительно дублированные участки 1281 и 1282 объединены таким образом, что непосредственно расположены на первоначальном сигнале, т.е., первом участке 91'a. Таким образом, фиг. 17b иллюстрирует, как выполняется копирование. Комплексные спектральные коэффициенты сдвигаются из так называемого исходного отрезка w в частотном интервале частоты [fc-w, fc] в целевые отрезки в интервалах [fc, fc+w, fc+2w] и т.д., т.е., в [fc(n-1)w, fc+nw] для каждого n, причем n является переменной в пределах от 1 до количества отрезков или количества вставляемых копий. Количество n=2 посредством не ограничивающего примера на фиг. 17b, и ширина Dfw дублированного участка может регулироваться устройством 160 независимо для каждого из расширителей 941 и 942 частотной полосы. Т.е., частота сдвига исходного отрезка w может зависеть от целевой частотной полосы и/или количества отрезков, причем они оба могут быть настраиваемым параметром. На уменьшающейся магнитуде спектра могут возникать ступеньки или неоднородности в местоположениях, где присоединяется отрезок.
Скопированная часть первого и второго участков может простираться от первой промежуточной частоты, например, fcopy1 первого участка 91'a до максимальной частоты fc первого участка. В соответствии с этим скопированная часть второго участка может содержать второй частотный диапазон в пределах от той же самой или другой промежуточной частоты второго участка 91'b до максимальной частоты второго участка, которая также может являться частотой fc среза. На основе разных промежуточных частот ширина Dfw может отличаться. Таким образом, для получения одинаковой полученной в результате частотной полосы несколько отрезков также могут варьировать между разными расширителями частотной полосы.
Для предотвращения нежелательных артефактов первый расширитель частотной полосы может содержать первый формирователь 1161 огибающей, и второй расширитель 942 частотной полосы может содержать второй формирователь 1162 огибающей. Формирователи 1161 и 1162 огибающей могут быть выполнены с возможностью для придания формы по меньшей мере расширенному участку, т.е., частотному участку выше частоты fc среза. Формирование огибающей, т.е., выполнение формирования огибающей спектра может использоваться часто, спектры магнитуды не являются плоскими, они имеют тенденцию уменьшаться по магнитуде в направлении более высоких частот, как проиллюстрировано на фиг. 17a. Фиг. 17b визуализирует спектр магнитуды, когда копия выполнена без дополнительной адаптации. Резкие переходы в спектре магнитуды могут появиться на частотах fc, fc+w, …, fc+kw. Это может привести к пронзительно яркому звуковому восприятию, которое должно быть предотвращено формирователями 1161 и 1162 огибающей.
Чтобы избежать таких эффектов, спектральный наклон T, показанный на фиг. 17b, может быть оценен посредством вычисления наклона |X|, который был подогнан посредством линейной регрессии к логарифмическому спектру исходного отрезка, который содержит частотный интервал [fc-w, fc]. Каждый отрезок w может быть ослаблен на значение kT, т.е., чем выше отрезок скопирован в частотном диапазоне, тем больше может быть ослабление. k может являться натуральным числом и может являться так называемым порядком пятна, который начинается от 1 и увеличивается для каждого дополнительного отрезка, который сдвинут и, таким образом, может соответствовать n, упомянутому ранее.
Другими словами, фиг. 17b показывает копию спектральных коэффициентов без формирования огибающей. Источник для копии является интервал [fc-w, fc], где w является шириной отрезка. Во время аналогового формирования магнитуда скопированных целевых отрезков в интервале [fc, fc+2w] ослабляется на число, кратное T, которое обозначает спектральный наклон.
Фиг. 17c показывает иллюстративный спектр 132a магнитуды, который может быть получен от формирователя 1161 огибающей, выполненного с возможностью придания формы по меньшей мере расширенным участкам 1261. На основе интерполяции магнитудам скопированных участков1281 и 1282 может быть придана форма или они могут быть ослаблены таким образом, чтобы получить однородный спектр. Фиг. 17c показывает спектр магнитуды формирования огибающей с порядком отрезков 2, причем порядок отрезков может содержать любое значение от 1 и выше. Каждый из расширителей 491 и 492 частотной полосы может содержать модуль выбеливания для выравнивания по меньшей мере расширенного первого участка, расширенного второго участка, соответственно. Спектральное выбеливание может быть выполнено посредством повышения спектральных значений и понижения спектральных пиков.
Для лучшего понимания фиг. 18 показывает блок-схему модуля спектрального выбеливания, выполненного с возможностью независимого выбеливания аудиосигнала 91. Модуль выбеливания может содержать калькулятор 44 спектра для получения спектра аудиосигнала. Модуль 134 выбеливания может быть выполнен с возможностью сравнения магнитуды X[k, m] каждого спектрального коэффициента и периода времени со сглаженной версией Y[k, m], где k - индекс спектрального коэффициента, и m - индекс кадра. Y[k, m] может быть выявлен посредством сглаживания логарифмических спектральных магнитуд по частоте. Впоследствии эти логарифмические значения могут быть преобразованы в линейную область с использованием следующего правила определения:
Действительнозначные спектральные весовые коэффициенты G[k, m] могут быть вычислены, как описано правилом определения:
Снова индексы k и m опущены для лучшей читаемости. α1, α2, β1, β2, γ1, γ2 являются настраиваемыми параметрами, которые могут быть независимо адаптированы для каждого из модулей 1181 и 1182 выбеливания. Модуль выбеливания может содержать калькулятор 126 для вычисления абсолютных значений спектра. Эти значения могут обозначаться X, причем значения предоставляются калькулятору 138 для вычисления любых спектральных весовых коэффициентов G и предоставляются пути 142 сглаживания, чтобы получить сглаженную версию Y. Частотный конвертер 144 может быть выполнен с возможностью преобразования результата во временную область. Теперь обратимся к фиг. 16, где можно видеть, что модули 1181 и 1182 выбеливания уже могут работать в частотной области, в результате чего соответствующий модуль выбеливания может быть реализован без калькулятора 44 спектра и/или частотного конвертера 144 и т.п.
Каждый из расширителей 941 и 942 частотной полосы может содержать соответствующий фильтр 1221, 1222 устранения шероховатости, соответственно, для сдвига фазы по меньшей мере части расширенного первого участка, расширенного второго участка, соответственно. Это может быть выполнено как сдвиг фазы скопированных участков 1281 и 1282, и/или их версий 128'1, 128'2 с приданной формой, и/или версий 146a и 146b с выбеливанием, соответственно. Т.е., фильтр устранения шероховатости выполнен с возможностью сдвига фазы соответствующего расширенного участка или выявленного из него сигнала, чтобы получить сдвинутый по фазе сигнал. Фильтр 1221 и 1222 устранения шероховатости может быть выполнен с возможностью применения разных сдвигов фазы к соответствующему сигналу, который должен быть отфильтрован. Посредством использования сдвига фазы может быть получен сдвиг фазы скопированного участка или расширенного участка относительно первоначального сигнала. В качестве альтернативы фильтр устранения шероховатости может выполнить сдвиг фазы всего обеспеченного сигнала. Это может быть реализовано, например, когда соответствующий базовый участок заменен впоследствии на не сдвинутый по фазе участок, как будет описано далее. Фильтр 1221 и 1222 устранения шероховатости может быть реализован для фильтрации соответствующего сигнала во временной области. Таким образом, блоки 1241, 1242 преобразования ISTFT могут быть расположены таким образом, чтобы обеспечить соответствующий сигнал во временной области. В качестве альтернативы фильтр 1221 и 1222 устранения шероховатости может быть реализован для фильтрации в частотной области. В таком случае блоки 1241, 1242 преобразования ISTFT могут отсутствовать или могут быть расположены после фильтров 1221, 1222 устранения шероховатости, соответственно. Фильтрация устранения шероховатости может быть выполнена для уменьшения воспринимаемой шероховатости, которая главным образом вызвана копированием. В данном случае может подойти фильтр, который не затрагивает тембр сигнала, но главным образом изменяет фазу сигнала. Например, два вложенных фазовых фильтра могут быть расположены параллельно и могут быть вычислены во временной области. Вложенные фазовые фильтры можно представить следующим образом: если H1(z) и H2(z) обозначают частотно независимые передаточные функции с единичным усилением соответствующего фильтра, тогда H1(H2(z)) и H2(H1(z) являются фазовыми фильтрами.
В некоторых случаях каждый из расширителей 941 и 942 частотной полосы может содержать усилитель/аттенюатор 1481, 1482, соответственно, для применения усиления gt, gs соответственно для усиления устойчивых или переходных участков. Результатом могут быть расширенные участки 98a и 98b, обеспеченные модулю 102 объединения. Как разъяснено выше, расширенные участки 98a и 98b могут быть получены по-другому и/или посредством выполнения только некоторых разъясненных модификаций сигнала.
Вместе с фильтром шероховатости устройство 160 может содержать высокочастотный фильтр 152 (HPF) для фильтрации первого расширенного участка и второго расширенного участка 98a и 98b, объединенного сигнала 102, соответственно, и синонимично, чтобы получить отфильтрованный сигнал 154. Параллельно с расширителями 941 и 942 частотной полосы аудиосигнал 91 может быть подвергнут задержке 156 для компенсации временных задержек, вызванных временно-частотным преобразованием в блоке 44 и частотно-временным преобразованием в блоках 1241 и 1242. Устройство 160 может содержать низкочастотный фильтр 158 (LPF), выполненный с возможностью фильтрации задержанного аудиосигнала. Устройство 160 может дополнительно содержать блок 162 объединения, выполненный с возможностью объединения низкочастотного отфильтрованного аудиосигнала и сигнала 154. В соответствии с вариантом осуществления устройство 160 выполнено с возможностью подбирать верхнюю частоту (частоту Xc среза) низкочастотного фильтра 158 под нижнюю граничную частоту высокочастотного фильтра 152, чтобы получить объединенный однородный сигнал. В частности, устройство 160 может быть выполнено с возможностью адаптировать соответствующую нижнюю частоту высокочастотного фильтра 152 вместе с верхней граничной частотой (частотой среза) низкочастотного фильтра 158 в ответ и в соответствии с определенной частотой среза аудиосигнала 91. Таким образом, на основе высокочастотного фильтра 152 участки сигнала ниже частоты fc среза могут быть опущены или сильно ослаблены, в результате чего остаются только расширенные и сдвинутые по фазе участки. В отличие от этого низкочастотный фильтр 158 может использоваться, чтобы опустить, отбросить или сильно ослабить участки аудиосигнала 91, которые соответственно простираются за частоту fc среза. Это позволяет получить расширенные и скопированные версии, сдвинутые по фазе относительно первоначального аудиосигнала 91, который только подвергнут задержке, таким образом, чтобы компенсировать другие задержки в расширителях частотной полосы, за исключением фильтров 1221 и 1222 устранения шероховатости. Полученный аудиосигнал 164 может представлять собой расширенный и оптимизированный аудиосигнал.
Поскольку фильтрация устранения шероховатости должна быть применена только к областям с расширенной частотной полосой спектра, полученный в результате сигнал может быть подвергнут высокочастотной фильтрации и добавлен к подвергнутому низкочастотной фильтрации и задержанному входному сигналу. Задержка используется или требуется для компенсации задержки, внесенной преобразованием STFT. Частоты среза упомянутых выше высокочастотного и низкочастотного фильтров могут соответствовать частоте fc среза, как показано, например, на фиг. 17a.
Относительно фиг. 19 вместе с фиг. 16 показана функциональность факультативных блоков 166 (анализатора сигнала) и 168 (таблицы поиска) устройства 160. Устройство 160 может выполнять слепое расширение частотной полосы. Это может быть целью при восстановлении потерянной частотной полосы, как описано, и без дополнительного знания, например, на основе вспомогательной информации. Анализатор 166 сигнала может быть выполнен с возможностью обнаружения, был ли сигнал подвергнут искусственному ограничению частотной полосы, и/или может оценить частоту fc среза аудиосигнала 91. Оба этапа могут быть выполнены, как описано в связи с анализом искусственного ограничения частотной полосы. Оба значения могут быть обновлены для каждого кадра. Таким образом, аудиосигнал 91 может содержать множество кадров. Устройство 160 может содержать анализатор 166 сигнала, выполненный с возможностью анализа спектра аудиосигнала 91 для каждого кадра для характеристики, относящейся к искусственному ограничению частотной полосы аудиосигнала 91, и для определения частоты fc среза в аудиосигнале 91.
На основе разных частот среза, которые схематично обозначены как f0, f1, f2, f3, f4, соответственно, на фиг. 19, разные параметры, используемые для адаптации функциональности модуля 114 дублирования, формирователя 116, модуля 118 выбеливания и/или фильтра 122 устранения шероховатости 122 могут изменяться. Например, параметр p может использоваться для адаптации соответствующего блока. Как проиллюстрировано на фиг. 19, разные частоты среза могут быть ассоциированы с разными параметрами или разными значениями одного и того же параметра. Эти значения могут быть сохранены в таблице 168 поиска для обеспечения соответствующего параметра соответствующему блоку. На фиг. 16 пунктирные соединения указывают, что модулем управляют, например, в реальном времени. Один иллюстративный параметр может представлять собой частотную полосой исходного отрезка w. Этот параметр может затронуть частотную полосу, которая искусственно создана. Другой иллюстративный параметр может представлять собой временную константу фильтра сглаживания, которая может отличаться для разных кодеков. Множество других примеров может использоваться для управления блоками 114, 116, 118 и/или 122 в частотной области и/или во временной области.
Таблица поиска может хранить настройки для некоторых или всех управляющих параметров в зависимости от результатов анализа сигнала. В случае оценки частоты fc среза для каждой выбранной частоты fi может быть исполнена перцепционная настройка соответствующего параметра, что может привести к управляющему значению pi. Следует отметить, что выбранное значение pi может отличаться для разных расширителей частотной полосы, т.е., устройство 160 может быть выполнено с возможностью по-разному адаптировать соответствующий блок. Точки отсчетов si таблицы поиска для расширителя 941 или 942 частотной полосы могут быть заданы, например, как кортежи в соответствии с
На фиг. 19 показан пример настройки одного управляющего параметра p для пяти частот среза с f0, по f4. В соответствии с некоторыми примерами параметр может быть интерполирован, когда промежуточные значения являются уместными. В таком случае между двумя точками отсчетов в интервале [fi, fi+1] может быть выполнена линейная интерполяция в соответствии с:
Примером для таких значений интерполяции может быть, например, ширина w соответствующего отрезка, как разъяснено с использованием фиг. 17a-17c. Параметром, который может остаться не подвергнутым интерполяции, может быть, например, количество отрезков, которое ограничено целочисленными значениям.
Устройство может быть выполнено с возможностью использования первого и второго параметров для кадра, имеющего характеристику, относящуюся к искусственному ограничению частотной полосы. Для других кадров устройство может быть выполнено с возможностью использования третьих параметров для первого расширителя частотной полосы и четвертых параметров для второго расширителя частотной полосы, например, для кадров, имеющих характеристику, отличающуюся от характеристики, относящейся к искусственному ограничению частотной полосы. В качестве альтернативы устройство может быть выполнено с возможностью деактивировать первый и второй расширитель частотной полосы для кадров, имеющих характеристику, отличающуюся от характеристики, относящейся к искусственному ограничению частотной полосы. Таким образом, устройство может быть выполнено с возможностью выполнения расширения частотной полосы для кадров, которые содержат соответствующую характеристику, и может по-другому обрабатывать кадры, которые не содержат характеристику, посредством использования третьего и четвертого параметров или оставлять соответствующий кадр без обработки.
Таким образом, устройство может содержать таблицу 168 поиска, содержащую множество параметров, ассоциированных с соответствующим множеством параметров модификации сигнала, таких как частота fc среза, и множество других параметров, ассоциированных с соответствующим множеством параметров fc модификации сигнала, используемых для первого и второго расширителей 941, 942 частотной полосы соответственно. Устройство может содержать анализатор 166 сигнала для анализа спектра для модификации, применяемой к аудиосигналу 91. Устройство 160 может быть выполнено с возможностью получения параметра модификации, ассоциированного с модификацией, например, частоты fc среза и/или параметра, относящегося к крутизне наклона. Устройство может быть выполнено с возможностью получения соответствующего первого и/или второго параметра с использованием таблицы поиска и с использованием параметра модификации. В соответствии с один примером устройство может выявить частоту среза параметра модификации и может определить параметр p один раз для первого расширителя частотной полосы и один раз для второго расширителя частотной полосы.
В известных концепциях искусственное расширение частотной полосы является известной методикой аудиокодирования. Кроме того, известно ненаправляемое расширение частотной полосы. Однако не известна семантическая декомпозиция перед вычислением расширения частотной полосы. Семантическая декорреляция может использоваться в целях пространственного повышающего микширования, не содержащего функциональность копирования или транспозиции, которая неизбежно находится в приложениях расширения частотной полосы. Таким образом, варианты осуществления в соответствии с третьим аспектом отличаются. Другая методика известна из декоррелированного расширения частотной полосы. При этом целевые спектральные области всей высокочастотной полосы декоррелируются через специализированные декорреляторы или посредством вставки декоррелированных экземпляров случайного шума, чтобы они были взаимно независимыми. Настоящие варианты осуществления в соответствии с третьим аспектом содержат информацию, которая указывает на взаимную декорреляцию семантически декомпозированных частей сигнала, тогда как известные концепции просто содержат декорреляцию разных спектральных целевых областей.
Фиг. 20 показывает блок-схему последовательности этапов способа 3000 в соответствии с вариантом осуществления третьего аспекта. Способ 3000 содержит этап 3100 содержащий отделение первого участка спектра аудиосигнала от второго участка спектра аудиосигнала, первый участок имеет первую характеристику сигнала, и второй участок имеет вторую характеристику сигнала. Этап 3200 содержит расширение частотной полосы первого участка с использованием первых параметров, ассоциированных с первой характеристикой сигнала, для получения первого расширенного участка. Этап 3300 содержит расширение частотной полосы второго участка с использованием вторых параметров, ассоциированных со второй характеристикой сигнала, для получения второго расширенного участка. Этап 3400 содержит использование первого расширенного участка и второго расширенного участка для получения расширенного объединенного аудиосигнала.
В соответствии с четвертым аспектом подавление шероховатости может быть выполнено как последующая обработка, например, после выполнения расширения частотной полосы с помощью другой концепции. Таким образом, подавление шероховатости или фильтрация устранения шероховатости могут использоваться для сокращения артефактов, например, вместе с модулем 48 улучшения сигнала, когда определено, что было выполнено искусственное ограничение частотной полосы, и что также было выполнено соответствующее расширение.
Фиг. 21 показывает схему устройства 210 в соответствии с вариантом осуществления четвертого аспекта. Устройство 210 может использоваться, например, для обработки аудиосигнала 12, подвергаемого искусственному расширению частотной полосы. Устройство 210 может содержать фильтр 122 устранения шероховатости для сдвига фазы по меньшей мере участка аудиосигнала 12, чтобы получить сдвинутый по фазе сигнал 172. Фильтр 122 устранения шероховатости может работать, например, во временной области или в качестве альтернативы в частотной области. В соответствии с вариантом осуществления фильтр 122 устранения шероховатости может быть выполнен с возможностью сдвига фазы всего аудиосигнала 12. Устройство 210 содержит высокочастотный фильтр, например, высокочастотный фильтр 152 (HPF) для фильтрации сигнала 173 со сдвигом фазы, чтобы получить первый отфильтрованный сигнал 174. Устройство 210 содержит низкочастотный фильтр, такой как низкочастотный фильтр 158 (LPF), для фильтрации аудиосигнала 12, чтобы получить второй отфильтрованный сигнал 176. Устройство 210 дополнительно содержит модуль 162 объединения для объединения сигналов 154 и 156, чтобы получить улучшенный аудиосигнал 178, в котором сокращена воспринимаемая шероховатость. Как было описано в связи с устройством 160, расширенная частотная полоса подвергается сдвигу по фазе относительно аудиосигнал 12. Один аспект состоит в том, чтобы отфильтровать аудиосигнал 12 с использованием низкочастотного фильтра 158, чтобы отбросить любые участки сигнала, которые выше выбранной частоты фильтра, частоты fc среза соответственно. Это позволяет сократить или ограничить эффекты или суперпозицию разных участков сигнала в объединенном сигнале 178.
Фиг. 22 показывает блок-схему устройства 220 в соответствии с вариантом осуществления четвертого аспекта. Как описано в связи с фиг. 16, устройство 220 может содержать модуль 92 отделения для обеспечения первого и второго участков 12'a и 12'b аудиосигнала 12 в частотной области. Устройство 220 может содержать разные пути, каждый путь включает в себя, в качестве не ограничивающего примера, модуль 1181, 1182 выбеливания, соответственно, вместе с фильтром 1221, 1222 устранения шероховатости, соответственно, работающим, только в качестве не ограничивающего примера, во временной области. В качестве альтернативы или в дополнение каждый путь может содержать усилитель/аттенюатор 148. Таким образом, устройство 220 может быть выполнено с возможностью улучшения аудиосигнала 12 посредством улучшения разных участков 12'a и 12'b независимо друг от друга. Для такой цели устройство 220 может содержать анализатор 166 сигнала и таблицу 168 поиска, как описано в связи с фиг. 16.
В частности, устройство 220 может содержать анализатор 166 сигнала, выполненный с возможностью определения начальной частоты расширения частотной полосы в аудиосигнале 12, начальная частота расширения частотной полосы расположена между расширенной частотной полосой, например, добавленными отрезками w в соответствии с фиг. 70a-c или их обработанными версиями, аудиосигнала 12 и базовой частотной полосой, т.е., первоначальной частотной полосой, такой как частотная полоса аудиосигнала 91.
В связи с этим устройство может быть выполнено с возможностью адаптировать нижнюю частоту высокочастотного фильтра 152 (HPF) и/или верхнюю частоту низкочастотного фильтра 158 (LPF) в соответствии с начальной частотой расширения частотной полосы в аудиосигнале 12. Начальная частота расширения частотной полосы может быть принята посредством дополнительного канала или может быть определена анализатором 166 сигнала.
В соответствии с вариантом осуществления, который может быть объединен с независимым вариантом осуществления устройства 210 и с каждым из других вариантов осуществления четвертого аспекта, устройство может быть выполнено с возможностью адаптировать фильтр шероховатости и/или модуль улучшения сигнала, например, содержащий модуль 118 выбеливания, формирователь огибающей и т.п., для улучшения аудиосигнала 12 с использованием начальной частоты расширения частотной полосы в аудиосигнале. Например, на основе начальной частоты расширения частотной полосы в аудиосигнале 12 таблица поиска может обеспечить четыре разных параметра для каждого из блоков, которые должны быть отрегулированы, например, модуля 118 выбеливания, и/или фильтра 122 устранения шероховатости, и/или дополнительных блоков.
В соответствии с вариантом осуществления, который может быть объединен с каждым из других вариантов осуществления в соответствии с четвертым аспектом, фильтр 122 устранения шероховатости может быть расположен на первом пути, причем низкочастотный фильтр 158 может быть расположен на втором пути. Второй путь может содержать модуль 118 выбеливания для выравнивания сигнала на основе сигнала, обеспеченного или принятого от фильтра устранения шероховатости, т.е., порядок или последовательность модуля выбеливания и фильтра устранения шероховатости могут быть изменены.
В соответствии с дополнительным вариантом осуществления четвертого аспекта, который может быть объединен с каждым из других вариантов осуществления, фильтр 122 устранения шероховатости может быть расположен на первом пути, и низкочастотный фильтр 158 может быть расположен на втором пути. Устройство 220 может содержать модуль улучшения сигнала, выполненный с возможностью улучшать аудиосигнал на первом пути и по меньшей мере частично в частотной области, например, с использованием модуля 118 выбеливания и/или формирователя 116. Второй путь может содержать блок задержки, такой как задержка 156, для задержки аудиосигнала 12 на задержку, соответствующую задержке первого пути, вызванной временно-частотным преобразованием и частотно-временным преобразованием в допустимом диапазоне по большей мере ±10%, ±5% или ±2% и, вероятно, исключая задержку фильтра устранения шероховатости.
В соответствии с дополнительным вариантом осуществления, который может быть объединен с каждым из других вариантов осуществления в соответствии с четвертым аспектом, фильтр 122 устранения шероховатости является первым фильтром устранения шероховатости. Устройство содержит модуль отделения для приема спектра аудиосигнала 12 и для отделения первого участка 12'a спектра 12' аудиосигнала 12 от второго участка 12'b спектра аудиосигнала 12. Первый участок 12'a имеет первую характеристику сигнала, и второй участок 12'b имеет вторую характеристику сигнала. Устройство 220 может быть выполнено с возможностью обеспечения первого участка 12'a на первый путь, имеющий первый фильтр 1221 устранения шероховатости, и для обеспечения второго участка 12'b на третий путь, имеющий второй фильтр 1222 устранения шероховатости.
В соответствии с дополнительным вариантом осуществления, который может быть объединен с ранее упомянутым вариантом осуществления, устройство может быть выполнено с возможностью применять первое усиление gt к первому пути и второе усилению gs к третьему пути.
В соответствии с дополнительным вариантом осуществления четвертого аспекта, который может быть объединен с предыдущим и предпоследним вариантом осуществления, устройство может быть выполнено с возможностью регулировки первого фильтра 1221 устранения шероховатости и второго фильтра 1222 устранения шероховатости по-разному друг от друга с использованием начальной частоты расширения частотной полосы аудиосигнала 12.
В соответствии с дополнительным вариантом осуществления четвертого аспекта, который может быть объединен с последними тремя вариантами осуществления четвертого аспекта, модуль отделения содержит подавитель переходного участка, такой как подавитель 108 переходного участка, выполненный с возможностью приема аудиосигнала 12 и сокращения переходных участков в аудиосигнале 12, чтобы получить первый модифицированный аудиосигнал. Модуль 92 отделения выполнен с возможностью получения первого участка 12'a на основе первого модифицированного аудиосигнала, например, посредством использования первого модифицированного аудиосигнала в качестве первого участка 12'a. Модуль 92 отделения дополнительно содержит модуль 112 вычитания для вычитания первого модифицированного аудиосигнала из аудиосигнала 12, чтобы получить второй модифицированный сигнал. Модуль 92 отделения выполнен с возможностью получения второго участка на основе второго модифицированного аудиосигнала, например, посредством взятия второго модифицированного аудиосигнала в качестве второго участка 12'b.
В соответствии с дополнительным вариантом осуществления четвертого аспекта, который может быть объединен с последними четырьмя вариантами осуществления, первая характеристика сигнала является одной из следующих характеристик: a) частотный диапазон спектра среднего сигнала; b) характеристика прямого сигнала аудиосигнала; c) характеристика тонального сигнала аудиосигнала; и d) характеристика речевого сигнала аудиосигнала. Вторая характеристика сигнала представляет собой в соответствии с используемыми буквами: a) частотный диапазон спектра бокового сигнала; b) характеристика окружающего сигнала аудиосигнала; c) характеристика устойчивого сигнала аудиосигнала; и d) характеристика неречевого сигнала аудиосигнала.
В соответствии с дополнительным вариантом осуществления четвертого аспекта, который может быть объединен с каждым из других вариантов осуществления четвертого аспекта, улучшенный аудиосигнал 164 содержит второй отфильтрованный сигнал, сдвинутый по фазе по сравнению с первым отфильтрованным сигналом, т.е., область верхних частот сдвинута по фазе по сравнению с областью нижних частот.
Фиг. 23 показывает блок-схему последовательности этапов способа 4000 для обработки аудиосигнала. Способ 4000 содержит этап 4100, содержащий сдвиг фазы по меньшей мере участка аудиосигнала для получения сдвинутого по фазе сигнала. Этап 4200 содержит фильтрацию сдвинутого по фазе сигнала с использованием высокочастотного фильтра для получения первого отфильтрованного сигнала. Этап 4300 содержит фильтрацию аудиосигнала с использованием низкочастотного фильтра для получения второго отфильтрованного сигнала. Этап 4400 содержит объединение первого фильтрованного сигнала и второго фильтрованного сигнала для получения улучшенного аудиосигнала. Другими словами, подавление шероховатости искусственного расширения частотной полосы (ARS) предназначено для сокращения артефактов, таких как артефакт тонального всплеска и артефакт биений, как описано ранее. Как проиллюстрировано на фиг. 22, некоторые способы ARS или блоки также используются концепцией BWE, которая уже была описана ранее. Также следует отметить, что эти общепринятые методики или концепции могут использоваться с разными настройками параметров. В следующих разделах будут изложены различия между устройством 160 и устройством 220.
Анализатор сигнала используется для активации ARS на фиг. 22, с одной стороны, посредством обнаружения, был ли сигнал подвергнут искусственному расширению частотной полосы. С другой стороны, может быть выполнена оценка в реальном времени начальной частоты (частоты среза) искусственного расширения частотной полосы, которое было применено к настоящему сигналу. Описание сигнала анализирует, может ли концепция быть выполнена в соответствии с другими аспектами, описанными в настоящем документе. Результаты анализатора сигнала перенаправляются в таблицу 168 поиска для получения ее выходных данных, включающих в себя управляющие параметры, которые воздействуют на модули, показанные на фиг. 22. Таблица 168 поиска может содержать настройки параметров, которые были перцепционно настроены для нескольких начальных частот.
Таблица поиска для ARS может быть основана на таком же принципе, как и таблица поиска BWE, описанная в связи с фиг. 16, с тем отличием, что зависимая переменная может являться оценкой начальной частоты BWE. Также управляемые параметры могут отличаться.
Хотя некоторые аспекты были описаны в контексте устройства, понятно, что эти аспекты также представляют описание соответствующего способа, причем блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока, элемента или признака соответствующего устройства.
Закодированный аудиосигнал изобретения может быть сохранен на цифровом запоминающем носителе или может быть передан на передающем носителе, таком как беспроводной передающий носитель или проводной передающий носитель, например, Интернет.
Изобретение дополнительно содержит следующие аспекты.
В соответствии с первым аспектом устройство для обработки аудиосигнала содержит модуль 92 отделения для отделения первого участка 91'a спектра 91' аудиосигнала 91 от второго участка 91'b спектра 91' аудиосигнала 91, первый участок 91'a имеет первую характеристику сигнала, и второй участок 91'b имеет вторую характеристику сигнала; первый расширитель 941 частотной полосы для расширения частотной полосы первого участка 91'b с использованием первых параметров 961, ассоциированных с первой характеристикой сигнала, для получения первого расширенного участка 98a, 126a; второй расширитель 942 частотной полосы для расширения частотной полосы второго участка 91'b с использованием вторых параметров 962, ассоциированных со второй характеристикой сигнала, для получения второго расширенного участка 98b, 126b; и модуль 102 объединения, выполненный с возможностью использования первого расширенного участка 98a и второго расширенного участка 98b для получения расширенного объединенного аудиосигнала 104.
В соответствии со вторым аспектом со ссылкой на первый аспект первый расширитель 941 частотной полосы выполнен с возможностью расширения частотной полосы первого участка 91'a посредством добавления спектральных компонентов w к первому участку 91'a, второй расширитель 942 частотной полосы выполнен с возможностью расширения частотной полосы второго участка 91' посредством добавления спектральных компонентов w ко второму участку 91'b.
В соответствии с третьим аспектом со ссылкой на первый и второй аспекты первый расширитель 941 частотной полосы содержит первый модуль 1141 дублирования для дублирования по меньшей мере части w, 128 первого участка 91'a и для объединения по меньшей мере одной версии w дублированной части w, 117 первого участка с первым участком 91'a для получения расширенного участка 126a; и второй расширитель 942 частотной полосы содержит второй модуль 1142 дублирования для дублирования по меньшей мере части w, 129 второго участка 91'b и для объединения по меньшей мере одной версии дублированной части w, 128 второго участка со вторым участком 91'b для получения расширенного участка 126b.
В соответствии с четвертым аспектом со ссылкой на третий аспект часть w 128 первого участка содержит первый частотный диапазон Δfw в пределах от первой промежуточной частоты fcopy первого участка до максимальной частоты fc первого участка; и часть w, 128 второго участка содержит второй частотный диапазон Δfw в пределах от второй промежуточной частоты fcopy второго участка 91'b до максимальной частоты fc второго участка.
В соответствии с пятым аспектом со ссылкой на четвертый и пятый аспекты первый расширитель 941 частотной полосы содержит первый формирователь огибающей для формирования по меньшей мере дублированной части w, 128 расширенного первого участка, и второй расширитель 942 частотной полосы содержит второй формирователь 1162 огибающей для формирования по меньшей мере выделенной части расширенного второго участка 126b.
В соответствии с шестым аспектом со ссылкой на аспекты с первого по пятый первый расширитель 941 частотной полосы содержит первый модуль 1181 выбеливания для выравнивания по меньшей мере дублированной части w, 128 расширенного первого участка 126a, и второй расширитель 942 частотной полосы содержит второй модуль 1182 выбеливания для выравнивания по меньшей мере дублированной части w, 128 расширенного второго участка 126b.
В соответствии с седьмым аспектом со ссылкой на аспекты с первого по шестой первый расширитель 941 частотной полосы содержит первый фильтр 94, 1221 устранения шероховатости для сдвига фазы по меньшей мере части расширенного первого участка 126a, и второй расширитель 942 частотной полосы содержит второй фильтр 1222 устранения шероховатости для сдвига фазы по меньшей мере части расширенного второго участка 126b.
В соответствии с восьмым аспектом со ссылкой на седьмой аспект первый фильтр 1221 устранения шероховатости выполнен с возможностью сдвига фазы первого расширенного участка w, 128 или выявленного из него сигнала для получения первого сигнала со сдвигом фазы; и второй фильтр 1222 устранения шероховатости выполнен с возможностью сдвига фазы второго расширенного участка w, 128 или выявленного из него сигнала для получения второго сигнала со сдвигом фазы.
В соответствии с девятым аспектом со ссылкой на седьмой и восьмой аспекты первый фильтр 1221 устранения шероховатости выполнен с возможностью применения первого сдвига фазы, и второй фильтр 1222 устранения шероховатости выполнен с возможностью применения второго сдвига фазы.
В соответствии с десятым аспектом со ссылкой на аспекты с первого по девятый первая характеристика сигнала представляет собой одну из следующих характеристик
a) частотный диапазон спектра среднего сигнала;
b) характеристика прямого сигнала аудиосигнала;
c) характеристика тонального сигнала аудиосигнала; и
d) характеристика речевого сигнала аудиосигнала
и второй характеристикой сигнала является:
a) частотный диапазон спектра бокового сигнала;
b) характеристика окружающего сигнала аудиосигнала;
c) характеристика устойчивого сигнала аудиосигнала; и
d) характеристика неречевого сигнала аудиосигнала.
В соответствии с одиннадцатым аспектом со ссылкой на аспекты с первого по десятый аудиосигнал 91 содержит множество кадров, и устройство содержит анализатор 166 сигнала, выполненный с возможностью анализа, для каждого кадра, спектра 91' аудиосигнала 91 для характеристики, относящейся к искусственному ограничению частотной полосы аудиосигнала 91, и для определения частоты fc среза в аудиосигнале; устройство выполнено с возможностью использования первого и второго параметров 961, 962 для кадра, имеющего характеристику, относящуюся к искусственному ограничению частотной полосы; и устройство выполнено с возможностью использования третьих параметров для первого расширителя 941 частотной полосы и четвертых параметров для второго расширителя 942 частотной полосы для кадров, имеющих характеристику, отличающуюся от характеристики, относящейся к искусственному ограничению частотной полосы; или деактивировать первый и второй расширитель 941, 942 частотной полосы для кадров, имеющих характеристику, отличающуюся от характеристики, относящейся к искусственному ограничению частотной полосы.
В соответствии с двенадцатым аспектом со ссылкой на аспекты с первого по одиннадцатый устройство содержит таблицу 168 поиска, содержащую множество первых параметров p, 96, ассоциированных с соответствующим множеством параметров f1-f4, fc модификации сигнала, и множество вторых параметров p, 962, ассоциированных с соответствующим множеством f1-f4, fc параметров модификации сигнала; устройство содержит анализатор 166 сигнала для анализа спектра 91' для модификации, примененной к аудиосигналу 91; устройство выполнено с возможностью получения параметра f1-f4, fc модификации, ассоциированного с модификацией; и для получения первого параметра 961 и второй параметр 962 с использованием таблицы 168 поиска и использования параметра f1-f4, fc модификации.
В соответствии с тринадцатым аспектом со ссылкой на аспекты с первого по двенадцатый модуль 92 отделения содержит подавитель 108 переходного участка, выполненный с возможностью приема аудиосигнала 91' и сокращения переходных участков в аудиосигнале 91 для получения первого модифицированного аудиосигнала, модуль 92 отделения выполнен с возможностью получения первого участка 91'a на основе первого модифицированного аудиосигнала; модуль 112 вычитания для вычитания первого модифицированного аудиосигнала из аудиосигнала 91' для получения второго модифицированного сигнала 91'b, модуль 92 отделения выполнен с возможностью получения второго участка 91'b на основе второго модифицированного аудиосигнала.
В соответствии с четырнадцатым аспектом со ссылкой на аспекты с первого по тринадцатый модуль 102 объединения является первым модулем объединения, устройство содержит высокочастотный фильтр 152 для фильтрации первого расширенного участка 98'a и второго расширенного участка 98'b или для фильтрации объединенного аудиосигнала 104, в результате чего получается отфильтрованный объединенный аудиосигнал 154; низкочастотный фильтр 158 для фильтрации аудиосигнала 91 для получения отфильтрованного аудиосигнала; и второй модуль объединения 162, выполненный с возможностью объединения отфильтрованного объединенного аудиосигнала 154 и отфильтрованного аудиосигнала для получения аудиосигнал 164 с расширенной частотной полосой.
В соответствии с пятнадцатым аспектом устройство 210 для обработки аудиосигнала 12 содержит фильтр 122 устранения шероховатости для сдвига фазы по меньшей мере участка аудиосигнала 12 для получения сигнала 172 со сдвигом фазы; высокочастотный фильтр 152, выполненный с возможностью фильтрации сигнала 172 со сдвигом фазы для получения первого отфильтрованного сигнала 174; низкочастотный фильтр 158, выполненный с возможностью фильтрации аудиосигнала 12 для получения второго отфильтрованного сигнала 176; модуль 162 объединения, выполненный с возможностью объединения первого отфильтрованного сигнала 174 и второго отфильтрованного сигнала 176 для получения улучшенного аудиосигнала 178.
В соответствии с шестнадцатым аспектом способ 3000 для обработки аудиосигнала содержит отделение 3100 первого участка спектра аудиосигнала от второго участка спектра аудиосигнала, первый участок имеет первую характеристику сигнала, и второй участок имеет вторую характеристику сигнала; расширение 3200 частотной полосы первого участка с использованием первых параметров, ассоциированных с первой характеристикой сигнала, для получения первого расширенного участка; расширение 3300 частотной полосы второго участка с использованием вторых параметров, ассоциированных со второй характеристикой сигнала, для получения второго расширенного участка; и использование 3400 первого расширенного участка и второго расширенного участка для получения расширенного объединенного аудиосигнала.
В соответствии с семнадцатым аспектом способ 4000 для обработки аудиосигнала содержит сдвиг фазы 4100 по меньшей мере участка аудиосигнала для получения сигнала со сдвигом фазы; фильтрацию 4200 сигнала со сдвигом фазы с использованием высокочастотного фильтра для получения первого отфильтрованного сигнала; фильтрацию 4300 аудиосигнала с использованием низкочастотного фильтра для получения второго отфильтрованного сигнала; объединение 4400 первого отфильтрованного сигнала и второго отфильтрованного сигнала для получения улучшенного аудиосигнала.
В соответствии с восемнадцатым аспектом некратковременный запоминающий носитель имеет сохраненную на нем компьютерную программу, имеющую программный код, который при его исполнении на компьютере выполняет способ шестнадцатого или семнадцатого аспектов.
В зависимости от конкретных требований реализации варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя, например гибкого диска, DVD, CD, ПЗУ (ROM), ППЗУ (PROM), СППЗУ (EPROM), ЭСППЗУ (EEPROM) или флэш-памяти, имеющего сохраненные на нем электронно-читаемые управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ.
Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий электронно-читаемые управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой таким образом, что выполняется один из способов, описанных в настоящем документе.
В целом варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, программный код выполнен с возможностью выполнять один из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код программы, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в настоящем документе способов, сохраненную на машиночитаемом носителе.
Другими словами, вариант осуществления способа изобретения, таким образом, представляет собой компьютерную программу, имеющую программный код для выполнения одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.
Дополнительный вариант осуществления способов изобретения, таким образом, представляет собой носитель данных (или цифровой запоминающий носитель, или компьютерно-читаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из описанных здесь способов.
Дополнительный вариант осуществления способа изобретения, таким образом, представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из описанных здесь способов. Поток данных или последовательность сигналов могут быть выполнены с возможностью передаваться через соединение передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью выполнять один из описанных здесь способов.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из описанных в настоящем документе способов.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторых или всех функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы выполнять один из описанных здесь способов. В целом способы предпочтительно выполняются любым аппаратным устройством.
Описанные выше варианты осуществления являются лишь иллюстративными для принципов настоящего изобретения. Подразумевается, что модификации и изменения описанных здесь конфигураций и подробностей, будут очевидны для специалистов в области техники. Таким образом, изобретение ограничено только объемом следующей формулы изобретения, а не конкретными деталями, представленными посредством описания и объяснения вариантов осуществления настоящего изобретения.
СПИСОК ЛИТЕРАТУРЫ
[1] M. Arora, J. Lee, and S. Park, "High quality blind bandwidth extension of audio for portable player applications, " in Proc. of the AES 120th Conv., 2006.
[2] Markus Erne, "Perceptual audio coders "what to listen for?"," in Audio Engineering Society Convention 111, Nov 2001.
[3] Chia-Ming Chang, Han-Wen Hsu, Kan-Chun Lee, Wen-Chieh Lee, Chi-Min Liu, Shou-Hung Tang, Chung-Han Yang, and Yung-Cheng Yang, "Compression artifacts in perceptual audio coding," in Audio Engineering Society Convention 121, Oct 2006.
[4] Martin Dietz, Lars Liljeryd, Kristofer and Oliver Kunz, "Spectral band replication, a novel approach in audio coding," in Audio Engineering Society Convention 112, Apr 2002.
[5] Sascha Disch, Andreas Niedermeier, Christian R. Helmrich, Christian Neukam, Konstantin Schmidt, Ralf Geiger, Jeremie Lecomte, Florin Ghido, Frederik Nagel and Bernd Edler, "Intelligent gap filling in perceptual transform coding of audio," in Audio Engineering Society Convention 141, Sep 2016.
Изобретение относится к средствам для обработки аудиосигнала. Технический результат заключается в повышении эффективности обработки аудиосигнала. Отделяют первый участок спектра аудиосигнала от второго участка спектра аудиосигнала, первый участок имеет первую характеристику сигнала, и второй участок имеет вторую характеристику сигнала. Расширяют частотную полосу первого участка с использованием первых параметров. Расширяют частотную полосу второго участка с использованием вторых параметров. Используют первый расширенный участок и второй расширенный участок для получения расширенного объединенного аудиосигнала. Сдвигают фазу по меньшей мере участка аудиосигнала для получения сигнала со сдвигом фазы. Фильтруют сигнал со сдвигом фазы с использованием высокочастотного фильтра для получения первого отфильтрованного сигнала. Фильтруют аудиосигнал с использованием низкочастотного фильтра для получения второго отфильтрованного сигнала. Объединяют отфильтрованные сигналы для получения улучшенного аудиосигнала. 5 н. и 16 з.п. ф-лы, 33 ил.
1. Устройство для обработки аудиосигнала, причем устройство содержит:
модуль (92) отделения для отделения первого участка (91’a) спектра (91’) аудиосигнала (91) от второго участка (91’b) спектра (91’) аудиосигнала (91), первый участок (91’a) имеет первую характеристику сигнала, и второй участок (91’b) имеет вторую характеристику сигнала;
первый расширитель (941) частотной полосы для расширения частотной полосы первого участка (91’b) с использованием первых параметров (961), ассоциированных с первой характеристикой сигнала, для получения первого расширенного участка (98a, 126a);
второй расширитель (942) частотной полосы для расширения частотной полосы второго участка (91’b) с использованием вторых параметров (962), ассоциированных со второй характеристикой сигнала, для получения второго расширенного участка (98b, 126b); и
модуль (102) объединения, выполненный с возможностью использования первого расширенного участка (98a) и второго расширенного участка (98b) для получения расширенного объединенного аудиосигнала (104).
2. Устройство по п. 1, в котором первый расширитель (941) частотной полосы выполнен с возможностью расширения частотной полосы первого участка (91’a) посредством добавления спектральных компонентов (w) к первому участку (91’a), при этом второй расширитель (942) частотной полосы выполнен с возможностью расширения частотной полосы второго участка (91’b) посредством добавления спектральных компонентов (w) ко второму участку (91’b).
3. Устройство по п. 1, в котором первый расширитель (941) частотной полосы содержит первый модуль (1141) дублирования для дублирования по меньшей мере части (w, 128) первого участка (91’a) и для объединения по меньшей мере одной версии (w) дублированной части (w, 117) первого участка с первым участком (91’a), чтобы получить расширенный участок (126a); и
в котором второй расширитель (942) частотной полосы содержит второй модуль (1142) дублирования для дублирования по меньшей мере части (w, 129) второго участка (91’b) и для объединения по меньшей мере одной версии дублированной части (w, 128) второго участка со вторым участком (91’b), чтобы получить расширенный участок (126b).
4. Устройство по п. 3, в котором часть (w, 128) первого участка содержит первый частотный диапазон (Δfw), простирающийся от первой промежуточной частоты (fcopy) первого участка до максимальной частоты (fc) первого участка; и
в котором часть (w, 128) второго участка содержит второй частотный диапазон (Δfw), простирающийся от второй промежуточной частоты (fcopy) второго участка (91’b) до максимальной частоты (fc) второго участка.
5. Устройство по п. 3, в котором первый расширитель (941) частотной полосы содержит первый формирователь огибающей для придания формы по меньшей мере дублированной части (w, 128) расширенного первого участка, и в котором второй расширитель (942) частотной полосы содержит второй формирователь (1162) огибающей для придания формы по меньшей мере выделенной части расширенного второго участка (126b).
6. Устройство по п. 1, в котором первый расширитель (941) частотной полосы содержит первый модуль (1181) выбеливания для выравнивания по меньшей мере дублированной части (w, 128) расширенного первого участка (126a), и в котором второй расширитель (942) частотной полосы содержит второй модуль (1182) выбеливания для выравнивания по меньшей мере дублированной части (w, 128) расширенного второго участка (126b).
7. Устройство по п. 1, в котором первый расширитель (941) частотной полосы содержит первый фильтр (94, 1221) устранения шероховатости для сдвига фазы по меньшей мере части расширенного первого участка (126a), и в котором второй расширитель (942) частотной полосы содержит второй фильтр (1222) устранения шероховатости для сдвига фазы по меньшей мере части расширенного второго участка (126b).
8. Устройство по п. 7, в котором первый фильтр (1221) устранения шероховатости выполнен с возможностью сдвига фазы первого расширенного участка (w, 128) или выявленного из него сигнала, чтобы получить первый сдвинутый по фазе сигнал; и
в котором второй фильтр (1222) устранения шероховатости выполнен с возможностью сдвига фазы второго расширенного участка (w, 128) или выявленного из него сигнала, чтобы получить второй сдвинутый по фазе сигнал.
9. Устройство по п. 7, в котором первый фильтр (1221) устранения шероховатости выполнен с возможностью применения первого сдвига фазы, и в котором второй фильтр (1222) устранения шероховатости выполнен с возможностью применения второго сдвига фазы.
10. Устройство по п. 1,
в котором первая характеристика сигнала представляет собой одну из следующих характеристик
a) частотный диапазон спектра среднего сигнала;
b) характеристика прямого сигнала аудиосигнала;
c) характеристика переходного сигнала аудиосигнала;
d) характеристика речевого сигнала аудиосигнала; и
e) характеристика тонального сигнала аудиосигнала;
и в котором для пунктов с a) по d) первой характеристики сигнала второй характеристикой сигнала является:
a) частотный диапазон спектра бокового сигнала;
b) характеристика окружающего сигнала аудиосигнала;
c) характеристика устойчивого сигнала аудиосигнала; и
d) характеристика неречевого сигнала аудиосигнала; или
e) характеристика нетонального сигнала аудиосигнала.
11. Устройство по п. 1,
в котором первая характеристика сигнала или вторая характеристика сигнала представляют собой одно из следующего:
a) декомпозиция на основе "среднего–бокового" сигнала;
b) характеристика прямого сигнала аудиосигнала;
c) характеристика тонального сигнала аудиосигнала; и
d) характеристика переходного сигнала аудиосигнала; и
e) характеристика речевого сигнала аудиосигнала;
и причем для пунктов с a) по e) первой характеристики сигнала участок, имеющий вторую характеристику сигнала, представляет собой оставшийся сигнал от разности входного сигнала и участка, имеющего первую характеристику сигнала с a) по e).
12. Устройство по п. 1, в котором аудиосигнал (91) содержит множество кадров, и причем устройство содержит анализатор (166) сигнала, выполненный с возможностью анализа, для каждого кадра, спектра (91’) аудиосигнала (91) для характеристики, указывающей, что аудиосигнал был подвергнут искусственному ограничению частотной полосы аудиосигнала (91), и определения частоты среза (fc) в аудиосигнале;
причем устройство выполнено с возможностью использования первого и второго параметров (961, 962) для кадра, имеющего характеристику, относящуюся к искусственному ограничению частотной полосы; и
причем устройство выполнено с возможностью использования третьих параметров для первого расширителя (941) частотной полосы и четвертых параметров для второго расширителя (942) частотной полосы для кадров, имеющих характеристику, отличающуюся от характеристики, относящейся к искусственному ограничению частотной полосы.
13. Устройство по п. 1, причем устройство содержит таблицу (168) поиска, содержащую множество первых параметров (p, 96), ассоциированных с соответствующим множеством параметров (f1–f4, fc) модификации сигнала и множеством вторых параметров (p, 962), ассоциированных с соответствующим множеством параметров (f1–f4, fc) модификации сигнала; причем устройство содержит анализатор (166) сигнала для анализа спектра (91’) для модификации, применяемой к аудиосигналу (91); причем устройство выполнено с возможностью получения параметра (f1–f4, fc) модификации, ассоциированного с модификацией; и получения первого параметра (961) и второго параметра (962) с использованием таблицы (168) поиска и с использованием параметра (f1–f4, fc) модификации.
14. Устройство по п. 13, причем устройство выполнено с возможностью выявлять крутизну наклона спектра как параметр модификации.
15. Устройство по п. 14, причем устройство выполнено с возможностью анализа спектра с использованием функции спектрального различия.
16. Устройство по п. 1, в котором модуль (92) отделения содержит:
подавитель (108) переходного участка, выполненный с возможностью приема аудиосигнала (91’) и сокращения переходных участков в аудиосигнале (91) для получения первого модифицированного аудиосигнала, причем модуль (92) отделения выполнен с возможностью получения первого участка (91’a) на основе первого модифицированного аудиосигнала;
модуль (112) вычитания для вычитания первого модифицированного аудиосигнала из аудиосигнала (91’) для получения второго модифицированного сигнала (91'b), причем модуль (92) отделения выполнен с возможностью получения второго участка (91’b) на основе второго модифицированного аудиосигнала.
17. Устройство по п. 1, в котором модуль (102) объединения является первым модулем объединения, причем устройство содержит:
высокочастотный фильтр (152) для фильтрации первого расширенного участка (98’a) и второго расширенного участка (98’b) или для фильтрации объединенного аудиосигнала (104), в результате чего получается отфильтрованный объединенный аудиосигнал (154);
низкочастотный фильтр (158) для фильтрации аудиосигнала (91) для получения отфильтрованного аудиосигнала; и
второй модуль (162) объединения, выполненный с возможностью объединения отфильтрованного объединенного аудиосигнала (154) и отфильтрованного аудиосигнала для получения подвергнутого расширению частотной полосы аудиосигнала (164).
18. Устройство (210) для обработки аудиосигнала (12), причем устройство содержит:
фильтр (122) устранения шероховатости для сдвига фазы по меньшей мере участка аудиосигнала (12), чтобы получить сигнал (172) со сдвигом фазы;
высокочастотный фильтр (152), выполненный с возможностью фильтрации сигнала (172) со сдвигом фазы, чтобы получить первый отфильтрованный сигнал (174);
низкочастотный фильтр (158), выполненный с возможностью фильтрации аудиосигнала (12), чтобы получить второй отфильтрованный сигнал (176);
модуль (162) объединения, выполненный с возможностью объединения первого отфильтрованного сигнала (174) и второго отфильтрованного сигнала (176) для получения улучшенного аудиосигнала (178).
19. Способ (3000) для обработки аудиосигнала, причем способ содержит этапы, на которых:
отделяют (3100) первый участок спектра аудиосигнала от второго участка спектра аудиосигнала, первый участок имеет первую характеристику сигнала, и второй участок имеет вторую характеристику сигнала;
расширяют (3200) частотную полосу первого участка с использованием первых параметров, ассоциированных с первой характеристикой сигнала, для получения первого расширенного участка;
расширяют (3300) частотную полосу второго участка с использованием вторых параметров, ассоциированных со второй характеристикой сигнала, для получения второго расширенного участка; и
используют (3400) первый расширенный участок и второй расширенный участок для получения расширенного объединенного аудиосигнала.
20. Способ (4000) для обработки аудиосигнала, причем способ содержит этапы, на которых:
сдвигают фазу (4100) по меньшей мере участка аудиосигнала для получения сигнала со сдвигом фазы;
фильтруют (4200) сигнал со сдвигом фазы с использованием высокочастотного фильтра для получения первого отфильтрованного сигнала;
фильтруют (4300) аудиосигнал с использованием низкочастотного фильтра для получения второго отфильтрованного сигнала;
объединяют (4400) первый отфильтрованный сигнал и второй отфильтрованный сигнал для получения улучшенного аудиосигнала.
21. Некратковременный запоминающий носитель, имеющий сохраненную на нем компьютерную программу, имеющую программный код для выполнения, при его исполнении на компьютере, способа по п. 19 или 20.
Токарный резец | 1924 |
|
SU2016A1 |
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз | 1924 |
|
SU2014A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
Колосоуборка | 1923 |
|
SU2009A1 |
RU 2015138115 A, 15.03.2017. |
Авторы
Даты
2020-10-05—Публикация
2018-03-29—Подача