Область техники, к которой относится изобретение
Предлагаемая технология относится к кодированию и декодированию аудиосигналов, в частности к поддержке расширения полосы частот (BWE) гармонических аудиосигналов.
Уровень техники
Кодирование на основе преобразования представляет собой наиболее часто используемую схему в современных системах сжатия/передачи аудиосигнала. Основные этапы в такой схеме состоят в том, что вначале преобразуют короткий блок колебаний сигнала в области частоты, используя соответствующее преобразование, например DFT (дискретное преобразование Фурье), DCT (дискретное косинусное преобразование), или MDCT (модифицированное дискретное косинусное преобразование). Коэффициенты преобразования затем квантуют, передают или сохраняют и затем используют для реконструкции аудиосигнала. Такой подход хорошо работает для общих аудиосигналов, но требуют достаточно большой частоты передачи битов для формирования достаточно хорошего представления коэффициентов преобразования. Ниже будет представлен обзор на высоком уровне таких схем кодирования в области преобразования.
На основе от блока к блоку форму колебаний, которая требуется для кодирования, преобразуют в область частоты. Одно обычно используемое преобразование, применяемое с этой целью, представляет собой так называемое модифицированное дискретное косинусное преобразование (MDCT). Полученный таким образом вектор преобразования области частоты разделяют на огибающую спектра (медленно изменяющаяся энергия) и спектральные остатки. Спектральный остаток получают путем нормализации полученного вектора в области частоты с упомянутой спектральной огибающей. Спектральную огибающую квантуют и показатели квантования передают в декодер. Затем квантованную огибающую спектра используют как входные данные для алгоритма распределения битов и биты для кодирования остаточных векторов распределяют на основе характеристик спектральной огибающей. В качестве результата на этом этапе определенное количество битов назначают для разных частей остатка (остаточные векторы или "подвекторы"). Некоторые остаточные векторы не принимают какие-либо биты и должны быть заполнены шумами или расширены на полосу частот. Как правило, кодирование остаточных векторов представляет собой процедуры, выполняемые в два этапа; вначале кодируют амплитуду элементов векторов и затем кодируют знак (который не должен противоречить "фазе", которая ассоциирована, например, с преобразованиями Фурье) ненулевых элементов. Показатели квантования для остаточной амплитуды и знака передают в декодер, где остаточные данные и спектральную огибающую комбинируют и, в конечном итоге, преобразуют снова в область времени.
Пропускная способность в телекоммуникационных сетях постоянно повышается. Однако, несмотря на увеличение пропускной способности, все еще существует сильное побуждение для ограничения требуемой полосы пропускания для канала передачи данных. В мобильных сетях меньшая полоса пропускания для каждого вызова позволяет обеспечить меньшее потребление энергии как в мобильном устройстве, так и в базовой станции, обслуживающей это устройство. Это можно перевести в экономию энергии и стоимости для оператора мобильной связи, в то время как конечный пользователь получит удлиненный срок службы батареи и увеличенное время на разговоры. Кроме того, чем меньше полоса пропускания, потребляемая каждым пользователем, тем большее количество пользователей может быть обслужено (параллельно) мобильной сетью.
Один из способов улучшения качества аудиосигнала, который требуется передать, используя низкую или умеренную частоту передачи битов, состоит в том, чтобы фокусировать доступные биты для точного представления низких частот в аудиосигнале. Затем технологии BWE могут использоваться для моделирования более высоких частот на основе более низких частот, для которых требуется только малое количество битов. Основа этих технологий состоит в том, что чувствительность слуховой системы человека зависит от частоты. В частности, слуховая система человека, то есть наше слуховое восприятие в меньшей степени является точной для более высоких частот.
В типичной схеме BWE в области частоты коэффициенты преобразования высокой частоты группируют по полосам. Усиление (энергию) для каждой частоты рассчитывают, квантуют и передают (в декодер сигнала). В декодере, перевернутую или транслированную и нормализованную по энергии версию принятых коэффициентов низкой частоты масштабируют с усилением высокой частоты. Таким образом, BWE не является "абсолютно слепым", поскольку, по меньшей мере, спектральная энергия напоминает целевой сигнал в полосе высокой частоты.
Однако BWE определенных аудиосигналов может привести к тому, что аудиосигналы будут содержать дефекты, которые являются раздражающими для слушателя.
Сущность изобретения
Здесь предложена технология для поддержки и улучшения BWE гармонических аудиосигналов.
В соответствии с первым аспектом предложен способ преобразования аудиодекодера. Способ выполнен с возможностью поддержки расширения полосы частот BWE гармонического аудиосигнала. Предложенный способ может содержать прием множества значений усиления, ассоциированных с полосой b частот, и количества соседних полос частот для полосы b. Предложенный способ дополнительно содержит: определяют, содержит ли реконструированная соответствующая полоса bʹ расширенной области частот полосы частот спектральный пик. Кроме того, если полоса частот содержит, по меньшей мере, один спектральный пик, способ содержит: устанавливают значение Gb усиления, ассоциированное с полосой bʹ для первого значения на основе принятого множества значений усиления. Если полоса не содержит какой-либо спектральный пик, способ содержит: устанавливают значение Gb усиления, ассоциированное с полосой bʹ, до второго значения на основе принятого множества значений усиления. Таким образом, обеспечивается возможность сведения значений усиления, в соответствии с положениями пика в расширенной полосе частот спектра.
Кроме того, способ может содержать: принимают параметр или коэффициент α, отражающий взаимоотношения между энергией пика и энергией минимального уровня шума, по меньшей мере, участка для части высокой частоты исходного сигнала. Способ может дополнительно содержать: смешивают коэффициенты преобразования соответствующего реконструированного участка высокой частоты с шумами на основе принятого коэффициента α. Таким образом, обеспечивается возможность реконструкции/эмуляции шумовых характеристик части высокой частоты оригинального сигнала.
В соответствии со вторым аспектом предложен аудиодекодер преобразования или кодек для поддержки расширения полосы пропускания BWE или гармонического аудиосигнала. Аудиокодек преобразования может содержать функциональные модули и выполнен с возможностью выполнения действий, описанных выше. Кроме того, предложен аудиокодер преобразования или кодек, содержащий функциональные блоки и выполненный с возможностью вывода и предоставления одного или больше параметров, обеспечивающих описанное здесь смешивание шумов, когда их предоставляют в аудиодекодер преобразования.
В соответствии с третьим аспектом, предложен терминал пользователя, который содержит аудиокодек преобразования, в соответствии со вторым аспектом. Терминал пользователя может представлять собой устройство, такое как мобильный терминал, планшетный компьютер, компьютер, смартфон и т.п.
Краткое описание чертежей
Предложенная технология будет более подробно описана ниже со ссылкой на примерные варианты осуществления и со ссылкой на приложенные чертежи, на которых:
на фиг. 1 показан гармонический аудиоспектр, то есть спектр гармонического аудиосигнала. Такой тип спектра является типичным для, например, звуков одного инструмента, вокальных звуков и т.д.;
на фиг. 2 показан гармонический аудио спектр с расширенной полосой частот;
на фиг. 3a показан спектр BWE (также представленный на фиг. 2), масштабированный с соответствующими коэффициентами усиления
на фиг. 3b показан спектр BWE, масштабированный с модифицированными коэффициентами
на фиг. 4а и 4b показаны блок-схемы последовательности операций, иллюстрирующие действия в процедуре аудиодекодера преобразовании, в соответствии с примерными вариантами осуществления;
на фиг. 5 показана блок-схема, иллюстрирующая аудиодекодер преобразования, в соответствии с примерным вариантом осуществления;
на фиг. 6 показана блок-схема последовательности операций, иллюстрирующая действия в процедуре аудиокодера преобразовании, в соответствии с примерным вариантом осуществления;
на фиг. 7 показана блок-схема, иллюстрирующая аудиокодер преобразования, в соответствии с примерным вариантом осуществления;
на фиг. 8 показана блок-схема, иллюстрирующая компоновку в аудиодекодере преобразования, в соответствии с примерным вариантом осуществления.
Подробное описание изобретения
Расширение полосы частот гармонических аудиосигналов ассоциировано с некоторыми проблемами, как обозначено выше. В декодере, когда низкую полосу, то есть часть полосы частот, которая была кодирована, передана и декодирована, переворачивают или транслируют в форму для высокой полосы, нет уверенности в том, что спектральные пики заканчиваются в тех же полосах, что и спектральные пики в оригинальном сигнале, или "истинной" высокой полосе. Спектральный пик из низкой полосы может заканчиваться в полосе, где оригинальный сигнал не имеет пика. Также возможен противоположный случай, то есть, когда часть сигнала низкой полосы, которая не имеет пика, заканчивается (после переворачивания или трансляции) в полосе, где оригинальный сигнал имеет пик. Пример гармонического спектра представлен на фиг. 1, и пример концепции BWE представлен на фиг. 2, которая будет дополнительно описана ниже.
Эффект, описанный выше, может привести к серьезному снижению качества для сигналов с, в основном, гармоническим содержанием. Причина этого состоит в том, что такое рассогласование между положениями пиков и усиления приводит либо к ненужной аттенюации пика, или к усилению спектральных коэффициентов низкой энергии между двумя спектральными пиками.
Описанное здесь решение относится к новому способу, для управления усилениями в полосах, в расширенной области полосы частот, на основе информации о положениях пиков. Кроме того, предложенный здесь алгоритм BWE может управлять "спектральными пиками по коэффициенту минимального уровня шума", используя переданные уровни соединения шумов. Это приводит к получению BWE, который сохраняет величину структуры в расширенных высоких частотах.
Решение, описанное здесь, пригодно для использования с гармоническими аудиосигналами. На фиг. 1 показан частотный спектр гармонического аудиосигнала, который также может быть обозначен, как гармонические спектры. Как можно видеть на чертеже, спектр содержит пики. Такой тип спектра является типичным, например, для звуков одного инструмента, такого как флейта, или вокальных звуков, и т.д.
Здесь будут описаны две части спектра гармонического аудиосигнала. Одна нижняя часть, содержащая более низкие частоты, где "нижний" обозначает более нижний, чем часть, которая будет подвергнута расширению полосы частот; и одна верхняя часть, содержащая более высокие частоты, то есть более высокие, чем нижняя часть. Выражения, такие как "нижняя часть" или "низкие/более низкие частоты", используемые здесь, относятся к части гармонического аудиоспектра ниже частоты перехода BWE (см. фиг. 2). Аналогично, выражения, такие как "верхняя часть" или "высокие/более высокие частоты", относятся к части гармонического аудиоспектра выше частоты перехода BWE (см. фиг. 2).
На фиг. 2 показан спектр гармонического аудиосигнала. Здесь эти две части, описанные ниже, можно рассматривать как более низкую часть, находящуюся слева от частоты перехода BWE, и верхнюю часть, находящуюся справа от частоты перехода BWE. На фиг. 2 оригинальный спектр, то есть спектр оригинального аудиосигнала (как можно видеть на стороне кодера) представлен светло-серым цветом. Расширенная часть полосы частот спектра представлена темным/более темным серым цветом. Расширенная часть полосы частот спектра не кодируется кодером, но восстанавливается декодером, используя принятую нижнюю часть спектра, как описано выше. На фиг. 2 можно видеть, для сравнения, как оригинальный (светло-серый) спектр, так и спектр BWE (темно-серый) для более высоких частот. Оригинальный спектр для более высоких частот является неизвестным для декодера, за исключением величины усиления для каждой полосы BWE (или высокочастотной полосы). Полосы BWE разделены пунктирными линиями на фиг. 2.
Фиг. 3a можно рассмотреть для лучшего понимания проблемы рассогласования между значениями усиления и положениями пика в расширенной части полосы частот спектра. В полосе 302а исходный спектр содержит пик, но восстановленный спектр BWE не содержит пик. Это можно видеть в полосе 202 на фиг. 2. Таким образом, когда коэффициент усиления, который рассчитывают для исходной полосы, содержащей пик, применяют для полосы BWE, которая не содержит пик, спектральные коэффициенты с низкой энергией в полосе BWE усиливают, как можно видеть в полосе 302а.
Полоса 304а на фиг. 3a представляет противоположную ситуацию, то есть, когда соответствующая полоса исходного спектра не содержит пик, но соответствующая полоса восстановленного спектра BWE содержит пик. Таким образом, полученный коэффициент усиления для полосы (принятый из кодера) рассчитывают для полосы с низкой энергией. Когда этот коэффициент усиления применяют для соответствующей полосы, которая содержит пик, в результате получают ослабленный пик, как можно видеть в полосе 304а на фиг. 3a. С точки зрения перцепционного или психоакустического восприятия, ситуация, показанная в полосе 302а, хуже для слушателя, чем ситуация в полосе 304а, по различным причинам. Таким образом, для простоты описания; обычно для слушателя более неприятно испытывать ненормальное присутствие компонента звука, чем ненормальное отсутствие компонента звука.
Ниже будет описан пример нового алгоритма BWE, иллюстрирующий описанную здесь концепцию.
Пусть Y(k) обозначают набор коэффициентов преобразования в области BWE (коэффициенты преобразования высокой частоты). Эти коэффициенты преобразования группируют по B полосам
Первый этап в алгоритме BWE состоит в расчете коэффициента усиления для всех
полос:
Эти коэффициенты усиления квантуют
Второй этап (который является необязательным) в алгоритме BWE состоит в расчете параметра смешения шумов или коэффициента α, который представляет собой функцию, например, средней энергии
Здесь параметр α был выведен в соответствии с Уравнением (3), представленным ниже. Однако точное используемое выражение может быть выбрано разными путями, например, в зависимости от того, что является соответствующим для используемого типа кодека или квантователя, и т.д.
Энергия пика и уровня шумов может быть рассчитана, например, путем отслеживания соответствующего максимального и минимального спектра энергии.
Параметр α смеси шумов может быть квантован с использованием малого количества битов. Здесь, в качестве примера, α квантуют 2 битами. Когда параметр α смеси шумов квантуют, получают параметр
Операции декодера:
Декодер выделяет из потока битов набор рассчитанных квантованных коэффициентов усиления
Пусть
Диапазон параметра или коэффициента смешивания шумов можно установить различным способами. Например, здесь, диапазон для коэффициента смешивания шумов был установлен, как α∈[0,0.4). Такой диапазон означает, например, что в определенных случаях вклад шумов полностью игнорируется (α=0), и в определенных случаях кодовая книга шумов составляет до 40% в смешанном векторе (α=0,4), который представляет собой максимальный вклад, когда используется этот диапазон. Причина введения такого вида смеси шумов, где полученный в результате вектор содержит, например, от 60% до 100% оригинальной структуры низкой частоты, состоит в том, что часть высокой частоты спектра обычно является более зашумленной, чем часть низкой частоты спектра. Поэтому, операция смешивания шумов, описанная выше, создает вектор, который обладает статистическими свойствами более похожими на часть высокой частоты спектра оригинального сигнала, по сравнению с областью высокочастотного спектра BWE, состоящей из перевернутой или транслированной области низкочастотного спектра. Такая операция смешивания шумов может быть выполнена независимо от разных частей области BWE, например, если множество коэффициентов (α) смешивания шумов будут предусмотрены и приняты.
В решениях предшествующего уровня техники набор принятых квантованных коэффициентов усиления
Например, флаг fp(b) может использоваться для обозначения, содержат ли пики коэффициенты частоты, перемещенные (перевернутые или транслированные) в полосу b в области BWE. Например, fp(b)=1 может обозначать, что полоса b содержит, по меньшей мере, один пик, и fp(b)=0 может обозначать, что полоса b не содержит никакого пика. Как упомянуто выше, каждая полоса b в области BWE ассоциирована с усилением
Мотивация для такой модификации усиления состоит в следующем: в случае когда полоса (BWE) содержит пик (fp(b)=1), для исключения ослабления этого пика, в случае когда соответствующее усиление поступает из полосы (оригинального сигнала) без каких-либо пиков, усиление для этой полосы модифицируют так, чтобы оно представляло собой взвешенную сумму усилений текущей полосы и для двух соседних полос. В примерном уравнении (5а), представленном выше, значения веса равны, то есть 1/3, что приводит к тому, что модифицированное усиление представляет собой среднее значение усиления для текущей полосы и коэффициенты усилений для двух соседних полос. Альтернативная модификация усиления может быть достигнута, в соответствии, например, со следующим уравнением:
В случае когда полоса не содержит пик (fp(b)=0), не требуется усиливать шумоподобную структуру в этой полосе путем применения сильного усиления, которое было рассчитано из исходной полосы сигнала, которая содержала один или больше пиков. Для исключения этого, усиление для этой полосы выбирают так, чтобы оно было, например, минимальным среди усилений текущей полосы и коэффициентов усиления двух соседних полос. Усиление для полосы, содержащей пик, в качестве альтернативы, можно выбрать или рассчитать как взвешенную сумму, такую как, например, среднее значение по более чем 3 полосам, например от 5 до 7 полос, или может быть выбрано как медианное значение, например 3, 5 или 7 полос. Используя взвешенную сумму, такую как среднее или медианное значение, пик, наиболее вероятно, будет несколько ослаблен, по сравнению со случаем использования "истинного" усиления. Однако, ослабление по сравнению с "истинным" усилением может быть предпочтительным, по сравнению с противоположным случаем, поскольку умеренное ослабление лучше с точки зрения восприятия, по сравнению с усилением, приводящим к преувеличенным аудиокомпонентам, как упомянуто выше.
Случай несоответствия пиков и, таким образом, причина для модификации усиления, представляет собой то, что спектральные полосы размещены на заданной сетке, но положения пиков и пики (после переворачивания или трансляции коэффициентов низкой частоты) изменяются с течением времени. Это может привести к тому, что пики поступают в полосу или выходят из полосы неконтролируемым образом. Таким образом, положения пика в части BWE спектра не обязательно соответствуют положениям пика оригинального сигнала, и, таким образом, может присутствовать несоответствие между коэффициентом усиления, ассоциированным с полосой, и содержанием пика полосы. Пример масштабирования с немодифицированными значениями усиления представлены на фиг. 3a, и масштабирование с модифицированными коэффициентами усилениями показано на фиг. 3b.
Результат использования модифицированных коэффициентов усиления, как представлено здесь, можно видеть на фиг. 3b. В полосе 302b спектральные коэффициенты низкой энергии больше не являются такими, как усиленные в полосе 302а на фиг. 3a, но их масштабируют с более соответствующим усилением в полосе. Кроме того, пик в полосе 304b больше не ослабляют, как пик в полосе 304а на фиг. 3a. Спектр, иллюстрируемый на фиг. 3b, наиболее вероятно, соответствует аудиосигналу, который является более приятным для слушателя, чем аудиосигнал, соответствующий спектру на фиг. 3a.
Таким образом, алгоритм BWE может создавать высокочастотную часть спектра. Поскольку (например, по причинам экономии полосы частот), набор высокочастотных коэффициентов Yb не доступен в декодере, коэффициенты
Набор коэффициентов
Решение, описанное здесь, представляет собой улучшение концепции BWE, обычно используемой при преобразовании области кодирования аудиосигнала. Представленный алгоритм предотвращает структуру с пиками (отношение пика к уровню шумов) в области BWE, таким образом, обеспечивая улучшенное качество звука реконструированного сигнала.
Термин “аудиокодек преобразования” или “кодек преобразования” охватывает любую пару из кодера и декодер и представляет собой термин, который обычно используется в данной области техники. В данном раскрытии термины “аудиокодер преобразования” или ʺкодерʺ и “аудиодекодер преобразования” или ʺдекодерʺ используются для отдельного описания функций/частей преобразования кодека. Термины “аудиокодер преобразования”/ʺкодерʺ и “аудиодекодер преобразования”/ʺдекодерʺ, таким образом, можно взаимно заменять термином ʺаудиокодек преобразования” или “кодек преобразования”.
Примерные процедуры декодера, фиг. 4а и 4b.
Примерная процедура, выполняемая в декодере для поддержки расширения полосы частот, BWE, или гармонического аудиосигнала будет описана ниже, со ссылкой на фиг. 4а. Процедура пригодна для использования в аудиокодере преобразования, таком как, например, кодер MDCT или другой кодер. Предполагается, что аудиосигнал, в основном, представляет собой музыку, но также, в качестве альтернативы, может содержать, например, речь.
Значение усиления, ассоциированное с полосой b частот (оригинальная полоса частот), и значение усиления, ассоциированное с множеством других полос частот, расположенных рядом с полосой b частот, принимают в действии 401а. Затем определяют в действии 404а, содержит ли реконструированная соответствующая полоса bʹ частот области BWE спектральный пик или нет. Когда реконструированная полоса bʹ частот содержит, по меньшей мере, один спектральный пик, значение усиления, ассоциированное с реконструированной полосой bʹ частот, устанавливают как первое значение в действии 406а:1, на основе принятого множества значений усиления. Когда реконструированная полоса bʹ частот не содержит спектрального пика, значение усиления, ассоциированное с реконструированной полосой bʹ частот, устанавливают как второе значение в действии 406а:2, на основе принятого множества значений усиления. Второе значение ниже чем или равно первому значению.
На фиг. 4b, процедура, представленная на фиг. 4а, иллюстрируется несколько в другом и более расширенном виде, например, с дополнительными необязательными действиями, относящимися к ранее описанному смешиванию шумов. Фиг. 4b будет описана ниже.
Значения усиления, ассоциированные с полосами частот верхней части частотного спектра, принимают в действии 40lb. Информацию, относящуюся к нижней части частот спектра, то есть коэффициенты преобразования и значения усиления, и т.д., также, предполагается, принимают в определенной точке (не показана на фиг. 4а или 4b). Кроме того, предполагается, что расширение полосы частот выполняют в определенной точке, где формируется спектр высокой полосы, путем переворачивания или трансляции спектра низкой полосы, как описано выше.
Один или больше коэффициентов смешивания шумов могут быть приняты в необязательном действии 402b. Принятые один или больше коэффициентов смешивания шумов были рассчитаны в кодере на основе распределения энергии в оригинальном спектре высокой полосы. Эти коэффициенты смешивания шумов соединения могут затем использоваться для смешивания коэффициентов в области высокой полосы с шумами, сравни с уравнением (4), представленным выше, в (также необязательном) действии 403b. Таким образом, спектр области расширенной полосы частот будет лучше соответствовать оригинальному спектру высокой полосы в отношении "зашумленности" или содержания шумов.
Далее, в действии 404b определяют, содержат ли полосы сформированной области BWE пик или нет. Например, если полоса содержит пик, индикатор, ассоциированный с полосой, может быть установлен в 1. Если другая полоса не содержит пик, индикатор, ассоциированный с этой полосой, может быть установлен в 0. На основе информации содержит ли полоса пик или нет, усиление, ассоциированное с упомянутой полосой, может быть модифицировано в действии 405b. При модификации усиления для полосы, значение усиления для соседних полос учитывают для того, чтобы достичь желательного результата, как описано выше. Путем модификации значения усиления, таким образом, обеспечивается достижение улучшенного спектра BWE. Модифицированные коэффициенты усиления могут затем применяться для соответствующих полос спектра BWE, что представлено, как действие 406b.
Пример декодера
Ниже, со ссылкой на фиг. 5, будет описан пример аудиодекодера преобразования, выполненного с возможностью выполнения описанной выше процедуры для поддержки расширения полосы частот, BWE, гармонического аудиосигнала. Деаудиокодер преобразования может представлять собой, например, декодер MDCT или другой декодер.
Декодер 501 преобразования аудиоданных представлен как связывающийся с другими объектами через модуль 502 передачи данных. Часть декодера преобразования аудиоданных, выполненная с возможностью обеспечения рабочей характеристики описанной выше процедуры, представлена как компоновка 500, окруженная пунктирной линией. Деаудиокодер преобразования может дополнительно содержать другие функциональные модули 516, такие как, например, функциональные модули, обеспечивающие регулярные функции декодера и BWE, и может дополнительно содержать один или больше модулей 514 сохранения.
Декодер 501 преобразования аудиоданных и/или компоновка 500 могут быть воплощены, например, с использованием одного или больше: процессора или микропроцессора и соответствующих программных средств, с соответствующим их сохранением, программируемого логического устройства (PLD) или другого электронного компонента (компонентов).
Деаудиокодер преобразования, как предполагается, содержит функциональные модули, для получения адекватных параметров, предоставляемых из объекта кодирования. Коэффициент смешивания с шумами представляет собой новый параметр для получения по сравнению с предшествующим уровнем техники. Таким образом, декодер должен быть выполнен так, чтобы один или больше коэффициентов смешения с шумами могут быть получен, когда требуется такое свойство. Деаудиокодер преобразования может быть описан и воплощен как содержащий модуль приема, выполненный с возможностью приема множества значений усиления, ассоциированных с полосой b частот и множества соседних полос частот для полосы b; и, возможно, коэффициента смешивания шумов. Такой модуль приема, однако, не показан в явном виде на фиг. 5.
Деаудиокодер преобразования содержит модуль определения, в качестве альтернативы, обозначенный как модуль 504 детектирования пика, который выполнен с возможностью определения и представления, какие полосы области спектра BWE содержат пик и какие полосы не содержат пик. То есть модуль определения выполнен с возможностью определения, содержит или нет спектральный пик реконструированная соответствующая полоса bʹ частот области частот расширенной полосы частот. Кроме того, аудиодекодер преобразования может содержать модуль 506 модификации усиления, который выполнен с возможностью модификации усиления, ассоциированного с полосой, в зависимости от того, содержит ли полоса пик или нет. Если полоса содержит пик, модифицированный коэффициент усиления рассчитывают как взвешенную сумму, например, среднее или медианное значение от (оригинальных) значений усиления множества полос, расположенных рядом с рассматриваемой полосой, включая в себя усиление данной полосы.
Деаудиокодер преобразования может дополнительно содержать модуль 508 применения коэффициента усиления, выполненный с возможностью применения или установки модифицированного коэффициента усиления в соответствующих полосах спектра BWE. Таким образом, модуль применения усиления выполнен с возможностью установки значения усиления, ассоциированного с реконструированной полосой bʹ частот для первого значения на основе принятого множества значений усиления, когда реконструированная полоса bʹ частот содержит, по меньшей мере, один спектральный пик, и для установки значения усиления, ассоциированного с реконструированной полосой bʹ частот, во второе значение на основе принятого множества значений усиления, когда реконструированный диапазон частот bʹ не содержит спектральный пик, где второе значение меньше чем или равно первому значению. Таким образом, обеспечивается перевод значений усиления в соответствии с положениями пиков области частоты расширенной полосы частот.
В качестве альтернативы, если возможно без модификации, применяемая функция может быть предусмотрена с использованием (обычной) дополнительной функции 516, только в случае когда применяемые коэффициенты усиления не являются оригинальными коэффициентами усиления, но модифицированными коэффициентами усиления. Кроме того, деаудиокодер преобразования может содержать модуль 510 смешивания шумов, выполненный с возможностью смешивания коэффициентов части BWE спектра с шумами, например, из кодовой книги, на основе одного или больше коэффициентов шумов или параметров, предоставляемых кодером аудиосигнала.
Пример процедуры кодера
Пример процедуры, выполняемой в кодере для поддержки расширения полосы частот, BWE, гармонического аудиосигнала будет описан ниже со ссылкой на фиг. 6. Эта процедура пригодна для использования при преобразовании аудиокодера, такого как, например, кодер MDCT или другой кодер. Как было упомянуто выше, предполагается, что аудиосигнал, прежде всего, представляет собой музыку, но может также, в качестве альтернативы, содержать, например, речь.
Процедура, описанная ниже, относится к частям процедуры кодирования, которая отклоняется от обычного кодирования гармонического аудиосигнала, из-за использования кодера преобразования. Таким образом, действия, описанные ниже, представляют собой необязательное добавление к предоставлению коэффициентов преобразования и коэффициентов усиления и т.д., для нижней части спектра и вывода коэффициентов усиления для полос верхней части спектра (части, которая конструируется BWE на стороне декодера).
Энергию пика, относящуюся к верхней части частотного спектра, определяют в действии 602. Кроме того, энергетический уровень шумов, относящийся к верхней части частотного спектра, определяют в действии 603. Например, среднюю энергию пика
Пример кодера
Ниже, со ссылкой на фиг. 7, будет описан пример аудиодекодера преобразования, выполненный с возможностью выполнения описанной выше процедуры для поддержки расширения полосы частот, BWE, гармонического аудиосигнала. Аудиодекодер преобразования может представлять собой, например, декодер MDCT или другой декодер.
Аудиодекодер преобразования 701 иллюстрируется как связывающийся с другими объектами через модуль 702 передачи данных. Часть преобразования аудиодекодера, которая выполнена с возможностью обеспечения рабочих характеристик описанной выше процедуры, представлена как компоновка 700, окруженная пунктирной линией. Аудиодекодер преобразования может дополнительно содержать другие функциональные модули 712, такие как, например, функциональные модули, обеспечивающие регулярные функции кодера, и может дополнительно содержать один или больше модулей 710 сохранения.
Аудиокодер 701 преобразования и/или компоновка 700 могут быть воплощены, например, с использованием одного или больше: процессора или микропроцессора, и соответствующих программных средств сохранения для него, программируемого логического устройства (PLD) или другого электронного компонента (компонентов).
Аудиокодер преобразования может содержать модуль 704 определения, который выполнен с возможностью определения пиковой энергии и энергии уровня шумов в верхней части спектра. Кроме того, аудиокодер преобразования может содержать модуль 706 коэффициента шумов, который выполнен с возможностью расчета одного или больше коэффициентов смешивания шумов для всей верхней части спектра или его участков. Аудиодекодер преобразования может дополнительно содержать модуль 708 предоставления, выполненный с возможностью предоставления рассчитанных коэффициентов смешивания шумов для использования в кодере. Предоставление может содержать, например, простой вывод расчетных коэффициентов смешивания шумов на выход, и/или, например, передачу коэффициентов в декодер.
Пример компоновки
На фиг. 8 схематично показан вариант осуществления компоновки 800, пригодной для использования в аудиодекодере преобразования, который может также представлять собой альтернативный способ раскрытия варианта осуществления компоновки для использования в аудиодекодере преобразования, представленном на фиг. 5. В состав компоновки 800 входит модуль 806 обработки, например, с DSP (цифровой сигнальный процессор). Модуль 806 обработки может представлять собой одиночный модуль или множество модулей для выполнения разных этапов процедур, описанных здесь. Компоновка 800 также может содержать модуль 802 ввода для приема сигналов, таких как декодированная нижняя часть спектра, коэффициенты усиления для всего спектра и коэффициент (коэффициенты) для смешивания шумов (сравни с кодером: верхняя часть гармонического спектра), и модуль 804 вывода для вывода сигнала (сигналов), такого как модифицированные коэффициенты усиления и/или полный спектр (сравни с кодером: коэффициенты смешивания шумов). Модуль 802 ввода и модуль 804 вывода могут быть выполнены, как одно из аппаратных средств компоновки.
Кроме того, компоновка 800 содержит, по меньшей мере, один компьютерный программный продукт 808 в форме энергонезависимого или энергозависимого запоминающего устройства, например, EEPROM, запоминающего устройства флэш и привода жесткого диска. Компьютерный программный продукт 808 содержит компьютерную программу 810, которая содержит средство кода, которое при его работе в модуле 806 обработки в компоновке 800 обеспечивает выполнение действий процедуры компоновкой и/или аудиокодером преобразования, описанным выше со ссылкой на фиг. 4.
Следовательно, в описанных примерных вариантах осуществления, средство кода в компьютерной программе 810 компоновки 800 может содержать, получение модуля 810 для получения информации, относящейся к нижней части аудиоспектра, и коэффициента усиления, относящегося ко всему аудиоспектру. Кроме того, могут быть получены коэффициенты шумов, относящиеся к верхней части аудиоспектра. Компьютерная программа может содержать модуль 810b детектирования, предназначенный для детектирования и обозначения, содержат ли полосы реконструированных полос b полосы частот области с расширенной полосой частот спектральный пик, или нет. Компьютерная программа 810 может дополнительно содержать модуль 810 с модификации усиления, предназначенный для модификации усиления, ассоциированный с полосами частот верхний, реконструируемой части спектра. Компьютерная программа 810 может дополнительно содержать модуль 810d применения усиления, предназначенный для применения модифицированного усиления для соответствующих полос верхней части спектра. Кроме того, компьютерная программа 810 может содержать модуль 810d для смешивания шумов, для смешивания верхней части спектра с шумами на основе принятых коэффициентов смешивания шумов.
Компьютерная программа 810 выполнена в форме компьютерного программного кода, структурированного в компьютерные программные модули. Модули 810a-d, по существу, выполняют действия потока, иллюстрируемого на фиг. 4а или 4b, для эмуляции компоновки 500, представленной на фиг. 5. Другими словами, когда разные модули 810a-d работают в модуле 806 обработки, они соответствуют, по меньшей мере, модулям 504-510 по фиг. 5.
Хотя средство кода в варианте осуществления, раскрытом выше со ссылкой на фиг. 8, воплощено как компьютерные программные модули, которые при их работе в модуле обработки обеспечивают выполнение компоновкой и/или кодером преобразования аудиоданных этапов, описанных выше, совместно с фигурами, упомянутыми выше, по меньшей мере, одно средство кода, в альтернативных вариантах осуществления, может быть воплощено как, по меньшей мере, часть аппаратных схем.
Аналогичным образом, примерный вариант осуществления, содержащий компьютерные программные модули, может быть описан для соответствующей компоновки при преобразовании аудиокодера, представленного на фиг. 7.
В то время как предложенная технология была описана со ссылкой на конкретные примерные варианты осуществления, общее описание предназначено только для иллюстрации концепции и его не следует рассматривать как ограничение объема представленного здесь решения. Различные функции представленных выше примеров вариантов осуществления могут быть скомбинированы разными способами, в соответствии с потребностью, требованиями или предпочтениями.
Описанное выше решение может использоваться каждый раз, когда аудиокодеки применяют, например, в устройствах, таких как мобильные терминалы, планшетные компьютеры, компьютеры, смартфоны и т.д.
Следует понимать, что выбор взаимодействующих блоков или модулей, а также наименования этих модулей представлены только с целью примера, и узлы, соответствующие для исполнения любого из способов, описанных выше, могут быть сконфигурированы в виде множества альтернативных способов, для того, чтобы обеспечить возможность исполнения предполагаемых действий по обработке.
Также следует отметить, что блоки или модули, описанные в данном раскрытии, следует рассматривать как логические объекты, и необязательно, как отдельные физические объекты. Хотя представленное выше описание содержит много конкретных терминов, их не следует рассматривать как ограничение объема данного раскрытия, а просто как предоставляющее иллюстрацию некоторых из предпочтительных в настоящее время вариантов осуществления предложенной здесь технологии. Следует понимать, что объем технологии, предложенной здесь, полностью охватывает другие варианты осуществления, которые могут стать очевидными для специалиста в данной области техники, и что объем данного раскрытия, соответственно, не должен быть ограничен ими. Предполагается, что ссылка на элемент в единственном числе не исключает значение "один и только один", если только в явном виде не будет указано такое, но скорее "один или больше". Все структурные и функциональные эквиваленты для элементов описанных выше вариантов осуществления, которые известны для специалистов в данной области техники, в явном виде представлены здесь по ссылке и предназначены для охвата настоящего описания. Кроме того, нет необходимости, чтобы устройство или способ было направлено на решение каждой проблемы с использованием представленной здесь технологии.
В представленном описании, с целью пояснения и не для ограничений, конкретные детали представлены как конкретная архитектура, интерфейсы, технологии и т.д., для предоставления полного понимания предложенной технологии. Однако для специалиста в данной области техники будет понятно, что предложенная технология может быть выполнена на практике в других вариантах осуществления, которые выходят за пределы этих конкретных деталей. Таким образом, для специалиста в данной области техники будет возможно разработать различные компоновки, которые, хотя и не были в явном виде описаны или представлены здесь, воплощают принципы предложенной технологии. В некоторых случаях, подробное описание хорошо известных устройств, схем и способов исключено, чтобы не усложнять описание предложенной технологии ненужными деталями. Все представленные здесь утверждения, описывающие принципы, аспекты и варианты осуществления предложенной технологии, а также конкретные ее примеры, предназначены для охвата как структурных, так и функциональных ее эквивалентов. Кроме того, предполагается, что такие эквиваленты включают в себя как известные в настоящее время эквиваленты, а также эквиваленты, которые будут разработаны в будущем, например, любые разработанные элементы, которые выполняют ту же функцию, независимо от структуры.
Таким образом, например, для специалиста в данной области техники следует понимать, что блок-схемы, представленные здесь, могут представлять концептуальные виды иллюстративной схемы или другие функциональные блоки, воплощающие принципы технологии. Аналогично, следует понимать, что любые блок-схемы последовательности операций, диаграммы перехода состояний, псевдокоды и другие представленные различные процессы, могут быть представлены, по существу, на считываемом компьютером носителе информации и могут выполняться компьютером или процессором, независимо от того, показан или нет такой компьютер, или процессор в явном виде.
Функции различных элементов, включающих в себя функциональные блоки, включающие в себя, но не ограниченные помеченными или описанными как "функциональный модуль", "процессор" или "контроллер", могут быть предусмотрены путем использования аппаратных средств, таких как аппаратные средства в виде схемы и/или аппаратные средства, выполненные с возможностью исполнения программного обеспечения в форме кодированных инструкций, сохраняемых на считываемом компьютером носителе информации. Таким образом, такие функции и представленные функциональные блоки следует понимать как воплощенные либо в виде аппаратных средств и/или воплощенные в компьютере и, таким образом, воплощенные в машине.
В терминах воплощения в виде аппаратных средств функциональные блоки могут включать в себя или могут охватывать, без ограничений, аппаратные средства цифрового сигнального процессора (DSP), процессора с уменьшенным набором инструкций, аппаратные (например, цифровые или аналоговые) схемы, включающие в себя, но без ограничений, специализированную интегральную микросхему (микросхемы) (ASIC), и (в случае необходимости) конечные автоматы, выполненные с возможностью выполнения таких функций.
Сокращения
BWE Расширение полосы частот
DFT Дискретное преобразование Фурье
DCT Дискретное косинусное преобразование
MDCT Модифицированное дискретное косинусное преобразование
Изобретение относится к средствам для управления усилениями в полосах в расширенной области полосы частот на основе информации о положениях пиков. Технический результат заключается в повышении качества расширения полосы частот гармонических аудиосигналов. Принимают множество значений усиления, ассоциированных с полосой b частот, и множество соседних полос частот для полосы b. Определяют, содержит ли реконструированная соответствующая полоса b’ частот спектральный пик. Когда полоса b’ содержит спектральный пик, значение усиления, ассоциированное с полосой b’, устанавливают как первое значение на основе принятого множества значений усиления; и в противном случае, значение усиления устанавливают как второе значение на основе принятого множества значений усиления. 4 н. и 8 з.п. ф-лы, 10 ил.
1. Способ для управления усилениями в полосах в расширенной области полосы частот на основе информации о положениях пиков, выполняемый с помощью аудиодекодера преобразования, для поддержки расширения полосы частот, BWE, гармонического аудиосигнала, способ, содержащий:
- принимают (401а) множество значений усиления, ассоциированных с частотной полосой b, и количество соседних частотных полос для полосы b;
- определяют (404а), содержит ли спектральный пик реконструированная соответствующая полоса b' частот в области расширенной полосы частот, и:
когда реконструированная полоса b' частот содержит, по меньшей мере, один спектральный пик:
- устанавливают (406а:1) значение усиления, ассоциированное с реконструированной полосой частот b', в первое значение на основе принятого множества значений усиления; и
когда реконструированная полоса b' частот не содержит никакой спектральный пик:
- устанавливают значение усиления (406а:2), ассоциированное с реконструированной полосой частот b', во второе значение на основе принятого множества значений усиления, в котором второе значение меньше чем или равно первому значению,
обеспечивая, таким образом, соответствие значений усиления положениям пика в области частот расширенной полосы частот.
2. Способ по п. 1, в котором первое значение представляет собой взвешенную сумму принятого множества значений усиления.
3. Способ по п. 1, в котором второе значение представляет собой одно из наименьших значений усиления среди принятого множества значений усиления.
4. Способ по п. 1, в котором второе значение представляет собой минимальное значение усиления для принятого множества значений усиления.
5. Способ по п. 1, дополнительно содержащий:
- принимают (402b) коэффициент α, отражающий взаимосвязь между пиковой энергией и энергией уровня шума, по меньшей мере, участка для части высокой частоты оригинального сигнала;
- смешивают (403b) коэффициенты преобразования соответствующего реконструированного участка высокой частоты с шумом на основе принятого коэффициента α,
обеспечивая, таким образом, реконструкцию шумовых характеристик части высокой частоты оригинального сигнала.
6. Аудиодекодер (501) для поддержки расширения полосы частот, BWE, гармонического аудиосигнала, аудиодекодер, содержащий:
модуль приема, выполненный с возможностью приема множества значений усиления, ассоциированных с полосой b частот и множеством соседних полос частот для полосы b;
модуль определения (504), который выполнен с возможностью определения, содержит ли спектральный пик реконструированная соответствующая полоса частот b' для области расширенной полосы частот;
и модуль (508) применения усиления, выполненный с возможностью:
- устанавливать значение усиления, ассоциированное с реконструированной полосой b' частот для первого значения на основе принятого множества значений усиления, таким образом, что первое значение представляет собой взвешенную сумму принятого множества значений усиления, когда реконструированная полоса b' частот содержит, по меньшей мере, один спектральный пик, и устанавливать значение усиления, ассоциированное с реконструированной полосой b' частот для второго значения на основе принятого множества значений усиления, когда реконструированная полоса b' частот не содержит никакой спектральный пик, в котором второе значение меньше чем или равно первому значению
обеспечивая, таким образом, соответствие значений усиления положениям пика в области частот расширенной полосы частот.
7. Аудиодекодер по п. 6, в котором взвешенная сумма представляет собой среднее значение принятого множества значений усиления.
8. Аудиодекодер по любому одному из пп. 6-7, в котором второе значение представляет собой одно из значений наименьшего усиления среди принятого множества значений усиления.
9. Аудиодекодер по п. 6, в котором второе значение представляет собой минимальное значение усиления принятого множества значений усиления.
10. Аудиодекодер по п. 6, дополнительно выполненный с возможностью принимать коэффициент α, относящийся к соотношению между пиковой энергией и энергией уровня шума, по меньшей мере, участка высокочастотной части оригинального сигнала; и дополнительно содержащий:
модуль (510) смешивания шумов, выполненный с возможностью смешивания коэффициентов преобразования, соответствующих реконструированному блоку высоких частот с шумами, на основании принятого коэффициента α,
таким образом, обеспечивая возможность реконструкции характеристик шумов высокочастотной части исходного сигнала.
11. Оборудование пользователя, содержащее аудиодекодер в соответствии с любым из пп. 6-10.
12. Считываемый компьютером носитель, содержащий компьютерную программу (810), содержащую считываемый компьютером код, который, при его работе в модуле обработки, обеспечивает выполнение аудиодекодером способа в соответствии с любым из пп. 1-5.
WO 00/45379 A2, 03.08.2000 | |||
Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем | 1924 |
|
SU2012A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
СЖАТИЕ ЗВУКОВЫХ СИГНАЛОВ | 2005 |
|
RU2409874C9 |
RU 2010126497 A, 10.01.2012 | |||
RU 2010137104 A, 20.03.2012. |
Авторы
Даты
2017-02-08—Публикация
2012-12-21—Подача