Настоящее изобретение относится к устройству и к способу генерации выходного аудиосигнала и, в частности, к устройству и к способу реализации управления фазовой когерентностью для гармонических сигналов в перцепционных аудиокодеках.
Обработка аудиосигналов становится все более и более важной. В частности, перцепционное аудиокодирование распространилось как основное, обеспечивающее возможность цифровой технологии для всевозможных областей применения, которые предоставляют потребителям звуковую и мультимедийную информацию с использованием каналов передачи или запоминания с ограниченной пропускной способностью. Необходимы модемные перцепционные аудиокодеки для доставки аудио удовлетворительного качества на все более и более низких скоростях передачи битов (битрейтах). В свою очередь, необходимо смириться с некоторыми искажениями вследствие кодирования, которые являются наиболее приемлемыми для большинства слушателей.
Одним из этих искажений является потеря фазовой когерентности по частоте ("вертикальной" фазовой когерентности), см. [8]. Для многих стационарных сигналов результирующее ухудшение субъективного качества аудиосигнала обычно весьма мало. Однако, в гармонических тональных звуках, состоящих из многих спектральных компонентов, воспринимаемых слуховой системой человека как одиночный составной объект, результирующее искажение восприятия является нежелательным.
Типичными сигналами, в которых важно сохранение вертикальной фазовой когерентности (VPC), являются следующие: вокализованная речь, медные инструменты или смычковые инструменты, например, ‘инструменты’, которые, по их характеру физической генерации звука создают звук, богатый его обертонами и синхронизированный по фазе между гармоническими обертонами. В особенности, на очень низких скоростях передачи битов, при которых ресурсы битов чрезвычайно ограничены, использование современных кодеков часто существенно ослабляет VPC спектральных компонентов. Однако, в упомянутых выше сигналах VPC является важным перцептивным слуховым ориентиром, и высокий VPC сигнала следует сохранять.
Ниже рассмотрено перцепционное аудиокодирование согласно современному уровню развития техники. На современном уровне развития техники при перцепционном аудиокодировании придерживаются нескольких общих тем, включая использование обработки во временной/частотной области, уменьшение избыточности (энтропийное кодирование) и устранение несоответствия путем явного использования перцепционных эффектов (см. [1]). Как правило, входной сигнал анализируют блоком анализирующих фильтров, который преобразовывает сигнал во временной области в спектральное представление, например, во временное/частотное представление. Преобразование в спектральные коэффициенты позволяет производить выборочную обработку составляющих сигнала в зависимости от их частотного состава, например, различные инструменты с их индивидуальными структурами обертонов.
Параллельно входной сигнал анализируют на предмет его перцепционных свойств. Например, может быть вычислен порог маскирования, зависящий от времени и частоты. Порог маскирования, зависящий от времени/частоты, может быть доставлен в блок квантования посредством целевого порога кодирования в виде значения абсолютной энергии или соотношения маска/сигнал (MSR) для каждой полосы частот и каждого временного кадра кодирования.
Спектральные коэффициенты, доставленные блоком анализирующих фильтров, квантуют для уменьшения скорости передачи данных, необходимой для представления сигнала. Этот этап подразумевает потери информации и вводит в сигнал искажение вследствие кодирования (ошибку, шум). Для минимизации слышимого влияния этого шума кодирования величинами шага квантователя управляют в соответствии с целевыми порогами кодирования для каждой полосы частот и каждого кадра. В идеальном случае шум кодирования, введенный в каждую полосу частот, является более низким, чем порог кодирования (маскирования), и, следовательно, ухудшение субъективного аудио не заметно (устранение несоответствия). Это управление шумом квантования по частоте и время в соответствии с психоакустическими требованиями приводит к сложному эффекту формирования шума, и это является тем, что делает кодер перцепционным аудиокодером.
После этого современные аудиокодеры выполняют энтропийное кодирование, например, кодирование по алгоритму Хаффмана (Huffman) или арифметическое кодирование, квантованных спектральных данных. Энтропийное кодирование является этапом кодирования без потерь, который дополнительно экономит скорость передачи битов.
Наконец, все закодированные спектральные данные и соответствующие дополнительные параметры, например, побочная информация, такая как, например, установочные параметры квантователя для каждой полосы частот, упаковывают вместе в поток битов, который является окончательным закодированным представлением, предназначенным для сохранения или передачи файла.
Теперь рассмотрим расширение полосы частот согласно современному уровню развития техники. При перцепционном аудиокодировании на основании блоков фильтров основная часть используемой скорости передачи битов обычно затрачивается на квантованные спектральные коэффициенты. Таким образом, на очень низких скоростях передачи битов может иметься недостаточное количество битов для представления всех коэффициентов с точностью, необходимой для достижения для воспроизведения без ухудшения восприятия. Таким образом, требования к низкой скорости передачи битов фактически устанавливают предел для полосы частот аудиосигнала, которая может быть получена путем перцепционного аудиокодирования.
Расширение полосы частот (см. [2]) устраняет это давнее фундаментальное ограничение. Основная идея расширения полосы частот состоит в дополнении перцепционного кодека с ограниченной полосой дополнительным высокочастотным процессором, который передает и восстанавливает пропущенное высокочастотное информационное содержимое в компактном параметрическом виде. Высокочастотное информационное содержимое может быть сгенерировано на основании модуляции модулирующего сигнала путем модуляции с одной боковой полосой, см., например [3], или на основании применения способов изменения высоты звука, как, например, в вокодере из [4].
Специально для низких скоростей передачи битов были разработаны схемы параметрического кодирования, которые кодируют синусоидальные компоненты (синусоиды) посредством компактного параметрического представления (см., например, [9], [10], [11] и [12]). В зависимости от конкретного кодера, оставшийся остаток дополнительно подвергают параметрическому кодированию или кодированию формы сигнала.
Ниже рассмотрено параметрическое пространственное аудиокодирование согласно современному уровню развития техники. Подобно расширению полосы частот аудиосигналов, при пространственном аудиокодировании (SAC) покидают область кодирования формы сигнала и вместо этого сосредотачиваются на доставке удовлетворяющей восприятию копии исходного пространственного звукового образа. Звуковая сцена, воспринятая слушателем-человеком, по существу, определяется различиями между сигналами в ухе слушателя (так называемыми интерауральными разностями) вне зависимости от того, состоит ли сцена из реальных источников звука или воспроизводится ли она через два или более громкоговорителей, проецирующих фантомный звук. Вместо дискретного кодирования аудиосигналов отдельных входных каналов система, основанная на SAC, захватывает пространственное изображение многоканального аудиосигнала в компактный набор параметров, которые могут использоваться для синтезирования высококачественного многоканального представления из переданного сигнала понижающего микширования (см., например, [5], [6] и [7]).
Вследствие его параметрического характера, пространственное аудиокодирование не является сохраняющим форму волны. Вследствие этого трудно добиться совершенно неухудшенного качества для аудиосигналов всех типов. Тем не менее, пространственное аудиокодирование является чрезвычайно мощным подходом, который обеспечивает значительный выигрыш при низких и промежуточных скоростях передачи битов.
Цифровые аудиоэффекты, такие как, например, эффекты растяжения по времени или изменения высоты звука, обычно получают путем применения способов во временной области, таких как синхронизированное наложение - добавление (SOLA), или путем применения способов в частотной области, например, путем использования вокодера. Кроме того, на современном уровне развития техники были предложены гибридные системы, которые применяют обработку SOLA в субполосах (поддиапазонах). Вокодеры и гибридные системы обычно повержены искажению, именуемому "расфазировкой" ("phasiness"), которое может быть приписано потере вертикальной фазовой когерентности. Некоторые публикации относятся к усовершенствованиям качества звука в алгоритмах растяжения по времени путем сохранения вертикальной фазовой когерентности там, где это важно (см., например, [14] и [15]).
Использование современных перцепционных аудиокодеков часто ослабляет вертикальную фазовую когерентность (VPC) спектральных составляющих аудиосигнала, в особенности, при низких скоростях передачи битов при применении способов параметрического кодирования. Однако, в некоторых сигналах VPC является важным перцептивным ориентиром. В результате, ухудшается качество восприятия таких звуков.
Современные аудиокодеры обычно ухудшают качество восприятия аудиосигналов вследствие пренебрежения важными свойствами фазы сигнала, который должен быть кодирован (см., например, [1]). Грубое квантование спектральных коэффициентов, переданных в аудиокодере, уже может изменять VPC декодированного сигнала. Кроме того, в особенности вследствие применения способов параметрического кодирования, таких как, например, расширение полосы частот (см. [2], [3] и [4]), параметрическое многоканальное кодирование (см., например, [5], [6] и [7]) или параметрическое кодирование синусоидальных компонентов (см. [9], [10], [11] и [12]), фазовая когерентность по частоте часто ухудшается.
Результатом является глухой звук, который, как кажется, приходит с далекого расстояния и, таким образом, вызывает небольшую вовлеченность слушателя [13]. Имеется множество типов составляющей сигнала, где важна вертикальная фазовая когерентность. Типичными сигналами, где важна VPC, являются, например, тональные сигналы с богатым содержанием гармонических обертонов, такие как, например, вокализованная речь, медные инструменты или смычковые инструменты.
Задачей настоящего изобретения является создание улучшенных концепций для обработки аудиосигналов и, в частности, для создания улучшенных концепций для управления фазовой когерентностью для гармонических сигналов в перцепционных аудиокодеках. Задача настоящего изобретения решена декодером по п. 1, кодером по п. 8, устройством по п. 14, системой по п. 15, способом декодирования по п. 16, способом кодирования по п. 17, способом обработки аудиосигнала по п. 18 и компьютерной программой по п. 19.
Предложен декодер для декодирования закодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала. Декодер содержит блок декодирования и блок регулировки фазы. Блок декодирования приспособлен для декодирования закодированного аудиосигнала для получения декодированного аудиосигнала. Блок регулировки фазы приспособлен для регулировки декодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала. Блок регулировки фазы выполнен с возможностью приема управляющей информации в зависимости от вертикальной фазовой когерентности закодированного аудиосигнала. Кроме того, блок регулировки фазы приспособлен для регулировки декодированного аудиосигнала на основании управляющей информации.
В варианте осуществления изобретения блок регулировки фазы может быть выполнен с возможностью регулировки декодированного аудиосигнала, когда управляющая информация указывает, что регулировка фазы активирована.
Блок регулировки фазы может быть выполнен с возможностью не регулировать декодированный аудиосигнал, когда управляющая информация указывает, что регулировка фазы деактивирована.
В другом варианте осуществления изобретения блок регулировки фазы может быть выполнен с возможностью приема управляющей информации, при этом управляющая информация содержит значение силы, указывающее силу регулировки фазы. Кроме того, блок регулировки фазы может быть выполнен с возможностью регулировки декодированного аудиосигнала на основании этого значения силы.
Согласно еще одному варианту осуществления изобретения, декодер может дополнительно содержать блок анализирующих фильтров для разложения декодированного аудиосигнала на множество субполосовых сигналов множества субполос. Блок регулировки фазы может быть выполнен с возможностью определения множества первых значений фазы множества субполосовых сигналов. Кроме того, блок регулировки фазы может быть приспособлен для регулировки закодированного аудиосигнала путем модифицирования по меньшей мере некоторых из множества первых значений фазы для получения вторых значений фазы отрегулированного по фазе аудиосигнала.
В другом варианте осуществления изобретения блок регулировки фазы может быть выполнен с возможностью регулировки по меньшей мере некоторых из значений фазы путем применения следующих формул:
pxʹ(f)=px(f)-dp(f), и
dp(f)=α*(p0(f)+const),
где f - частота, указывающая одну из субполос, которая имеет частоту f в качестве центральной частоты, где px(f) - одно из первых значений фазы одного из субполосовых сигналов одной из субполос, имеющей частоту f в качестве центральной частоты, где pxʹ(f) - одно из вторых значений фазы одного из субполосовых сигналов одной из субполос, имеющей частоту f в качестве центральной частоты, где const - первый угол в диапазоне -π ≤ const ≤ π, где α - вещественное число в диапазоне 0 ≤ α ≤ 1; и где p0(f) - второй угол в диапазоне -π ≤ p0(f) ≤ π, где второй угол p0(f) назначен упомянутой одной из субполос, имеющей частоту f качестве центральной частоты. В альтернативном варианте вышеупомянутая регулировка фазы также может быть выполнена путем умножения комплексного субполосового сигнала (например, комплексных спектральных коэффициентов дискретного преобразования Фурье) на экспоненциальный фазовый член e-jdp(f)), где j - мнимая единица.
Согласно другому варианту осуществления изобретения, декодер может дополнительно содержать блок синтезирующих фильтров. Отрегулированным по фазе аудиосигналом может являться отрегулированный по фазе аудиосигнал спектральной области, представленный в спектральной области. Блок синтезирующих фильтров может быть выполнен с возможностью преобразования отрегулированного по фазе аудиосигнала спектральной области из спектральной области во временную область для получения отрегулированного по фазе аудиосигнала временной области.
В варианте осуществления изобретения декодер может быть выполнен с возможностью декодирования управляющей информации для VPC.
Кроме того, согласно другому варианту осуществления изобретения, декодер может быть выполнен с возможностью применения управляющей информации для получения декодированного сигнала с лучше сохраненной VPC, чем в обычных системах.
Кроме того, декодер может быть выполнен с возможностью манипулирования VPC, управляемого измерениями в декодере, и/или информацией активизации, содержащейся в потоке битов.
Кроме того, предложен кодер для кодирования управляющей информации на основании входного аудиосигнала. Кодер содержит блок преобразования, генератор управляющей информации и блок кодирования. Блок преобразования приспособлен для преобразования входного аудиосигнала из временной области в спектральную область для получения преобразованного аудиосигнала, содержащего множество субполосовых сигналов, назначенных множеству субполос. Генератор управляющей информации приспособлен для генерации управляющей информации так, чтобы управляющая информация указывала вертикальную фазовую когерентность преобразованного аудиосигнала. Блок кодирования приспособлен для кодирования преобразованного аудиосигнала и управляющей информации.
В варианте осуществления изобретения блок преобразования кодера содержит блок кохлеарных фильтров для преобразования входного аудиосигнала из временной области в спектральную область для получения преобразованного аудиосигнала, содержащего множество субполосовых сигналов.
Согласно еще одному варианту осуществления изобретения, генератор управляющей информации может быть выполнен с возможностью определения субполосовой огибающей для каждого из множества субполосовых сигналов для получения множества огибающих субполосовых сигналов. Кроме того, генератор управляющей информации может быть выполнен с возможностью генерации объединенной огибающей на основании множества огибающих субполосовых сигналов. Кроме того, генератор управляющей информации может быть выполнен с возможностью генерации управляющей информации на основании объединенной огибающей.
В другом варианте осуществления изобретения генератор управляющей информации может быть выполнен с возможностью генерации характеристического числа на основании объединенной огибающей. Кроме того, генератор управляющей информации может быть выполнен с возможностью генерации управляющей информации так, чтобы упомянутая управляющая информация указывала, что регулировка фазы активирована, когда характеристическое число превышает пороговое значение. Кроме того, генератор управляющей информации может быть выполнен с возможностью генерации управляющей информации так, чтобы упомянутая управляющая информация указывала, что регулировка фазы деактивирована, когда характеристическое число меньше или равно пороговому значению.
Согласно еще одному варианту осуществления изобретения, генератор управляющей информации может быть выполнен с возможностью генерации управляющей информации путем вычисления отношения среднего геометрического объединенной огибающей к среднему арифметическому объединенной огибающей.
В альтернативном варианте может быть выполнено сравнение максимального значения объединенной огибающей со средним значением объединенной огибающей. Например, может быть сформировано отношение "максимальное/среднее", например, отношение максимального значения объединенной огибающей к среднему значению объединенной огибающей.
В варианте осуществления изобретения генератор управляющей информации может быть выполнен с возможностью генерации управляющей информации так, чтобы упомянутая управляющая информация содержала значение силы, указывающее степень вертикальной фазовой когерентности субполосовых сигналов.
Кодер согласно варианту осуществления изобретения может быть выполнен с возможностью проведения измерения VPC на стороне кодера посредством, например, измерений фазы и/или производной фазы по частоте.
Кроме того, кодер согласно варианту осуществления изобретения может быть выполнен с возможностью проведения измерения перцепционной особенности вертикальной фазовой когерентности.
Кроме того, кодер согласно варианту осуществления изобретения может быть выполнен с возможностью выполнения получения информации об активации из результатов измерений особенности фазовой когерентности и/или VPC.
Кроме того, кодер согласно варианту осуществления изобретения может быть выполнен с возможностью извлечения частотно-временных адаптивных меток VPC или управляющей информации.
Кроме того, кодер согласно варианту осуществления изобретения может быть выполнен с возможностью определения компактного представления управляющей информации для VPC.
В вариантах осуществления изобретения управляющая информация для VPC может быть передана в потоке битов.
Кроме того, предложено устройство для обработки первого аудиосигнала для получения второго аудиосигнала. Это устройство содержит генератор управляющей информации и блок регулировки фазы. Генератор управляющей информации приспособлен для генерации управляющей информации так, чтобы управляющая информация указывала вертикальную фазовую когерентность первого аудиосигнала. Блок регулировки фазы приспособлен для регулировки первого аудиосигнала для получения второго аудиосигнала. Кроме того, блок регулировки фазы приспособлен для регулировки первого аудиосигнала на основании управляющей информации.
Кроме того, предложена система. Эта система содержит кодер согласно одному из описанных выше вариантов осуществления изобретения и по меньшей мере один декодер согласно одному из описанных выше вариантов осуществления изобретения. Кодер выполнен с возможностью преобразования входного аудиосигнала для получения преобразованного аудиосигнала. Кроме того, кодер выполнен с возможностью кодирования преобразованного аудиосигнала для получения закодированного аудиосигнала. Кроме того, кодер выполнен с возможностью кодирования управляющей информации, указывающей вертикальную фазовую когерентность преобразованного аудиосигнала. Кроме того, кодер выполнен с возможностью подачи закодированного аудиосигнала и управляющей информации в упомянутый по меньшей мере один декодер. По меньшей мере один декодер выполнен с возможностью декодирования закодированного аудиосигнала для получения декодированного аудиосигнала. Кроме того, по меньшей мере один декодер выполнен с возможностью регулировки декодированного аудиосигнала на основании закодированной управляющей информации для получения отрегулированного по фазе аудиосигнала.
В вариантах осуществления изобретения VPC может быть измерена на стороне кодера, передана как соответствующая компактная побочная информация совместно с закодированным аудиосигналом, и VPC сигнала восстанавливают в декодере. Согласно альтернативным вариантам осуществления изобретения, манипуляции с VPC выполняют в декодере под управлением управляющей информации, сгенерированной в декодере, и/или под управлением информации об активации, переданной из кодера в побочной информации. Обработка VPC может быть избирательной по частоте-времени, так что VPC восстанавливают только тогда, когда это полезно для восприятия.
Кроме того, предложен способ декодирования закодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала. Этот способ декодирования содержит следующее:
- принимают управляющую информацию, при этом управляющая информация указывает вертикальную фазовую когерентность закодированного аудиосигнала,
- декодируют закодированный аудиосигнал для получения декодированного аудиосигнала, и
- регулируют декодированный аудиосигнал для получения отрегулированного по фазе аудиосигнала, на основании управляющей информации.
Кроме того, предложен способ кодирования управляющей информации, на основании входного аудиосигнала. Этот способ кодирования содержит следующее:
- преобразовывают входной аудиосигнал из временной области в спектральную область для получения преобразованного аудиосигнала, содержащего множество субполосовых сигналов, назначенных множеству субполос,
- генерируют управляющую информацию так, что упомянутая управляющая информация указывает вертикальную фазовую когерентность преобразованного аудиосигнала, и
- кодируют преобразованный аудиосигнал и управляющую информацию.
Кроме того, предложен способ обработки первого аудиосигнала для получения второго аудиосигнала. Этот способ обработки содержит следующее:
- генерируют управляющую информацию так, что упомянутая управляющая информация указывает вертикальную фазовую когерентность первого аудиосигнала, и
- регулируют первый аудиосигнал на основании управляющей информации для получения второго аудиосигнала.
Кроме того, предложена компьютерная программа для реализации одного из вышеописанных способов, когда компьютерная программа выполняется в компьютере или в процессоре сигналов.
В вариантах осуществления изобретения предложены средства сохранения вертикальной фазовой когерентности (VPC) сигналов, когда обработка сигналов, кодирование или способ передачи оказали негативное влияние на VPC.
В некоторых вариантах осуществления изобретения предложенная в изобретении система измеряет VPC входного сигнала до его кодирования, передает надлежащую компактную побочную информацию вместе с закодированным аудиосигналом и восстанавливает VPC сигнала в декодере на основании переданной компактной побочной информации. В альтернативном варианте в способе, предложенном в изобретении, осуществляют манипуляции с VPC в декодере под управлением управляющей информации, сгенерированной в декодере и/или под управлением информации об активации, переданной из кодера в побочной информации.
В других вариантах осуществления изобретения VPC ухудшенного сигнала может быть обработана для восстановления его исходной VPC с использованием способа регулирования VPC, управление которой осуществляют путем анализа самого ухудшенного сигнала.
В обоих случаях упомянутая обработка может быть избирательной по частоте-времени, вследствие чего VPC восстанавливают только в том случае, когда это полезно для восприятия.
Улучшенное качество звука перцепционных аудио кодеров обеспечено при умеренных издержках на побочную информацию. Помимо перцепционных аудио кодеров, измерение и восстановление VPC также является полезным для цифровых аудио эффектов на основании фазовых вокодеров, таких как растяжение по времени или изменение высоты звука.
Варианты осуществления изобретения изложены в зависимых пунктах формулы изобретения.
Ниже описаны варианты осуществления изобретения со ссылкой на чертежи, на которых:
на Фиг. 1a проиллюстрирован декодер для декодирования закодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала, согласно варианту осуществления изобретения;
на Фиг. 1b проиллюстрирован декодер для декодирования закодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала, согласно другому варианту осуществления изобретения;
на Фиг. 2 проиллюстрирован кодер для кодирования управляющей информации на основании входного аудиосигнала согласно варианту осуществления изобретения;
на Фиг. 3 проиллюстрирована система согласно варианту осуществления изобретения, содержащая кодер и по меньшей мере один декодер;
на Фиг. 4 проиллюстрирована система аудиообработки с обработкой VPC согласно варианту осуществления изобретения;
на Фиг. 5 изображены перцепционный аудиокодер и декодер согласно варианту осуществления изобретения;
на Фиг. 6 проиллюстрирован генератор управления VPC согласно варианту осуществления изобретения;
на Фиг. 7 проиллюстрировано устройство обработки аудиосигнала для получения второго аудиосигнала согласно варианту осуществления изобретения, и
на Фиг. 8 проиллюстрирована система аудиообработки с обработкой VPC согласно другому варианту осуществления изобретения.
На Фиг. 1a проиллюстрирован декодер для декодирования закодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала, согласно варианту осуществления изобретения. Этот декодер содержит блок 110 декодирования и блок 120 регулировки фазы. Блок 110 декодирования приспособлен для декодирования закодированного аудиосигнала для получения декодированного аудиосигнала. Блок 120 регулировки фазы приспособлен для регулировки декодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала. Кроме того, блок 120 регулировки фазы выполнен с возможностью приема управляющей информации в зависимости от вертикальной фазовой когерентности (VPC) закодированного аудиосигнала. К тому же, блок 120 регулировки фазы приспособлен для регулировки декодированного аудиосигнала на основании управляющей информации.
В варианте осуществления изобретения из Фиг. 1a учитывают, что для некоторых аудиосигналов важно восстановить вертикальную фазовую когерентность закодированного сигнал. Например, когда участок аудиосигнала содержит вокализованную речь, медные инструменты или смычковые инструменты, то сохранение вертикальной фазовой когерентности является важным. Для этого блок 120 регулировки фазы приспособлен для приема управляющей информации, которая зависит от VPC закодированного аудиосигнала.
Например, когда участки закодированного сигнала содержат вокализованную речь, медные инструменты или смычковые инструменты, то VPC закодированного сигнал высока. В таких случаях управляющая информация может указывать, что регулировка фазы активирована.
Другие участки сигнала могут не содержать импульсоподобных тональных сигналов или переходов, и VPC таких участков сигнала может являться низкой. В таких случаях управляющая информация может указывать, что регулировка фазы деактивирована.
В других вариантах осуществления изобретения управляющая информация может содержать значение силы. Такое значение силы может указывать силу регулировки фазы, которую следует выполнить. Например, значением силы может являться значение α при условии 0 ≤ α ≤ 1. Если α=1 или является близким к 1, то это может указывать высокое значение силы. В этом случае блок 120 регулировки фазы выполняет существенные регулировки фазы. Если α является близким к 0, то блок 120 регулировки фазы выполняет лишь незначительные регулировки фазы. Если α=0, то блок 120 регулировки фазы вообще не выполняет какие-либо регулировки фазы.
На Фиг. 1b проиллюстрирован декодер для декодирования закодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала, согласно другому варианту осуществления изобретения. Помимо блока 110 декодирования и блока 120 регулировки фазы, декодер из Фиг. 1b содержит блок 115 анализирующих фильтров и блок 125 синтезирующих фильтров.
Блок 115 анализирующих фильтров выполнен с возможностью разложения декодированного аудиосигнала на множество субполосовых сигналов множества субполос. Блок 120 регулировки фазы из Фиг. 1b может быть выполнен с возможностью определения множества первых значений фазы множества субполосовых сигналов. Кроме того, блок 120 регулировки фазы может быть приспособлен для регулировки закодированного аудиосигнала путем видоизменения, по меньшей мере, некоторых из множества первых значений фазы для получения вторых значений фазы отрегулированного по фазе аудиосигнала.
Отрегулированным по фазе аудиосигналом может являться отрегулированный по фазе аудиосигнал спектральной области, который представлен в спектральной области. Блок 125 синтезирующих фильтров из Фиг. 1b может быть выполнен с возможностью преобразования отрегулированного по фазе аудиосигнала спектральной области из спектральной области во временную область для получения отрегулированного по фазе аудиосигнала временной области.
На Фиг. 2 изображен соответствующий кодер для кодирования управляющей информации на основании входного аудиосигнала согласно варианту осуществления изобретения. Этот кодер содержит блок 210 преобразования, генератор 220 управляющей информации и блок 230 кодирования. Блок 210 преобразования приспособлен для преобразования входного аудиосигнала из временной области в спектральную область для получения преобразованного аудиосигнала, содержащего множество субполосовых сигналов, назначенных множеству субполос. Генератор 220 управляющей информации приспособлен для генерации управляющей информации так, что управляющая информация указывает вертикальную фазовую когерентность (VPC) преобразованного аудиосигнала. Блок 230 кодирования приспособлен для кодирования преобразованного аудиосигнала и управляющей информации.
Кодер из Фиг. 2 приспособлен для кодирования управляющей информации, которая зависит от вертикальной фазовой когерентности аудиосигнала, который должен быть кодирован. Для генерации управляющей информации блок 210 преобразования в кодере осуществляет преобразование входного аудиосигнала в спектральную область так, чтобы результирующий преобразованный аудиосигнал содержал множество субполосовых сигналов множества субполос.
После этого генератор 220 управляющей информации определяет информацию, которая зависит от вертикальной фазовой когерентности преобразованного аудиосигнала.
Например, генератор 220 управляющей информации может классифицировать конкретный участок аудиосигнала как участок сигнала, где VPC является высокой, и, например, установить значение α=1. Для других участков сигнала генератор 220 управляющей информации может классифицировать конкретный участок аудиосигнала как участок сигнала, где VPC является низкой, и, например, установить значение α=0.
В других вариантах осуществления изобретения генератор 220 управляющей информации может определять значение силы, которое зависит от VPC преобразованного аудиосигнала. Например, генератор управляющей информации может назначать значение силы, относящееся к рассматриваемому участку сигнала, где это значение силы зависит от VPC участка сигнала. На стороне декодера значение силы может быть затем использовано для определения того, следует ли выполнять только малые регулировки фазы, или следует ли выполнять сильные регулировки фазы применительно к значениям фазы в субполосе декодированного аудиосигнала для восстановления исходной VPC аудиосигнала.
На Фиг. 3 проиллюстрирован другой вариант осуществления изобретения. На Фиг. 3 приведена система. Эта система содержит кодер 310 и по меньшей мере один декодер. Несмотря на то, что на Фиг. 3 проиллюстрирован только один декодер 320, другие варианты осуществления изобретения могут содержать более одного декодера. Кодером 310 из Фиг. 3 может являться кодер из варианта осуществления изобретения, показанного на Фиг. 2. Декодером 320 из Фиг. 3 может являться декодер из варианта осуществления изобретения, показанного на Фиг. 1a, или из варианта осуществления изобретения, показанного на Фиг. 1b. Кодер 310 из Фиг. 3 выполнен с возможностью преобразования входного аудиосигнала для получения преобразованного аудиосигнала (не показан). Кроме того, кодер 310 выполнен с возможностью кодирования преобразованного аудиосигнала для получения закодированного аудиосигнала. Кроме того, кодер выполнен с возможностью кодирования управляющей информации, указывающей вертикальную фазовую когерентность преобразованного аудиосигнала. Кодер выполнен с возможностью подачи закодированного аудиосигнала и управляющей информации в упомянутый по меньшей мере один декодер.
Декодер 320 из Фиг. 3 выполнен с возможностью декодирования закодированного аудиосигнала для получения декодированного аудиосигнала (не показан). Кроме того, декодер 320 выполнен с возможностью регулирования декодированного аудиосигнала на основании закодированной управляющей информации для получения отрегулированного по фазе аудиосигнала.
Суммируя вышеизложенное, в вышеописанных вариантах осуществления изобретения стремятся сохранить вертикальную фазовую когерентность сигналов, в особенности, в участках сигнала с высокой степенью вертикальной фазовой когерентности.
Предложенные концепции улучшают качество восприятия, предоставляемое системой аудиообработки, ниже также именуемой "аудиосистемой", за счет измерения характеристики VPC сигнала, вводимого в систему аудиообработки, и за счет регулирования VPC выходного сигнала, созданного аудиосистемой, на основании измеренных характеристик VPC для формирования конечного выходного сигнала так, что достигается предполагаемая VPC конечного выходного сигнала.
На Фиг. 4 показана общая система аудиообработки, усовершенствованная посредством вышеописанного варианта осуществления изобретения. В частности, на Фиг. 4 изображена система для обработки VPC. По входному сигналу аудиосистемы 410 генератор 420 управления VPC измеряет VPC и/или ее перцепционную особенность, и генерирует управляющую информацию для VPC. Выходной сигнал аудиосистемы 410 вводят в блок 430 регулирования VPC, и управляющую информацию для VPC используют в блоке 430 регулирования VPC для восстановления VPC.
Как важный случай, целесообразный для практического применения, эта концепция может быть применена например, для обычных аудиокодеков путем измерения VPC и/или перцепционной особенности фазовой когерентности на стороне кодера, передачи надлежащей компактной побочной информации вместе с закодированным аудиосигналом и восстановления VPC сигнала в декодере на основании переданной компактной побочной информации.
На Фиг. 5 проиллюстрированы перцепционный аудиокодер и декодер согласно варианту осуществления изобретения. В частности, на Фиг. 5 изображен перцепционный аудиокодек, в котором реализована двусторонняя обработка VPC.
На стороне кодера проиллюстрированы блок 510 кодирования, генератор 520 управления VPC и блок 530 мультиплексирования потока битов. На стороне декодера изображены блок 540 демультиплексирования потока битов, блок 550 декодирования и блок 560 регулирования VPC.
На стороне кодера управляющую информацию для VPC генерируют генератором 520 управления VPC и кодируют как компактную побочную информацию, которую мультиплексируют блоком 530 мультиплексирования в поток битов вместе с закодированным аудиосигналом. Генерация управляющей информации для VPC может являться избирательной по частоте-времени, вследствие чего VPC измеряют и управляющую информацию кодируют только тогда, когда это полезно для восприятия.
На стороне декодера блок 540 демультиплексирования потока битов извлекает управляющую информацию для VPC из потока битов и применяет в блоке 560 регулирования VPC для восстановления надлежащей VPC.
На Фиг. 6 проиллюстрированы некоторые подробности возможной реализации генератора 600 управления VPC. Во входном аудиосигнале VPC измеряют блоком 610 измерения VPC, а перцепционную особенность VPC измеряют блоком 620 измерения особенности VPC. По этим результатам измерений блок 630 извлечения управляющей информации для VPC получает управляющую информацию для VPC. Входной аудиосигнал может содержать более одного аудиосигнала, например, в дополнение к первому входному аудиосигналу, в генератор управления VPC может быть подан второй входной аудиосигнал, содержащий обработанную версию первого входного сигнала (см. Фиг. 5).
В вариантах осуществления изобретения сторона кодера может содержать генератор управления VPC для измерения VPC входного сигнала и/или измерения перцепционной особенности VPC входного сигнала. Генератор управления VPC может обеспечивать управляющую информацию для VPC для управления регулированием VPC на стороне декодера. Например, управляющая информация может давать сигнал, разрешающий или запрещающий регулирования VPC на стороне декодера, или управляющая информация может определять силу регулирования VPC на стороне декодера.
Поскольку вертикальная фазовая когерентность является важной для субъективного качества аудиосигнала, если сигнал является тональным и/или гармоническим, и если его высота звука не изменяется слишком быстро, типичная реализация блока управления VPC может включать в себя детектор высоты звука или детектор гармоничности или, по меньшей мере, детектор изменения высоты звука, обеспечивающий меру силы высоты звука.
Кроме того, управляющая информация, сгенерированная генератором управления VPC, может сообщать о силе VPC исходного сигнала. Или управляющая информация может сигнализировать о параметре модификации, который приводит в действие регулировку VPC в декодере так, что после регулировки VPC на стороне декодера приблизительно восстанавливают воспринимаемую VPC исходного сигнала. В альтернативном варианте или в дополнение к этому могут быть сообщены одно или несколько целевых значений VPC, которые должны быть утверждены.
Управляющая информация для VPC может быть передаваться в сжатом виде из кодера в сторону декодера, например, путем внедрения ее в поток битов в качестве дополнительной побочной информации.
В вариантах осуществления изобретения декодер может быть выполнен с возможностью считывания управляющей информации для VPC, предоставленной генератором управления VPC на стороне кодера. Для этого декодер может считывать управляющую информацию для VPC из потока битов. Кроме того, декодер может быть выполнен с возможностью обработки выходного сигнала обычного аудиодекодера в зависимости от управляющей информации для VPC с использованием блока регулирования VPC. Кроме того, декодер может быть выполнен с возможностью предоставления обработанного аудиосигнала в качестве выходного сигнала.
Ниже приведено описание генератора управления VPC на стороне кодера согласно варианту осуществления изобретения.
Квазистационарные периодические сигналы, которые показывают высокую VPC, могут быть идентифицированы при помощи детектора высоты звука (поскольку они являются хорошо известными, например, из области кодирования речи или анализа музыкальных сигналов), который предоставляет результат измерения силы высоты звука и/или степени периодичности. Фактическая VPC может быть измерена путем применения блока кохлеарных фильтров, последующего детектирования субполосовой огибающей, сопровождаемого суммированием кохлеарных огибающих по частоте. Например, если субполосовые огибающие являются когерентными, то суммирование дает неравномерный по времени сигнал, тогда как сложение некогерентных субполосовых огибающих дает более равномерный по времени сигнал. Исходя из объединенной оценки (соответственно, например, путем сравнения с предопределенными порогами) силы высоты звука и/или степени периодичности и меры VPC, может быть получена управляющая информация для VPC, состоящая, например, из сигнального флага, обозначающего "регулировка VPC включена" или в противном случае "регулировка VPC отключена".
Импульсоподобные события во временной области проявляют сильную фазовую когерентность относительно своих спектральных представлений. Например, импульс Дирака (Dirac), подвергнутый преобразованию Фурье, имеет плоский спектр с линейно увеличивающимися фазами. То же самое утверждение справедливо и для последовательности периодических импульсов, имеющих основную частоту f_0. Здесь спектр является линейчатым спектром. Эти одиночные линии, которые имеют расстояние по частоте, равное f_0, также являются когерентными по фазе. Когда их фазовая когерентность нарушена (амплитуды остаются неизмененными), то результирующим сигналом во временной области больше не является последовательность импульсов Дирака, но вместо этого импульсы были значительно расширены по времени. Это видоизменение слышимо и является особо уместным для звуков, которые являются подобными последовательности импульсов, например, для вокализованной речи, медных инструментов или смычковых инструментов.
Следовательно, VPC может быть измерена косвенно путем определения локальной неплоскости огибающей аудиосигнала во времени (могут быть рассмотрены абсолютные значения огибающей).
Путем суммирования субполосовых огибающих по частоте может быть определено, суммируются ли огибающие в плоскую объединенную огибающую (низкая VPC) или же в неплоскую объединенную огибающую (высокая VPC). Предложенная концепция является особо предпочтительной, если просуммированные огибающие относятся к приспособленным для восприятия точным на слух полосам частот.
В таком случае управляющая информация может быть, например, сгенерирована путем вычисления отношения среднего геометрического объединенной огибающей к среднему арифметическому объединенной огибающей.
В альтернативном варианте может быть выполнено сравнение максимального значения объединенной огибающей со средним значением объединенной огибающей. Например, может быть сформировано отношение "максимальное/среднее", например, отношение максимального значения объединенной огибающей к среднему значению объединенной огибающей.
Например, вместо формирования объединенной огибающей, например, суммы огибающих, значения фазы спектра аудиосигнала, который подлежит кодированию, могут быть сами исследованы на предсказуемость. Высокая предсказуемость указывает высокую VPC. Низкая предсказуемость указывает низкую VPC.
Использование блока кохлеарных фильтров является особо предпочтительным для аудиосигналов, если в качестве психоакустического критерия должна быть задана VPC или особенность VPC. Поскольку выбор конкретной ширины полосы пропускания фильтра задает, какие частичные тона спектра относятся к общей субполосе, и, таким образом, вносят совместный вклад в формирование некоторой субполосовой огибающей, то адаптированные для восприятия фильтры могут наиболее точно моделировать внутреннюю обработку в системе слуха человека.
Кроме того, разница в слуховом восприятии между когерентным по фазе и некогерентным по фазе сигналом, имеющими те же самые по величине спектры, зависит от преобладания гармонических спектральных компонентов в сигнале (или во множестве сигналов). Низкая основная частота, например, 100 Гц этих гармонических составляющих увеличивает эту разницу, а высокая основная частота уменьшает эту разницу, поскольку низкая основная частота приводит к большему количеству обертонов, отведенных той же самой субполосе. Эти обертоны в той же самой субполосе снова суммируют, и может быть исследована их субполосовая огибающая.
Кроме того, важной является амплитуда обертонов. Если амплитуда обертонов является высокой, то рост огибающей временной области становится более резким, сигнал становится более импульсоподобным и, следовательно, VPC становится все более и более важной, например, VPC становится более высокой.
Ниже предложен блок регулирования VPC на стороне декодера согласно варианту осуществления изобретения. Такой блок регулирования VPC может содержать управляющую информацию, которая содержит флаг управляющей информации для VPC.
Если флаг управляющей информации для VPC обозначает, что "регулировка VPC выключена" то не применяют какую-либо специализированную обработку VPC ("транзитное прохождение" или в альтернативном варианте простая задержка). Если флаг означает "регулировка VPC включена", то блок анализирующих фильтров выполняет разложение сегмента сигнала, и инициируют измерение фазы p0(f) каждой линии спектра на частоте f. Исходя из этого, вычисляют смещения dp(f)=α*(p0(f)+const) регулировки фазы, где "const" обозначает угол в радианах между -π и π. Для упомянутого сегмента сигнала и следующих последовательных сегментов, где сигнализируют "регулировка VPC включена", фазы px(f) линий спектра x(f) в этом случае регулируют так, чтобы они были равными px’(f)=px(f)-dp(f). Отрегулированный по VPC сигнал в конечном счете преобразовывают во временную область блоком синтезирующих фильтров.
Концепция основана на идее выполнения начального измерения для определения отклонения от идеальной фазовой характеристики. Это отклонение компенсируют позже. α может представлять собой угол в диапазоне 0 ≤ α ≤ 1, α=0 означает отсутствие компенсации, α=1 означает полную компенсацию относительно идеальной фазовой характеристики. Идеальной фазовой характеристикой, например, может являться фазовая характеристика, приводящая в результате к фазовой характеристике с максимальной плоскостностью, "const" представляет собой фиксированный аддитивный угол, который не изменяет фазовую когерентность, но который позволяет регулировать чередующиеся абсолютные фазы, и таким образом генерировать соответствующие сигналы, например, преобразование Гильберта (Hilbert) сигнала, когда const равен 90°.
На Фиг. 7 проиллюстрировано устройство обработки первого аудиосигнала для получения второго аудиосигнала согласно другому варианту осуществления изобретения. Это устройство содержит генератор 710 управляющей информации и блок 720 регулировки фазы. Генератор 710 управляющей информации приспособлен для генерации управляющей информации так, чтобы управляющая информация указывала вертикальную фазовую когерентность первого аудиосигнала. Блок 720 регулировки фазы приспособлен для регулировки первого аудиосигнала для получения второго аудиосигнала. Кроме того, блок 720 регулировки фазы приспособлен для регулировки первого аудиосигнала на основании управляющей информации.
На Фиг. 7 изображен вариант осуществления изобретения на одной стороне. Определение управляющей информации и выполненных регулировок фазы не разделяют между кодером (генерация управляющей информации) и декодером (регулировка фазы). Вместо этого генерацию управляющей информации и регулировку фазы выполняет одно устройство или одна система.
На Фиг. 8 манипуляции с VPC выполняют в декодере, управляемом управляющей информацией, также сгенерированной на стороне декодера ("односторонняя система"), где эту управляющую информацию генерируют путем анализа декодированного аудиосигнала. На Фиг. 8 проиллюстрирован перцепционный аудиокодек с односторонней обработкой VPC согласно варианту осуществления изобретения.
Односторонняя система согласно вариантам осуществления изобретения, которая проиллюстрирована, например, на Фиг. 7 и Фиг. 8, может иметь следующие характеристики:
Выходной сигнал любого существующего способа обработки сигналов или аудиосистемы, например, выходной сигнал аудиодекодера, обрабатывают без доступа к управляющей информации для VPC, сгенерированной при доступе к неухудшенному/исходному сигналу (например, на стороне кодера). Вместо этого управляющая информация для VPC может быть сгенерирована непосредственно из заданного сигнала, например, от выходного сигнала аудиосистемы, например, декодера (управляющая информация для VPC может быть сгенерирована "вслепую").
Управляющая информация для VPC для управления регулировкой VPC может содержать, например, сигналы для включения/отключения блока регулирования VPC или для определения силы регулировки VPC, или же управляющая информация для VPC может содержать одно или несколько целевых значений VPC, которые должны быть утверждены.
Кроме того, обработка может быть выполнена на этапе регулировки VPC (блок регулирования VPC), на котором используют сгенерированную вслепую управляющую информацию для VPC и подают его выходной сигнал как выходной сигнал системы.
Ниже предложен вариант осуществления генератора управления VPC на стороне декодера. Генератор управления на стороне декодера может являться весьма сходным с генератором управления на стороне кодера. Например, он может содержать детектор высоты звука, который передает результат измерения интенсивности высоты звука и/или степени периодичности и сравнения с предопределенным порогом. Однако, этот порог может отличаться от порога, используемого в генераторе управления на стороне кодера, поскольку генератор VPC на стороне декодера работает с сигналом, уже искаженным VPC. Если искажение VPC является умеренным, то остальная VPC также может быть измерена и сравнена с заданным порогом для генерации управляющей информации для VPC.
Согласно предпочтительному варианту осуществления изобретения, если измеренная VPC является высокой, то применяют видоизмененную VPC для дополнительного увеличения VPC выходного сигнала, а если измеренная VPC является низкой, то видоизмененную VPC не применяют. Поскольку сохранение VPC является наиболее важным для тональных и гармонических сигналов, согласно предпочтительному варианту осуществления изобретения, для обработки VPC может использоваться детектор высоты звука, или, по меньшей мере, детектор изменения высоты звука, предоставляющий меру силы преобладающей высоты звука.
Наконец, двухсторонний подход и односторонний подход могут быть объединены, при этом способом регулировки VPC управляют как посредством переданной управляющей информации для VPC, полученной из исходного/неухудшенного сигнала, и информации, извлеченной из обработки (например, декодирования) аудиосигнала. Например, результатом такого сочетания является объединенная система.
Несмотря на то, что некоторые аспекты были описаны применительно к устройству, ясно, что эти аспекты также представляют собой описание соответствующего способа, где блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные применительно к этапу способа, также представляют собой описание соответствующего блока или элемента или признака соответствующего устройства.
В зависимости от конкретных требований, предъявляемых к реализации, варианты осуществления изобретения могут быть реализованы посредством аппаратного обеспечения или программного обеспечения. Реализация может быть осуществлена с использованием цифрового носителя информации, такого как, например, гибкий диск, универсальный цифровой диск (DVD), компакт-диск (CD), постоянное запоминающее устройство (ROM), программируемое постоянное запоминающее устройство (PROM), стираемое программируемое постоянное запоминающее устройство (EPROM), электрически стираемое программируемое постоянное запоминающее устройство(EEPROM) или флэш-память, которые имеют хранящиеся на них считываемые при помощи электроники управляющие сигналы, взаимодействующие (или способные взаимодействовать) с программируемой компьютерной системой для выполнения соответствующего способа.
Согласно изобретению, некоторые варианты его осуществления содержат носитель информации, имеющий считываемые при помощи электроники управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой для выполнения одного из описанных здесь способов.
В принципе, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, причем этот программный код действует так, что обеспечивает выполнение одного из способов при работе этого компьютерного программного продукте в компьютере. Программный код может храниться, например, на машинно-читаемом носителе.
Другие варианты осуществления изобретения включают в себя компьютерную программу для выполнения одного из описанных здесь способов, хранящуюся на машинно-читаемом носителе или на невременном носителе данных.
Следовательно, другими словами, вариантом осуществления способа, предложенного в изобретении, является компьютерная программа, имеющая программный код для выполнения одного из описанных здесь способов при выполнении этой компьютерной программы в компьютере.
Следовательно, еще одним вариантом осуществления способов, предложенных в изобретении, является носитель данных (цифровой носитель информации или считываемый посредством компьютера носитель информации), содержащий записанную на нем компьютерную программу для выполнения одного из описанных здесь способов.
Следовательно, еще одним вариантом осуществления способа, предложенного в изобретении, является поток данных или последовательность сигналов, представляющая собой компьютерную программу для выполнения одного из описанных здесь способов. Например, поток данных или последовательность сигналов могут быть сконфигурированы с возможностью передачи через коммуникационное соединение для передачи данных, например, через сеть Интернет.
Еще один вариант осуществления изобретения содержит средство обработки, например компьютер, или программируемое логическое устройство, выполненное с возможностью выполнения одного из описанных здесь способов или приспособленное для этого.
Еще один вариант осуществления изобретения содержит компьютер, имеющий установленную в нем компьютерную программу для выполнения одного из описанных здесь способов.
В некоторых вариантах осуществления изобретения для выполнения некоторых или всех функций описанных здесь способов может использоваться программируемое логическое устройство (например, программируемая пользователем вентильная матрица). В некоторых вариантах осуществления изобретения программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из описанных здесь способов. Как правило, способы предпочтительно выполняются любым аппаратным устройством.
Описанные выше варианты осуществления изобретения приведены просто в качестве иллюстративных примеров принципов настоящего изобретения. Понятно, что модификации и изменения описанных здесь устройств и подробностей являются очевидными для специалистов в данной области техники. Следовательно, подразумевают, что изобретение ограничено исключительно объемом приведенной ниже формулы изобретения, а не конкретными подробностями, представленными здесь посредством описания и объяснения вариантов осуществления изобретения.
ССЫЛКИ
[1] Painter, T.; Spanias, A. Perceptual coding of digital audio, Proceedings of the IEEE, 88(4), 2000; pp. 451-513.
[2] Larsen, E.; Aarts, R. Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design, John Wiley and Sons Ltd, 2004, Chapters 5, 6.
[3] Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, 0. Spectral Band Replication, a Novel Approach in Audio Coding, 112th AES Convention, April 2002, Preprint 5553.
[4] Nagel, F.; Disch, S.; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs, 126th AES Convention, 2009.
[5] Faller, C.; Baumgarte, F. Binaural Cue Coding - Part II: Schemes and applications, IEEE Trans. On Speech and Audio Processing, Vol. 11, No. 6, Nov. 2003.
[6] Schuijers, E.; Breebaart, J.; Pumhagen, H.; Engdegard, J. Low complexity parametric stereo coding, 116th AES Convention, Berlin, Germany, 2004; Preprint 6073.
[7] Herre, J.; Kjörling, K.; Breebaart, J. и др. MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding, Journal of the AES, Vol. 56, No. 11, November 2008; pp. 932-955.
[8] Laroche, J.; Dolson, M., "Phase-vocoder: about this phasiness business, " Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, vol., no., pp. 4 pp., 19-22, Oct 1997.
[9] Pumhagen, H.; Meine, N.;, "HILN-the MPEG-4 parametric audio coding tools, " Circuits and Systems, 2000. Proceedings. IS CAS 2000 Geneva. The 2000 IEEE International Symposium on, vol. 3, no., pp. 201-204 vol. 3, 2000.
[10] Oomen, Wemer; Schuijers, Erik; den Brinker, Bert; Breebaart, Jeroen:, "Advances in Parametric Coding for High-Quality Audio," Audio Engineering Society Convention 114, preprint, Amsterdam/NL, March 2003.
[11] van Schijndel, N. H.; van de Par, S.;, "Rate-distortion optimized hybrid sound coding, " Applications of Signal Processing to Audio and Acoustics, 2005. IEEE Workshop on, vol., no., pp. 235-238, 16-19 Oct. 2005.
[12] http://people.xiph.org/-xiphmont/demo/ghost/demo.html
[13] D. Griesinger ‘The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources’ Tonmeister Tagung 2010.
[14] D. Dorran и R. Lawlor, "Time-scale modification of music using a synchronized subband/timedomain approach," IEEE International Conference on Acoustics, Speech and Signal Processing, pp. IV 225- IV 228, Montreal, May 2004.
[15] J. Laroche, "Frequency-domain techniques for high quality voice modification," Proceedings of the International Conference on Digital Audio Effects, pp. 328-322, 2003.
Изобретение относится к средствам для управления фазовой когерентностью для гармонических сигналов в перцепционных аудиокодеках. Технический результат заключается в повышении качества аудиосигнала. Декодер содержит блок декодирования и блок регулировки фазы. Блок декодирования приспособлен для декодирования закодированного аудиосигнала для получения декодированного аудиосигнала. Блок регулировки фазы приспособлен для регулировки декодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала. Блок регулировки фазы выполнен с возможностью приема управляющей информации в зависимости от вертикальной фазовой когерентности закодированного аудиосигнала. Кроме того, блок регулировки фазы приспособлен для регулировки декодированного аудиосигнала на основании управляющей информации. 7 н. и 11 з.п. ф-лы, 9 ил.
1. Декодер для декодирования закодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала, содержащий:
блок (110) декодирования для декодирования закодированного аудиосигнала для получения декодированного аудиосигнала, и
блок (120; 430; 560) регулировки фазы для регулировки декодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала,
в котором блок (120; 430; 560) регулировки фазы выполнен с возможностью приема управляющей информации в зависимости от вертикальной фазовой когерентности закодированного аудиосигнала, и
в котором блок (120; 430; 560) регулировки фазы приспособлен для регулировки декодированного аудиосигнала на основании управляющей информации.
2. Декодер по п. 1,
в котором блок (120; 430; 560) регулировки фазы выполнен с возможностью регулировки декодированного аудиосигнала, когда управляющая информация указывает, что регулировка фазы активирована, и
в котором блок (120; 430; 560) регулировки фазы выполнен с возможностью не регулировать декодированный аудиосигнал, когда управляющая информация указывает, что регулировка фазы деактивирована.
3. Декодер по п. 1,
в котором блок (120; 430; 560) регулировки фазы выполнен с возможностью приема управляющей информации, при этом управляющая информация содержит значение силы, указывающее силу регулировки фазы, и
в котором блок (120; 430; 560) регулировки фазы выполнен с возможностью регулировки декодированного аудиосигнала на основании этого значения силы.
4. Декодер по п. 1,
в котором декодер дополнительно содержит блок анализирующих фильтров для разложения декодированного аудиосигнала на множество субполосовых сигналов множества субполос,
в котором блок (120; 430; 560) регулировки фазы выполнен с возможностью определения множества первых значений фазы множества субполосовых сигналов, и
в котором блок (120; 430; 560) регулировки фазы приспособлен для регулировки закодированного аудиосигнала путем модифицирования по меньшей мере некоторых из множества первых значений фазы для получения вторых значений фазы отрегулированного по фазе аудиосигнала.
5. Декодер по п. 4,
в котором блок (120; 430; 560) регулировки фазы выполнен с возможностью регулировки по меньшей мере некоторых из значений фазы путем применения следующих формул:
рх'(f)=px(f)-dp(f), и dp(f)=α*(p0(f)+const),
где f - частота, указывающая одну из субполос, которая имеет частоту f в качестве центральной частоты,
где px(f) - одно из первых значений фазы одного из субполосовых сигналов одной из субполос, имеющей частоту f в качестве центральной частоты,
где рх'(f) - одно из вторых значений фазы одного из субполосовых сигналов одной из субполос, имеющей частоту f в качестве центральной частоты,
где const - первый угол в диапазоне -π≤const≤π,
где α - вещественное число в диапазоне 0≤α≤1; и
где p0(f) - второй угол в диапазоне -π≤p0(f)≤π, где второй угол p0(f) назначен упомянутой одной из субполос, имеющей частоту f в качестве центральной частоты.
6. Декодер по п. 4,
в котором блок (120; 430; 560) регулировки фазы выполнен с возможностью регулировки по меньшей мере некоторых из значений фазы путем умножения по меньшей мере некоторых из множества субполосовых сигналов на экспоненциальный фазовый член,
в котором экспоненциальный фазовый член задается формулой е-jdp(f),
где множеством субполосовых сигналов являются комплексные субполосовые сигналы, и
где j - мнимая единица.
7. Декодер по п. 1,
в котором декодер дополнительно содержит блок (125) синтезирующих фильтров,
в котором отрегулированным по фазе аудиосигналом является отрегулированный по фазе аудиосигнал спектральной области, представленный в спектральной области, и
в котором блок (125) синтезирующих фильтров выполнен с возможностью преобразования отрегулированного по фазе аудиосигнала спектральной области из спектральной области во временную область для получения отрегулированного по фазе аудиосигнала временной области.
8. Кодер для кодирования управляющей информации на основании входного аудиосигнала, содержащий:
блок (210) преобразования для преобразования входного аудиосигнала из временной области в спектральную область для получения преобразованного аудиосигнала, содержащего множество субполосовых сигналов, назначенных множеству субполос,
генератор (220; 420; 520; 600) управляющей информации для генерации управляющей информации так, чтобы управляющая информация указывала вертикальную фазовую когерентность преобразованного аудиосигнала, и
блок (230) кодирования для кодирования преобразованного аудиосигнала и управляющей информации.
9. Кодер по п. 8,
в котором блок (210) преобразования содержит блок кохлеарных фильтров для преобразования входного аудиосигнала из временной области в спектральную область для получения преобразованного аудиосигнала, содержащего множество субполосовых сигналов.
10. Кодер по п. 8,
в котором генератор (220; 420; 520; 600) управляющей информации выполнен с возможностью определения субполосовой огибающей для каждого из множества субполосовых сигналов для получения множества огибающих субполосовых сигналов,
в котором генератор (220; 420; 520; 600) управляющей информации выполнен с возможностью генерации объединенной огибающей на основании множества огибающих субполосовых сигналов, и
в котором генератор (220; 420; 520; 600) управляющей информации выполнен с возможностью генерации управляющей информации на основании объединенной огибающей.
11. Кодер по п. 10,
в котором генератор (220; 420; 520; 600) управляющей информации выполнен с возможностью генерации характеристического числа на основании объединенной огибающей, и
в котором генератор (220; 420; 520; 600) управляющей информации выполнен с возможностью генерации управляющей информации так, чтобы эта управляющая информация указывала, что регулировка фазы активирована, когда характеристическое число превышает пороговое значение, и
в котором генератор (220; 420; 520; 600) управляющей информации выполнен с возможностью генерации управляющей информации так, чтобы эта управляющая информация указывала, что регулировка фазы деактивирована, когда характеристическое число меньше или равно пороговому значению.
12. Кодер по п. 10,
в котором генератор (220; 420; 520; 600) управляющей информации выполнен с возможностью генерации управляющей информации путем вычисления отношения среднего геометрического объединенной огибающей к среднему арифметическому объединенной огибающей.
13. Кодер по п. 8,
в котором генератор (220; 420; 520; 600) управляющей информации выполнен с возможностью генерации управляющей информации так, чтобы упомянутая управляющая информация содержала значение силы, указывающее степень вертикальной фазовой когерентности субполосовых сигналов.
14. Система для получения отрегулированного по фазе аудиосигнала, причем система содержит
кодер (310) по одному из пп. 8-13 и
по меньшей мере один декодер (320) по одному из пп. 1-7,
при этом кодер (310) выполнен с возможностью преобразования входного аудиосигнала для получения преобразованного аудиосигнала, при этом кодер (310) выполнен с возможностью кодирования преобразованного аудиосигнала для получения закодированного аудиосигнала,
при этом кодер (310) выполнен с возможностью кодирования управляющей информации, указывающей вертикальную фазовую когерентность преобразованного аудиосигнала,
при этом кодер (310) выполнен с возможностью подачи закодированного аудиосигнала и управляющей информации в упомянутый по меньшей мере один декодер,
при этом упомянутый по меньшей мере один декодер (320) выполнен с возможностью декодирования закодированного аудиосигнала для получения декодированного аудиосигнала, и
при этом упомянутый по меньшей мере один декодер (320) выполнен с возможностью регулировки декодированного аудиосигнала на основании закодированной управляющей информации для получения отрегулированного по фазе аудиосигнала.
15. Способ декодирования закодированного аудиосигнала для получения отрегулированного по фазе аудиосигнала, состоящий в том, что:
принимают управляющую информацию, при этом управляющая информация указывает вертикальную фазовую когерентность закодированного аудиосигнала,
декодируют закодированный аудиосигнал для получения декодированного аудиосигнала, и
регулируют декодированный аудиосигнал для получения отрегулированного по фазе аудиосигнала на основании управляющей информации.
16. Способ кодирования управляющей информации на основании входного аудиосигнала, состоящий в том, что:
преобразовывают входной аудиосигнал из временной области в спектральную область для получения преобразованного аудиосигнала, содержащего множество субполосовых сигналов, назначенных множеству субполос,
генерируют управляющую информацию так, что упомянутая управляющая информация указывает вертикальную фазовую когерентность преобразованного аудиосигнала, и
кодируют преобразованный аудиосигнал и управляющую информацию.
17. Считываемый компьютером носитель, содержащий компьютерную программу для реализации способа по п. 15 при ее исполнении компьютером или процессором сигналов.
18. Считываемый компьютером носитель, содержащий компьютерную программу для реализации способа по п. 16 при ее исполнении компьютером или процессором сигналов.
Laroche Joint and Dolson Mark: "Phase-vocoder: about this phasiness business", APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS, 1997 | |||
Электрическое сопротивление для нагревательных приборов и нагревательный элемент для этих приборов | 1922 |
|
SU1997A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
Способ и приспособление для нагревания хлебопекарных камер | 1923 |
|
SU2003A1 |
US 5054072 A, 01.10.1991 | |||
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
Способ обработки целлюлозных материалов, с целью тонкого измельчения или переведения в коллоидальный раствор | 1923 |
|
SU2005A1 |
СПОСОБ УДАРНОГО ВОЗБУЖДЕНИЯ ФАЗОВОЙ КОГЕРЕНТНОСТИ ОДНОВРЕМЕННО ПО КРАЙНЕЙ МЕРЕ В ДВУХ КВАНТОВЫХ СИСТЕМАХ | 1991 |
|
RU2009585C1 |
Авторы
Даты
2017-03-09—Публикация
2013-02-26—Подача