ВРЕМЕННОЕ СОГЛАСОВАНИЕ ДАННЫХ ОБРАБОТКИ НА ОСНОВЕ КВАДРАТУРНОГО ЗЕРКАЛЬНОГО ФИЛЬТРА Российский патент 2022 года по МПК G10L21/388 G10L19/32 

Описание патента на изобретение RU2772778C2

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

Настоящая заявка испрашивает приоритет Предварительной Заявки на Патент Соединенных Штатов № 61/877.194, зарегистрированной 12 сентября 2013 г., и Предварительной Заявки на Патент Соединенных Штатов № 61/909.593, зарегистрированной 27 ноября 2013 г., содержание каждой из которых полностью включено в настоящий документ путем ссылки.

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящее изобретение относится к временному согласованию кодированных данных звукового кодера с соответствующими метаданными, такими как метаданные копирования спектрального диапазона (SBR), в частности, Высокоэффективного (НЕ) Усовершенствованного Звукового Кодирования (ААС).

УРОВЕНЬ ТЕХНИКИ ИЗОБРЕТЕНИЯ

Техническая проблема в области звукового кодирования состоит в создании систем звукового кодирования и декодирования, обладающих малой задержкой, например, с целью обеспечения возможности решения прикладных задач реального времени, таких как прямая трансляция. Кроме того, целесообразно создавать системы звукового кодирования и декодирования, обменивающиеся кодированными битовыми потоками, которые могут соединяться с другими битовыми потоками. Помимо этого, следует создавать вычислительно эффективные системы звукового кодирования и декодирования, чтобы обеспечивать экономически эффективную реализацию систем. В настоящем документе рассматривается техническая проблема создания кодированных битовых потоков, которые могут соединяться эффективным образом, вместе с тем одновременно поддерживая время задержки на соответствующем уровне для прямой трансляции. В настоящем документе описывается система звукового кодирования и декодирования, которая обеспечивает соединение битовых потоков с приемлемыми задержками при кодировании, тем самым, обеспечивая возможность решения прикладных задач, таких как прямая трансляция, в которых транслируемый битовый поток может генерироваться из множества исходных битовых потоков.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

В соответствии с одним из аспектов, описывается звуковой декодер, выполненный с возможностью определения восстановленного кадра звукового сигнала по блоку доступа принимаемого потока данных. Как правило, поток данных содержит последовательность блоков доступа для определения соответствующей последовательности восстановленных кадров звукового сигнала. Кадр звукового сигнала, как правило, содержит заранее задаваемое число N выборок временной области звукового сигнала (при величине N, большей единицы). В этой связи, последовательность блоков доступа может соответственно описывать последовательность кадров звукового сигнала.

Блок доступа содержит данные о форме сигнала и метаданные, причем данные о форме сигнала и метаданные связаны с одним и тем же восстановленным кадром звукового сигнала. Иными словами, данные о форме сигнала и метаданные для определения восстановленного кадра звукового сигнала содержатся в одном и том же блоке доступа. Каждый из блоков доступа в последовательности блоков доступа может содержать данные о форме сигнала и метаданные для генерирования соответствующего восстановленного кадра в последовательности восстановленных кадров звукового сигнала. В частности, блок доступа конкретного кадра может содержать (например, все) данные, необходимые для определения восстановленного кадра для конкретного кадра.

В одном из примеров блок доступа конкретного кадра может содержать (например, все) данные, необходимые для реализации схемы восстановления высоких частот (HFR) для генерирования сигнала верхнего диапазона конкретного кадра на основе сигнала нижнего диапазона конкретного кадра (содержащегося в данных о форме сигнала и блока доступа) и на основе декодированных метаданных.

В качестве альтернативы или помимо этого, блок доступа конкретного кадра может содержать (например, все) данные, необходимые для реализации расширения динамического диапазона конкретного кадра. В частности, расширение или развертывание сигнала нижнего диапазона конкретного кадра может осуществляться на основе декодированных метаданных. С этой целью декодированные метаданные могут содержать один или более из параметров развертывания. Указанные один или более из параметров развертывания могут свидетельствовать об одном или более из следующего: должно или нет сжатие/расширение применяться к конкретному кадру; должно или нет сжатие/расширение применяться равномерным образом для всех каналов многоканального звукового сигнала (т.е., должен ли применяться один и тот же коэффициент (коэффициенты) усиления развертывания для всех каналов многоканального звукового сигнала, или должен ли применяться различный коэффициент (коэффициенты) усиления развертывания для различных каналов многоканального звукового сигнала); и/или о временном разрешении коэффициента усиления развертывания.

Обеспечение в последовательности блоков доступа таких блоков доступа, каждый из которых содержит данные, необходимые для генерирования соответствующего восстановленного кадра звукового сигнала, независимо от предыдущего или следующего блока доступа, целесообразно для решения задач соединения, поскольку это позволяет соединять поток данных между двумя смежными блоками доступа, не оказывая влияния на качество восприятия восстановленного кадра звукового сигнала в точке соединения (например, непосредственно вслед за ней).

В одном из примеров восстановленный кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, причем данные о форме сигнала ии указывают сигнал нижнего диапазона, и причем метаданные указывают огибающую спектра сигнала верхнего диапазона. Сигнал нижнего диапазона может соответствовать компоненте звукового сигнала, охватывающей диапазон относительно низких частот (например, содержащей частоты, меньшие заранее задаваемой частоты разделения). Сигнал верхнего диапазона может соответствовать компоненте звукового сигнала, охватывающей диапазон относительно высоких частот (например, содержащей частоты, большие заранее задаваемой частоты разделения). Сигнал нижнего диапазона и сигнал верхнего диапазона могут дополнять друг друга в отношении диапазона частот, охватываемого сигналом нижнего диапазона и сигналом верхнего диапазона. Звуковой декодер может быть выполнен с возможностью осуществления восстановления высоких частот (HFR), такого как копирование спектрального диапазона (SBR), сигнала верхнего диапазона с помощью метаданных и данных о форме сигнала. В этой связи, метаданные могут содержать метаданные HFR или SBR, указывающие огибающую спектра сигнала верхнего диапазона.

Звуковой декодер может содержать тракт обработки формы сигнала, выполненный с возможностью генерирования множества форм форм субполосных сигналов по данным о форме сигнала. Множество форм форм субполосных сигналов может соответствовать представлению формы сигнала во временной области в области субполосы (например, в области квадратурного зеркального фильтра (QMF)). Форма сигнала во временной области может соответствовать вышеуказанному сигналу нижнего диапазона, а множество форм форм субполосных сигналов может соответствовать множеству сигнала нижнего диапазона. Кроме того, звуковой декодер может содержать тракт обработки метаданных, выполненный с возможностью генерирования декодированных метаданных по метаданным.

Помимо этого, звуковой декодер может содержать блок применения и синтеза метаданных, выполненный с возможностью генерирования восстановленного кадра звукового сигнала по множеству форм форм субполосных сигналов и по декодированным метаданным. В частности, блок применения и синтеза метаданных может быть выполнен с возможностью реализации схемы HFR и/или SBR для генерирования множества (например, масштабированных) субполосных сигналов верхнего диапазона по множеству форм форм субполосных сигналов (т.е., в этом случае по множеству субполосных сигналов нижнего диапазона) и по декодированным метаданным. Восстановленный кадр звукового сигнала может при этом определяться на основе множества (например, масштабированных) субполосных сигналов верхнего диапазона и на основе множества сигналов нижнего диапазона.

В качестве альтернативы или помимо этого, звуковой декодер может содержать блок развертывания, выполненный с возможностью осуществления расширения - или выполненный с возможностью расширения - множества форм форм субполосных сигналов с помощью, по меньшей мере, некоторых декодированных метаданных, в частности, с помощью указанных одного или более из параметров развертывания, входящих в декодированные метаданные. С этой целью блок развертывания может быть выполнен с возможностью применения одного или более из коэффициентов усиления развертывания к множеству форм субполосных сигналов. Блок развертывания может быть выполнен с возможностью определения указанных одного или более из коэффициентов усиления развертывания на основе множества форм субполосных сигналов, на основе одного или более из заранее задаваемых правил или функций сжатия/развертывания и/или на основе указанных одного или более из параметров развертывания.

Тракт обработки формы сигнала и/или тракт обработки метаданных может включать в себя, по меньшей мере, один блок задержки, выполненный с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных. В частности, указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных и/или введения, по меньшей мере, одной задержки в тракт обработки формы сигнала и/или в тракт обработки метаданных таким образом, что полная задержка тракта обработки формы сигнала соответствует полной задержке тракта обработки метаданных. В качестве альтернативы или помимо этого, указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных таким образом, что множество форм субполосных сигналов и декодированные метаданные своевременно выдаются в блок применения и синтеза метаданных для обработки, выполняемой блоком применения и синтеза метаданных. В частности, множество форм субполосных сигналов и декодированные метаданные могут выдаваться в блок применения и синтеза метаданных таким образом, что блок применения и синтеза метаданных не обязательно должен буферизовать множество форм субполосных сигналов и/или декодированные метаданные перед выполнением обработки (например, обработки HFR или SBR) множества форм субполосных сигналов и/или декодированных метаданных.

Иными словами, звуковой декодер может быть выполнен с возможностью задержки выдачи декодированных метаданных и/или множества форм субполосных сигналов в блок применения и синтеза метаданных, который может быть выполнен с возможностью реализации схемы HFR, таким образом, что декодированные метаданные и/или множество форм субполосных сигналов выдаются для обработки по мере необходимости. Введенная задержка может выбираться для уменьшения (например, минимизации) полной задержки аудиокодека (содержащего звуковой декодер и соответствующий звуковой кодер), вместе с тем одновременно обеспечивая соединение битового потока, содержащего последовательность блоков доступа. В этой связи, звуковой декодер может быть выполнен с возможностью обработки согласованных по времени блоков доступа, которые содержат данные о форме сигнала и метаданные, для определения конкретного кадра звукового сигнала при минимальном влиянии на полную задержку аудиокодека. Кроме того, звуковой декодер может быть выполнен с возможностью обработки согласованных по времени блоков доступа без необходимости повторной выборки метаданных. При этом звуковой декодер выполнен с возможностью определения конкретного восстановленного кадра звукового сигнала вычислительно эффективным образом и без ухудшения качества звука. Следовательно, звуковой декодер может быть выполнен с возможностью обеспечения решения задач соединения вычислительно эффективным образом, вместе с тем сохраняя высокое качество звука и малую полную задержку.

Кроме того, использование, по меньшей мере, одного блока задержки, выполненного с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных, может обеспечивать точное и стабильное временное согласование множества форм субполосных сигналов и декодированных метаданных в области субполосы (в которой, как правило, выполняется обработка множества форм субполосных сигналов и декодированных метаданных).

Тракт обработки метаданных может включать в себя блок задержки метаданных, выполненный с возможностью задержки декодированных метаданных на большее нуля целое кратное длины N восстановленного кадра звукового сигнала. Дополнительная задержка, которая вносится блоком задержки метаданных, может называться задержкой метаданных. Длина N может соответствовать числу N выборок во временной области, содержащихся в восстановленном кадре звукового сигнала. Целое кратное может быть таким, что задержка, вносимая блоком задержки метаданных, больше задержки, вносимой обработкой тракта обработки формы сигнала (например, без учета дополнительной задержки формы сигнала, вносимой в тракт обработки формы сигнала). Задержка метаданных может зависеть от длины N восстановленного кадра звукового сигнала. Это может быть связано с тем, что задержка, вызываемая обработкой в тракте обработки формы сигнала, зависит от длины N кадра. В частности, целое кратное может составлять единицу для длин N кадра, превышающих 960, и/или целое кратное может составлять два для длин N кадра, не превышающих 960.

Как указано выше, блок применения и синтеза метаданных может быть выполнен с возможностью обработки декодированных метаданных и множества форм субполосных сигналов в области субполосы (например, в области QMF). Кроме того, декодированные метаданные могут указывать метаданные (например, указывать спектральные коэффициенты, описывающие огибающую спектра сигнала верхнего диапазона) в области субполосы. Помимо этого, блок задержки метаданных может быть выполнен с возможностью задержки декодированных метаданных. Использование задержек метаданных, которые являются большими нуля целыми кратными длины N кадра, может оказаться целесообразным, поскольку это обеспечивает стабильное выравнивание множества форм субполосных сигналов и декодированных метаданных в области субполосы (например, для обработки в блоке применения и синтеза метаданных). В частности, это гарантирует, что декодированные метаданные могут применяться к надлежащему кадру формы сигнала (т.е., к надлежащему кадру множества форм субполосных сигналов) без необходимости повторной выборки метаданных.

Тракт обработки формы сигнала может содержать блок задержки формы сигнала, выполненный с возможностью задержки множества форм субполосных сигналов таким образом, что полная задержка тракта обработки формы сигнала соответствует большему нуля целому кратному длины N восстановленного кадра звукового сигнала. Дополнительная задержка, которая вносится блоком задержки формы сигнала, может называться задержкой формы сигнала. Целое кратное тракта обработки формы сигнала может соответствовать целому кратному тракта обработки метаданных.

Блок задержки формы сигнала и/или блок задержки метаданных могут быть реализованы в виде буферов, которые выполнены с возможностью хранения множества форм субполосных сигналов и/или декодированных метаданных в течение промежутка времени, соответствующего задержке формы сигнала, и/или в течение промежутка времени, соответствующего задержке метаданных. Блок задержки формы сигнала может быть установлен в любом месте в тракте обработки формы сигнала перед блоком применения и синтеза метаданных. В этой связи, блок задержки формы сигнала может быть выполнен с возможностью задержки данных о форме сигнала и/или множества форм субполосных сигналов (и/или промежуточных данных или сигналов в тракте обработки формы сигнала). В одном из примеров блок задержки формы сигнала может быть распределен вдоль тракта обработки формы сигнала, причем каждый из распределенных блоков задержки обеспечивает некоторую долю полной задержки формы сигнала. Распределение блока задержки формы сигнала может оказаться целесообразным для экономически-эффективной реализации блока задержки формы сигнала. Аналогично блоку задержки формы сигнала, блок задержки метаданных может быть установлен в любом месте в тракте обработки метаданных перед блоком применения и синтеза метаданных. Кроме того, блок задержки формы сигнала может быть распределен вдоль тракта обработки метаданных.

Тракт обработки формы сигнала может содержать блок декодирования и деквантизации, выполненный с возможностью декодирования и деквантизации данных о форме сигнала для получения множества частотных коэффициентов, указывающих форму сигнала. В этой связи, данные о форме сигнала могут содержать множество частотных коэффициентов или могут указывать их, что обеспечивает генерирование формы сигнала восстановленного кадра звукового сигнала. Кроме того, тракт обработки формы сигнала может содержать блок синтеза формы сигнала, выполненный с возможностью генерирования формы сигнала по множеству частотных коэффициентов. Блок синтеза формы сигнала может быть выполнен с возможностью осуществления преобразования из частотной области во временную область. В частности, блок синтеза формы сигнала может быть выполнен с возможностью осуществления обратного модифицированного дискретного косинусного преобразования (MDCT). Блок синтеза формы сигнала или обработка блока синтеза формы сигнала могут вносить задержку, которая зависит от длины N восстановленного кадра звукового сигнала. В частности, задержка, вносимая блоком синтеза формы сигнала, может соответствовать длине N кадра.

После восстановления формы сигнала по данным о форме сигнала может обрабатываться в соответствии с декодированными метаданными. В одном из примеров формы сигнал может использоваться применительно к схеме HFR или SBR для определения сигнала верхнего диапазона с помощью декодированных метаданных. С этой целью тракт обработки формы сигнала может содержать блок анализа, выполненный с возможностью генерирования множества форм субполосных сигналов по форме сигнала. Блок анализа может быть выполнен с возможностью осуществления преобразования из временной области в область субполосы, например, путем применения набора квадратурных зеркальных фильтров (QMF). Как правило, частотное разрешение преобразования, выполняемого блоком синтеза формы сигнала, выше (например, по меньшей мере, в 5 или 10 раз), чем частотное разрешение преобразования, выполняемого блоком анализа. Это может обозначаться терминами «частотная область» и «область субполосы», причем частотная область может быть связана с более высоким частотным разрешением, чем область субполосы. Блок анализа может вносить постоянную задержку, которая не зависит от длины N восстановленного кадра звукового сигнала. Постоянная задержка, которая вносится блоком анализа, может зависеть от длины фильтров в наборе фильтров, используемом блоком анализа. Например, постоянная задержка, которая вносится блоком анализа, может соответствовать 320 выборкам звукового сигнала.

Полная задержка тракта обработки формы сигнала может дополнительно зависеть от заранее определенного прогноза между метаданными и данными о форме сигнала. Такой прогноз может оказаться целесообразным для увеличения непрерывности между смежными восстановленными кадрами звукового сигнала. Заранее задаваемый прогноз и/или соответствующая задержка прогноза могут соответствовать 192 или 384 выборкам звуковой выборки. Задержка прогноза может представлять собой задержку в случае определения метаданных HFR или SBR, указывающих огибающую спектра сигнала верхнего диапазона. В частности, прогноз может позволять соответствующему звуковому кодеру определять метаданные HFR или SBR конкретного кадра звукового сигнала на основе заранее задаваемого числа выборок от непосредственно следующего кадра звукового сигнала. Это может оказаться целесообразным в тех случаях, когда конкретный кадр включает в себя акустический переходный процесс. Задержка прогноза может применяться блоком задержки прогноза, содержащимся в тракте обработки формы сигнала.

В этой связи, полная задержка тракта обработки формы сигнала, т.е., задержка формы сигнала может зависеть от различной обработки, которая выполняется в тракте обработки формы сигнала. Кроме того, задержка формы сигнала может зависеть от задержки метаданных, которая вносится в тракт обработки метаданных. Задержка формы сигнала может соответствовать произвольному кратному выборки звукового сигнала. По этой причине может оказаться целесообразным использовать блок задержки формы сигнала, который выполнен с возможностью задержки формы сигнала, причем форма сигнала представлена во временной области. Иными словами, может оказаться целесообразным применять задержку формы сигнала к форме сигнала. При этом может обеспечиваться точное и стабильное применение задержки формы сигнала, которая соответствует произвольному кратному выборки звукового сигнала.

Один из примеров декодера может содержать блок задержки метаданных, который выполнен с возможностью применения задержки метаданных к метаданным, причем метаданные могут быть представлены в области субполосы, и блок задержки формы сигнала, который выполнен с возможностью применения задержки формы сигнала к форме сигнала, представленному во временной области. Блок задержки метаданных может применять задержку метаданных, которая соответствует целому кратному длины N кадра, а блок задержки формы сигнала может применять задержку метаданных, которая соответствует целому кратному выборки звукового сигнала. Вследствие этого, может обеспечиваться точная и стабильное выравнивание множества форм субполосных сигналов и декодированных метаданных для обработки в блоке применения и синтеза метаданных. Обработка множества форм субполосных сигналов и декодированных метаданных может происходить в области субполосы. Выравнивание множества форм субполосных сигналов и декодированных метаданных может достигаться без повторной выборки декодированных метаданных, тем самым обеспечивая вычислительно эффективное и сохраняющее качество средство выравнивания.

Как отмечалось выше, звуковой декодер может быть выполнен с возможностью реализации схемы HFR или SBR. Блок применения и синтеза метаданных может содержать блок применения метаданных, который выполнен с возможностью осуществления восстановления высоких частот (такого как SBR) с помощью множества сигналов нижнего диапазона и с помощью декодированных метаданных. В частности, блок применения метаданных может быть выполнен с возможностью транспонирования одного или более из множества сигналов нижнего диапазона для генерирования множества субполосных сигналов верхнего диапазона. Кроме того, блок применения метаданных может быть выполнен с возможностью применения декодированных метаданных к множеству субполосных сигналов верхнего диапазона для получения множества масштабированных субполосных сигналов верхнего диапазона. Множество масштабированных субполосных сигналов верхнего диапазона может указывать сигнал верхнего диапазона восстановленного кадра звукового сигнала. Для генерирования восстановленного кадра звукового сигнала блок применения и синтеза метаданных может дополнительно содержать блок синтеза, выполненный с возможностью генерирования восстановленного кадра звукового сигнала из множества сигналов нижнего диапазона и из множества масштабированных субполосных сигналов верхнего диапазона. Блок синтеза может быть выполнен с возможностью осуществления обратного преобразования по отношению к преобразованию, осуществляемому блоком анализа, например, путем применения набора обратных QMF. Число фильтров, содержащихся в наборе фильтров блока синтеза, может быть выше, чем число фильтров, содержащихся в наборе фильтров блока анализа (например, для учета расширенного диапазона частот ввиду множества масштабированных субполосных сигналов верхнего диапазона).

Как указано выше, звуковой декодер может содержать блок развертывания. Блок развертывания может быть выполнен с возможностью изменения (например, увеличения) динамического диапазона множества форм субполосных сигналов. Блок развертывания может быть установлен перед блоком применения и синтеза метаданных. В частности, множество развернутых форм субполосных сигналов может использоваться для реализации схемы HFR или SBR. Иными словами, множество сигналов нижнего диапазона, используемых для реализации схемы HFR или SBR, может соответствовать множеству развернутых форм субполосных сигналов на выходе блока развертывания.

Блок развертывания предпочтительно устанавливается после блока задержки прогноза. В частности, блок развертывания может устанавливаться между блоком задержки прогноза и блоком применения и синтеза метаданных. Благодаря установке блока развертывания после блока задержки прогноза, т.е., благодаря применению задержки прогноза к данным о форме сигнала до развертывания множества форм субполосных сигналов гарантируется, что указанные один или более из параметров развертывания, содержащихся в метаданных, применяются к надлежащим данным о форме сигнала. Иными словами, осуществление развертывания данных о форме сигнала, которые уже были задержаны с помощью задержки прогноза, гарантирует, что указанные один или более из параметров развертывания из метаданных синхронизированы с данными о форме сигнала.

В этой связи, декодированные метаданные могут содержать один или более из параметров развертывания, а звуковой декодер может содержать блок развертывания, выполненный с возможностью генерирования множества развернутых форм субполосных сигналов на основе множества форм субполосных сигналов с помощью указанных одного или более из параметров развертывания. В частности, блок развертывания может быть выполнен с возможностью генерирования множества развернутых форм субполосных сигналов с помощью обратной функции по отношению к заранее задаваемой функции сжатия. Указанные один или более из параметров развертывания могут указывать обратную функцию по отношению к заранее задаваемой функции сжатия. Восстановленный кадр звукового сигнала может определяться по множеству развернутых форм субполосных сигналов.

Как указано выше, звуковой декодер может содержать блок задержки прогноза, выполненный с возможностью задержки множества форм субполосных сигналов в соответствии с заранее задаваемым прогнозом для получения множества задержанных форм субполосных сигналов. Блок развертывания может быть выполнен с возможностью генерирования множества развернутых форм субполосных сигналов путем развертывания множества задержанных форм субполосных сигналов. Иными словами, блок развертывания может быть установлен после блока задержки прогноза. Это обеспечивает синхронность между указанными одним или более из параметров развертывания и множеством форм субполосных сигналов, к которым применимы указанные один или более из параметров развертывания.

Блок применения и синтеза метаданных может быть выполнен с возможностью генерирования восстановленного кадра звукового сигнала с помощью декодированных метаданных (а именно, с помощью соответствующих метаданных SBR/HFR) для временного элемента множества форм субполосных сигналов. Временной элемент может соответствовать числу временных интервалов множества форм субполосных сигналов. Длительность временного элемента может быть переменной, т.е. длительность временного элемента множества форм субполосных сигналов, к которым применяются декодированные метаданные, может изменяться от одного кадра к другому. Иными словами, кадрирование для декодированных метаданных может изменяться. Изменение длительности временного элемента может ограничиваться заранее заданными пределами. Заранее заданные пределы могут соответствовать длительности кадра минус задержка и длительности кадра плюс задержка соответственно. Применение декодированных данных о форме сигнала (или их частей) для временных элементов различных длительностей может оказаться целесообразным для обработки переходных звуковых сигналов.

Блок развертывания может быть выполнен с возможностью генерирования множества развернутых форм субполосных сигналов с помощью указанных одного или более из параметров развертывания для одного и того же временного элемента множества форм субполосных сигналов. Иными словами, кадрирование указанных одного или более из параметров развертывания может быть таким же, как и кадрирование декодированных метаданных, которые используются блоком применения и синтеза метаданных (например, кадрирование для метаданных SBR/HFR). При этом может обеспечиваться стабильность схемы SBR и схемы компандирования и может быть улучшено качество системы кодирования.

В соответствии с еще одним аспектом, описывается звуковой кодер, выполненный с возможностью кодирования кадра звукового сигнала в блок доступа потока данных. Звуковой кодер может быть выполнен с возможностью осуществления соответствующих задач обработки с учетом задач обработки, выполняемых звуковым декодером. В частности, звуковой кодер может быть выполнен с возможностью определения данных о форме сигнала и метаданных по кадру звукового сигнала и введения данных о форме сигнала и метаданных в блок доступа. Данные о форме сигнала и метаданные могут указывать кадр, восстановленный из кадра звукового сигнала. Иными словами, данные о форме сигнала и метаданные могут позволить соответствующему звуковому декодеру определить восстановленную версию исходного кадра звукового сигнала. Кадр звукового сигнала может содержать сигнал нижнего диапазона и сигнал верхнего диапазона. Данные о форме сигнала могут указывать сигнал нижнего диапазона, а метаданные могут указывать огибающую спектра сигнала верхнего диапазона.

Звуковой кодер может содержать тракт обработки формы сигнала, выполненный с возможностью генерирования данных о форме сигнала по кадру звукового сигнала, например, по сигналу нижнего диапазона (например, с помощью базового звукового декодера, такого как Усовершенствованный Звуковой Кодер (ААС). Кроме того, звуковой кодер содержит тракт обработки метаданных, выполненный с возможностью генерирования метаданных по кадру звукового сигнала, например, по сигналу верхнего диапазона и по сигналу нижнего диапазона. В качестве примера звуковой кодер может быть выполнен с возможностью реализации Высокоэффективного (НЕ) ААС, а соответствующий звуковой декодер может быть выполнен с возможностью декодирования принимаемого потока данных в соответствии с НЕ ААС.

Тракт обработки формы сигнала и/или тракт обработки метаданных могут содержать, по меньшей мере, один блок задержки, выполненный с возможностью временного согласования данных о форме сигнала и метаданных таким образом, что блок доступа для кадра звукового сигнала содержит данные о форме сигнала и метаданные для одного и того же кадра звукового сигнала. Указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования данных о форме сигнала и метаданных таким образом, что полная задержка тракта обработки формы сигнала соответствует полной задержке тракта обработки метаданных. В частности, указанный, по меньшей мере, один блок задержки может представлять собой блок задержки формы сигнала, выполненный с возможностью внесения дополнительной задержки в тракт обработки формы сигнала таким образом, что полная задержка тракта обработки формы сигнала соответствует полной задержке тракта обработки метаданных. В качестве альтернативы или помимо этого, указанный, по меньшей мере, один блок задержки может быть выполнен с возможностью временного согласования данных о форме сигнала и метаданных таким образом, что данные о форме сигнала и метаданные своевременно выдаются в блок генерирования блока доступа звукового кодера для генерирования одиночного блока доступа по данным о форме сигнала и метаданным. В частности, данные о форме сигнала и метаданные могут выдаваться таким образом, что одиночный блок доступа может генерироваться без необходимости в буфере для буферизации данных о форме сигнала и/или метаданных.

Звуковой кодер может содержать блок анализа, выполненный с возможностью генерирования множества субполосных сигналов по кадру звукового сигнала, причем множество субполосных сигналов может включать в себя множество сигналов нижнего диапазона, указывающих сигнал нижнего диапазона. Звуковой кодер может содержать блок сжатия, выполненный с возможностью сжатия множества сигналов нижнего диапазона с помощью функции сжатия для получения множества сжатых сигналов нижнего диапазона. Данные о форме сигнала могут указывать множество сжатых сигналов нижнего диапазона, а метаданные могут указывать функцию сжатия, используемой блоком сжатия. Метаданные, указывающие огибающую спектра сигнала верхнего диапазона, могут быть применимы к тому же элементу звукового сигнала, что и метаданные, указывающие функцию сжатия. Иными словами, метаданные, указывающие огибающую спектра сигнала верхнего диапазона, могут быть синхронизированы с метаданными, указывающими функцию сжатия.

В соответствии с еще одним аспектом, описывается поток данных, содержащий последовательность блоков доступа для последовательности кадров звукового сигнала соответственно. Блок доступа из последовательности блоков доступа содержит данные о форме сигнала и метаданные. Данные о форме сигнала и метаданные связаны с одним и тем же конкретным кадром из последовательности кадров звукового сигнала. Данные о форме сигнала и метаданные могут указывать восстановленный кадр конкретного кадра. В одном из примеров конкретный кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, причем данные о форме сигнала указывают сигнал нижнего диапазона и причем метаданные указывают огибающую спектра сигнала верхнего диапазона. Метаданные могут позволять звуковому декодеру генерировать сигнал верхнего диапазона по сигналу нижнего диапазона с помощью схемы HFR. В качестве альтернативы или помимо этого, метаданные могут указывать функцию сжатия, применяемую к сигналу нижнего диапазона. Следовательно, метаданные могут позволять звуковому декодеру выполнять расширение динамического диапазона принимаемого сигнала нижнего диапазона (с помощью обратной функции по отношению к функции сжатия).

В соответствии с еще одним аспектом, описывается способ определения восстановленного кадра звукового сигнала по блоку доступа принимаемого потока данных. Блок доступа содержит данные о форме сигнала и метаданные, причем данные о форме сигнала и метаданные связаны с одним и тем же восстановленным кадром звукового сигнала. В одном из примеров восстановленный кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, причем данные о форме сигнала указывают сигнал нижнего диапазона (например, о частотных коэффициентах, описывающих сигнал нижнего диапазона), и причем метаданные указывают огибающую спектра сигнала верхнего диапазона (например, о коэффициентах масштабирования для множества диапазонов коэффициента масштабирования сигнала верхнего диапазона). Способ включает в себя генерирование множества форм субполосных сигналов по данным о форме сигнала и генерирование декодированных метаданных по метаданным. Кроме того, способ включает в себя временное согласование множества форм субполосных сигналов и декодированных метаданных, как описывается в настоящем документе. Кроме того, способ включает в себя генерирование восстановленного кадра звукового сигнала по согласованному по времени множеству форм субполосных сигналов и декодированных метаданных.

В соответствии с еще одним аспектом, описывается способ кодирования кадра звукового сигнала в блок доступа потока данных. Кадр звукового сигнала кодируется таким образом, что блок доступа содержит данные о форме сигнала и метаданные. Данные о форме сигнала и метаданные указывают кадр, восстановленный из кадра звукового сигнала. В одном из примеров кадр звукового сигнала содержит сигнал нижнего диапазона и сигнал верхнего диапазона, а кадр кодируется таким образом, что данные о форме сигнала указывают сигнал нижнего диапазона, и таким образом, что метаданные указывают огибающую спектра сигнала верхнего диапазона. Способ включает в себя генерирование данных о форме сигнала по кадру звукового сигнала, например, по сигналу нижнего диапазона и генерирование метаданных по кадру звукового сигнала, например, по сигналу верхнего диапазона и по сигналу нижнего диапазона (например, в соответствии со схемой HFR). Кроме того, способ включает в себя временное согласование данных о форме сигнала и метаданных таким образом, что блок доступа для кадра звукового сигнала содержит данные о форме сигнала и метаданные для одного и того же кадра звукового сигнала.

В соответствии с еще одним аспектом, описывается программа системы программного обеспечения. Программа системы программного обеспечения может быть предназначена для исполнения в процессоре и для реализации этапов способа, излагаемых в настоящем документе, при выполнении в процессоре.

В соответствии с еще одним аспектом, описывается среда хранения (энергонезависимая среда хранения). Среда хранения может содержать программу системы программного обеспечения, предназначенную для исполнения в процессоре и для реализации этапов способа, излагаемых в настоящем документе, при выполнении в процессоре.

В соответствии с еще одним аспектом, описывается компьютерный программный продукт. Компьютерная программа может содержать исполнимые команды для реализации этапов способа, излагаемых в настоящем документе, при исполнении в компьютере.

Необходимо отметить, что способы и системы, включая свои предпочтительные варианты осуществления, излагаемые в настоящей заявке на патент, могут использоваться независимо или в комбинации с другими способами и системами, описываемыми в данном документе. Кроме того, все аспекты способов и систем, излагаемых в настоящей заявке на патент, могут произвольно комбинироваться. В частности, признаки формулы изобретения могут комбинироваться друг с другом произвольным образом.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Изобретение наглядно объясняется ниже со ссылкой на прилагаемые чертежи, на которых:

на фиг. 1 изображена блок-схема примера звукового декодера;

на фиг. 2а изображена блок-схема еще одного примера звукового декодера;

на фиг. 2b изображена блок-схема примера звукового кодера; и

на фиг. 3а изображена блок-схема примера звукового декодера, который выполнен с возможностью развертывания звука;

на фиг. 3b изображена блок-схема примера звукового кодера, который выполнен с возможностью сжатия звука; и

фиг. 4 иллюстрирует пример кадрирования последовательности кадров звукового сигнала.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Как указано выше, настоящий документ относится к согласованию метаданных. Далее согласование метаданных излагается применительно к схеме НЕ (Высокоэффективного) ААС (Усовершенствованного Звукового Кодирования) MPEG. Однако следует отметить, что принципы согласования метаданных, которые описываются в настоящем документе, также применимы к другим системам кодирования/декодирования. В частности, схемы согласования метаданных, которые описываются в настоящем документе, применимы к системам звукового кодирования/декодирования, которые используют HFR (Восстановление Высоких Частот) и/или SBR (Копирование Спектрального Диапазона) и которые передают метаданные HFR/SBR от звукового кодера к соответствующему звуковому декодеру. Кроме того, схемы согласования метаданных, которые описываются в настоящем документе, применимы к системам звукового кодирования/декодирования, которые используют применения в области субполосы (а именно, QMF). Одним из примеров такого применения является SBR. Другими примерами являются А-образное соединение, последующая обработка и т.д. Ниже схемы согласования метаданных описываются применительно к согласованию метаданных SBR. Однако следует отметить, что схемы согласования метаданных также применимы к другим типам метаданных, а именно, к другим типам метаданных в области субполосы.

Поток данных НЕ-ААС MPEG содержит метаданные SBR (называемые также метаданными A-SPX). Метаданные SBR в конкретном кодированном кадре потока данных (называемом также AU (блоком доступа) потока данных), как правило, относятся к данным о форме сигнала (W) в прошлом. Метаданные SBR и данные о форме сигнала, содержащиеся в AU потока данных, как правило, не соответствуют одному и тому же кадру исходного звукового сигнала. Это связано с тем, что после декодирования данных о форме сигнала данные о форме сигнала подаются на несколько этапов обработки (таких как анализ IMDCT (обратного Модифицированного Дискретного Косинусного Преобразования) и QMF (Квадратурного Зеркального Фильтра)), которые вносят задержку сигнала. В тот момент, когда метаданные SBR применяются к данным о форме сигнала, метаданные SBR согласованы с обработанными данными о форме сигнала. В этой связи, метаданные SBR и данные о форме сигнала вносятся в поток данных НЕ-ААС MPEG таким образом, что метаданные SBR достигают звукового декодера, когда метаданные SBR необходимы для обработки SBR в звуковом декодере. Такая форма доставки метаданных может называться «Своевременной» (JIT) доставкой метаданных, поскольку метаданные SBR вносятся в поток данных таким образом, что метаданные SBR могут непосредственно применяться в сигнальной цепи или цепи обработки звукового декодера.

JIT доставка метаданных может оказаться целесообразной для традиционной цепи «кодирование - передача - декодирование» с целью уменьшения полной задержки кодирования и с целью снижения требований к памяти звукового декодера. Однако соединение потока данных вдоль тракта передачи может привести к несоответствию между данными о форме сигнала и соответствующими метаданными SBR. Такое несоответствие может привести к звуковым артефактам в месте соединения, поскольку для копирования спектрального диапазона в звуковом кодере используются неверные метаданные SBR.

В связи с вышеизложенным, целесообразно создать систему звукового кодирования/декодирования, которая обеспечивает соединение потоков данных, вместе с тем одновременно сохраняя малую полную задержку кодирования.

На фиг. 1 изображена блок-схема примера звукового декодера 100, который решает вышеуказанную техническую проблему. В частности, звуковой декодер 100 на фиг. 1 обеспечивает декодирование потоков данных с AU 110, которые содержат данные 111 о форме сигнала конкретного сегмента (например, кадра) звукового сигнала и которые содержат соответствующие метаданные 112 конкретного сегмента звукового сигнала. Благодаря созданию звуковых декодеров 100, которые декодируют потоки данных, содержащие AU 110 с использованием согласованных во времени данных 111 о форме сигнала и соответствующих метаданных 112, обеспечивается стабильное соединение потока данных. В частности, гарантируется, что поток данных может быть соединен таким образом, что сохраняются соответствующие пары данных 111 о форме сигнала и соответствующих метаданных 112.

Звуковой декодер 100 содержит блок 105 задержки в цепи обработки данных 111 о форме сигнала. Блок 105 задержки может быть установлен за блоком 102 синтеза MDCT или после него и до блока 107 синтеза QMF или перед ним в звуковом декодере 100. В частности, блок 105 задержки может быть установлен до блока 106 применения метаданных (например, блоком 106 SBR), который выполнен с возможностью применения декодированных метаданных 128 к обработанным данным о форме сигнала, либо перед ним. Блок 105 задержки (называемый также блоком 105 задержки формы сигналазадержки формы сигнала) выполнен с возможностью применения задержки (называемой задержкой формы сигнала) к обработанным данным о форме сигнала. Задержка формы сигнала предпочтительно выбирается таким образом, что полная задержка обработки цепи обработки формы сигнала или тракта обработки формы сигнала (например, от блока 102 синтеза MDCT до применения метаданных в блоке 106 применения метаданных) суммируется ровно с одним кадром (или с его целым кратным). При этом данные параметрического управления могут задерживаться на кадр (или его целое кратное), и в AU 110 достигается согласование.

На фиг. 1 изображены компоненты примера звукового декодера 100. Данные 111 о форме сигнала, принимаемые от AU 110, декодируются и деквантуются в блоке 101 декодирования и деквантизации для получения множества частотных коэффициентов 121 (в частотной области). Множество частотных коэффициентов 121 синтезируется в сигнал 122 нижнего диапазона (во временной области) с помощью преобразования из частотной области во временную область (например, обратного MDCT - Модифицированного Дискретного Косинусного Преобразования), применяемого в блоке 102 синтеза нижнего диапазона (например, блоке синтеза MDCT). Затем сигнал 122 нижнего диапазона преобразуется в множество сигналов 123 нижнего диапазона с помощью блока 103 анализа. Блок 103 анализа может быть выполнен с возможностью применения набора квадратурных зеркальных фильтров (QMF) к сигналу 122 нижнего диапазона для получения множества сигналов 123 нижнего диапазона. Метаданные 112, как правило, применяются к множеству сигнала 123 нижнего диапазона (или к их транспонированной версии).

Метаданные 112 от AU 110 декодируются и деквантуются в блоке 108 декодирования и деквантизации для получения декодированных метаданных 128. Кроме того, звуковой декодер 100 может содержать дополнительный блок 109 задержки (называемый блоком 109 задержки метаданных), который выполнен с возможностью применения задержки (называемой задержкой метаданных) к декодированным метаданным 128. Задержка метаданных может соответствовать целому кратному длины N кадра, например, D1=N, где D1 - задержка метаданных. В этой связи, полная задержка цепи обработки метаданных соответствует D1, т.е., D1=N.

Чтобы обеспечивать одновременное поступление обработанных данных о форме сигнала (т.е., задержанного множества сигналов 123 нижнего диапазона) и обработанных метаданных (т.е., задержанных декодированных метаданных 128) в блок 106 применения метаданных, полная задержка цепи (или тракта) обработки формы сигнала должна соответствовать полной задержке цепи (или тракта) обработки метаданных (т.е., D1). В цепи обработки формы сигнала блок 102 синтеза нижнего диапазона, как правило, вводит задержку, равную N/2 (т.е., половине длительности кадра). Блок 103 анализа, как правило, вносит постоянную задержку (например, 320 выборок). Кроме того, возможно, понадобится учитывать прогноз (т.е., постоянный сдвиг между метаданными и данными о форме сигнала). В случае НЕ-ААС MPEG, например, SBR, прогноз может соответствовать 384 выборкам (представленным блоком 104 прогноза). Блок 104 прогноза (который может также называться блоком 104 задержки прогноза) может быть выполнен с возможностью задержки данных 111 о форме сигнала (например, задержки множества сигналов 123 нижнего диапазона) на постоянную задержку прогноза SBR. Задержка прогноза позволяет соответствующему звуковому кодеру определять метаданные SBR на основе последующего кадра звукового сигнала.

Чтобы обеспечивать полную задержку цепи обработки метаданных, которая соответствует полной задержке цепи обработки формы сигнала, задержка D2 формы сигнала должна быть такой, что:

D1=320+384+D2+N/2,

т.е. D2=N/2-320-384 (в случае D1=N).

В Таблице 1 показаны задержки D2 формы сигнала для множества различных длительностей N. Видно, что максимальная задержка D2 формы сигнала для различных длительностей N НЕ-ААС составляет 928 выборок при полном максимальном времени задержки декодера 2177 выборок. Иными словами, согласование данных 111 о форме сигнала и соответствующих метаданных 112 в одиночном AU 110 приводит к дополнительной задержке РСМ максимум 928 выборок. Для блока размеров кадра N=1920/1536 метаданные задерживаются на 1 кадр, а для размеров кадра N=960/768/512/384 метаданные задерживаются на 2 кадра. Это означает, что задержка воспроизведения в звуковом декодере 100 увеличивается в зависимости от размера N блока, а полная задержка кодирования на 1 или 2 полных кадра. Максимальная задержка РСМ в соответствующем звуковом кодере составляет 1664 выборки (соответствующие собственному времени задержке звукового декодера 100).

Таблица 1 N Обратное MDCT (N/2) Анализ QMF Прогноз SBR Собственное время задержки (Σ) D2 Число кадров D1 Синтез QMF Полное время задержки декодера 1920 960 320 384 1664 256 1 1920 257 2177 1536 768 320 384 1472 64 1 1536 257 1793 960 480 320 192 992 928 2 1920 257 2177 768 384 320 192 896 640 2 1536 257 1793 512 256 320 192 768 256 2 1024 257 1281 384 192 320 192 704 64 2 768 257 1025

В этой связи, в настоящем документе предлагается рассмотреть недостаток JIT метаданных путем применения выровненных по сигналам метаданных (SAM) 112, которые выровнены с соответствующими данными 111 о форме сигнала в одиночный AU 110. В частности, предлагается ввести один или более из дополнительных блоков задержки в звуковой декодер 100 и/или в соответствующий звуковой кодер таким образом, что каждый кодированный кадр (или AU) содержит метаданные (например, A-SPX), которые он использует на последующем этапе обработки, например, на этапе обработки, когда метаданные применяются к лежащим в основе данным о форме сигнала.

Необходимо отметить, что - в принципе - можно рассматривать применение задержки D1 метаданных, которая соответствует некоторой доле длительности N кадра. При этом полная задержка кодирования, возможно, может быть уменьшена. Однако, как показано на фиг. 1, задержка D1 метаданных применяется в области QMF (т.е., в области субполосы). С учетом этого и с учетом того, что метаданные 112, как правило, задаются лишь один раз за кадр, т.е. с учетом того, что метаданные 112, как правило, содержат один специальный параметр, устанавливаемый на кадр, введение задержки D1 метаданных, которая соответствует некоторой доле длительности N кадра, может привести к проблемам синхронизации в отношении данных 111 о форме сигнала. С другой стороны, задержка D2 формы сигнала применяется во временной области (как показано на фиг. 1), где задержки, которые соответствуют некоторой доле кадра, могут быть реализованы с высокой точностью (например, путем задержки сигнала во временной области на некоторое число выборок, которое соответствует задержке D2 формы сигнала). Следовательно, целесообразно задерживать метаданные 112 на целые кратные кадра (причем кадр соответствует низшему временному разрешению, для которого задаются метаданные 112) и задерживать данные 111 о форме сигнала на задержку D2 формы сигнала, которая может принимать произвольные значения. Задержка D1 метаданных, которая соответствует некоторой доле длительности N кадра, может быть реализована в области субполосы с высокой точностью, а задержка D2 формы сигнала, которая соответствует произвольному кратному выборки, может быть реализована во временной области с высокой точностью. Следовательно, комбинация задержки D1 метаданных и задержки D2 формы сигнала обеспечивает точную синхронизацию метаданных 112 и данных 111 о форме сигнала.

Применение задержки D1 метаданных, которая соответствует некоторой доле длительности N кадра, может быть реализовано путем повторной выборки метаданных 112 в соответствии с задержкой D1 метаданных. Однако повторная выборка метаданных 112, как правило, предполагает значительные вычислительные затраты. Кроме того, повторная выборка метаданных 112 может приводить к искажению метаданных 112, тем самым влияя на качество восстановленного кадра звукового сигнала. Ввиду этого, целесообразно - с учетом вычислительной эффективности и с учетом качества звука - ограничивать задержку D1 метаданных целыми кратными длительности N кадра.

На фиг. 1 также изображена последующая обработка задержанных метаданных 128 и задержанного множества сигналов 123 нижнего диапазона. Блок 106 применения метаданных выполнен с возможностью генерирования множества (например, масштабированных) субполосных сигналов 126 верхнего диапазона на основе множества сигналов 123 нижнего диапазона и на основе метаданных 128. С этой целью блок 106 применения метаданных может быть выполнен с возможностью транспонирования одного или более из множества сигналов 123 нижнего диапазона для генерирования множества субполосных сигналов верхнего диапазона. Транспонирование может включать в себя процесс копирования указанных одного или более из множества сигналов 123 нижнего диапазона. Кроме того, блок 106 применения метаданных может быть выполнен с возможностью применения метаданных 128 (например, коэффициентов масштабирования, содержащихся в метаданных 128) к множеству субполосных сигналов верхнего диапазона с целью генерирования множества масштабированных субполосных сигналов 126 верхнего диапазона. Множество масштабированных субполосных сигналов 126 верхнего диапазона, как правило, масштабируется с помощью коэффициентов масштабирования таким образом, что огибающая спектра множества масштабированных субполосных сигналов 126 верхнего диапазона воспроизводит огибающую спектра сигнала верхнего диапазона исходного кадра звукового сигнала (который соответствует восстановленному кадру звукового сигнала 127, генерируемого на основе множества сигналов 123 нижнего диапазона и по множеству масштабированных субполосных сигналов 126 верхнего диапазона).

Кроме того, звуковой декодер 100 содержит блок 107 синтеза, выполненный с возможностью генерирования восстановленного кадра звукового сигнала 127 из множества сигналов 123 нижнего диапазона и из множества масштабированных субполосных сигналов 126 верхнего диапазона (например, с помощью набора обратных QMF).

На фиг. 2а изображена блок-схема еще одного примера звукового декодера 100. Звуковой декодер 100 на фиг. 2а содержит те же компоненты, что и звуковой декодер на фиг. 1. Кроме того, изображены примеры компонентов 210 для обработки многоканального звука. Видно, что в примере на фиг. 2а блок 105 задержки формы сигнала расположен непосредственно после блока 102 обратного MDCT. Определение восстановленного кадра звукового сигнала 127 может выполняться для каждого канала многоканального звукового сигнала (например, многоканального звукового сигнала 5.1 или 7.1).

На фиг. 2b изображена блок-схема примера звукового кодера 250, соответствующего звуковому декодеру 100 на фиг. 2а. Звуковой кодер 250 выполнен с возможностью генерирования потока данных, содержащего AU 110, который передает пары соответствующих данных 111 о форме сигнала и метаданные 112. Звуковой кодер 250 содержит цепь 256, 257, 258, 259, 260 обработки метаданных для определения метаданных. Цепь обработки метаданных может содержать блок 256 задержки метаданных для выравнивания метаданных с соответствующими данными о форме сигнала. В приведенном примере блок 256 задержки метаданных звукового кодера 250 не вносит какой-либо дополнительной задержки (поскольку задержка, вносимая цепью обработки метаданных, больше задержки, вносимой цепью обработки формы сигнала).

Кроме того, звуковой кодер 250 содержит цепь 251, 252, 253, 254, 255 обработки формы сигнала, выполненную с возможностью определения данных о форме сигнала по исходному звуковому сигналу на входе звукового кодера 250. Цепь обработки формы сигнала содержит блок 252 задержки формы сигнала, выполненный с возможностью внесения дополнительной задержки в цепь обработки формы сигнала с целью выравнивания данных о форме сигнала с соответствующими метаданными. Задержка, которая вносится блоком 252 задержки формы сигнала, может быть такой, что полная задержка цепи обработки метаданных (включая задержку формы сигнала, вводимую блоком 252 задержки формы сигнала) соответствует полной задержке цепи обработки формы сигнала. В случае длительности кадра N=2048 задержка блока 252 задержки формы сигнала может составлять 2048-320=1728 выборок.

На фиг. 3а изображен фрагмент звукового декодера 300, содержащего блок 301 развертывания. Звуковой декодер 300 на фиг. 3а может соответствовать звуковому декодеру 100 на фиг. 1 и/или 2а и дополнительно содержит блок 301 развертывания, который выполнен с возможностью определения множества развернутых сигналов нижнего диапазона по множеству сигналов 123 нижнего диапазона с помощью одного или более из параметров 310 развертывания, получаемых по декодированным метаданным 128 блока 110 доступа. Как правило, указанные один или более из параметров 310 развертывания связаны с метаданными SBR (например, A-SPX), содержащимися в блоке 110 доступа. Иными словами, указанные один или более из параметров 310 развертывания, как правило, применимы к тому же фрагменту или элементу звукового сигнала, что и метаданные SBR.

Как отмечено выше, метаданные 112 блока 110 доступа, как правило, связаны с данными 111 о форме сигнала кадра звукового сигнала, причем кадр содержит заранее заданное число N выборок. Метаданные SBR, как правило, определяются на основе множества сигналов нижнего диапазона (называемого также множеством форм субполосных сигналов), причем множество сигналов нижнего диапазона может определяться с помощью анализа QMF. Анализ QMF дает частотно-временное представление кадра звукового сигнала. В частности, N выборок кадра звукового сигнала могут быть представлены с помощью Q (например, Q=64) сигналов нижнего диапазона, причем каждый из них содержит N/Q временных интервалов или интервалов. Для кадра с N=2048 выборок и для Q=64 каждый сигнал нижнего диапазона содержит N/Q=32 интервала.

В случае переходного процесса в конкретном кадре может оказаться целесообразным определение метаданных SBR на основе выборок непосредственно следующего кадра. Данный признак называется прогнозом SBR. В частности, метаданные SBR могут определяться на основе заранее заданного числа интервалов по следующему кадру. В качестве примера могут приниматься во внимание до 6 интервалов следующего кадра (т.е., Q*6=384 выборки).

Использование прогноза SBR иллюстрируется на фиг. 4, на которой показана последовательность кадров 401, 402, 403 звукового сигнала, с помощью различного кадрирования 400, 430 для схемы SBR или HFR. В случае кадрирования 400 схема SBR/HFR не использует гибкости, обеспечиваемой прогнозом SBR. Тем не менее, постоянный сдвиг, т.е. постоянная задержка 480 прогноза SBR используется для обеспечения использования прогноза SBR. В приведенном примере постоянный сдвиг соответствует 6 временным интервалам. В результате этого постоянного сдвига 480 метаданные 112 конкретного блока 110 доступа конкретного кадра 402 частично применимы к временным интервалам данных 111 о форме сигнала, содержащихся в блоке 110 доступа, который предшествует конкретному блоку 110 доступа (и который связан с непосредственно предшествующим кадром 401). Это иллюстрируется сдвигом между метаданными 411, 412, 413 SBR и кадрами 401, 402, 403. Следовательно, метаданные 411, 412, 413 SBR, содержащиеся в блоке 110 доступа, могут быть применимы к данным 111 о форме сигнала, которые сдвинуты на задержку 480 прогноза SBR. Метаданные 411, 412, 413 SBR применяются к данным 111 о форме сигнала для получения восстановленных кадров 421, 422, 423.

Кадрирование 430 использует прогноз SBR. Видно, что метаданные 431 SBR применимы более чем к 32 временным интервалам данных 111 о форме сигнала, например, ввиду возникновения переходного процесса в кадре 401. С другой стороны, метаданные 432 SBR применимы менее чем к 32 временным интервалам данных 111 о форме сигнала. Метаданные 433 SBR, в свою очередь, применимы к 32 временным интервалам. Следовательно, прогноз SBR обеспечивает гибкость в отношении временного разрешения метаданных SBR. Следует отметить, что несмотря на использование прогноза SBR и несмотря на применимость метаданных 411, 412, 413 SBR, восстановленные кадры 421, 422, 423 генерируются с помощью постоянного сдвига 480 относительно кадров 401, 402, 403.

Звуковой кодер может быть выполнен с возможностью определения метаданных SBR и указанных одного или более из параметров развертывания с помощью одного и того же фрагмента или элемента звукового сигнала. Следовательно, если метаданные SBR определяются с помощью прогноза SBR, указанные один или более из параметров развертывания могут определяться и могут быть применимы для одного и того же прогноза SBR. В частности, указанные один или более из параметров развертывания могут быть применимы для того же числа временных интервалов, что и соответствующие метаданные 431, 432, 433 SBR.

Блок 301 развертывания может быть выполнен с возможностью применения одного или более из коэффициентов усиления развертывания к множеству сигналов 123 нижнего диапазона, причем указанные один или более из коэффициентов развертывания, как правило, зависят от указанных одного или более из параметров 310 развертывания. В частности, указанные один или более параметров 310 развертывания могут оказывать влияние на одно или более из правил сжатия/развертывания, которые используются для определения указанных одного или более из коэффициентов усиления развертывания. Иными словами, указанные один или более из параметров 310 развертывания могут указывать функцию сжатия, которая использована блоком сжатия соответствующего звукового кодера. Указанные один или более из параметров 310 развертывания могут позволять звуковому декодеру определять обратную функцию по отношению к этой функции сжатия.

Указанные один или более из параметров 310 развертывания могут включать в себя первый параметр развертывания, указывающий сжал ли соответствующий звуковой кодер множество сигналов нижнего диапазона. Если сжатие не применялось, то развертывание звуковым декодером применяться не будет. В этой связи, первый параметр развертывания может использоваться для включения или выключения возможности компандирования.

В качестве альтернативы или помимо этого, указанные один или более из параметров 310 развертывания могут включать в себя второй параметр развертывания, указывающий должны ли применяться одинаковые один или более из коэффициентов усиления развертывания ко всем каналам многоканального звукового сигнала. В этой связи, второй параметр развертывания может переключать возможность компандирования между применением на канал и применением на множество каналов.

В качестве альтернативы или помимо этого, указанные один или более из параметров 310 развертывания могут включать в себя третий параметр развертывания, указывающий применять ли одинаковые один или более из коэффициентов усиления развертывания для всех временных интервалов кадра. В этой связи, третий параметр развертывания может использоваться для управления временным разрешением возможности компандирования.

Используя указанные один или более из параметров 310 развертывания, блок 301 развертывания может определять множество развернутых сигналов нижнего диапазона путем применения обратной функции по отношению к функции сжатия, применяемой в соответствующем звуковом кодере. Функция сжатия, которая применена в соответствующем звуковом кодере, сообщается в звуковой декодер 300 с помощью указанных одного или более из параметров 310 развертывания.

Блок 301 развертывания может быть установлен после блока 104 задержки прогноза. Это гарантирует, что указанные один или более из параметров 310 развертывания применяются к надлежащему элементу множества сигналов 123 нижнего диапазона. В частности, это гарантирует, что указанные один или более из параметров 310 развертывания применяются к тому же элементу множества сигналов 123 нижнего диапазона, что и параметры SBR (в блоке 106 применения SBR). В этой связи, гарантируется, что развертывание работает с тем же временным кадрированием 400, 430, что и схема SBR. Ввиду прогноза SBR, кадрирование 400, 430 может включать в себя переменное число временных интервалов, и вследствие этого развертывание может работать с переменным числом временных интервалов (как изложено применительно к фиг. 4). Благодаря установке блока 301 развертывания после блока 104 задержки прогноза гарантируется, что надлежащее кадрирование 400, 430 применяется к указанным одному или более из параметров развертывания. В результате этого может обеспечиваться высококачественный звуковой сигнал, даже после точки соединения.

На фиг. 3b изображен фрагмент звукового кодера 350, содержащего блок 351 сжатия. Звуковой кодер 350 может содержать компоненты звукового кодера 250 на фиг. 2b. Блок 351 сжатия может быть выполнен с возможностью сжатия (например, уменьшения динамического диапазона) множества сигналов нижнего диапазона с помощью функции сжатия. Кроме того, блок 351 сжатия может быть выполнен с возможностью определения одного или более из параметров 310 развертывания, которые указывают функцию сжатия, использованной блоком 351 сжатия, для обеспечения применения соответствующим блоком 301 развертывания звукового декодера 300 обратной функции по отношению к функции сжатия.

Сжатие множества сигналов нижнего диапазона может выполняться после прогноза 258 SBR. Кроме того, звуковой кодер 350 может содержать блок 353 кадрирования SBR, который выполнен с возможностью обеспечения определения метаданных SBR для того же элемента звукового сигнала, что и указанные один или более из параметров 310 развертывания. Иными словами, блок 353 кадрирования SBR может обеспечивать работу схемы SBR с тем же кадрированием 400, 430, что и схема компандирования. Ввиду того, что схема SBR может работать с расширенными кадрами (например, в случае переходных процессов), схема компандирования может также работать с расширенными кадрами (содержащими дополнительные временные интервалы).

В настоящем документе описаны звуковой кодер и соответствующий звуковой декодер, которые обеспечивают кодирование звукового сигнала в последовательность выровненных во времени AU, содержащих данные о форме сигнала и метаданные, связанные с последовательностью сегментов звукового сигнала соответственно. Использование выровненных во времени AU обеспечивает соединение потоков данных с уменьшенными артефактами в точках соединения. Кроме того, звуковой кодер и звуковой декодер выполнены таким образом, что соединяемые потоки данных обрабатываются вычислительно эффективным образом, и таким образом, что полная задержка кодирования остается малой.

Способы и системы, описываемые в настоящем документе, могут быть реализованы в виде программных средств, микропрограммных средств и/или аппаратных средств. Некоторые компоненты могут, например, быть реализованы в виде программных средств, выполняемых в цифровом процессоре сигналов или микропроцессоре. Другие компоненты могут, например, быть реализованы в виде аппаратных средств и/или в виде специализированных интегральных схем. Сигналы, встречающиеся в описываемых способах и системах, могут храниться в таких средах, как оперативное запоминающее устройство или оптические среды хранения. Они могут передаваться посредством сетей, таких как сети радиосвязи, спутниковые сети связи, беспроводные сети или проводные сети, например, Интернет. Типичными устройствами, использующими способы и системы, описываемые в настоящем документе, являются переносные электронные устройства или иная бытовая аппаратура, которые используются для хранения и/или воспроизведения звуковых сигналов.

Похожие патенты RU2772778C2

название год авторы номер документа
ВРЕМЕННОЕ СОГЛАСОВАНИЕ ДАННЫХ ОБРАБОТКИ НА ОСНОВЕ КВАДРАТУРНОГО ЗЕРКАЛЬНОГО ФИЛЬТРА 2014
  • Черлинг Кристофер
  • Пурнхаген Хейко
  • Попп Йенс
RU2665281C2
ИНТЕГРАЦИЯ МЕТОДИК РЕКОНСТРУКЦИИ ВЫСОКИХ ЧАСТОТ С СОКРАЩЕННОЙ ЗАДЕРЖКОЙ ПОСТОБРАБОТКИ 2019
  • Чоэрлинг, Кристофер
  • Виллемоес, Ларс
  • Пурнхаген, Хейко
  • Экстранд, Пер
RU2758199C1
ИНТЕГРАЦИЯ МЕТОДИК РЕКОНСТРУКЦИИ ВЫСОКИХ ЧАСТОТ ЗВУКА 2019
  • Чоэрлинг, Кристофер
  • Виллемоес, Ларс
  • Пурнхаген, Хейко
  • Экстранд, Пер
RU2792114C2
ОБРАТНО СОВМЕСТИМАЯ ИНТЕГРАЦИЯ МЕТОДОВ ВЫСОКОЧАСТОТНОГО ВОССТАНОВЛЕНИЯ ДЛЯ АУДИОСИГНАЛОВ 2019
  • Черлинг, Кристофер
  • Виллемоес, Ларс
  • Пурнхаген, Хейко
  • Экстранд, Пер
RU2757322C2
ОБРАТНО СОВМЕСТИМАЯ ИНТЕГРАЦИЯ МЕТОДОВ ВЫСОКОЧАСТОТНОГО ВОССТАНОВЛЕНИЯ ДЛЯ АУДИОСИГНАЛОВ 2019
  • Черлинг, Кристофер
  • Виллемоес, Ларс
  • Пурнхаген, Хейко
  • Экстранд, Пер
RU2740688C1
СИСТЕМА И СПОСОБ ДЛЯ ГЕНЕРИРОВАНИЯ РЯДА СИГНАЛОВ ВЫСОКОЧАСТОТНЫХ ПОДДИАПАЗОНОВ 2024
  • Чоэрлинг, Кристофер
RU2826366C1
СИСТЕМА И СПОСОБ ДЛЯ ГЕНЕРИРОВАНИЯ РЯДА СИГНАЛОВ ВЫСОКОЧАСТОТНЫХ ПОДДИАПАЗОНОВ 2024
  • Чоэрлинг Кристофер
RU2826489C1
СИСТЕМА И СПОСОБ ДЛЯ ГЕНЕРИРОВАНИЯ РЯДА СИГНАЛОВ ВЫСОКОЧАСТОТНЫХ ПОДДИАПАЗОНОВ 2022
  • Чоэрлинг, Кристофер
RU2799033C1
СИСТЕМА И СПОСОБ ДЛЯ ГЕНЕРИРОВАНИЯ РЯДА СИГНАЛОВ ВЫСОКОЧАСТОТНЫХ ПОДДИАПАЗОНОВ 2023
  • Чоэрлинг, Кристофер
RU2805938C1
СТЕРЕОФОНИЧЕСКИЙ КОДЕР И ДЕКОДЕР АУДИОСИГНАЛОВ 2019
  • Пурнхаген, Хейко
  • Черлинг, Кристофер
RU2798009C2

Иллюстрации к изобретению RU 2 772 778 C2

Реферат патента 2022 года ВРЕМЕННОЕ СОГЛАСОВАНИЕ ДАННЫХ ОБРАБОТКИ НА ОСНОВЕ КВАДРАТУРНОГО ЗЕРКАЛЬНОГО ФИЛЬТРА

Изобретение относится к средствам для временного согласования данных обработки на основе квадратурного зеркального фильтра. Технический результат заключается в уменьшении задержки при кодировании и декодировании звука. Генерируют множество форм субполосных сигналов по данным о форме сигнала. Генерируют декодированные метаданные по метаданным. Выполняют временное согласование множества форм субполосных сигналов и декодированных метаданных. Генерируют восстановленный кадр звукового сигнала по согласованному по времени множеству форм субполосных сигналов и декодированных метаданных. Причем генерирование множества форм субполосных сигналов по данным о форме сигнала содержит применение задержки формы сигнала к форме сигнала, который представлен во временной области и при этом включают постоянную задержку, которая независима от длины N восстановленного кадра звукового сигнала. 3 н. и 4 з.п. ф-лы, 6 ил., 1 табл.

Формула изобретения RU 2 772 778 C2

1. Звуковой декодер, выполненный с возможностью определения восстановленного кадра звукового сигнала по блоку доступа принимаемого потока данных; причем блок доступа содержит данные о форме сигнала и метаданные; причем данные о форме сигнала и метаданные связаны с одним и тем же восстановленным кадром звукового сигнала; причем звуковой декодер содержит

- тракт обработки формы сигнала, выполненный с возможностью генерирования множества форм субполосных сигналов по данным о форме сигнала;

- тракт обработки метаданных, выполненный с возможностью генерирования декодированных метаданных по метаданным; и

- блок применения и синтеза метаданных, выполненный с возможностью генерирования восстановленного кадра звукового сигнала по множеству форм субполосных сигналов и по декодированным метаданным;

причем тракт обработки формы сигнала включает в себя, по меньшей мере, один блок задержки формы сигнала, выполненный с возможностью применения задержки формы сигнала к форме сигнала, которая представлена во временной области, и/или тракт обработки метаданных включает в себя, по меньшей мере, один блок задержки метаданных, причем блок задержки формы сигнала и/или блок задержки метаданных выполнены с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных, и причем указанный, по меньшей мере, один блок анализа выполнен с возможностью включения постоянной задержки, которая независима от длины N восстановленного кадра звукового сигнала.

2. Звуковой декодер по п. 1, в котором постоянная задержка, вносимая блоком анализа, соответствует 320 выборкам звукового сигнала.

3. Звуковой декодер по п. 1, в котором полная задержка тракта обработки метаданных зависит от одного из: кодированного битового потока или заранее задаваемого прогноза между метаданными и данными о форме сигнала.

4. Звуковой декодер по п. 1, в котором блок задержки формы сигнала и/или блок задержки метаданных сконфигурированы с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных таким образом, что полная задержка тракта обработки формы сигнала соответствует полной задержке тракта обработки метаданных.

5. Звуковой декодер по п. 1, в котором блок задержки формы сигнала и/или блок задержки метаданных сконфигурированы с возможностью временного согласования множества форм субполосных сигналов и декодированных метаданных таким образом, что множество форм субполосных сигналов и декодированных метаданных выдаются для обработки, выполняемой блоком применения и синтеза метаданных.

6. Способ определения восстановленного кадра звукового сигнала по блоку доступа принимаемого потока данных; причем блок доступа содержит данные о форме сигнала и метаданные; причем данные о форме сигнала и метаданные связаны с одним и тем же восстановленным кадром звукового сигнала; причем способ включает в себя

- генерирование множества форм субполосных сигналов по данным о форме сигнала;

- генерирование декодированных метаданных по метаданным;

- временное согласование множества форм субполосных сигналов и декодированных метаданных; и

- генерирование восстановленного кадра звукового сигнала по согласованному по времени множеству форм субполосных сигналов и декодированных метаданных;

причем генерирование множества форм субполосных сигналов по данным о форме сигнала содержит применение задержки формы сигнала к форме сигнала, который представлен во временной области и при этом включают постоянную задержку, которая независима от длины N восстановленного кадра звукового сигнала.

7. Носитель хранения, выполненный с возможностью выполнения способа по п. 6, при исполнении процессором.

Документы, цитированные в отчете о поиске Патент 2022 года RU2772778C2

Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем 1924
  • Волынский С.В.
SU2012A1
Приспособление для суммирования отрезков прямых линий 1923
  • Иванцов Г.П.
SU2010A1
US 6226616 B1, 01.05.2001
Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем 1924
  • Волынский С.В.
SU2012A1
CA 2840788 A1, 24.02.2013
СПОСОБЫ И УСТРОЙСТВА КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ ОСНОВЫВАЮЩИХСЯ НА ОБЪЕКТАХ ОРИЕНТИРОВАННЫХ АУДИОСИГНАЛОВ 2008
  • Ким Донг Соо
  • Панг Хее Сук
  • Лим Дзае Хиун
  • Йоон Сунг Йонг
  • Ли Хиун Коок
RU2406166C2

RU 2 772 778 C2

Авторы

Черлинг Кристофер

Пурнхаген Хейко

Попп Йенс

Даты

2022-05-25Публикация

2014-09-08Подача