СТЕРЕОФОНИЧЕСКИЙ КОДЕР И ДЕКОДЕР АУДИОСИГНАЛОВ Российский патент 2023 года по МПК G10L19/00 

Описание патента на изобретение RU2798009C2

Область техники, к которой относится изобретение

[0001] Описываемое в настоящем документе изобретение, в основном, относится к стереофоническому кодированию аудиосигналов. В частности, оно относится к декодеру и кодеру для гибридного кодирования, включающего в себя понижающее микширование и дискретное стереофоническое кодирование.

Уровень техники изобретения

[0002] При традиционном стереофоническом кодировании аудиосигналов возможные схемы кодирования включают в себя методы параметрического стереофонического кодирования, которые используются в сферах применения с низкой скоростью передачи данных. При промежуточных скоростях часто используется левое/правое (L/R) или среднее/боковое (M/S) стереофоническое кодирование формы сигналов. Существующие форматы распределения и соответствующие методы кодирования могут быть улучшены с точки зрения их эффективности использования полосы частот, особенно в сферах применения со скоростью передачи данных между средней скоростью передачи данных и промежуточной скоростью передачи данных.

[0003] Попытка повысить эффективность распределения аудиосигналов в стереофонической звуковой системе предпринята в стандарте Унифицированного кодирования речи и звука (USAC). Стандарт USAC вводит стереофоническое кодирование на основе низкоскоростного кодирования формы сигналов в совокупности с методами параметрического стереофонического кодирования. Однако в решении, предлагаемом в USAC, используются параметрические стереофонические параметры для проведения стереофонического кодирования в области модифицированного дискретного косинусного преобразования (MDCT), чтобы несколько повысить эффективность по сравнению с простым M/S кодированием или L/R кодированием. Недостаток такого решения состоит в том, что может оказаться сложным наилучшим образом использовать стереофоническое кодирование на основе низкоскоростного кодирования формы сигналов в области MDCT на основе параметрических стереофонических параметров, извлекаемых и вычисляемых в области Квадратурных зеркальных фильтров (QMF).

[0004] С учетом вышесказанного, может потребоваться дальнейшее усовершенствование для устранения или, по меньшей мере, уменьшения одного или нескольких недостатков, рассмотренных выше.

Краткое описание чертежей

[0005] Примеры осуществления описываются ниже со ссылкой на прилагаемые чертежи, на которых:

[0006] фиг.1 представляет собой обобщенную блок-схему системы декодирования в соответствии с одним из примеров осуществления;

[0007] фиг.2 иллюстрирует первую часть системы декодирования, изображенной на фиг.1;

[0008] фиг.3 иллюстрирует вторую часть системы декодирования, изображенной на фиг.1;

[0009] фиг.4 иллюстрирует третью часть системы декодирования, изображенной на фиг.1;

[0010] фиг.5 представляет собой обобщенную блок-схему системы декодирования в соответствии с первым примером осуществления;

[0011] фиг.6 представляет собой обобщенную блок-схему системы декодирования в соответствии со вторым примером осуществления.

[0012] Все чертежи являются схематическими и в целом иллюстрируют лишь детали, которые необходимы для объяснения изобретения, при этом другие детали могут упоминаться или только предполагаться. Если не указано иное, одинаковые ссылочные позиции на различных чертежах относятся к одинаковым деталям.

Подробное описание

I. Обзор - декодер

[0013] Используемое в настоящем документе лево-правое кодирование или шифрование означает, что левый (L) и правый (R) стереосигналы кодируются без выполнения какого-либо преобразования между сигналами.

[0014] Используемое в настоящем документе суммарно-разностное кодирование или шифрование означает, что сумма М левого и правого стереосигналов кодируется как один сигнал (сумма), а разность S между левым и правым стереосигналами кодируется как один сигнал (разность). Суммарно-разностное кодирование может также называться средне-боковым кодированием. При этом соотношение между лево-правой формой и суммарно-разностной формой представляет собой M=L+R и S=L-R. Можно отметить, что возможны различные нормализации и масштабирование при преобразовании левого и правого стереосигналов в суммарно-разностную форму и наоборот при условии, что преобразование в обоих направлениях совпадает. В данном описании, главным образом, используется M=L+R и S=L-R, но система, использующая иное масштабирование, например, M=(L+R)/2 и S=(L-R)/2 действует с тем же успехом.

[0015] Используемое в настоящем документе понижающе-дополняющее (dmx/comp) кодирование или шифрование означает подвергание левого и правого стереосигналов матричному умножению в зависимости от весового параметра перед кодированием. При этом dmx/comp кодирование может также называться dmx/comp/a кодированием. Соотношение между понижающе-дополняющей формой, лево-правой формой и суммарно-разностной формой обычно выражается как L+R=M и comp=(1-a)L-(1+a)R=-aM+S. Примечательно, что сигнал понижающего микширования в понижающе-дополняющем представлении при этом эквивалентен суммарному сигналу М суммарно-разностного представления.

[0016] Используемый в настоящем документе аудиосигнал может представлять собой чистый аудиосигнал, аудиокомпоненту аудиовизуального сигнала, либо мультимедийный сигнал, либо любое из вышеназванного в совокупности с метаданными.

[0017] В соответствии с первым аспектом, в примерах осуществления предлагаются способы, устройства и компьютерные программные продукты для декодирования аудиосигнала стереофонического канала на основе входного сигнала. Предлагаемые способы, устройства и компьютерные программные продукты могут, как правило, иметь одинаковые признаки и преимущества.

[0018] В соответствии с примерами осуществления, предлагается декодер для декодирования двух аудиосигналов. Декодер включает в себя каскад приема, выполненный с возможностью приема первого сигнала и второго сигнала, соответствующих периоду времени упомянутых двух аудиосигналов, причем первый сигнал содержит первый кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения, и кодируемый по форме сигнал понижающего микширования, содержащий спектральные данные, соответствующие частотам выше первой частоты разделения, причем второй сигнал содержит второй кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения.

[0019] Декодер дополнительно содержит каскад микширования на выходе каскада приема. Каскад микширования выполнен с возможностью проверки, находятся ли первый и второй кодируемые по форме сигналы в суммарно-разностной форме для всех частот до первой частоты разделения, и если нет, преобразования первого и второго кодируемых по форме сигналов в суммарно-разностную форму таким образом, что первый сигнал является комбинацией кодируемого по форме суммарного сигнала, содержащего спектральные данные, соответствующие частотам до первой частоты разделения, и кодируемого по форме сигнала понижающего микширования, содержащего спектральные данные, соответствующие частотам выше первой частоты разделения, а второй сигнал содержит кодируемый по форме разностный сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения.

[0020] Декодер дополнительно содержит каскад повышающего микширования на выходе каскада микширования, выполненный с возможностью повышающего микширования первого и второго сигналов для генерирования левого и правого каналов стереосигнала, причем для частот ниже первой частоты разделения каскад повышающего микширования выполнен с возможностью выполнения обратного суммарно-разностного преобразования первого и второго сигналов, а для частот выше первой частоты разделения каскад повышающего микширования выполнен с возможностью выполнения параметрического повышающего микширования сигнала понижающего микширования первого сигнала.

[0021] Преимущество наличия нижних частот, прошедших чистое кодирование формы сигналов, т.е., дискретного представления стерео-аудиосигнала, может состоять в том, что человеческое ухо более чувствительно к аудиокомпоненте, имеющей низкие частоты. Благодаря кодированию этой компоненты с более высоким качеством общее впечатление о декодированном аудиосигнале может улучшиться.

[0022] Преимущество наличия прошедшей параметрическое стереофоническое кодирование компоненты первого сигнала, т.е., кодируемого по форме сигнала понижающего микширования, а также упомянутого дискретного представления стерео-аудиосигнала состоит в том, что это может повысить качество декодированного аудиосигнала для определенных скоростей передачи данных по сравнению с использованием традиционного параметрического подхода к стереосигналу. При скоростях передачи данных около 32-40 килобит в секунду (кбит/с) параметрическая модель стереофонии может входить в насыщение, т.е., качество декодированного аудиосигнала ограничено недостатками параметрической модели, а не недостаточностью битов для кодирования. Следовательно, для скоростей передачи битов приблизительно от 32 кбит/с может оказаться более целесообразным использовать биты на нижних частотах кодирования формы сигналов. В то же время, гибридный подход к использованию и прошедшей параметрическое стереофоническое кодирование компоненты первого сигнала, и дискретного представления распределенного стерео-аудиосигнала состоит в том, что это может повысить качество декодированного аудиосигнала для определенных скоростей передачи данных, например, ниже 48 кбит/с по сравнению с использованием подхода, при котором все биты используются для нижних частот кодирования формы сигнала, и использованием репликации полосы спектра (SBR) для остальных частот.

[0023] Декодер при этом предпочтительно используется для декодирования двухканального стерео-аудиосигнала.

[0024] В соответствии с еще одним вариантом осуществления, преобразование первого и второго кодируемых по форме сигналов в суммарно-разностную форму в каскаде микширования осуществляется в перекрывающейся оконной области преобразования. Перекрывающаяся оконная область преобразования может, например, представлять собой область модифицированного дискретного косинусного преобразования (MDCT). Это может оказаться целесообразным, поскольку преобразование других имеющихся форматов распределения аудиосигналов, таких как левая/правая форма или dmx/comp форма, в суммарно-разностную форму легко обеспечивается в области MDCT. Следовательно, сигналы могут кодироваться с использованием различных форматов, для, по меньшей мере, поднабора частот ниже первой частоты разделения в зависимости от характеристик кодируемого сигнала. Это может обеспечить повышенные качество кодирования и эффективность кодирования.

[0025] В соответствии с еще одним вариантом осуществления, повышающее микширование первого и второго сигналов в каскаде повышающего микширования выполняется в области Квадратурных зеркальных фильтров (QMF). Повышающее микширование выполняется для генерирования левого и правого стереосигналов.

[0026] В соответствии с еще одним вариантом осуществления, кодируемый по форме сигнал понижающего микширования, содержит спектральные данные, соответствующие частотам между первой частотой разделения и второй частотой разделения. Параметры восстановления высоких частот (HFR) принимаются декодером, например, в каскаде приема, а затем отправляются в каскад восстановления высоких частот для расширения сигнала понижающего микширования первого сигнала до диапазона частот выше второй частоты разделения путем выполнения восстановления высоких частот с использованием параметров восстановления высоких частот. Восстановление высоких частот может, например, включать в себя выполнение репликации полосы спектра, SBR.

[0027] Преимущество наличия кодируемого по форме сигнала понижающего микширования, который содержит лишь спектральные данные, соответствующие частотам между первой частотой разделения и второй частотой разделения, состоит в том, что требуемая скорость передачи данных для стереофонической системы может быть понижена. В соответствии с другим вариантом, биты, сохраняемые благодаря наличию кодируемого по форме сигнала понижающего микширования, используются для нижних частот кодирования формы сигналов, например, квантование для этих частот может осуществляться более мелкими шагами, либо первая частота разделения может быть повышена.

[0028] Поскольку, как упоминалось выше, человеческое ухо более чувствительно к компоненте аудиосигнала, имеющей низкие частоты, высокие частоты, такие как компонента аудиосигнала, имеющий частоты выше второй частоты разделения, могут быть восстановлены путем восстановления высоких частот без снижения воспринимаемого качества звука декодированного аудиосигнала.

[0029] В соответствии с еще одним вариантом осуществления, сигнал понижающего микширования первого сигнала расширяется до диапазона частот выше второй частоты разделения перед тем, как осуществляется повышающее микширование первого и второго сигналов. Это может оказаться целесообразным, поскольку каскад повышающего микширования будет иметь входной суммарный сигнал со спектральными данными, соответствующими всем частотам.

[0030] В соответствии с еще одним вариантом осуществления, сигнал понижающего микширования первого сигнала расширяется до диапазона частот выше второй частоты разделения после преобразования первого и второго кодируемых по форме сигналов в суммарно-разностную форму. Это может оказаться целесообразным, поскольку с учетом того, что сигнал понижающего микширования соответствует суммарному сигналу в суммарно-разностном представлении, каскад восстановления высоких частот будет иметь входной сигнал со спектральными данными, соответствующими частотам до второй частоты разделения, представленный в той же форме, т.е., в суммарной форме.

[0031] В соответствии с еще одним вариантом осуществления, повышающее микширование в каскаде повышающего микширования осуществляется с использованием параметров повышающего микширования. Параметры повышающего микширования принимаются декодером, например, в каскаде приема и отправляются в каскад повышающего микширования. Генерируется декоррелированная версия сигнала понижающего микширования, при этом сигнал понижающего микширования и декоррелированная версия сигнала понижающего микширования подвергаются матричной операции. Параметры матричной операции задаются параметрами повышающего микширования.

[0032] В соответствии с еще одним вариантом осуществления, кодируемые по форме первый и второй сигналы, принимаемые в каскаде приема, кодируются по форме в лево-правой форме, суммарно-разностной форме и/или понижающе-дополняющей форме, причем дополняющий сигнал зависит от весового параметра a, адаптивного к сигналу. Кодируемые по форме сигналы могут при этом кодироваться по различным формам в зависимости от характеристик сигналов и, тем не менее, быть декодируемыми декодером. Это может обеспечить повышенное качество кодирования и, следовательно, повышенное качество декодированного стерео-аудиосигнала при наличии определенной скорости передачи данных системы. Еще в одном варианте осуществления весовой параметр a является вещественным. Это может упростить декодер, поскольку не требуется никакой дополнительный каскад, аппроксимирующий мнимую компоненту сигнала. Еще одно преимущество состоит в том, что вычислительная сложность декодера может понизиться, что может также привести к уменьшенной задержке/запаздыванию декодирования декодера.

[0033] В соответствии с еще одним вариантом осуществления, кодируемые по форме первый и второй сигналы, принимаемые в каскаде приема, кодируются по форме в суммарно-разностной форме. Это означает, что первый и второй сигналы могут кодироваться с использованием перекрывающихся оконных преобразований с организацией независимых окон для первого и второго сигналов соответственно и, тем не менее, быть декодируемыми декодером. Это может обеспечить повышенное качество кодирования и, следовательно, повышенное качество декодированного стерео-аудиосигнала при наличии определенной скорости передачи данных системы. Например, если переходный процесс обнаруживается в суммарном сигнале и не обнаруживается в разностном сигнале, кодер формы сигнала может кодировать суммарный сигнал с более короткими окнами, а для разностного сигнала могут быть сохранены более длительные задаваемые по умолчанию окна. Это может обеспечивать более высокую эффективность кодирования по сравнению с тем случаем, когда боковой сигнал также кодировался бы с использованием последовательности более короткого окна.

II. Обзор - кодер

[0034] В соответствии со вторым аспектом, в примерах осуществления предлагаются способы, устройства и компьютерные программные продукты для кодирования аудиосигнала стереофонического канала на основе входного сигнала.

[0035] Предлагаемые способы, устройства и компьютерные программные продукты могут, как правило, иметь одинаковые признаки и преимущества.

[0036] Преимущества, касающиеся признаков и устройств и представленные в приведенном выше обзоре декодера, в целом могут иметь силу для соответствующих признаков и устройств кодера.

[0037] В соответствии с примерами осуществления, предлагается кодер для кодирования двух аудиосигналов. Кодер содержит каскад приема, выполненный с возможностью приема первого сигнала и второго сигнала, соответствующих периоду времени упомянутых двух сигналов, подлежащих кодированию.

[0038] Кодер дополнительно содержит каскад преобразования, выполненный с возможностью приема первого и второго сигналов с каскада приема и преобразования их в первый преобразованный сигнал, являющийся суммарным сигналом, и второй преобразованный сигнал, являющийся разностным сигналом.

[0039] Кодер дополнительно содержит каскад кодирования формы сигналов, выполненный с возможностью приема первого и второго преобразованных сигналов с каскада преобразования и осуществления с ними кодирования формы сигналов с получением первого и второго кодируемых по форме сигналов соответственно, причем для частот выше первой частоты разделения каскад кодирования формы сигналов выполнен с возможностью осуществления кодирования по форме первого преобразованного сигнала, а для частот до первой частоты разделения каскад кодирования формы сигналов выполнен с возможностью осуществления кодирования по форме первого и второго преобразованных сигналов.

[0040] Кодер дополнительно содержит каскад параметрического стерео кодирования, выполненный с возможностью приема первого и второго сигналов с каскада приема и подвергания первого и второго сигналов параметрическому стерео кодированию с целью извлечения параметрических стерео параметров, обеспечивающих восстановление спектральных данных первого и второго сигналов для частот выше первой частоты разделения.

[0041] Кодер дополнительно содержит каскад генерирования битового потока, выполненный с возможностью приема первого и второго кодируемых по форме сигналов с каскада кодирования формы сигналов и параметрических стерео параметров с каскада параметрического стерео кодирования, а также генерирования битового потока, содержащего первый и второй кодируемые по форме сигналы и параметрические стерео параметры.

[0042] В соответствии с еще одним вариантом осуществления, преобразование первого и второго сигналов в каскаде преобразования выполняется во временной области.

[0043] В соответствии с еще одним вариантом осуществления, для, по меньшей мере, поднабора частот ниже первой частоты разделения кодер может преобразовывать первый и второй кодируемые по форме сигналы в лево-правую форму путем выполнения обратного суммарно-разностного преобразования.

[0044] В соответствии с еще одним вариантом осуществления, для, по меньшей мере, поднабора частот ниже первой частоты разделения кодер может преобразовывать первый и второй кодируемые по форме сигналы в понижающе-дополняющую форму путем выполнения матричной операции над первым и вторым сигналами, прошедшими кодирование формы сигналов, причем матричная операция зависит от весового параметра а. Весовой параметр а может после этого быть включен в битовый поток в каскаде генерирования битового потока.

[0045] В соответствии с еще одним вариантом осуществления, для частот выше первой частоты разделения кодирование формы сигналов первого и второго преобразованных сигналов в каскаде преобразования включает в себя кодирование формы сигналов первого преобразованного сигнала для частот между первой частотой разделения и второй частотой разделения и установку первого сигнала, прошедшего кодирование формы сигналов, в нуль выше второй частоты разделения. Сигнал понижающего микширования первого сигнала и второго сигнала может после этого подвергаться кодированию с восстановлением высоких частот в каскаде восстановления высоких частот с целью генерирования параметров восстановления высоких частот, обеспечивающих восстановление высоких частот сигнала понижающего микширования. Параметры восстановления высоких частот могут после этого быть включены в битовый поток в каскаде генерирования битового потока.

[0046] В соответствии с еще одним вариантом осуществления, сигнал понижающего микширования вычисляется на основе первого и второго сигналов.

[0047] В соответствии с еще одним вариантом осуществления, подвергание первого и второго сигналов параметрическому стерео кодированию в каскаде параметрического стерео кодирования осуществляется путем сначала преобразования первого и второго сигналов в первый преобразованный сигнал, являющийся суммарным сигналом, и второй преобразованный сигнал, являющийся разностным сигналом, а затем подвергания первого и второго преобразованных сигналов параметрическому стерео кодированию, причем сигнал понижающего микширования, подлежащий кодированию с восстановлением высоких частот, является первым преобразованным сигналом.

III. Примеры осуществления

[0048] Фиг.1 представляет собой обобщенную блок-схему системы 100 декодирования, содержащей концептуальные части 200, 300 и 400, которые подробно будут объясняться в соответствии с приводимыми ниже фиг.2-4. В первой концептуальной части 200 битовый поток принимается и декодируется в первый и второй сигналы. Первый сигнал содержит как первый кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения, так и кодируемый по форме сигнал понижающего микширования, содержащий спектральные данные, соответствующие частотам выше первой частоты разделения. Второй сигнал включает в себя лишь второй кодируемый по форме сигнал, содержащий спектральные данные, соответствующие частотам до первой частоты разделения.

[0049] Во второй концептуальной части 300 в том случае, если прошедшие кодирование формы сигналов компоненты первого и второго сигналов находятся не в суммарно-разностной форме, например, в M/S форме, прошедшие кодирование формы сигналов компоненты первого и второго сигналов преобразуются в суммарно-разностную форму. После этого первый и второй сигналы преобразуются во временную область, а затем в область Квадратурных зеркальных фильтров, QMF. В третьей концептуальной части 400 первый сигнал восстановлен по высоким частотам (HFR). И первый, и второй сигналы затем подвергаются повышающему микшированию с получением левого и правого стереофонических выходных сигналов, которые имеют спектральные коэффициенты, соответствующие полному диапазону частот кодированного сигнала, декодируемого системой 100 декодирования.

[0050] Фиг.2 иллюстрирует первую концептуальную часть 200 системы 100 декодирования, изображенной на фиг.1. Система 100 декодирования содержит каскад 212 приема. В каскаде 212 приема кадр 202 битового потока декодируется и деквантуется в первый сигнал 204а и второй сигнал 204b. Кадр 202 битового потока соответствует периоду времени двух декодируемых аудиосигналов. Первый сигнал 204а включает в себя первый сигнал 208, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам до первой частоты разделения kγ, и сигнал 206 понижающего микширования, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам выше первой частоты разделения kγ. Например, первая частота разделения kγ составляет 1,1 кГц.

[0051] В соответствии с некоторыми вариантами осуществления, сигнал 206 понижающего микширования, прошедший кодирование формы сигналов, содержит спектральные данные, соответствующие частотам между первой частотой разделения kγ и второй частотой разделения kχ. Например, вторая частота разделения kχ лежит в диапазоне 5,6-8 кГц.

[0052] Принимаемые первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, могут быть с кодированием формы сигналов в лево-правой форме, суммарно-разностной форме и/или понижающе-дополняющей форме, причем дополняющий сигнал зависит от весового параметра a, адаптивного к сигналу. Сигнал 206 понижающего микширования, прошедший кодирование формы сигналов, соответствует понижающему микшированию, подходящему для параметрического стерео, которое - в соответствии с приведенным выше описанием - соответствует суммарной форме. Однако сигнал 204b не имеет контента выше первой частоты разделения kγ. Каждый из сигналов 206, 208, 210 представлен в области модифицированного дискретного косинусного преобразования (MDCT).

[0053] Фиг.3 иллюстрирует вторую концептуальную часть 300 системы 100 декодирования, изображенной на фиг.1. Система 100 декодирования содержит каскад 302 микширования. Конструкция системы 100 декодирования требует, чтобы входной сигнал каскада восстановления высоких частот, который подробнее описывается ниже, находился в суммарной форме. Следовательно, каскад микширования выполнен с возможностью проверки, находятся ли первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, в суммарно-разностной форме. Если первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, не находятся в суммарно-разностной форме для всех частот до первой частоты разделения kγ, каскад 302 микширования полностью преобразует сигналы 208, 210, прошедшие кодирование формы сигналов, в суммарно-разностную форму. В случае если, по меньшей мере, поднабор частот входных сигналов 208, 210 каскада 302 микширования находится в понижающе-дополняющей форме, в качестве входного сигнала каскада 302 микширования требуется весовой параметр a. Можно отметить, что входные сигналы 208, 210 могут содержать несколько поднаборов частот, кодированных в понижающе-дополняющей форме, и что в этом случае каждый поднабор не обязательно должен кодироваться с использованием одного и того же значения весового параметра a. В этом случае в качестве входного сигнала каскада 302 микширования требуются несколько весовых параметров a.

[0054] Как указано выше, каскад 302 микширования всегда выдает суммарно-разностное представление входных сигналов 204a-b. Для того, чтобы иметь возможность преобразовывать сигналы, представленные в области MDCT, в суммарно-разностное представление, организация окон сигналов с MDCT кодированием должна быть такой же. Это предполагает, что в случае, если первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, находятся в L/R или понижающе-дополняющей форме, организация окон для сигнала 204а и организация окон для сигнала 204b не могут быть независимыми.

[0055] Следовательно, в случае, если первый и второй сигналы 208, 210, прошедшие кодирование формы сигналов, находятся в суммарно-разностной форме, организация окон для сигнала 204а и организация окон для сигнала 204b не могут быть независимыми.

[0056] После каскада 302 микширования суммарно-разностный сигнал преобразуется во временную область путем применения обратного модифицированного дискретного косинусного преобразования (MDCT-1) 312.

[0057] Затем два сигнала 304a-b анализируются двумя блоками 314 QMF. Поскольку сигнал 306 понижающего микширования не содержит нижних частот, нет необходимости анализировать сигнал с помощью блока фильтров Найквиста для повышения разрешающей способности по частоте. Это можно сравнить с системами, в которых сигнал понижающего микширования содержит нижние частоты, например, традиционное параметрическое стерео декодирование, такое как параметрическое стерео MPEG-4. В этих системах сигнал понижающего микширования должен анализироваться с помощью блока фильтров Найквиста с целью повышения разрешающей способности по частоте сверх того, что достигается с помощью блока QMF, и посредством этого лучшего согласования с частотной избирательностью слуховой системы человека, например, представленной частотной шкалой барков.

[0058] Выходной сигнал 304 с блоков 314 QMF включает в себя первый сигнал 304а, который является комбинацией суммарного сигнала 308, прошедшего кодирование формы сигналов и содержащего спектральные данные, соответствующие частотам до первой частоты разделения kγ, и сигнал 306 понижающего микширования, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам между первой частотой разделения kγ и второй частотой разделения kχ. Выходной сигнал 304 дополнительно включает в себя второй сигнал 304b, который содержит разностный сигнал 310, прошедший кодирование формы сигналов и содержащий спектральные данные, соответствующие частотам до первой частоты разделения kγ. Сигнал 304b не имеет контента выше первой частоты разделения kγ.

[0059] Как будет описываться ниже, каскад 416 восстановления высоких частот (изображенный на фиг.4) использует нижние частоты, т.е., первый сигнал 308, прошедший кодирование формы сигналов, и сигнал 306 понижающего микширования, прошедший кодирование формы сигналов, из выходного сигнала 304 для восстановления частот выше второй частоты разделения kχ. Целесообразно, чтобы сигнал, на котором работает каскад 416 восстановления высоких частот, являлся сигналом аналогичного типа на всех нижних частотах. С этой точки зрения целесообразно, чтобы каскад 302 микширования всегда выдавал суммарно-разностное представление первого и второго сигналов 208, 210, прошедших кодирование формы сигналов, поскольку это означает, что первый сигнал 308, прошедший кодирование формы сигналов, и сигнал 306 понижающего микширования, прошедший кодирование формы сигналов, из выдаваемого первого сигнала 304а - одинакового характера.

[0060] Фиг.4 иллюстрирует третью концептуальную часть 400 системы 100 декодирования, изображенной на фиг.1. Каскад 416 восстановления высоких частот (HFR) расширяет сигнал 306 понижающего микширования входного сигнала 304а первого сигнала до диапазона частот выше второй частоты разделения kχ путем выполнения восстановления высоких частот. В зависимости от конфигурации каскада 416 HFR, входным сигналом для каскада 416 HFR является весь сигнал 304а или только сигнал 306 понижающего микширования. Восстановление высоких частот осуществляется путем использования параметров восстановления высоких частот, которые могут приниматься каскадом 416 восстановления высоких частот любым применимым способом. В соответствии с одним из вариантов осуществления, выполняемое восстановление высоких частот содержит выполнение репликации полосы спектра, SBR.

[0061] Выходным сигналом каскада 314 восстановления высоких частот является сигнал 404, содержащий сигнал 406 понижающего микширования с примененным расширением SBR. Восстановленный по высоким частотам сигнал 404 и сигнал 304b после этого подаются на каскад 420 повышающего микширования для генерирования левого L и правого R стерео сигналов 412a-b. Для спектральных коэффициентов, соответствующих частотам ниже первой частоты разделения kγ, повышающее микширование содержит выполнение обратного суммарно-разностного преобразования первого и второго сигналов 408, 310. Это попросту означает переход от средне-бокового представления к лево-правому представлению, как указано выше. Для спектральных коэффициентов, соответствующих частотам выше первой частоты разделения kγ, сигнал 406 понижающего микширования и расширение 412 SBR подаются через декоррелятор 418. Сигнал 406 понижающего микширования и расширение 412 SBR, а также декоррелированная версия сигнала 406 понижающего микширования и расширения 412 SBR после этого подвергаются повышающему микшированию с использованием параметров параметрического микширования для восстановления левого и правого каналов 416, 414 для частот выше первой частоты разделения kγ. Может применяться любая известная процедура параметрического повышающего микширования.

[0062] Необходимо отметить, что в вышеописанном примере 100 осуществления кодера, изображенном на фиг.1-4, необходимо восстановление высоких частот, поскольку первый принимаемый сигнал 204а содержит лишь спектральные данные, соответствующие частотам до второй частоты разделения kχ. В других вариантах осуществления первый принимаемый сигнал содержит спектральные данные, соответствующие всем частотам кодированного сигнала. В соответствии с этим вариантом осуществления, восстановление высоких частот не требуется. Специалисту понятно, как адаптировать пример 100 кодера в этом случае.

[0063] На фиг.5 в качестве примера изображена обобщенная блок-схема системы 500 декодирования в соответствии с одним из вариантов осуществления.

[0064] В этой системе кодирования первый и второй сигналы 540, 542, подлежащие кодированию, принимаются каскадом приема (не показан). Эти сигналы 540, 542 соответствуют периоду времени левого 540 и правого 542 стереофонических звуковых каналов. Сигналы 540, 542 представлены во временной области. Система кодирования содержит каскад 510 преобразования. Сигналы 540, 542 преобразуются в суммарно-разностный формат 544, 546 в каскаде 510 преобразования.

[0065] Система кодирования дополнительно содержит каскад 514 кодирования формы сигналов, выполненный с возможностью приема первого и второго преобразованных сигналов 544, 546 с каскада 510 преобразования. Каскад кодирования формы сигналов, как правило, работает в области MDCT. В связи с этим, преобразованные сигналы 544, 546 подвергаются преобразованию 512 MDCT перед каскадом 514 кодирования формы сигналов. В каскаде кодирования формы сигналов первый и второй преобразованные сигналы 544, 546 кодируются по форме с получением первого и второго сигналов 518, 520, прошедших кодирование формы сигналов, соответственно.

[0066] Для частот выше первой частоты разделения kγ каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 с получением сигнала 552 с кодированием формы сигналов первого сигнала 518, прошедшего кодирование формы сигналов. Каскад 514 кодирования формы сигналов может быть выполнен с возможностью установки второго сигнала 520, прошедшего кодирование формы сигналов, в нуль выше первой частоты разделения kγ, либо не кодирования этих частот вообще. Для частот выше первой частоты разделения kγ каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 с получением сигнала 552 с кодированием формы сигналов первого сигнала 518, прошедшего кодирование формы сигналов.

[0067] Для частот ниже первой частоты разделения kγ в каскаде 514 кодирования формы сигналов принимается решение о том, какого рода стерео кодирование использовать для двух сигналов 548, 550. В зависимости от характеристик преобразованных сигналов 544, 546 ниже первой частоты разделения kγ могут приниматься различные решения для различных поднаборов сигналов 548, 550, прошедших кодирование формы сигналов. Кодирование может представлять собой либо Левое/Правое кодирование, Среднее/Боковое кодирование, т.е., кодирование суммы и разности, либо dmx/comp/a кодирование. В случае если сигналы 548, 550 подвергались кодированию формы сигналов в каскаде 514 кодирования формы сигналов, сигналы 518, 520, прошедшие кодирование формы сигналов, могут кодироваться с использованием перекрывающихся оконных преобразований с независимой организацией окон для сигналов 518, 520 соответственно.

[0068] Одним из примеров первой частоты разделения kγ является 1,1 кГц, но эта частота может изменяться в зависимости от скорости передачи данных стереофонической звуковой системы или в зависимости от характеристик кодируемого аудиосигнала.

[0069] По меньшей мере, два сигнала 518, 520 при этом выдаются с каскада 514 кодирования формы сигналов. В случае, если один или несколько поднаборов, либо весь диапазон частот сигналов ниже первой частоты разделения kγ кодируется в понижающе-дополняющей форме путем выполнения матричной операции в зависимости от весового параметра а, этот коэффициент также выдается в качестве сигнала 522. В случае нескольких поднаборов, кодируемых в понижающей/дополняющей форме, каждый поднабор не обязательно должен кодироваться с использованием одного и того же значения весового параметра а. В этом случае в качестве сигнала 522 выдаются несколько весовых параметров.

[0070] Указанные два или три сигнала 518, 520, 522 кодируются и квантуются 524 с получением единого составного сигнала 558.

[0071] Для того чтобы иметь возможность восстанавливать спектральные данные первого и второго сигналов 540, 542 для частот выше первой частоты разделения на стороне декодера, из сигналов 540, 542 должны извлекаться параметрические стерео параметры 536. С этой целью кодер 500 содержит каскад 530 параметрического стерео (PS) кодирования. Каскад 530 PS кодирования, как правило, работает в области QMF. Следовательно, перед вводом в каскад 530 PS кодирования первый и второй сигналы 540, 542 преобразуются в область QMF с помощью каскада 526 анализа QMF. Каскад 530 PS кодирования предназначен лишь для извлечения параметрических стерео параметров 536 для частот выше первой частоты разделения kγ.

[0072] Можно отметить, что параметрические стерео параметры 536 отражают характеристики сигнала, прошедшего параметрическое стерео кодирование. При этом они являются частотно избирательными, т.е., каждый параметр из параметров 536 может соответствовать поднабору частот левого или правого входных сигналов 540, 542. Каскад 530 PS кодирования вычисляет параметрические стерео параметры 536 и квантует их либо с равномерным шагом, либо с неравномерным шагом. Эти параметры, как упоминалось выше, являются частотно избирательными, причем весь диапазон частот входных сигналов 540, 542 делится, например, на 15 диапазонов параметров. Они могут быть разнесены в соответствии с моделью частотного разрешения слуховой системы человека, например, шкалой барков.

[0073] В примере осуществления кодера 500, изображенном на фиг.5, каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 для частот между первой частотой разделения kγ и второй частотой разделения kχ и установки первого сигнала 518, прошедшего кодирование формы сигналов, на ноль выше второй частоты разделения kχ. Это может осуществляться для дополнительного снижения требуемой скорости передачи данных звуковой системы, в состав которой входит кодер 500. Для того, чтобы иметь возможность восстанавливать сигнал выше второй частоты разделения kχ, должны генерироваться параметры 538 восстановления высоких частот. В соответствии с этим примером осуществления, это выполняется путем понижающего микширования двух сигналов 540, 542, представленных в области QMF, в каскаде 534 понижающего микширования. Результирующий сигнал понижающего микширования, который, например, равен сумме двух сигналов 540, 542, подвергается после этого кодированию с восстановлением высоких частот в каскаде 532 кодирования с восстановлением высоких частот - HFR - с целью генерирования параметров 538 восстановления высоких частот. Параметры 538 могут, например, включать в себя огибающую спектра частот выше второй частоты разделения kχ, информацию о накоплении помех и т.д., также известные специалистам.

[0074] Одним из примеров второй частоты разделения kχ является 5,6-8 кГц, но эта частота может изменяться в зависимости от скорости передачи данных стереофонической звуковой системы или в зависимости от характеристик кодируемого аудиосигнала.

[0075] Кодер 500 дополнительно содержит каскад генерирования битовых потоков, т.е., мультиплексор 524 битовых потоков. В соответствии с примером осуществления кодера 500, каскад генерирования битовых потоков выполнен с возможностью приема кодированного и квантованного сигнала 544 и двух сигналов 536, 538 параметров. Они преобразуются в битовый поток 560 каскадом 562 генерирования битовых потоков для последующего распределения в стереофонической звуковой системе.

[0076] В соответствии с еще одним вариантом осуществления, каскад 514 кодирования формы сигналов выполнен с возможностью кодирования по форме первого преобразованного сигнала 544 для всех частот выше первой частоты разделения kγ. В этом случае каскад 532 кодирования с HFR не требуется, и, следовательно, параметры 538 восстановления высоких частот не включаются в битовый поток.

[0077] На фиг.6 в качестве примера изображена обобщенная блок-схема системы 600 кодирования в соответствии с еще одним вариантом осуществления. Данный вариант осуществления отличается от варианта осуществления, изображенного на фиг.5, тем, что сигналы 544, 546, которые преобразуются каскадом 526 анализа QMF, находятся в суммарно-разностном формате. Следовательно, отдельный каскад 534 понижающего микширования не требуется, поскольку суммарный сигнал 544 уже находится в форме сигнала понижающего микширования. При этом для работы по суммарному сигналу 544 для извлечения параметров 538 восстановления высоких частот требуется лишь каскад 532 SBR кодирования. Каскад 530 PS кодирования предназначен для работы как по суммарному сигналу 544, так и по разностному сигналу 546 для извлечения параметрических стерео параметров 536.

Эквиваленты, расширения, альтернативы и прочее

[0078] После изучения приведенного выше описания специалисту станут очевидными другие варианты осуществления настоящего изобретения. Несмотря на то, что настоящее описание и чертежи раскрывают варианты осуществления и примеры, изобретение не ограничивается этими конкретными примерами. Возможно различные другие варианты в пределах объема настоящего изобретения, который определяется в прилагаемой формуле изобретения. Любые ссылочные позиции в формуле изобретения не должны трактоваться как ограничивающие ее объем.

[0079] Кроме того, по результатам изучения чертежей, описания и прилагаемой формулы изобретения специалистом могут быть поняты и реализованы изменения в описываемых вариантах осуществления. В формуле изобретения слово «содержащий» не исключает другие элементы или этапы, а неопределенный артикль не исключает множества. Сам по себе тот факт, что некоторые критерии излагаются в различных зависимых пунктах формулы изобретения, не означает, что совокупность этих критериев не может использоваться с пользой.

[0080] Описанные выше системы и способы могут быть реализованы в виде программных средств, микропрограммных средств, аппаратных средств или их комбинации. При аппаратной реализации разделение задач между функциональными блоками, упоминаемыми в приведенном выше описании, не обязательно должно соответствовать разделению на физические блоки; напротив, один физический компонент может иметь множество функциональных назначений, при этом одна задача может выполняться несколькими физическими компонентами совместно. Некоторые компоненты или все компоненты могут быть реализованы в виде программных средств, исполняемых цифровым сигнальным процессором или микропроцессором, либо реализованы в виде аппаратных средств, либо в виде специализированной интегральной схемы. Такие программные средства могут быть распределены по считываемым компьютером носителям, которые могут включать в себя запоминающие среды компьютеров (или энергонезависимые среды) и среды передачи данных (или энергозависимые среды). Как известно специалистам, термин «запоминающие среды компьютеров» включает в себя и энергозависимые, и энергонезависимые, и съемные, и несъемные среды, реализуемые с помощью любого способа или технологии для хранения информации, такие как считываемые компьютером инструкции, структуры данных, программные модули и прочие данные. Запоминающие среды компьютеров включают в себя, помимо прочего, оперативное запоминающее устройство (ОЗУ), постоянное запоминающее устройство (ПЗУ), электрически стираемое программируемое постоянное запоминающее устройство (ЭСППЗУ), флэш-память или иную технологию памяти, постоянное запоминающее устройство на компакт-дисках (CD-ROM), универсальный цифровой диск (DVD) или иной накопитель на оптических дисках, магнитные кассеты, накопитель на магнитных дисках или иные магнитные запоминающие устройства, либо иную среду, которая может использоваться для хранения необходимой информации и доступ к которой может осуществляться компьютером. Кроме того, специалистам известно, что среды передачи данных, как правило, включают в себя считываемые компьютером инструкции, структуры данных, программные модули или иные данные в модулированном информационном сигнале, таком как несущая волна или иной механизм переноса, и включают в себя любые среды доставки информации.

Похожие патенты RU2798009C2

название год авторы номер документа
СТЕРЕОФОНИЧЕСКИЙ КОДЕР И ДЕКОДЕР АУДИОСИГНАЛОВ 2018
  • Пурнхаген Хейко
  • Черлинг Кристофер
RU2690885C1
СТЕРЕОФОНИЧЕСКИЙ КОДЕР И ДЕКОДЕР АУДИОСИГНАЛОВ 2014
  • Пурнхаген Хейко
  • Черлинг Кристофер
RU2665214C1
СТЕРЕОФОНИЧЕСКИЙ КОДЕР И ДЕКОДЕР АУДИОСИГНАЛОВ 2014
  • Пурнхаген, Хейко
  • Черлинг, Кристофер
RU2645271C2
СИСТЕМА ОБРАБОТКИ АУДИО 2014
  • Черлинг, Кристофер
  • Пурнхаген, Хейко
  • Виллемоес, Ларс
RU2625444C2
АУДИОКОДЕР ДЛЯ КОДИРОВАНИЯ МНОГОКАНАЛЬНОГО СИГНАЛА И АУДИОДЕКОДЕР ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА 2016
  • Диш Саша
  • Фукс Гийом
  • Равелли Эммануэль
  • Нойкам Кристиан
  • Шмидт Константин
  • Бенндорф Конрад
  • Нидермайер Андреас
  • Шуберт Беньямин
  • Гайгер Ральф
RU2679571C1
АУДИОКОДЕР, АУДИОДЕКОДЕР, СПОСОБЫ И КОМПЬЮТЕРНАЯ ПРОГРАММА, ИСПОЛЬЗУЮЩИЕ СОВМЕСТНО КОДИРОВАННЫЕ РАЗНОСТНЫЕ СИГНАЛЫ 2014
  • Дик Саша
  • Эртель Кристиан
  • Хельмрих Кристиан
  • Хильперт Йоханнес
  • Хельцер Андреас
  • Кунтц Ахим
RU2677580C2
АУДИОКОДЕР ДЛЯ КОДИРОВАНИЯ МНОГОКАНАЛЬНОГО СИГНАЛА И АУДИОДЕКОДЕР ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА 2016
  • Диш Саша
  • Фукс Гийом
  • Равелли Эммануэль
  • Нойкам Кристиан
  • Шмидт Константин
  • Бенндорф Конрад
  • Нидермайер Андреас
  • Шуберт Беньямин
  • Гайгер Ральф
RU2680195C1
АУДИОКОДИРОВАНИЕ С ИСПОЛЬЗОВАНИЕМ ПОВЫШАЮЩЕГО МИКШИРОВАНИЯ 2008
  • Хелльмут Оливер
  • Херре Юрген
  • Терентьев Леонид
  • Хёльцер Андреас
  • Фалч Корнелия
  • Хилперт Йоханнес
RU2474887C2
УСТРОЙСТВО И СПОСОБ ДЛЯ ФОРМИРОВАНИЯ МНОГОКАНАЛЬНОГО СИГНАЛА ИЛИ НАБОРА ПАРАМЕТРИЧЕСКИХ ДАННЫХ 2005
  • Шпершнайдер Ральф
  • Херре Юрген
  • Хильперт Йоханнес
  • Эртель Христиан
  • Геиэрсбергер Штефан
RU2355046C2
УСТРОЙСТВО ПОВЫШАЮЩЕГО МИКШИРОВАНИЯ ЗВУКА, ВЫПОЛНЕННОЕ С ВОЗМОЖНОСТЬЮ РАБОТЫ В РЕЖИМЕ С ПРЕДСКАЗАНИЕМ ИЛИ В РЕЖИМЕ БЕЗ ПРЕДСКАЗАНИЯ 2019
  • Карльссон, Понтус
  • Пурнхаген, Хейко
  • Виллемоес, Ларс
RU2717387C1

Иллюстрации к изобретению RU 2 798 009 C2

Реферат патента 2023 года СТЕРЕОФОНИЧЕСКИЙ КОДЕР И ДЕКОДЕР АУДИОСИГНАЛОВ

В настоящем изобретении предлагаются способы, устройства и компьютерные программные продукты для кодирования и декодирования стерео-аудиосигнала на основе входного сигнала. В соответствии с данным изобретением, применяется гибридный подход к использованию и параметрического стереофонического кодирования и дискретного представления стерео-аудиосигнала, который может повысить качество кодированного и декодированного аудиосигнала для определенных скоростей передачи данных. 3 н. и 8 з.п. ф-лы, 6 ил.

Формула изобретения RU 2 798 009 C2

1. Способ декодирования кодированного битового аудиопотока, содержащий этапы, на которых:

извлекают из кодированного битового аудиопотока первый кодированный по форме сигнал, состоящий из первых спектральных коэффициентов, соответствующих частотам вплоть до первой частоты разделения, для первого периода времени;

извлекают из кодированного битового аудиопотока второй кодированный по форме сигнал, состоящий из вторых спектральных коэффициентов, соответствующих подмножеству частот выше упомянутой первой частоты разделения, для упомянутого первого периода времени, при этом второй кодированный по форме сигнал не содержит вторых спектральных коэффициентов, соответствующих частотам вплоть до первой частоты разделения, для первого периода времени;

выполняют восстановление высоких частот для расширения подмножества частот выше второй частоты разделения, чтобы генерировать расширенный сигнал для первого периода времени, при этом вторая частота разделения выше первой частоты разделения, и при этом восстановление высоких частот использует по меньшей мере параметр восстановления, передаваемый в кодированном битовом аудиопотоке; и

объединяют первый кодированный по форме сигнал и расширенный сигнал.

2. Способ по п. 1, в котором первая частота разделения зависит от скорости передачи битов системы аудиообработки.

3. Способ по п. 1, в котором упомянутое объединение содержит (i) сложение второго кодированного по форме сигнала с восстановленным сигналом и объединение получаемого результата с первым кодированным по форме сигналом, или (ii) объединение второго кодированного по форме сигнала с восстановленным сигналом и объединение получаемого результата с первым кодированным по форме сигналом.

4. Способ по п. 1, в котором либо (i) объединение, либо (ii) выполнение восстановления высоких частот осуществляют в частотной области.

5. Способ по п. 1, в котором выполнение восстановления высоких частот содержит выполнение репликации полосы спектра (SBR).

6. Способ по п. 1, в котором выполнение восстановления высоких частот осуществляют до упомянутого объединения.

7. Способ по п. 1, в котором система аудиообработки представляет собой гибридный декодер, который выполняет декодирование по форме волны и параметрическое декодирование.

8. Способ по п. 1, в котором первый кодированный по форме сигнал и второй кодированный по форме сигнал совместно используют общий резервуар битов, используя психоакустическую модель.

9. Способ по п. 1, в котором первый кодированный по форме сигнал и второй кодированный по форме сигнал представляют собой сигналы, представляющие форму волны аудиосигнала в частотной области.

10. Аудиодекодер для декодирования кодированного битового аудиопотока, причем аудиодекодер содержит:

первый демультиплексор для извлечения из кодированного битового аудиопотока первого кодированного по форме сигнала, состоящего из первых спектральных коэффициентов, соответствующих частотам вплоть до первой частоты разделения, для первого периода времени;

второй демультиплексор для извлечения из кодированного битового аудиопотока второго кодированного по форме сигнала, состоящего из вторых спектральных коэффициентов, соответствующих подмножеству частот выше упомянутой первой частоты разделения, для упомянутого первого периода времени, при этом второй кодированный по форме сигнал не содержит вторых спектральных коэффициентов, соответствующих частотам вплоть до первой частоты разделения, для первого периода времени;

восстановитель высоких частот для выполнения восстановления высоких частот для расширения подмножества частот выше второй частоты разделения, чтобы генерировать расширенный сигнал для первого периода времени, при этом вторая частота разделения выше первой частоты разделения, при этом восстановление высоких частот использует по меньшей мере параметр восстановления, передаваемый в кодированном битовом аудиопотоке; и

объединитель для объединения первого кодированного по форме сигнала и расширенного сигнала.

11. Долговременный считываемый компьютером носитель, содержащий инструкции, которые при исполнении процессором побуждают процессор к выполнению способа по п. 1.

Документы, цитированные в отчете о поиске Патент 2023 года RU2798009C2

Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем 1924
  • Волынский С.В.
SU2012A1
US 6680972 B1, 20.01.2004
US 2009083040 A1, 26.03.2009
US 2008250913 A1, 16.10.2008.

RU 2 798 009 C2

Авторы

Пурнхаген, Хейко

Черлинг, Кристофер

Даты

2023-06-14Публикация

2019-05-27Подача