Показать метаданные Скрыть метаданные

(19)

(11)

2 834 366

(13)

(51)

МПК

G10L19/02(2013-01-01)

(21) (22)

Заявка

2024103466, 2022-07-14

(24)

Дата начала отсчета патента

2022-07-14

(22)

дата подачи заявки

2022-07-14

(45)

опубликовано

2025-02-06

(72)

авторы

Маркович, Горан

(73)

патентообладатели

Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.

(56)

Документы, цитированные в отчете о поиске

ИНТЕГРАЛЬНОЕ ПАРАМЕТРИЧЕСКОЕ АУДИОКОДИРОВАНИЕ ДЛЯ КАЖДОЙ ПОЛОСЫ ЧАСТОТ Российский патент 2025 года по МПК G10L19/02

Описание патента на изобретение RU2834366C2

Варианты осуществления настоящего изобретения относятся к кодеру и к декодеру. Дополнительные варианты осуществления относятся к способу кодирования и декодирования и к соответствующей компьютерной программе. В общем, варианты осуществления настоящего изобретения относятся к области интегрального параметрического кодера для каждой полосы частот.

Современные аудиокодеры и речевые кодеры на низких скоростях передачи битов обычно используют некоторое параметрическое кодирование по меньшей мере для части своей полосы пропускания спектра. Параметрическое кодирование либо отделяется от кодера с сохранением формы сигнала (называемого «базовым кодером с расширением полосы пропускания» в этом случае), либо является очень простым (например, заполнение шумом).

В уровне техники, в области техники параметрического кодера уже известны несколько подходов.

В [1] комфортный шум абсолютной величины, извлекаемой из передаваемого уровня заполнения шумом, вставляется в субвекторы, округленные до нуля.

В [2] вычисление уровня шума и обнаружение замещения шума в кодере содержат:

- Обнаружение и пометку полос частот спектра, которые могут воспроизводиться перцепционно эквивалентно в декодере посредством замещения шума. Например, показатель тональности или спектральной сглаженности может проверяться с этой целью;

- Вычисление и квантование средней ошибки квантования (которая может вычисляться по множеству или по всем полосам частот коэффициентов масштабирования, не квантованным до нуля); и

- Вычисление коэффициента масштабирования для полосы частот, квантованной до нуля таким образом, что вводимый (декодером) шум совпадает с исходной энергией.

В [2] шум вводится в спектральные линии, квантованные до нуля, с началом с «начальной линии заполнения шумом», причем абсолютные величины вводимого шума зависят от средней ошибки квантования, и вводимый шум в расчете на полосу частот масштабируется с помощью коэффициентов масштабирования.

В [3] предложено заполнение шумом в кодере в частотной области, при котором нульквантованные линии заменяются случайным шумом, сформированным в зависимости от тональности и местоположения ненульквантованных линий, причем уровень вставленного шума задается на основе глобального уровня шума.

В [4] шумоподобные компоненты обнаруживаются на основе полос частот кодера в кодере. Спектральные коэффициенты в полосах частот коэффициентов масштабирования, содержащих шумоподобные компоненты, исключаются из квантования/кодирования, и передаются только флаг замещения шума и полная мощность замещенных полос частот. В декодере, случайные векторы с требуемой полной мощностью вставляются для замещенных спектральных коэффициентов.

В [5] предложен способ расширения полосы пропускания, работающий во временной области, который исключает негармоничность. Гармоничность декодированного сигнала обеспечивается посредством вычисления автокорреляционной функции спектра абсолютной величины, причем спектр абсолютной величины получается из декодированного сигнала временной области. За счет использования автокорреляции исключается оценка F0. Аналитический сигнал части LF формируется посредством преобразования Гильберта и умножается с помощью модулятора для формирования расширения полосы пропускания. Формирование огибающей и добавление шума осуществляются посредством SBR.

В [6] полная полоса базовых частот копируется в область HF и впоследствии сдвигается таким образом, что самая высокая гармоника ядра сопоставляет с самой низкой гармоникой реплицированного спектра. В завершение, спектральная огибающая реконструируется. Сдвиг частоты, также называемый «частотой модуляции», вычисляется на основе f0, которая может вычисляться на стороне кодера с использованием полного спектра либо на стороне декодера только с использованием полосы базовых частот. Предложение также использует преимущество крутых полосовых фильтров MDCT для разделения полос частот LF и HF.

В [7-14] предложена технология полупараметрического кодирования, называемая «интеллектуальным заполнением интервалов отсутствия сигнала (IGF)», которая заполняет спектральные дыры в высокочастотной области с использованием синтетического HF, сформированного из низкочастотного содержимого, и постобработки посредством параметрической вспомогательной информации, состоящей из спектральной и временной огибающей HF. Диапазон IGF определяется определяемыми пользователем начальной и конечной частотами IGF. Формы сигналов, которые считаются необходимыми для кодирования с сохранением формы сигнала посредством базового кодера, например, заметные тона, также могут быть расположены выше начальной частоты IGF. Кодер кодирует спектральную огибающую в диапазоне IGF и впоследствии квантует спектр MDCT. Декодер использует традиционное заполнение шумом ниже начальной частоты IGF. Табличная определяемая пользователем сегментация полосы пропускания спектра используется с возможным сигнально-адаптивным вариантом выбора (мозаичного элемента) сегмента источника и с постобработкой мозаичных элементов (например, с плавным переходом) для уменьшения проблем, связанных с тонами на границах мозаичных элементов.

В [11] предложен автоматизированный выбор преобразования исходных и целевых мозаичных элементов и уровня отбеливания в IGF, на основе психоакустической модели.

В [15] кодер находит экстремальные коэффициенты в спектре, модифицирует экстремальный коэффициент или его соседние коэффициенты и формирует вспомогательную информацию, так что псевдокоэффициенты указываются посредством модифицированного спектра и вспомогательной информации. Псевдокоэффициенты определяются в декодированном спектре и задаются равными заданному значению в спектре, чтобы получать модифицированный спектр. Сигнал временной области формируется посредством осциллятора, управляемого посредством спектрального местоположения и значения псевдокоэффициентов. Сформированный сигнал временной области смешивается с сигналом временной области, полученным из модифицированного спектра.

В [16] определяются псевдокоэффициенты в декодированном спектре, и они заменяются стационарной структурой тонов или структурой развертки по частоте.

В [17], [18] модули квантования используют мертвую зону, которая адаптируется в зависимости от характеристик входных сигналов. Мертвая зона обеспечивает то низкоуровневые спектральные коэффициенты, потенциально затушенные коэффициенты, квантуются до нуля.

Ниже поясняются недостатки уровня техники, при этом анализ уровня техники и идентификация недостатков представляют собой часть изобретения.

В уровне техники в базовом кодере интегрируется либо только простое заполнение шумом [1], [2], [3], [4], причем базовый кодер представляет собой модуль квантования с сохранением формы сигнала для спектральных линий, либо имеется различение между базовым кодером и расширением полосы пропускания [1], [5], [6], [7-14]. Даже если IGF по [7-14] обеспечивает возможность сохранения спектральных линий в полной полосе пропускания, оно требует спектрального анализатора, работающего перед кодером в спектральной области, и в силу этого невозможно иметь вариант выбора того, какие части спектра следует кодировать параметрически, в зависимости от результата кодера в спектральной области. PNS в [4] принимает решение перед квантованием, только в зависимости от тональности, в отношении того, какие подполосы частот следует обнулять, и использует только случайный шум для замещения подполос частот.

В [15] рассматривается только параметрическое кодирование одиночных тональных компонентов. Перед модулем квантования принимается решение в отношении того, какие спектральные линии следует кодировать параметрически, и только простое определение максимумов используется для решения. Результат модуля квантования не используется для определения того, какие спектральные линии следует кодировать параметрически. Ненулевые псевдокоэффициенты должны кодироваться в спектре, и кодирование ненулевых коэффициентов почти во всех случаях является более дорогим, чем кодирование нулевых коэффициентов. В дополнение к кодированию псевдокоэффициентов, требуется вспомогательная информация, чтобы отличить псевдокоэффициенты от спектральных коэффициентов с сохранением формы сигнала. Таким образом, для формирования сигнала со множеством тональных компонентов должен передаваться большой объем информации. Способ также не предлагает решения по нетональным частям сигнала. Помимо этого, вычислительная сложность для формирования сигналов, содержащих множество тональных компонентов, кодированных параметрически, является очень высокой.

В [16] высокая сложность вычислений снижена по сравнению с [15] за счет использования спектральных структур вместо генератора во временной области. При этом для замены псевдокоэффициентов используются только заданные структуры или их модификации, за счет чего требуется больший объем носителя данных, либо ограничен диапазон возможных тонов, которые могут формироваться. Другие недостатки из [15] остаются в [16].

Заполнение шумом в [1], [2], [3] и аналогичные способы предусматривают замещение спектральных линий, квантованных до нуля, но с очень низким спектральным разрешением, обычно с использованием только одного уровня для полной полосы пропускания.

IGF имеет заданную сегментацию на подполосы частот, и спектральная огибающая передается для полного диапазона IGF, без возможности адаптивно передавать спектральную огибающую только для некоторых подполос частот.

В [5] для выбора смещения, используемого в модуляторе, используются только характеристики автокорреляции спектра абсолютной величины и заданные константы. Для полной полосы пропускания спектра находится только одно смещение.

В [6] для сдвига частоты используется только одна частота модуляции для полной полосы пропускания, и частота модуляции вычисляется только на основе фундаментальной частоты.

В [11] для заполнения целевого диапазона IGF используются только заданные исходные мозаичные ниже начальной частоты IGF, при этом целевой диапазон выше начальной частоты. Выбор мозаичных элементов предписан адаптивным кодированием и в силу этого должен кодироваться в потоке битов. Предложенный подход на основе метода прямого опробования имеет высокую вычислительную сложность.

В IGF исходный мозаичный элемент получается ниже начальной частоты IGF и в силу этого не использует базово кодированные заметные тона с сохранением формы сигнала, расположенные выше начальной частоты IGF. Также отсутствует упоминание относительно использования комбинированного низкочастотного содержимого и базово кодированных заметных тонов с сохранением формы сигнала, расположенных выше начальной частоты IGF, в качестве исходного мозаичного элемента. Это показывает, что IGF представляет собой инструментальное средство, которое является дополнением для базового кодера, а не неотъемлемой частью базового кодера.

Способы, которые используют мертвую зону [17], [18], пытаются оценивать диапазон значений спектральных коэффициентов, которые должны задаваться равными нулю. Поскольку они не используют фактический вывод квантования, они имеют предрасположенность к ошибкам в оценке.

Задача настоящего изобретения состоит в создании концепции для эффективного кодирования, в частности, эффективного параметрического кодирования.

Данная задача решается объектами изобретения по независимым пунктам формулы изобретения.

Вариант осуществления предусматривает кодер для кодирования спектрального представления (X_MR) аудиосигнала, разделенного на множество подполос частот, при этом спектральное представление (X_MR) состоит из частотных элементов разрешения или из частотных коэффициентов, и при этом по меньшей мере одна подполоса частот содержит более одного частотного элемента разрешения. Кодер содержит модуль квантования и параметрический кодер для каждой полосы частот. Модуль квантования выполнен с возможностью формирования квантованного представления (X_Q) спектрального представления (X_MR) аудиосигнала, разделенного на множество подполос частот. Параметрический кодер для каждой полосы частот выполнен с возможностью обеспечения кодированного параметрического представления (zfl) спектрального представления (X_MR) в зависимости (на основе) от квантованного представления (X_Q), например, для каждой полосы частот, при этом кодированное параметрическое представление (zfl) состоит из параметра, описывающего энергию в подполосах частот, либо из кодированной версии параметров, описывающих энергию в подполосах частот; при этом имеются по меньшей мере две подполосы частот, которые отличаются, и в силу этого соответствующие параметры, описывающие энергию по меньшей мере в двух подполосах частот, отличаются. Следует обратить внимание, что по меньшей мере две подполосы частот могут принадлежать множеству подполос частот.

Аспект настоящего изобретения основан на таких выявленных сведениях, что аудиосигнал или спектральное представление аудиосигнала, разделенное на множество подполос частот, может эффективно кодироваться для каждой полосы частот (для каждой полосы частот может означать в расчете на полосу частот/на подполосу частот). Согласно вариантам осуществления, концепция обеспечивает возможность ограничения параметрического кодирования только в подполосах частот, которые квантуются до нуля посредством модуля квантования (используемого для квантования спектра). Эта концепция обеспечивает эффективное объединенное кодирование спектра и параметров для каждой полосы частот таким образом, что высокое спектральное разрешение для параметрического кодирования достигается, но при этом более низкое, чем может достигаться спектральное разрешение спектрального кодера. Результирующий кодер задается как интегральный объект параметрического кодирования для каждой полосы частот в кодере с сохранением формы сигнала. Согласно вариантам осуществления, параметрический кодер для каждой полосы частот вместе со спектральным кодером выполнен с возможностью объединенного получения кодированной версии спектрального представления (X_MR) аудиосигнала. Эта концепция на основе объединенного кодера имеет такое преимущество, что распределение скоростей передачи битов между двумя кодерами может осуществляться объединенно.

Согласно дополнительным вариантам осуществления по меньшей мере одна подполоса частот квантуется до нуля. Например, параметрический кодер определяет то, какие подполосы частот являются нулевыми, и кодирует (просто) представление для подполос частот, которые являются нулевыми. Согласно вариантам осуществления по меньшей мере две подполосы частот могут иметь различные параметры.

Согласно вариантам осуществления, спектральное представление перцепционно сглаживается. Это может осуществляться, например, посредством использования модуля спектрального формирования, который выполнен с возможностью обеспечения перцепционно сглаженного спектрального представления из спектрального представления на основе спектральной формы, полученной из кодированной спектральной формы. Следует обратить внимание, что перцепционно сглаженное спектральное представление разделяется на подполосы частот отличающегося или более высокого частотного разрешения относительно кодированной спектральной формы.

Согласно дополнительным вариантам осуществления, кодер дополнительно может содержать временно-спектральный преобразователь, такой как преобразователь MDCT, выполненный с возможностью преобразования аудиосигнала, имеющего частоту дискретизации, в спектральное представление. Исходя из упомянутых улучшений, параметрический кодер для каждой полосы частот выполнен с возможностью обеспечения параметрического представления перцепционно сглаженного спектрального представления или производной спектрально сглаженного спектрального представления, при этом параметрическое представление может зависеть от оптимального шага квантования и может состоять из параметров, описывающих энергию в подполосах частот, при этом квантованный спектр равен нулю, так что по меньшей мере две подполосы частот имеют различные параметры, либо так что по меньшей мере один параметр ограничивается только одной подполосой частот.

Согласно дополнительным вариантам осуществления, для определения оптимального шага квантования используется спектральное представление. Например, кодер может улучшаться посредством использования так называемого контура оптимизации искажения в зависимости от скорости передачи, выполненного с возможностью определения шага квантования. Это обеспечивает возможность того, что упомянутый контур оптимизации искажения в зависимости от скорости передачи определяет или оценивает оптимальный шаг квантования, используемый выше. Это может осуществляться таким способом, что упомянутый контур выполняет несколько (по меньшей мере два) итеративных этапов, при этом шаг квантования адаптируется в зависимости от одного или более предыдущих шагов квантования.

Чтобы кодировать представление квантованного спектра, кодер дополнительно может содержать спектральный кодер без потерь. Согласно дополнительным вариантам осуществления, кодер содержит спектральный кодер и/или объект принятия решений в отношении спектрального кодера, выполненный с возможностью обеспечения решения в отношении того, удовлетворяет ли объединенное кодирование кодированного представления квантованного спектра и кодированного представления параметрического представления ограничению, состоящему в том, что общее число битов для объединенного кодирования должно быть ниже заданного порогового значения. Это, в частности, имеет смысл, когда как кодированное представление квантованного спектра, так и кодированное представление параметрического спектра основаны на переменном числе битов (факультативном признаке) в зависимости от спектрального представления или в зависимости от производной перцепционно сглаженного спектрального представления и шага квантования. Согласно дополнительным вариантам осуществления, как параметрический кодер для каждой полосы частот, так и спектральный кодер формируют объединенный кодер, который обеспечивает взаимодействие, например, таким образом, чтобы учитывать параметры, используемые для обоих из них, например, переменное число битов или шаг квантования.

Согласно дополнительным вариантам осуществления, кодер дополнительно содержит модуль модификации, выполненный с возможностью адаптивной установки по меньшей мере подполосы частот в шаге квантования равной нулю в зависимости от содержимого подполосы частот в квантованном спектре и/или в спектральном представлении.

Согласно дополнительным вариантам осуществления, параметрический кодер для каждой полосы частот содержит два каскада, при этом первый каскад из двух каскадов параметрического кодера для каждой полосы частот выполнен с возможностью обеспечения отдельных параметрических представлений подполос частот выше частоты, и при этом второй каскад из двух каскадов обеспечивает дополнительное среднее параметрическое представление для подполос частот выше частоты, например, на основе параметрических представлений (отдельных) подполос частот, причем отдельное представление параметров является нулевым, и для подполос частот ниже частоты.

Согласно варианту осуществления, этот кодер может быть реализован способом, а именно способом кодирования аудиосигнала, содержащего следующие этапы:

- формирование квантованного представления X_Q спектрального представления X_MR аудиосигнала, разделенного на множество подполос частот;

- обеспечение кодированного параметрического представления zfl спектрального представления X_MR в зависимости от квантованного представления X_Q, при этом кодированное параметрическое представление zfl состоит из параметров, описывающих спектральное представление X_MR в подполосах частот, или кодированных версий параметров; при этом имеются по меньшей мере две подполосы частот, которые отличаются, и параметры, описывающие спектральное представление X_MR по меньшей мере в двух подполосах частот, которые отличаются.

Здесь, имеются по меньшей мере две подполосы частот, которые отличаются, и в силу этого параметры, описывающие энергию по меньшей мере в двух подполосах частот, отличаются.

Другой вариант осуществления предусматривает декодер. Декодер содержит декодер в спектральной области и параметрический декодер для каждой полосы частот. Декодер в спектральной области выполнен с возможностью формирования декодированного спектра или деквантованного (и декодированного) спектра на основе кодированного аудиосигнала, при этом декодированный спектр разделяется на подполосы частот. При необходимости, декодер в спектральной области использует для декодирования/деквантования информацию относительно шага квантования. Параметрический декодер для каждой полосы частот выполнен с возможностью идентификации нулевых подполос частот в декодированном и/или деквантованном спектре и декодирования параметрического представления нулевых подполос частот на основе кодированного аудиосигнала. Здесь, в этом отношении параметрическое представление содержит параметры, описывающие подполосы частот, например, энергию в подполосах частот, и при этом имеются по меньшей мере две подполосы частот, которые отличаются, и в силу этого параметры, описывающие по меньшей мере две подполосы частот, отличаются; следует обратить внимание, что идентификация может выполняться на основе декодированного и деквантованного спектра или просто спектра, называемого «декодированным спектром», обработанного посредством декодера в спектральной области без этапа деквантования. Дополнительно или в качестве альтернативы, кодированное параметрическое представление кодируется посредством использования переменного числа битов, и/или при этом число битов, используемых для представления кодированного параметрического представления, зависит от спектрального представления аудиосигнала. Другими словами, это означает то, что декодер выполнен с возможностью формирования декодированного вывода из объединенно кодированного спектра и параметров для каждой полосы частот.

Другой вариант осуществления предусматривает другой декодер, имеющий следующие объекты: декодер в спектральной области, параметрический декодер для каждой полосы частот в сочетании с генератором спектра для каждой полосы частот, модуль объединения и спектрально-временной преобразователь. Декодер в спектральной области, параметрический декодер для каждой полосы частот могут задаваться так, как описано выше; в качестве альтернативы, может использоваться другой параметрический декодер, к примеру, из IGF (см. [7-14]). Генератор спектра для каждой полосы частот выполнен с возможностью формирования сформированного спектра для каждой полосы частот в зависимости от параметрического представления нулевых подполос частот. Модуль объединения выполнен с возможностью обеспечения комбинированного спектра для каждой полосы частот, при этом комбинированный спектр для каждой полосы частот содержит сочетание сформированного спектра для каждой полосы частот и декодированного спектра либо сочетание сформированного спектра для каждой полосы частот и сочетание прогнозируемого спектра и декодированного спектра. Спектрально-временной преобразователь выполнен с возможностью преобразования комбинированного спектра для каждой полосы частот либо его производной (например, спектра с восстановленной исходной формой, восстановленного в исходную форму посредством SNS или TNS либо, в качестве альтернативы, восстановленного в исходную форму посредством использования модуля прогнозирования LP) во временное представление.

Параметрический декодер для каждой полосы частот, согласно вариантам осуществления, может быть выполнен с возможностью декодирования параметрического представления (E_B) нулевых подполос частот на основе кодированного аудиосигнала с использованием шага квантования. Согласно дополнительным вариантам осуществления, декодер содержит модуль спектрального формирования, который выполнен с возможностью обеспечения спектра с восстановленной исходной формой из комбинированного спектра для каждой полосы частот или производной комбинированного спектра для каждой полосы частот. Например, модуль спектрального формирования может использовать спектральную форму, полученную из кодированной спектральной формы отличающегося или более низкого частотного разрешения относительно деления на подполосы частот.

Согласно дополнительным вариантам осуществления, параметрическое представление состоит из параметров, описывающих энергию в нулевых подполосах частот, так что по меньшей мере две подполосы частот имеют различные параметры, либо так что по меньшей мере один параметр ограничивается только одной подполосой частот. Следует обратить внимание, что нулевые подполосы частот задаются посредством декодированного и/или деквантованного спектра, выводимого из спектрального декодера.

Согласно другому варианту осуществления, генератор параметрического спектра для каждой полосы частот может быть предусмотрен вместе с вышеуказанным декодером либо независимо. Генератор параметрического спектра выполнен с возможностью формирования сформированного спектра, который суммируется с декодированным и деквантованным спектром или с сочетанием прогнозируемого спектра и декодированного спектра. Следует обратить внимание, что этап суммирования с декодированным и деквантованным спектром, например, выполняется, когда LTP в системе не присутствует. Здесь, сформированный спектр (X_G) может получаться для каждой полосы частот из спектра источника, причем спектр источника представляет собой одно из:

- второго спектра (X_NP) прогнозирования; или

- случайного шумового спектра (X_N); или

- уже сформированных частей сформированного спектра; или

- сочетания одного из вышеуказанного.

Декодер может быть реализован посредством способа. Способ декодирования аудиосигнала содержит:

- формирование декодированного и деквантованного спектра (X_D) из кодированного представления (spect) спектра, при этом декодированный и деквантованный спектр (X_D) разделяется на подполосы частот;

- идентификацию нулевых подполос частот в декодированном и деквантованном спектре (X_D) и декодирование параметрического представления (E_B) нулевых подполос частот на основе кодированного параметрического представления (zfl),

Следует обратить внимание, что параметрическое представление (E_B) содержит параметры, описывающие подполосы частот, и при этом имеются по меньшей мере две подполосы частот, которые отличаются, и в силу этого параметры, описывающие по меньшей мере две подполосы частот, отличаются, и/или при этом кодированное параметрическое представление (zfl) кодируется посредством использования переменного числа битов, и/или при этом число битов, используемых для представления кодированного параметрического представления (zfl), зависит от кодированного представления (spect) спектра.

В качестве альтернативы, способ содержит следующие этапы:

- формирование декодированного и деквантованного спектра (X_D) на основе кодированного аудиосигнала, при этом декодированный и деквантованный спектр (X_D) разделяется на подполосы частот;

- идентификация нулевых подполос частот в декодированном и деквантованном спектре (X_D) и декодирование параметрического представления (E_B) нулевых подполос частот на основе кодированного аудиосигнала;

- формирование сформированного спектра для каждой полосы частот в зависимости от параметрического представления (E_B) нулевых подполос частот;

- обеспечение комбинированного спектра (X_CT) для каждой полосы частот; при этом комбинированный спектр (X_CT) для каждой полосы частот содержит сочетание сформированного спектра для каждой полосы частот и декодированного и деквантованного спектра (X_D) либо сочетание сформированного спектра для каждой полосы частот и сочетание (X_DT) прогнозируемого спектра (X_PS) и декодированного и деквантованного спектра (X_D); и

- преобразование комбинированного спектра (X_CT) для каждой полосы частот или производной комбинированного спектра (X_CT) для каждой полосы частот во временное представление.

Вышеописанный генератор может быть реализован способом формирования сформированного спектра, который суммируется с декодированным и деквантованным спектром или с сочетанием прогнозируемого спектра и декодированного спектра, причем сформированный спектр получается для каждой полосы частот из спектра источника, причем спектр источника представляет собой одно из:

- второго спектра прогнозирования; или

- случайного шумового спектра; или

- уже сформированных частей сформированного спектра; или

- сочетания одного из вышеуказанного.

Следует обратить внимание, что спектр источника может извлекаться из любой из перечисленных возможностей.

Согласно вариантам осуществления, спектр источника взвешивается на основе энергетических параметров нулевых подполос частот. Согласно дополнительным вариантам осуществления, вариант выбора спектра источника для подполосы частот зависит от положения подполосы частот, информации тональности, оценки спектра мощности, энергетических параметров, информации основного тона и/или временной информации. Следует обратить внимание, что информация тональности может представлять собой φ_н, и/или информация основного тона может представлять собой и/или временная информация может представлять собой информацию в отношении того, является ли TNS активным.

Согласно вариантам осуществления, спектр источника взвешивается на основе энергетических параметров нулевых полос частот.

Следует отметить, что все вышеописанные способы могут быть реализованы с использованием компьютерной программы.

Далее поясняются варианты осуществления настоящего изобретения со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1а показывает схематичное представление базовой реализации кодера, имеющего параметрический кодер для каждой полосы частот согласно варианту осуществления;

Фиг. 1b показывают схематичное представление другой реализации кодера, имеющего параметрический кодер для каждой полосы частот согласно варианту осуществления;

Фиг. 1с показывает схематичное представление реализации декодера согласно варианту осуществления;

Фиг. 2а показывает принципиальную блок-схему, иллюстрирующую кодер согласно варианту осуществления и декодер согласно другому варианту осуществления;

Фиг. 2b показывает принципиальную блок-схему, иллюстрирующую выдержку фиг. 2а, содержащую согласно варианту осуществления;

Фиг. 2с показывает принципиальную блок-схему, иллюстрирующую выдержку фиг. 2а, содержащую декодер согласно другому варианту осуществления;

Фиг. 3 показывает принципиальную блок-схему кодера сигналов для остаточного сигнала согласно вариантам осуществления и декодера согласно другому варианту осуществления;

Фиг. 4 показывает принципиальную блок-схему декодера, содержащего принцип заполнения нулями согласно дополнительным вариантам осуществления;

Фиг. 5 показывает принципиальную схему для иллюстрации принципа определения контура основного тона (см. контур основного тона межблочного интервала отсутствия сигнала) согласно вариантам осуществления;

Фиг. 6 показывает принципиальную блок-схему модуля импульсного извлечения с использованием информации относительно контура основного тона согласно дополнительным вариантам осуществления;

Фиг. 7 показывает принципиальную блок-схему модуля импульсного извлечения с использованием контура основного тона в качестве дополнительной информации согласно альтернативному варианту осуществления;

Фиг. 8 показывает принципиальную блок-схему, иллюстрирующую кодер импульсов согласно дополнительным вариантам осуществления;

Фиг. 9а-9b показывают принципиальные схемы для иллюстрации принципа спектрального сглаживания импульса согласно вариантам осуществления;

Фиг. 10 показывает принципиальную блок-схему кодера импульсов согласно дополнительным вариантам осуществления;

Фиг. 11a-11b показывают принципиальную схему, иллюстрирующую принцип определения остаточного сигнала прогнозирования, начинающегося со сглаженного оригинала;

Фиг. 12 показывает принципиальную блок-схему кодера импульсов согласно дополнительным вариантам осуществления;

Фиг. 13 показывает принципиальную схему, иллюстрирующую остаточный сигнал и кодированные импульсы для иллюстрации вариантов осуществления;

Фиг. 14 показывает принципиальную блок-схему декодера импульсов согласно дополнительным вариантам осуществления;

Фиг. 15 показывает принципиальную блок-схему декодера импульсов согласно дополнительным вариантам осуществления;

Фиг. 16 показывает блок-схему, иллюстрирующую принцип оценки оптимального шага квантования (т.е. размера шага) с использованием блока iBPC согласно вариантам осуществления;

Фиг. 17a-17d показывают принципиальные схемы для иллюстрации принципа долговременного прогнозирования согласно вариантам осуществления;

Фиг. 18a-18d показывают принципиальные схемы для иллюстрации принципа гармонической постфильтрации согласно дополнительным вариантам осуществления.

Ниже поясняются варианты осуществления настоящего изобретения с обращением к прилагаемым чертежам, на которых одинаковые ссылочные позиции присвоены объектам, имеющим одинаковые или аналогичные функции, так что их описание является взаимно применимым и взаимозаменяемым.

Фиг. 1а показывает кодер 1000, содержащий модуль 1030 квантования, параметрический кодер 1010 для каждой полосы частот и факультативный спектральный кодер 1020 (без потерь). До пояснения параметрического кодера 1010 для каждой полосы частот, поясняется его окружение. В окружении параметрического кодера 1010, кодер 1000 содержит множество факультативных элементов.

Согласно вариантам осуществления, параметрический кодер 1010 соединяется со спектральным кодером 1020 или спектральным кодером без потерь таким образом, чтобы сформировать объединенный кодер 1010 плюс 1020. Сигнал, который должен обрабатываться объединенным кодером 1010 плюс 1020, обеспечивается модулем 1030 квантования, тогда как модуль 1030 квантования использует в качестве ввода спектральное представление X_MR аудиосигнала, разделенное на множество подполос частот.

Модуль 1030 квантования квантует X_MR для формирования квантованного представления X_Q спектрального представления X_MR аудиосигнала (разделенного на множество подполос частот). При необходимости, модуль квантования может быть выполнен с возможностью обеспечения квантованного спектра перцепционно сглаженного спектрального представления или производной перцепционного сглаженного спектрального представления. Квантование может зависеть от оптимального шага квантования, который согласно дополнительным вариантам осуществления определяется итеративно (см. фиг. 16).

Оба кодера 1010 и 1020 принимают квантованное представление X_Q, т.е. сигнал X_MR, предварительно обработанный посредством модуля 1030 квантования и, при необходимости, модуля модификации (не показан на фиг. 1а, но показан как 156m на фиг. 3). Параметрический кодер 1010 проверяет то, какие подполосы частот в X_Q являются нулевыми, и кодирует представление X_MR для подполос частот, которые являются нулевыми в X_Q. Относительно модуля модификации, следует отметить, что он обеспечивает для объединенного кодера 1010 плюс 1020 квантованный и модифицированный аудиосигнал (как показано на фиг. 3). Например, модуль модификации может задавать различные подполосы частот равными нулю, как пояснено относительно фиг. 16 (на фиг. 16, модуль модификации помечается с помощью 302).

Согласно вариантам осуществления, кодированное параметрическое представление (zfl) использует переменное число битов. Например, число битов, используемых для представления кодированного параметрического представления (zfl), зависит от спектрального представления (X_MR) аудиосигнала.

Согласно вариантам осуществления, кодированное представление (spect) использует переменное число битов, либо число битов, используемых для представления кодированного представления (spect), зависит от спектрального представления (X_MR) аудиосигнала. Следует обратить внимание, что кодированное представление (spect) может получаться посредством спектрального кодера без потерь.

Согласно вариантам осуществления, (сумма) число битов, требуемых для представления кодированного параметрического представления (zfl) и кодированного представления (spect), может быть ниже заданного предела.

Согласно вариантам осуществления, параметры описывают энергию только в подполосах частот, для которых квантованное представление (X_Q) является нулевым (т.е. все частотные элементы разрешения X_Q в подполосах частот равны нулю). Другие параметрические представления нулевых подполос частот могут использоваться. Это может представлять собой спецификацию «в зависимости от квантованного представления (X_Q)».

Согласно вариантам осуществления, параметрический кодер 1010 для каждой полосы частот выполнен с возможностью обеспечения параметрического описания подполос частот, квантованных до нуля. Параметрическое представление может зависеть от оптимального шага квантования (см. размер шага на фиг. 16 и g_Q0 на фиг. 3) и может состоять из параметров, описывающих энергию в подполосах частот, в которых квантованный спектр равен нулю, так что по меньшей мере две подполосы частот имеют различные параметры, либо так что по меньшей мере один параметр ограничивается только одной подполосой частот. Спектральный кодер 1020 без потерь выполнен с возможностью обеспечения кодированного представления (квантованного) спектра. Это объединенное кодирование 1010 плюс 1020 имеет высокую эффективность, в частности, обеспечивает высокое спектральное разрешение параметрического кодирования 1010 и при этом более низкое, чем спектральное разрешение спектрального кодера 1020.

Вышеописанный подход дополнительно обеспечивает возможность ограничения параметрического кодирования только в подполосах частот, которые квантуются до нуля посредством модуля квантования, используемого для квантования спектра. Вследствие использования модуля модификации, дополнительно можно предусмотреть адаптивный способ распределения битов между параметрическим кодером 1010 для каждой полосы частот и спектральным кодером 1020, причем каждый кодер учитывает потребность в битах другого и обеспечивает возможность соответствия пределу скорости передачи битов.

Согласно дополнительным вариантам осуществления, кодер 1000 может содержать такой объект, как модуль разделения (не показан), который выполнен с возможностью разделения спектрального представления аудиосигнала на упомянутые подполосы частот. При необходимости или в качестве дополнения, кодер 1000 может содержать в вышерасположенном тракте модуль преобразования TD-FD (не показан), такой как модуль преобразования MDCT (см. объект 152, MDCT или сравнимый), выполненный с возможностью обеспечения спектрального представления на основе аудиосигнала временной области. Дополнительные факультативные элементы представляют собой формирование временного шума (TNSE см. 154 по фиг. 2а) и объект 155, комбинирующий сигналы XM_S, X_MT и X_PS формирования SNS спектра/формирования TNS_E временного шума.

В выводе аудиосигнала 1010 плюс 1020, может размещаться мультиплексор потоков битов (не показан). Мультиплексор имеет цель комбинировать параметрически кодированный для каждой полосы частот и спектрально кодированный поток битов.

Согласно вариантам осуществления, вывод MDCT 152 представляет собой X_M длины L_M. Для примера, на входной частоте дискретизации в 4 8 кГц и для примерной длины кадра в 20 миллисекунд, L_M равна 960. Кодек может работать на других частотах дискретизации и/или при других длинах кадров. Все другие спектры извлекаются из X_M: X_MS, Х_МТ, X_MR, X_Q, X_D, X_DT, X_CT, X_CS, X_C, X_P, X_PS, X_N, X_NP, X_S также могут иметь равную длину L_M, хотя в некоторых случаях может требоваться и использоваться только часть спектра. Спектр состоит из спектральных коэффициентов, также известных как спектральные элементы разрешения или частотные элементы разрешения. В случае спектра MDCT, спектральные коэффициенты могут иметь положительные и отрицательные значения. Можно сказать, что каждый спектральный коэффициент покрывает полосу пропускания. В случае частоты дискретизации в 48 кГц и длины кадра в 20 миллисекунд, спектральный коэффициент покрывает полосу пропускания в 25 Гц. Спектральные коэффициенты, например, могут индексироваться от 0 до L_M-1.

Коэффициенты масштабирования SNS, используемые в SNS_E и SNS_D (см. фиг. 2а), могут получаться из энергий в N_SB=64 подполосах частот (иногда также называемых «полосами частот»), имеющих увеличивающиеся полосы пропускания, причем энергии получаются из спектра, разделенного на подполосы частот. Согласно примеру, границы подполос частот, выраженные в Гц, могут задаваться равными 0, 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 550, 600, 700, 800, 900, 1000, 1100, 1200, 1300, 1400, 1500, 1600, 1700, 1800, 1900, 2050, 2200, 2350, 2500, 2650, 2800, 2950, 3100, 3300, 3500, 3700, 3900, 4100, 4350, 4600, 4850, 5100, 5400, 5700, 6000, 6300, 6650, 7000, 7350, 7750, 8150, 8600, 9100, 9650, 10250, 10850, 11500, 12150, 12800, 13450, 14150, 15000, 16000, 24000. Подполосы частот могут индексироваться от 0 до N_SB-1. В этом примере, нулевая подполоса частот (от 0 до 50 Гц) содержит 2 спектральных коэффициента, так же, как и подполосы 1-11 частот, подполоса 62 частот содержит 40 спектральных коэффициентов, и подполоса 63 частот содержит 320 коэффициентов. Энергии в N_SB=64 подполосах частот могут понижающе дискретизироваться до 16 значений, которые кодируются, причем кодированные значения обозначаются как "sns" (см. фиг. 2а, фиг. 2b, фиг. 2с). 16 декодированных значений, полученных из "sns", интерполируются в коэффициенты масштабирования SNS, причем, например, может быть предусмотрено 32, 64 или 128 коэффициентов масштабирования. Для получения дополнительных сведений относительно получения SNS, читателям следует обратиться к [21-25].

В блоках iBPC, «декодирования zfl» и/или «заполнения нулями» спектры могут разделяться на подполосы B_i частот варьирующейся длины L_Bi, причем подполоса частот начинается в j_Bi. Могут использоваться 64 границы подполос частот, одинаковые с границами, используемыми для энергий для получения коэффициентов масштабирования SNS, но также может использоваться любое другое число подполос частот и любые другие границы подполос частот (независимо от SNS). Необходимо отметить, что может использоваться тот же принцип деления на подполосы частот, что и принцип деления на подполосы частот в SNS, но деление на подполосы частот в блоках iBPC, «декодирования zfl» и/или «заполнения нулями» является независимым от SNS и от блоков SNS_E и SNS_D. В вышеуказанном примере деления на подполосы частот, и и и и

В другом примере, iBPC может использоваться в кодеке, в котором SNS_E заменяется аналитическим фильтром LP во вводе частотно-временного преобразователя (например, во вводе 152), и в котором SNS_D заменяется синтезирующим фильтром LP в выводе частотно-временного преобразователя (например, в выводе 161).

Согласно дополнительным вариантам осуществления, параметрический кодер 1010 для каждой полосы частот интегрируется в контур оптимизации искажения в зависимости от скорости передачи (см. фиг. 16) благодаря эффективной модификации квантованного спектра, как проиллюстрировано посредством фиг. 1b.

Фиг. 1b показывает часть контура 1001 оптимизации искажения в зависимости от скорости передачи. Часть контура 1001 оптимизации искажения в зависимости от скорости передачи содержит модуль 1030 квантования, объединенный параметрический для каждой полосы частот и спектральный кодер 1010-1020, счетчик 1050 битов и повторный кодер 1055. Повторный кодер 1055 выполнен с возможностью перекодирования спектра и параметров для каждой полосы частот (как показано, например, подробно посредством фиг. 16). Например, счетчик 1050 битов может оценивать/вычислять/повторно вычислять биты, необходимые для кодирования спектральных линий для достижения эффективного способа сохранения битов, необходимых для кодирования. Другими словами, вместо фактического кодирования, может выполняться оценка максимального числа битов, необходимых для кодирования. Это помогает выполнять эффективное кодирование, имеющее ограниченный битовый бюджет. Следует обратить внимание, что фиг. 1b показывает часть по фиг. 16: Здесь, 1030 является сравнимым с 301, 1010+1020 является сравнимым с 303, 1050 представляет собой 304, 1055 является сравнимым с «повторным кодером». Таким образом, согласно вариантам осуществления, контур оптимизации искажения в зависимости от скорости передачи содержит счетчик 1050 битов, выполненный с возможностью оценки или вычисления битов, используемых для кодирования, и/или повторный кодер 1055, выполненный с возможностью перекодирования параметров, описывающих спектральное представление (X_MR), например, параметров спектра и параметры для каждой полосы частот.

Следует обратить внимание, что хотя на фиг 1а и 1b используются одинаковые блоки, что указывает, что блок имеет одинаковую функциональность, следует отметить, что объект по фиг. 1a (часть по фиг. 3) отличается от объекта по фиг. 1b (часть по фиг. 16).

Относительно фиг. 1с, в дальнейшем поясняется декодер 1200. Фиг. 1 с показывает декодер для декодирования аудиосигнала. Он содержит декодер 1230 в спектральной области, параметрический декодер 1210 для каждой полосы частот, размещаемый в тракте обработки с генератором 1220 спектра для каждой полосы частот, при этом параметрический декодер 1210 для каждой полосы частот использует вывод спектрального декодера 1230. Оба декодера имеют вывод в модуль 1240 объединения, при этом спектрально-временной преобразователь 1250 размещается в выводе модуля 1240 объединения.

Декодер 1230 в спектральной области (который может содержать модуль деквантования в сочетании с декодером) выполнен с возможностью формирования деквантованного спектра (X_D) в зависимости от шага квантования, при этом деквантованный спектр разделяется на подполосы частот. Параметрический декодер 1210 для каждой полосы частот идентифицирует нулевые подполосы частот, т.е. подполосы частот, состоящие только из нулей, в деквантованном спектре, и декодирует энергетические параметры нулевых подполос частот, при этом нулевые подполосы частот задаются посредством деквантованного спектра, выводимого из спектрального декодера. Для этого может использоваться информация, например, относительно квантованного представления (X_Q), извлеченная из вывода спектрального декодера 1230, поскольку то, какие подполосы частот имеют параметрическое представление, зависит от декодированного спектра, полученного из spect. Следует обратить внимание, что вывод 1230, используемый в качестве ввода для 1220, может иметь информацию относительно декодированного спектра либо его производной, такую как информация относительно деквантованного спектра, поскольку как декодированный спектр, так и деквантованный спектр могут иметь одинаковые нулевые подполосы частот. Декодированный спектр, полученный из spect, может содержать одинаковую информацию с вводом в 1010+1020 на фиг. 1а. Шаг q_Q0 квантования может использоваться для получения деквантованного спектра (X_D) из декодированного спектра. Местоположение нулевых подполос частот в декодированном спектре и/или в деквантованном спектре X_D может определяться независимо от шага q_Q0 квантования.

Исходя из этого, генератор 1220 спектра для каждой полосы частот обеспечивает сформированный спектр X_G для каждой полосы частот в зависимости от параметрического представления нулевых подполос частот. Модуль 1240 объединения обеспечивает комбинированный спектр X_CT для каждой полосы частот. Например, для комбинированного спектра X_CT возможны следующие сочетания:

- сформированный спектр X_G для каждой полосы частот и декодированный спектр X_D; или

- сформированный спектр X_G для каждой полосы частот и сочетание прогнозируемого спектра и декодированного спектра X_DT.

Другими словами, взаимодействие объектов 1220, 1230 с объектом 1240 может описываться следующим образом: Генератор 1220 параметрического спектра для каждой полосы частот обеспечивает сформированный спектр X_G, который суммируется с декодированным спектром или с сочетанием прогнозируемого спектра и декодированного спектра посредством объекта 1240. Сформированный спектр X_G получается для каждой полосы частот из спектра источника, при этом спектр источника представляет собой второй спектр X_NP прогнозирования или случайный шумовой спектр X_N, или уже сформированные части сформированного спектра, или сочетание означенного. Следует обратить внимание, что X_CT может содержать X_G. Для формирования X_G могут использоваться уже сформированные части X_CT. Спектр источника может взвешиваться на основе энергетических параметров нулевых подполос частот. Вариант выбора спектра источника для подполосы частот может быть основан на положении полосы частот, тональности, оценке спектра мощности, энергетических параметрах, параметре основного тона и временной информации. Этот способ получает вариант выбора подполос частот, которые параметрически кодируются на основе декодированного спектра, за счет этого исключая дополнительную вспомогательную информацию в потоке битов. Согласно другому варианту в этом адаптивном способе для каждой подполосы частот принимается решение в отношении того, какой спектр источника, который следует использовать для замены нулей в подполосе частот, обеспечивается в декодере 1200, таким образом исключая дополнительную вспомогательную информацию в потоке битов и обеспечивая возможность большого числа возможностей для варианта выбора спектра источника.

Вывод модуля 1240 объединения дополнительно может при необходимости обрабатываться посредством TNS или SNS_D (не показан) для получения так называемого спектра с восстановленной исходной формой. На основе вывода модуля 1240 объединения либо на основе этого спектра с восстановленной исходной формой, при необходимости спектрально-временной преобразователь 1250 выводит временное представление. Согласно дополнительным вариантам осуществления, декодер 1200 может содержать модуль спектрального формирования для обеспечения спектра с восстановленной исходной формой из комбинированного спектра для каждой полосы частот либо из производной комбинированного спектра для каждой полосы частот.

Согласно дополнительным вариантам осуществления, кодер может содержать объект принятия решений в отношении спектрального кодера для обеспечения решения в отношении того, удовлетворяет ли объединенное кодирование кодированного представления квантованного спектра и кодированного представления параметрического представления нулевых подполос частот ограничению, состоящему в том, что общее число битов объединенного кодирования должно быть ниже заданного предела. Здесь, как кодированное представление квантованного спектра, так и кодированное представление параметрических нулевых подполос частот могут использовать переменное число битов в зависимости от перцепционно сглаженного спектрального представления или производной перцепционно сглаженного спектрального представления и/или шага квантования.

Как пояснено выше, генератор параметрического спектра для каждой полосы частот и модуль 1240 объединения могут быть реализованы следующим образом. Генератор параметрического спектра для каждой полосы частот обеспечивает сформированный спектр для каждой полосы частот и суммирует его с декодированным спектром или с сочетанием прогнозируемого спектра и декодированного спектра. Сформированный спектр получается для каждой полосы частот из спектра источника, при этом спектр источника представляет собой второй спектр прогнозирования или случайный шумовой спектр уже сформированных частей сформированного спектра, или их сочетание. Спектр источника может взвешиваться на основе энергетических параметров нулевых полос частот. Использование уже сформированных частей сформированного спектра обеспечивает сочетание любых двух отличающихся частей декодированного спектра и в силу этого гармонического или тонального спектра источника, недоступного посредством использования только одной части декодированного спектра. Сочетание второго спектра прогнозирования и спектра источника представляет собой другое преимущество для создания гармонического или тонального спектра источника, недоступного посредством использования только декодированного спектра.

Фиг. 2а показывает кодер 101 в сочетании с декодером 201.

Основные объекты кодера 101 помечаются посредством ссылок с номерами 110, 130, 150. Объект 110 выполняет импульсное извлечение, при котором импульсы р кодируются с использованием объекта 132 для импульсного кодирования.

Кодер 150 сигналов реализуется посредством множества объектов 152, 153, 154, 155, 156, 157, 158, 159, 160 и 161. Эти объекты 152-161 формируют основной тракт кодера 150, в котором, параллельно, могут размещаться дополнительные объекты 162, 163, 164, 165 и 166. Объект 162 (zfl-декодер) соединяет информативно объекты 156 (iBPC) с объектом 158 для заполнения нулями. Объект 165 (получение TNS) соединяет информативно объект 153 (SNS_E) с объектом 154, 158 и 159. Объект 166 (получение SNS) соединяет информативно объект 152 с объектами 153, 163 и 160. Объект 158 выполняет заполнение нулями и может содержать модуль 158с объединения, который поясняется в контексте фиг. 4. Следует обратить внимание, что может быть предусмотрена реализация, в которой объекты 153 и 160 не существуют, например, система с аналитической фильтрацией LP ввода MDCT и синтезирующей фильтрацией LP вывода MDCT. Таким образом, эти объекты 153 и 160 являются факультативными.

Объекты 163 и 164 принимают контур основного тона из объекта 180 и кодированный остаток y_C таким образом, чтобы сформировать прогнозируемый спектр Х_Р и/или перцепционно сглаженное прогнозирование X_PS. Ниже описаны функциональность и взаимодействие различных объектов.

До пояснения функциональности кодера 101 и, в частности, кодера 150, приводится краткое описание декодера 210. Декодер 210 может содержать объекты 157, 162, 163, 164, 158, 159, 160, 161, а также относящиеся к кодеру объекты 214 (HPF), 23 (модуль объединения сигналов) и 22 (для декодирования и реконструкции импульсной части, состоящей из реконструированных форм импульсного сигнала).

Ниже поясняется функциональность кодирования: Импульсное извлечение 110 получает STFT входного аудиосигнала PCM_i и использует спектрограмму нелинейной абсолютной величины и спектрограмму фазы STFT для нахождения и извлечения импульсов, причем каждый импульс имеет форму сигнала с характеристиками верхних частот. Остаточный импульсный сигнал y_M получается посредством удаления импульсов из входного аудиосигнала. Импульсы кодируются посредством импульсного кодирования 132, и кодированные импульсы CP передаются в декодер 201.

Остаточный импульсный сигнал y_M подвергается оконному взвешиванию и преобразуется через MDCT 152, чтобы формировать X_M длины L_M. Окна взвешивания выбираются из 3 окон взвешивания, как указано в [19]. В нижеприведенном примере самое длинное окно взвешивания имеет длину в 30 миллисекунд с перекрытием в 10 миллисекунд, но могут использоваться любое другое окно взвешивания и длина перекрытия. Спектральная огибающая X_M перцепционно сглаживается через SNS_E 153, получая X_MS. При необходимости, формирование 154 временного шума (TNS_E) применяется, чтобы сглаживать временную огибающую по меньшей мере в части спектра, формируя X_MT. По меньшей мере, один флаг φ_H тональности в части спектра (в X_M или X_MS, или X_MT) может оцениваться и передаваться в декодер 201/210. При необходимости, долговременное прогнозирование 164 (LTP), которое выполняется после контура 180 основного тона, используется для конструирования прогнозируемого спектра Х_Р из предыдущих декодированных выборок, и перцепционно сглаженное прогнозирование X_PS вычитается в области MDCT из X_MT, формируя остаток LTP X_MR. Контур 180 основного тона получается для кадров с высокой средней гармоничностью и передается в декодер 201/210. Контур 180 основного тона и гармоничность используются для направления множества частей кодека. Для каждого кадра может вычисляться средняя гармоничность.

Фиг. 2b показывает выдержку фиг. 2а с акцентированием внимания на кодере 101', содержащем объекты 180, 110, 152, 153, 153, 155, 156', 165, 166 и 132. Следует обратить внимание, что 156 на фиг. 2а является видом сочетания 156' на фиг. 2b и 156'' на фиг. 2с. Следует обратить внимание, что объект 163 (на фиг. 2а, 2с) может быть одинаковым или сравнимым с 153 и является инверсией 160.

Согласно вариантам осуществления, кодер разбивает входной сигнал на кадры и выводит, например, для каждого кадра по меньшей мере один или более следующих параметров:

- контур основного тона,

- вариант выбора окна взвешивания MDCT, 2 бита,

- параметры LTP,

- кодированные импульсы,

- sns, который представляет собой кодированную информацию для формирования спектра через SNS,

- tns, который представляет собой кодированную информацию для временного формирования через TNS,

- глобальное усиление g_Q0, которое представляет собой глобальный размер шага квантования для кодека MDCT,

- spect, состоящий из энтропийно кодированного квантованного спектра MDCT,

- zfl, состоящий из параметрически кодированных нулевых частей квантованного.

X_PS исходит из LTP, которое также используется в кодере, но LTP показывается только в декодере (см. фиг. 2а и 2с).

Фиг. 2с показывает выдержку фиг. 2а с акцентированием внимания на кодере 201', содержащем объекты 156'', 162, 163, 164, 158, 159, 160, 161, 214, 23 и 22, которые пояснены в контексте фиг. 2а касательно LTP 164. По существу, LTP составляет часть декодера (за исключением HPF, «конструирования формы сигнала» и их выводов), которая также может использоваться/требоваться в кодере (в качестве части внутреннего декодера). В реализациях без LTP, внутренний декодер не нужен в кодере.

Кодирование X_MR (остатка из LTP), выводимого посредством объекта 155, выполняется в интегральном кодере параметров для каждой полосы частот (iBPC), как пояснено относительно фиг. 3.

Фиг. 3 показывает объект 156 iBPC, который может иметь подобъекты 156q, 156m, 156рс, 156sc и 156mu. Следует обратить внимание, что фиг. 1а показывает часть по фиг. 3: Здесь, 1030 является сравнимым с 156q, 1010 является сравнимым с 156рс, 1020 является сравнимым с 156sc.

В выводе мультиплексора 156mu потоков битов, параметрический декодер 162 для каждой полосы частот размещается вместе со спектральным декодером 156sd. Объект 162 принимает сигнал zfl, а объект 156sd - сигнал spect, причем оба из них могут принимать глобальное усиление/размер g_Q0 шага. Следует обратить внимание, что параметрический декодер 162 использует вывод X_D спектрального декодера 156sd для декодирования zfl. Он альтернативно может использовать другой сигнал, выводимый из декодера 156sd. Исходная информация для указанного заключается в том, что спектральный декодер 156sd может содержать две части, а именно, спектральный декодер без потерь и модуль деквантования. Например, вывод спектрального декодера без потерь может представлять собой декодированный спектр, полученный из spect и используемый в качестве ввода для параметрического декодера 162. Вывод спектрального декодера без потерь может содержать одинаковую информацию с вводом X_Q 156рс и 156sc. Модуль деквантования может использовать глобальное усиление/размер шага для извлечения X_D из вывода спектрального декодера без потерь. Местоположение нулевых подполос частот в декодированном спектре и/или в деквантованном спектре X_D может определяться независимо от шага q_Q0 квантования.

X_MR квантуется и кодируется, что включает в себя квантование и кодирование энергии для нулевых значений в (части) квантованном спектре X_Q, при этом X_Q является квантованной версией X_MR. Квантование и кодирование X_MR выполняется в интегральном параметрическом кодере 156 для каждой полосы частот (iBPC). В качестве одной из частей iBPC, квантование (модуль 156q квантования) вместе с адаптивным обнулением 156m полос частот формирует, на основе оптимального размера g_Q0 шага квантования, квантованный спектр X_Q. iBPC 156 формирует кодированную информацию, состоящую из spect 156sc (который представляет X_Q) и zfl 162 (который может представлять энергию для нулевых значений в части X_Q).

Объект 158 заполнения нулями, размещаемый в выводе объекта 157, проиллюстрирован посредством фиг. 4.

Фиг. 4 показывает объект 158 заполнения нулями, принимающий сигнал E_B из объекта 162 и сочетание (X_DT) прогнозируемого спектра (X_PS) и декодированного и деквантованного спектра (X_D) из объекта 156sd при необходимости через элемент 157. Объект 158 заполнения нулями может содержать два подобъекта 158sc и 158sg, а также модуль 158с объединения.

Spect декодируется для получения деквантованного спектра X_D (декодированного остатка LTP, спектра ошибки), эквивалентного квантованной версии X_MR. E_B получается из zfl с учетом местоположения нулевых значений в X_D. E_B может представлять собой сглаженную версию энергии для нулевых значений в X_Q. E_B может иметь разрешение, отличное от разрешения zfl, предпочтительно более высокое разрешение, исходящее из сглаживания. После получения E_B (см. 162), перцепционно сглаженное прогнозирование X_PS при необходимости суммируется с декодированным X_D, формируя X_DT. Заполнение X_S нулями получается и комбинируется с X_DT (например, с использованием суммирования 158с) в «заполнении нулями», причем заполнение X_G нулями состоит из заполнения X_SBi нулями для каждой полосы частот, которое итеративно получается из спектра X_S источника, состоящего из спектра X_GBi источника для каждой полосы частот (см. 156sc), взвешенного на основе E_B. X_CT представляет собой сочетание для каждой полосы частот заполнения X_G нулями и спектра X_DT (158с). X_S конструируется для каждой полосы частот (158sg выводит X_G), и X_CT получается для каждой полосы частот, начиная с наименьшей подполосы частот. Для каждой подполосы частот, спектр источника выбирается (см. 158sc), например, в зависимости от положения подполосы частот, флага (toi) тональности, спектра мощности, оцененного из X_DT, E_B, информации основного тона (pii) и временной информации (tei). Следует обратить внимание, что спектр мощности, оцененный из X_DT, может извлекаться из X_DT или X_D. В качестве альтернативы, вариант выбора спектра источника может получаться из потока битов. Наименьшие подполосы X_SBi частот в X_S вплоть до начальной частоты могут задаваться равными 0, что означает то, что в наименьших подполосах частот, X_CT может представлять собой копию X_DT; может быть равна 0, что означает то, что спектр источника, отличающийся от нулей, может выбираться даже с начала спектра. Спектр источника для подполосы i частот, например, может представлять собой случайный шум или прогнозируемый спектр либо сочетание уже полученной нижней части X_CT, случайного шума и прогнозируемого спектра. Спектр X_S источника взвешивается на основе E_B, чтобы получить заполнение X_SBi нулями.

Взвешивание может выполняться, например, объектом 158sg и может иметь более высокое разрешение относительно деления на подполосы частот; оно может определяться даже на основе выборок, чтобы получать сглаженное взвешивание. X_SBi суммируется с подполосой i частот X_DT для формирования подполосы i частот X_CT. После получения полного X_CT, его временная огибающая при необходимости модифицируется через TNS_D 159 (см. фиг. 2а) таким образом, что она совпадает с временной огибающей X_MS, формируя X_CS. Спектральная огибающая X_CS затем модифицируется с использованием SNS_D 160 таким образом, что она совпадает со спектральной огибающей X_M, формируя X_C. Сигнал y_C временной области получается из X_C в качестве вывода IMDCT 161, при этом IMDCT 161 состоит из обратного MDCT, оконного взвешивания и суммирования с перекрытием; y_C используется для обновления буфера 164 LTP (сравнимого либо с буфером 164 на фиг. 2а и 2с, либо с сочетанием 164+163) для следующего кадра. Гармонический постфильтр (HPF), который выполняется после контура основного тона, применяется к y_C, чтобы уменьшать уровень шума между гармониками и выводить y_H. Кодированные импульсы, состоящие из кодированных форм импульсного сигнала, декодируются, и сигнал y_P временной области конструируется из декодированных форм импульсного сигнала; y_P комбинируется с y_H, чтобы формировать декодированный аудиосигнал (PCM_O). В качестве альтернативы, y_P может комбинироваться с y_C, и их сочетание может использоваться в качестве ввода в HPF, причем в этом случае вывод HPF 214 представляет собой декодированный аудиосигнал.

Объект 180 «получение контура основного тона» описан ниже с обращением к фиг. 5.

Ниже поясняется процесс в блоке 180 «получение контура основного тона». Входной сигнал дискретизируется с понижением от полной частоты дискретизации до более низкой частоты дискретизации, например, в 8 кГц. Контур основного тона определяется посредством pitch_mid и pitch_end из текущего кадра и посредством pitch_start, который равен pitch_end из предыдущего кадра. Кадры примерно иллюстрируются посредством фиг. 5. Все значения, используемые в контуре основного тона, могут сохраняться в качестве запаздываний основного тона с дробной точностью. Значения запаздывания основного тона составляют между минимальным запаздыванием основного тона миллисекунды (соответствующим 444,4 Гц) и максимальным запаздыванием основного тона миллисекунд (соответствующим 51,3 Гц), при этом диапазон от d_Fmin до d_Fmax называется «полным диапазоном основного тона». Также может использоваться другой диапазон значений. Значения pitch_mid и pitch_end находятся посредством множества этапов. На каждом этапе, поиск основного тона выполняется в зоне дискретизированного с понижением сигнала либо в зоне входного сигнала.

Поиск основного тона вычисляет нормализованную автокорреляцию своего ввода и задержанной версии ввода. Запаздывания d_F составляют между началом d_Fstart поиска основного тона и концом d_Fend поиска основного тона. Начало d_Fstart поиска основного тона, конец d_Fend поиска основного тона, длина автокорреляции и предыдущий возможный вариант d_Fpast основного тона представляют собой параметры поиска основного тона. Поиск основного тона возвращает оптимальный основной тон d_Foptim, в качестве запаздывания основного тона с дробной точностью и уровнем гармоничности, полученным из значения автокорреляции при оптимальном запаздывании основного тона. Диапазон составляет между 0 и 1, при этом 0 означает отсутствие гармоничности, а 1 означает максимальную гармоничность.

Местоположение абсолютного максимума в нормализованной автокорреляции представляет собой первый возможный вариант d_F1 для оптимального запаздывания основного тона. Если d_Fpast находится рядом с d_F1, то второй возможный вариант d_F2 для оптимального запаздывания основного тона составляет d_Fpast, в противном случае местоположение локального максимума рядом с d_Fpast представляет собой второй возможный вариант d_F2. Поиск локального максимума не выполняется, если d_Fpast находится рядом с d_F1, поскольку в таком случае d_F1 должен выбираться снова для d_F2. Если разность нормализованной автокорреляции в d_F1 и d_F2 составляет выше порогового значения τ_dF возможного варианта основного тона, то d_Foptim задается равным d_F1 в противном случае d_Foptim задается равным d_F2; τ_dF адаптивно выбирается в зависимости от d_F1, d_F2 и d_Fpast, например, τ_dF=0,01, если в противном случае τ_dF=0,02, если d_F1≤d_F2, и τ_dF=0,03, если d_F1>d_F2 (для небольшого изменения основного тона проще переключаться на новое местоположение максимума, и если изменение является большим, то проще переключаться на меньшее запаздывание основного тона, чем на большее запаздывание основного тона).

Местоположения зон для поиска основного тона относительно кадрирования и оконного взвешивания показаны на фиг. 5. Для каждой зоны, поиск основного тона выполняется с длиной автокорреляции, заданной равной длине зоны. Во-первых, запаздывание start_pitch_ds основного тона и ассоциированная гармоничность start_norm_corr_ds вычисляются на более низкой частоте дискретизации с использованием d_Fpast=pitch_start, d_Fstart=d_Fpmin и d_Fend=d_Fmax при выполнении поиска основного тона. После этого запаздывание avg pitch ds основного тона и ассоциированная гармоничность avg_norm_corr_ds вычисляются на более низкой частоте дискретизации с использованием d_Fpast=start_pitch_ds, d_Fstart=d_Fpmin и d_Fend=d_Fmax при выполнении поиска основного тона. Средняя гармоничность в текущем кадре задается равной max(start_norm_corr_ds, avg_norm_corr_ds). Запаздывания mid_pitch_ds и end_pitch_ds основного тона и ассоциированные гармоничности mid_norm_corr_ds и end_norm_corr_ds вычисляются на более низкой частоте дискретизации с использованием d_Fpast=avg_pitch_ds, d_Fstart=0,3avg_pitch_ds и d_Fend=0,7avg_pitch_ds при выполнении поиска основного тона. Запаздывания pitch_mid и pitch_end основного тона и ассоциированные гармоничности norm_corr_mid и norm_corr_end вычисляются на полной частоте дискретизации с использованием d_Fpast=pitch_ds, d_Fstart=pitch_ds-Δ_Fdown и d_Fend=pitch_ds+Δ_Fdown при выполнении поиска основного тона, при этом Δ_Fdown является отношением полной и более низкой частоты дискретизации, и pitch_ds=mid_pitch_ds для pitch_mid и pitch_ds=end_pitch_ds для pitch_end.

Если средняя гармоничность ниже 0,3, либо если norm_corr_end ниже 0,3, либо если norm_corr_mid ниже 0,6, то передается в служебных сигналах в потоке битов с помощью одного бита то, что в текущем кадре отсутствует контур основного тона. Если средняя гармоничность выше 0,3, контур основного тона кодируется с использованием абсолютного кодирования для pitch_end и дифференциального кодирования для pitch_mid. Pitch_mid кодируется дифференцированно в (pitch_start+pitch_end)/2 с использованием 3 битов, посредством использования кода для разности в (pitch_start+pitch_end)/2 из числа 8 заданных значений, который минимизирует автокорреляцию в зоне pitch_mid. Если имеется конец гармоничности в кадре, например, norm_corr_end<norm_corr_mid/2, то линейная экстраполяция из pitch_start и pitch_mid используется для pitch_end таким образом, что pitch_mid может кодироваться (например, norm_corr_mid>0,6 и norm_corr_end<0,3).

Если |pitch_mid-pitch_start| и |norm_corr_mid-norm_corr_start|≤0,5, и ожидаемые усиления HPF в зоне pitch_start и pitch_mid составляют близко к 1 и сильно не изменяются, то передается в служебных сигналах в потоке битов то, что HPF должен использовать постоянные параметры.

Согласно вариантам осуществления, контур основного тона обеспечивает d_contour, значение d_contour [i] запаздывания основного тона в каждой выборке i в текущем окне взвешивания и по меньшей мере в d_Fmax предыдущих выборок. Запаздывания основного тона контура основного тона получаются посредством линейной интерполяции pitch_mid и pitch_end из текущего, предыдущего и второго предыдущего кадра.

Среднее запаздывание основного тона вычисляется для каждого кадра в качестве среднего pitch_start, pitch_mid и pitch_end.

Коррекция запаздывания в половину основного тона также является возможной согласно дополнительным вариантам осуществления.

Буфер 164 LTP, который доступен как в кодере, так и в декодере, используется для проверки того, является ли запаздывание основного тона входного сигнала меньшим, чем d_Fmin. Обнаружение того, является ли запаздывание основного тона входного сигнала меньшим, чем d_Fmin, называется «обнаружением запаздывания в половину основного тона», и если упомянутое обнаружено, считается, что «обнаружено запаздывание в половину основного тона». Кодированные значения (pitch_mid, pitch_end) запаздывания основного тона кодируются и передаются в диапазоне от d_Fmin до d_Fmax. Из этих кодированных параметров, контур основного тона извлекается так, как задано выше. Если запаздывание в половину основного тона обнаруживается, предполагается, что кодированные значения запаздывания основного тона должны иметь значение, близкое к целому кратному истинных значений запаздывания основного тона (эквивалентно, основной тон входного сигнала составляет около целого кратного кодированно по основного тона). Чтобы расширять диапазон запаздывания основного тона за пределы кодируемого диапазона, скорректированные значения (pitch_mid_corrected, pitch_end_corrected) запаздывания основного тона используются. Скорректированные значения (pitch_mid_corrected, pitch_end_corrected) запаздывания основного тона могут быть равными кодированным значениям (pitch_mid, pitch_end) запаздывания основного тона, если истинные значения запаздывания основного тона находятся в кодируемом диапазоне. Следует обратить внимание, что скорректированные значения запаздывания основного тона могут использоваться для получения скорректированного контура основного тона, аналогично тому, как контур основного тона извлекается из значений запаздывания основного тона. Другими словами, это позволяет расширять частотный диапазон контура основного тона за пределами частотного диапазона для кодированных параметров основного тона, формируя скорректированный контур основного тона.

Обнаружение половины основного тона выполняется только в том случае, если основной тон считается постоянным в текущем окне взвешивания, и Основной тон считается постоянным в текущем окне взвешивания, если max(|pitch_mid-pitch_start|, |pitch_mid-pitch_end|)< При обнаружении половины основного тона, для каждого поиск основного тона выполняется с использованием и задается равным который максимизирует нормализованную корреляцию, возвращаемую посредством поиска основного тона. Считается, что половина основного тона обнаруживается, если и нормализованная корреляция, возвращаемая посредством поиска основного тона для выше 0,8 и на 0,02 выше нормализованной корреляции, возвращаемой посредством поиска основного тона для

Если запаздывание в половину основного тона обнаруживается, то pitch_mid_corrected и pitch_end_corrected принимают значение, возвращаемое посредством поиска основного тона для в противном случае pitch_mid_corrected и pitch_end_corrected задаются равными pitch_mid и pitch_end, соответственно.

Среднее скорректированное запаздывание основного тона вычисляется как среднее pitch_start, pitch_mid_corrected и pitch_end_corrected после коррекции конечный октавных перескоков. Коррекция октавных перескоков находит минимум из pitch_start, pitch_mid_corrected и pitch_end_corrected, и для каждого основного тона из pitch_start, pitch_mid_corrected и pitch_end_corrected находит основной тон/ ближайший к минимуму (для Основной тон/ затем используется вместо исходного значения при вычислении среднего.

Ниже импульсное извлечение поясняется в контексте фиг. 6. Фиг. 6 показывает модуль 110 импульсного извлечения, имеющий объекты 111hp, 112, 113с, 113р, 114 и 114m. Первый объект во вводе представляет собой используемый при необходимости фильтр верхних частот 111hp, который выводит сигнал в модуль 112 импульсного извлечения (извлекает импульсы и статистику).

На выходе размещены два объекта 113с и 113р, которые взаимодействуют между собой и принимают в качестве ввода контур основного тона из объекта 180. Объект для 113с выбора импульсов выводит импульсы р непосредственно в другой объект 114, формирующий форму сигнала. Она представляет собой форму сигнала импульса и может вычитаться с использованием микшера 114m из сигнала РСМ таким образом, чтобы формировать остаточный сигнал R (остаток после извлечения импульсов).

В расчете на кадр извлекаются и кодируются до 8 импульсов. В другом примере может использоваться другое максимальное число импульсов. импульсов из предыдущий кадров сохраняются и используются при извлечении и прогнозирующем кодировании . В другом примере для может использоваться другой предел. «Получение 180 контура основного тона» обеспечивает в качестве альтернативы, может использоваться Предполагается, что равен нулю для кадров с низкой гармоничностью.

Частотно-временной анализ через кратковременное преобразование Фурье (STFT) используется для нахождения и извлечения импульсов (см. объект 112). В другом примере, могут использоваться другие частотно-временные представления. Сигнал PCM_i может фильтроваться по верхним частотам (111hp) и подвергаться оконному взвешиванию с использованием возведенных в квадрат синусоидальных окон взвешивания длиной в 2 миллисекунды с 75%-м перекрытием и преобразовываться через дискретное преобразование Фурье (DFT) в частотную область (FD). В качестве альтернативы, фильтрация верхних частот может выполняться в FD (в 112s или в выводе 112s). Таким образом, в каждом кадре в 20 миллисекунд имеется 40 точек для каждой полосы частот, причем каждая точка состоит из абсолютной величины и фазы. Каждая полоса частот имеет ширину в 500 Гц, и учитываются только 49 полос частот для частоты дискретизации F_S=48 кГц, поскольку оставшиеся 47 полос частот могут конструироваться через симметричное расширение. Таким образом, имеется 49 точек в каждый момент времени STFT и 40-49 точек в частотно-временной плоскости кадра. Размер перескока STFT составляет

На фиг. 7, объект 112 показан подробнее. В 112te, временная огибающая получается из спектрограммы логарифмической абсолютной величины посредством интеграции на частотной оси, т.е. для каждого момента времени STFT, логарифмические абсолютные величины суммируются для получения одной выборки временной огибающей.

Показанный объект 112 содержит объект 112s спектрограммы, выводящий фазу и/или спектрограмму абсолютной величины на основе сигнала PCM_i. Спектрограмма фазы перенаправляется в модуль 112ре импульсного извлечения, тогда как спектрограмма абсолютной величины дополнительно обрабатывается. Спектрограмма абсолютной величины может обрабатываться с использованием модуля 112br удаления фона, модуля 112be оценки фона для оценки фонового сигнала, который должен удаляется. Дополнительно либо в качестве альтернативы, модуль 112te определения временной огибающей и модуль 112pl определения местоположений импульсов обрабатывают спектрограмму абсолютной величины. Объекты 112pl и 112te позволяют определять эти местоположения импульсов, которые используются в качестве ввода для модуля 112ре импульсного извлечения и модуля 112be оценки фона. Модуль 112pl нахождения местоположений импульсов может использовать информацию контура основного тона. При необходимости, некоторые объекты, например, объект 112be и объект 112te, могут использовать алгоритмическое представление спектрограммы абсолютной величины, полученной посредством объекта 112lo.

Ниже поясняется функциональность. Сглаженная временная огибающая представляет собой фильтрованную по нижним частотам версию временной огибающей с использованием короткого симметричного фильтра FIR (например, фильтра четвертого порядка с F_S=48 кГц).

Нормализованная автокорреляция временной огибающей вычисляется следующим образом:

где e_T является временной огибающей после удаления средних. Точная задержка для максимума оценивается с использованием лагранжева полинома из 3 точек, формирующих пик в нормализованной автокорреляции.

Ожидаемое среднее расстояние между импульсами может оцениваться из нормализованной автокорреляции временной огибающей и среднего запаздывания основного тона в кадре:

где для кадров с низкой гармоничностью задается равным 13, что соответствует 6,5 миллисекундам.

Положения импульсов представляют собой локальные пики в сглаженной временной огибающей с таким требованием, что пики должны находиться выше своих окрестностей. Окружение задается как фильтрованная по нижним частотам версия временной огибающей с использованием простого фильтра на основе скользящего среднего с адаптивной длиной; длина фильтра задается равной половине ожидаемого среднего расстояния между импульсами. Точное положение импульса оценивается с использованием лагранжева полинома из 3 точек, формирующих пик в сглаженной временной огибающей. Центральное положение импульса представляет собой точное положение, округленное до моментов времени STFT, и в силу этого расстояние между центральными положениями импульсов является кратным 0,5 миллисекунды. Считается, что каждый импульс продолжается на 2 момента времени влево и на 2 вправо от своего центрального положения. Также может использоваться другое число моментов времени.

Находятся до 8 импульсов в расчете на 20 миллисекунд; если обнаружено больше импульсов, то меньшие импульсы игнорируются. Число найденных импульсов обозначается как N_Px; i-ый импульс обозначается как P_i. Среднее расстояние между импульсами задается следующим образом:

Абсолютные величины улучшаются на основе положений импульсов таким образом, что улучшенное STFT, также называемое «улучшенной спектрограммой», состоит только из импульсов. Фон импульса оценивается в качестве линейной интерполяции левого и правого фона, причем левый и правый фоны являются средним значением третьего-пятого моментов времени, отстоящего от центрального (временного) положения. Фон оценивается в области логарифмической абсолютной величины в 112be и удаляется посредством его вычитания в области линейной абсолютной величины в 112br. Абсолютные величины в улучшенном STFT задаются на линейной шкале. Фаза не модифицируется. Все абсолютные величины в моменты времени, не принадлежащие импульсу, задаются равными нулю.

Начальная частота импульса является пропорциональной инверсии среднего расстояния между импульсами (между близлежащими формами импульсного сигнала) в кадре, но ограничивается между 750 Гц и 7250 Гц:

Начальная частота (f_Pi) выражается как индекс STFT-полосы частот.

Изменение начальной частоты в последовательный импульсах ограничено 500 Гц (одной STFT-полосой частот). Абсолютные величины улучшенного STFT ниже начальной частоты задаются равными нулю в 112ре.

Форма сигнала каждого импульса получается из улучшенного STFT в 112ре. Форма импульсного сигнала является ненулевой в пределах 4 миллисекунд вокруг ее временного центра, и длина импульса составляет (частота дискретизации формы импульсного сигнала равна частоте дискретизации F_s входного сигнала). Символ x_Pi представляет форму сигнала i-ого импульса.

Каждый импульс P_i уникально определяется центральным положением и формой x_Pi импульсного сигнала. Модуль 112ре импульсного извлечения выводит импульсы P_i, состоящие из центральных положений и формы x_Pi импульсного сигнала. Импульсы совмещаются с сеткой STFT. В качестве альтернативы, импульсы могут не совмещаться с сеткой STFT, и/или точное положение импульса может определять импульс вместо

Признаки вычисляются для каждого импульса:

- процентная доля от локальной энергии в импульсе -

- процентная доля от энергии кадра в импульсе -

- процентная доля от полос частот с энергией импульса выше половины локальной энергии -

- корреляция и расстояние между каждой парой импульсов (из числа импульсов в текущем кадре и последних кодированных импульсов из прошлых кадров),

- запаздывание основного тона в точном местоположении импульса - d_Pi.

Локальная энергия вычисляется из 11 моментов времени вокруг центра импульса в исходном STFT. Бее энергии вычисляются только выше начальной частоты.

Расстояние между парой импульсов получается из местоположения максимальной взаимной корреляции между импульсами. Взаимная корреляция подвергается оконному взвешиванию с прямоугольным окном взвешивания длиной в 2 миллисекунды и нормализуется посредством нормы импульсов (также подвергается оконному взвешиванию с прямоугольным окном взвешивания в 2 миллисекунды). Корреляция импульсов является максимумом нормализованной взаимной корреляции:

Значение находится в диапазоне между 0 и 1.

Ошибка между основным тоном и расстоянием между импульсами вычисляется следующим образом:

При введении кратного числа расстояния между импульсами, ошибки в оценке основного тона учитываются. Введение кратных чисел запаздывания основного тона разрешает пропущенные импульсы, возникающие в результате неидеальностей в цепочках импульсов: если импульс в цепочке искажается, или имеется переходная часть, не принадлежащая цепочке импульсов, которая запрещает обнаружение импульса, принадлежащего цепочке.

Вероятность того, что i-ый и j-ый импульс принадлежат цепочке импульсов (см. 113р):

Вероятность импульса со взаимосвязью только с уже кодированными предыдущими импульсами задается следующим образом:

Вероятность (см. объект 113р) импульса итеративно находится:

1. Все вероятности возникновения импульсов задаются равными 1.

2. В порядке появления во времени импульсов, для каждого импульса, который по-прежнему является вероятным :

a. Вероятность импульса, принадлежащего цепочке импульсов в текущем кадре, вычисляется:

b. Начальная вероятность того, что он представляет собой истинный импульс, в таком случае является следующей:

c. Вероятность увеличивается для импульсов с энергией во множестве полос частот выше половины локальной энергии:

d. Вероятность ограничена посредством корреляции временный огибающих и процентной доли от локальной энергии в импульсе:

e. Если вероятность возникновения импульсов ниже порогового значения, то эта вероятность задается равной нулю, и она более не учитывается:

3. Этап 2 повторяется при условии, что имеется по меньшей мере одна заданная равной нулю в текущей итерации, либо до тех пор, пока все не задаются равными нулю.

В конце этой процедуры, имеются N_Pc истинных импульсов с равной единице. Все и только истинные импульсы составляют импульсную часть Р и кодируются в качестве СР. Из числа N_Pc истинных импульсов, вплоть до трех последних импульсов сохраняются в запоминающем устройстве для вычисления в следующих кадрах. Если имеется менее трех истинных импульсов в текущем кадре, некоторые импульсы уже в запоминающем устройстве сохраняются. Всего вплоть до трех импульсов сохраняются в запоминающем устройстве. Может быть предусмотрен другой предел для числа импульсов, сохраненных в запоминающем устройстве, например, 2 или 4. После того, как имеется три импульса в запоминающем устройстве, запоминающее устройство остается полным, при этом самые старые импульсы в запоминающем устройстве заменяются посредством новых найденных импульсов. Другими словами, число предыдущих импульсов, сохраненных в запоминающем устройстве, увеличивается в начале обработки до и сохраняется равным 3 в дальнейшем.

Ниже с обращением к фиг. 8 поясняется импульсное кодирование (сторона кодера, см. объект 132).

Фиг. 8 показывает кодер 132 импульсов, содержащий объекты 132fs, 132с и 132рс в основном тракте, при этом объект 132as выполнен с возможностью определения и передачи спектральной огибающей в качестве ввода в объект 132fs, выполненный с возможностью выполнения спектрального сглаживания. В основном тракте 132fs, 132с и 132рс, импульсы Р кодируются, чтобы определять кодированные спектрально сглаженные импульсы. Кодирование, выполняемое посредством объекта 132рс, выполняется для спектрально сглаженных импульсов. Кодированные импульсы CP на фиг. 2а-с состоят из кодированных спектрально сглаженных импульсов и спектральной огибающей импульса. Ниже подробно поясняется кодирование множества импульсов относительно фиг. 10.

Импульсы кодируются с использованием параметров:

- число N_Pc импульсов в кадре,

- положение в кадре,

- начальная частота f_Pi импульсов,

- спектральная огибающая импульса,

- усиление для прогнозирования, и если не равно нулю:

-- индекс источника прогнозирования,

-- смещение при прогнозировании,

- инновационное усиление

- инновация, состоящая из вплоть до 4 импульсов, причем каждый импульс кодируется посредством своего положения и знака.

Один кодированный импульс определяется посредством параметров:

- начальная частота f_Pi импульсов,

- спектральная огибающая импульса,

- усиление для прогнозирования, и если не равно нулю:

-- индекс источника прогнозирования,

-- смещение при прогнозировании,

- инновационное усиление

- инновация, состоящая из вплоть до 4 импульсов, причем каждый импульс кодируется своим положением и знаком.

Из параметров, которые определяют один кодированный импульс, может конструироваться форма сигнала, которая представляет один кодированный импульс. В таком случае также можно сказать, что кодированная форма импульсного сигнала определяется посредством параметров одного кодированного импульса.

Число импульсов кодируется кодом Хаффмана.

Первое положение импульса кодируется абсолютно с использованием кодирования кодом Хаффмана. Для следующих импульсов, дельты положений кодируются кодом Хаффмана. Предусмотрены различные коды Хаффмана в зависимости от числа импульсов в кадре и в зависимости от первого положения импульса.

Первая начальная частота f_P0 импульсов кодируется абсолютно с использованием кодирования кодом Хаффмана. Начальные частоты следующих импульсов дифференциально кодируются. Если имеется нулевая разность, то все следующие разности также являются нулевыми, в силу чего число ненулевых разностей кодируется. Все разности имеют одинаковый знак, в силу чего знак разностей может кодироваться с одним битом в расчете на кадр. В большинстве случаев, абсолютная разность составляет самое большее единицу, в силу чего один бит используется для кодирования, если максимальная абсолютная разность составляет единицу или более. В конце, только если максимальная абсолютная разность больше единицы, все ненулевые абсолютные разности должны кодироваться, и они унарно кодируются.

Спектральное сглаживание, например, выполняемое с использованием STFT (см. объект 132fs по фиг. 8), проиллюстрировано посредством фиг. 9а и 9b, при этом фиг. 9а показывает исходную форму импульсного сигнала по сравнению со сглаженной версией по фиг. 9b. Следует обратить внимание, что, в качестве альтернативы, спектральное сглаживание может выполняться посредством фильтра, например, во временной области.

Все импульсы в кадре могут использовать равную спектральную огибающую (см. объект 132as), состоящую из восьми полос частот. Частоты границ полос частот являются следующими: 1 кГц, 1,5 кГц, 2,5 кГц, 3,5 кГц, 4,5 кГц, 6 кГц, 8,5 кГц, 11,5 кГц, 16 кГц. Спектральное содержимое выше 16 кГц не кодируется явным образом. В другом примере, могут использоваться другие границы полос частот.

Спектральная огибающая 6 каждый момент времени импульса получается посредством суммирования абсолютный величин в полосах частот огибающей, причем импульс состоит из 5 моментов времени. Огибающие усредняются по всем импульсам в кадре. Точки между импульсами в частотно-временной плоскости не учитываются.

Значения сжимаются с использованием корня четвертой степени, и огибающие векторно квантуются. Модуль векторного квантования имеет 2 каскада, и второй каскад разбивается на 2 половины. Различные таблицы кодирования существуют для кадров с и и для значений N_Pc и f_Pi. Различные таблицы кодирования требуют различного числа битов.

Квантованная огибающая может сглаживаться с использованием линейной интерполяции. Спектрограммы импульсов сглаживаются с использованием сглаженной огибающей (см. объект 132fs). Сглаживание достигается посредством деления абсолютных величин на огибающую (принимаемую из объекта 132as), которое является эквивалентным вычитанию в области логарифмической абсолютной величины. Значения фазы не изменяются. В качестве альтернативы, процессор фильтрации может быть выполнен с возможностью спектрального сглаживания абсолютных величин или импульсного STFT посредством фильтрации формы импульсного сигнала во временной области.

Форма y_Pi сигнала спектрально сглаженного импульса получается из STFT через обратное DFT, оконное взвешивание и суммирование с перекрытием в 132с.

Фиг. 10 показывает объект 132рс для кодирования одной спектрально сглаженной формы импульсного сигнала из множества спектрально сглаженных форм импульсного сигнала. Каждая одна кодированная форма импульсного сигнала выводится в качестве кодированного импульсного сигнала. С другой точки зрения, объект 132рс для кодирования одиночных импульсов по фиг. 10 является одинаковым с объектом 132рс, выполненному с возможностью кодирования форм импульсного сигнала, как показано на фиг. 8, но используется несколько раз для кодирования нескольких форм импульсного сигнала.

Объект 132рс по фиг. 10 содержит кодер 132spc импульсов, конструктор 132cpw для сглаженной формы импульсного сигнала и запоминающее устройство 132m, размещаемые в качестве вида контура обратной связи. Конструктор 132cpw имеет ту же функциональность, что и 220cpw, а запоминающее устройство 132m - ту же функциональность, что и 229 на фиг. 14. Каждый одиночный/текущий импульс кодируется посредством объекта 132spc на основе предыдущих импульсов с учетом сглаженной формы импульсного сигнала. Информация относительно предыдущих импульсов обеспечивается запоминающим устройством 132m. Следует обратить внимание, что предыдущие импульсы, кодированные посредством 132рс, подаются через конструктор 132cpw формы импульсного сигнала и запоминающее устройство 132m. Это обеспечивает прогнозирование. Результат в силу использования такого подхода на основе прогнозирования проиллюстрирован посредством фиг. 11. Здесь, фиг. 11а указывает сглаженный оригинал вместе с прогнозированием и результирующим остаточным сигналом прогнозирования на фиг. 11b.

Согласно вариантам осуществления, наиболее аналогичный ранее квантованный импульс находится из числа импульсов из предыдущих кадров и уже квантованных импульсов из текущего кадра. Корреляция заданная выше, используется для выбора наиболее аналогичного импульса. Если разности в корреляции ниже 0,05, более близкий импульс выбирается. Наиболее аналогичный предыдущий импульс представляет собой источник прогнозирования, и его индекс относительно текущего кодированного импульса, используется в импульсном кодировании. Вплоть до четырех относительных индексов источников прогнозирования группируются и кодируются кодом Хаффмана. Группировка и коды Хаффмана зависят от N_Pc и от того, либо либо

Смещение для максимальной корреляции представляет собой смещение при импульсном прогнозировании. Оно кодируется абсолютно, дифференцированно или относительно оцененного значения, причем оценка вычисляется из запаздывания основного тона в точном местоположении импульса d_Pi. Число битов, требуемых для каждого типа кодирования, вычисляется, и тип кодирования с минимальным числом битов выбирается.

Усиление которое максимизирует SNR, используется для масштабирования прогнозирования Усиление для прогнозирования неравномерно квантуется с 3-4 битами. Если энергия остатка прогнозирования не меньше по меньшей мере на 5% энергии импульса, прогнозирование не используется, и задается равным нулю.

Остаток прогнозирования квантуется с использованием вплоть до четырех импульсов. В другом примере, может использоваться другое максимальное число импульсов. Квантованный остаток, состоящий из импульсов, называется «инновацией ». Это проиллюстрировано фиг. 12. Для сокращения числа битов число импульсов уменьшается на единицу для каждого импульса, прогнозируемого из импульса в этом кадре. Другими словами: если усиление для прогнозирования является нулевым, либо если источник прогнозирования представляет собой импульс из предыдущих кадров, то четыре импульса квантуются, в противном случае число импульсов снижается по сравнению с источником прогнозирования.

Фиг. 12 показывает тракт обработки, который должен использоваться в качестве блока 132spc обработки по фиг. 10. Тракт обработки позволяет определять кодированные импульсы и может содержать три объекта 132bp, 132qi, 132се.

Первый объект 132bp для нахождения наилучшего прогнозирования использует предыдущий импульс(ы) и форму импульсного сигнала для определения iSOURCE, сдвига, GP' и остатка прогнозирования. Объект 132gi квантования импульсов квантует остаток прогнозирования и выводит GI' и импульсы. Объект 132се выполнен с возможностью вычисления и применения коэффициента коррекции. Вся эта информация вместе с формой импульсного сигнала принимается посредством объекта 132се для коррекции энергии таким образом, чтобы вывести кодированный импульс. Следующий алгоритм может использоваться согласно вариантам осуществления:

Для нахождения и кодирования импульсов, используется следующий алгоритм:

1. Абсолютная форма импульсного сигнала конструируется с использованием двухполупериодного выпрямления:

2. Вектор с числом импульсов в каждом местоположении инициализируется с нулями:

3. Местоположение максимума в находится:

4. Вектор с числом импульсов увеличивается на единицу в местоположении найденного максимума:

5. Максимум в уменьшается:

6. Этапы 3-5 повторяются до тех пор, пока не найдено требуемое число импульсов, при этом число импульсов равно .

Следует отметить, что импульсы могут иметь одинаковое местоположение. Местоположения импульсов упорядочиваются посредством их расстояния от центра импульса. Местоположение первого импульса абсолютно кодируется. Местоположения следующих импульсов дифференциально кодируются с вероятностями в зависимости от положения предыдущего импульса. Кодирование кодом Хаффмана используется для местоположения импульса. Знак каждого импульса также кодируется. Если множество импульсов имеют одинаковое местоположение, то знак кодируется лишь однократно.

4 результирующих найденных и масштабированных импульса 15i остаточного сигнала 15 г проиллюстрированы посредством фиг. 13. Подробно, импульсы, представленные посредством линий могут масштабироваться надлежащим образом, например, импульс +/-1, умноженный на усиление

Усиление которое максимизирует SNR, используется для масштабирования инновации состоящей из импульсов. Инновационное усиление неравномерно квантуется с 2-4 битами, в зависимости от числа N_Pc импульсов.

Первая оценка для квантования сглаженной формы импульсного сигнала в таком случае является следующей:

где Q() обозначает квантование.

Поскольку усиления находятся посредством максимизации SNR, энергия может быть гораздо ниже энергии исходного целевого y_Pi. Чтобы компенсировать уменьшение энергии, коэффициент c_g коррекции вычисляется:

Конечные усиления затем являются следующими:

Запоминающее устройство для прогнозирования обновляется с использованием квантованной сглаженной формы импульсного сигнала:

В конце кодирования квантованных сглаженных форм импульсного сигнала сохраняются в запоминающем устройстве для прогнозирования в следующих кадрах.

Ниже, обращаясь к фиг. 14, поясняется подход для реконструкции импульсов.

Фиг. 14 показывает объект 220 для реконструкции формы сигнала одиночного импульса. Поясненный ниже подход для реконструкции формы сигнала одиночного импульса выполняется многократно для множества форм импульсного сигнала. Множество форм импульсного сигнала используются объектом 22' по фиг. 15 для реконструкции формы сигнала, которая включает в себя множество импульсов. С другой точки зрения, объект 220 обрабатывает сигнал, состоящий из множества кодированных импульсов и множества спектральных огибающих импульса, и, для каждого кодированного импульса и ассоциированной спектральной огибающей импульса, выводит одну реконструированную форму импульсного сигнала таким образом, что в выводе объекта 220 предусмотрен сигнал, состоящий из множества реконструированных форм импульсного сигнала.

Объект 220 содержит множество подобъектов, например, объект 220cpw для конструирования спектрально сглаженной формы импульсного сигнала, объект 224 для формирования спектрограммы импульсов (спектрограммы фазы и абсолютной величины) спектрально сглаженной формы импульсного сигнала и объект 226 для спектрального формирования спектрограммы абсолютной величины импульсов. Этот объект 226 использует спектрограмму абсолютной величины, а также спектральную огибающую импульса. Вывод объекта 226 подается в модуль преобразования для преобразования спектрограммы импульсов в форму сигнала, который указан ссылочной позицией 228. Этот объект 228 принимает спектрограмму фазы, а также спектрально сформированную спектрограмму абсолютной величины импульсов таким образом, чтобы реконструировать форму импульсного сигнала. Следует отметить, что объект 220cpw (выполненный с возможностью конструирования спектрально сглаженной формы импульсного сигнала) принимает во вводе сигнал, описывающий кодированный импульс. Конструктор 220cpw содержит вид контура обратной связи, включающего в себя запоминающее устройство 229 обновления. Это обеспечивает возможность того, что форма импульсного сигнала конструируется с учетом предыдущих импульсов. Здесь, ранее сконструированные формы импульсного сигнала возвращаются таким образом, что предыдущие импульсы могут использоваться посредством объекта 220cpw для конструирования следующей формы импульсного сигнала. Ниже поясняется функциональность этого модуля 220 реконструкции импульсов. Следует отметить, что на стороне декодера имеются только квантованные сглаженные формы импульсного сигнала (также называются «декодированными сглаженными формами импульсного сигнала» или «кодированными сглаженными формами импульсного сигнала»), и поскольку отсутствуют исходные формы импульсного сигнала на стороне декодера, используются сглаженные формы импульсного сигнала для называния квантованных сглаженных форм импульсного сигнала на стороне декодера и формы импульсного сигнала для называния квантованных форм импульсного сигнала (также называются «декодированными формами импульсного сигнала» или «кодированными формами импульсного сигнала», или «декодированными формами импульсного сигнала»).

Для реконструкции импульсов на стороне 220 декодера, квантованные сглаженные формы импульсного сигнала конструируются (см. объект 220cpw) после декодирования усилений импульсов/инновации, источника прогнозирования и смещения (). Запоминающее устройство 229 для прогнозирования обновляется (аналогично кодеру в объекте 132m). STFT (см. объект 224) затем получается для каждой формы импульсного сигнала. Например, используются возведенные в квадрат синусоидальные окна взвешивания длиной в 2 миллисекунды с 75% перекрытием, равные окнам взвешивания при импульсном извлечении. Абсолютные величины STFT восстанавливаются в исходную форму с использованием декодированной и сглаженной спектральной огибающей и обнуляются ниже начальной частоты f_Pi импульсов. Для формирования STFT используется простое умножение абсолютных величин на огибающую (см. объект 226). Фазы не модифицируются. Реконструированная форма сигнала импульса получается из STFT через обратное DFT, оконное взвешивание и суммирование с перекрытием (см. объект 228). Б качестве альтернативы, огибающая может формироваться через фильтр FIR или, исключая STFT.

Фиг. 15 показывает объект 22', последующий относительно объекта 228, который принимает множество реконструированных форм сигналов импульсов, а также положений импульсов, таким образом, чтобы конструировать форму y_P сигнала (см. фиг. 2а, 2с). Этот объект 22' используется, например, в качестве последнего объекта в конструкторе 22 форм сигналов по 2а или 2с.

Реконструированные формы импульсного сигнала конкатенируются на основе декодированных положений со вставкой нулей между импульсами в объекте 22' на фиг. 15. Конкатенированная форма сигнала суммируется с декодированным сигналом (см. 23 на фиг. 2а или фиг. 2с либо 114m на фиг. 6). Таким же способом исходные формы x_Pi импульсного сигнала конкатенируются (см. в 114 на фиг. 6) и вычитаются из ввода кодека на основе MDCT (см. фиг. 6).

Реконструированные формы импульсного сигнала конкатенируются на основе декодированных положений со вставкой нулей между импульсами. Конкатенированная форма сигнала суммируется с декодированным сигналом. Таким же способом исходные формы x_Pi импульсного сигнала конкатенируются и вычитаются из ввода кодека на основе MDCT.

Реконструированная форма импульсного сигнала не является идеальными представлениями исходных импульсов. Удаление реконструированной формы импульсного сигнала из ввода в силу этого должно оставлять некоторые переходные части сигнала. Поскольку переходные сигналы не могут оптимально представляться с помощью кодека MDCT, шум, разбросанный по полному кадру, должен присутствовать, и преимущество отдельного кодирования импульсов должно уменьшаться. По этой причине, исходные импульсы удаляются из ввода.

Согласно вариантам осуществления, флаг φ_H тональности HF может задаваться следующим образом:

Нормализованная корреляция вычисляется для y_MHF между выборками в текущем окне взвешивания и задержанной версией с задержкой (или ), при этом y_MHF является фильтрованной по верхним частотам версией остаточного импульсного сигнала y_H. Для примера, может использоваться фильтр верхних частот с частотой перехода приблизительно в 6 кГц.

Для каждого частотного элемента MDCT разрешения выше указанной частоты, как указано в 5.3.3.2.5 по [18], определяется, является ли частотный элемент разрешения тональным или шумоподобным. Общее число тональных частотных элементов разрешения вычисляется в текущем кадре, и дополнительно сглаженное общее число тональных частот вычисляется как

Флаг φ_H тональности HF задается равным 1, если TNS является неактивным, и контур основного тона присутствует, и имеется тональность на высоких частотах, при этом тональность существует на высоких частотах, если или

Обращаясь к фиг. 16, поясняется подход iBPC. Ниже поясняется процесс получения оптимального размера g_Q0 шага квантования. Процесс может представлять собой неотъемлемую часть iBPC блока. Следует обратить внимание, что объект 300 по фиг. 16 выводит g_Q0 на основе X_MR. В другом устройстве в качестве ввода могут использоваться X_MR и g_Q0 (для получения подробностей см. фиг. 3).

Фиг. 16 показывает блок-схему подхода для оценки размера шага. Процесс начинается с i=0, при этом далее, например, выполняются четыре этапа квантования, адаптивного обнуления полос частот, объединенного определения параметров для каждой полосы частот и спектра и определения того, является ли спектр кодируемым. Эти этапы указаны ссылочными позициями 301-304. В случае если спектр является кодируемым, размер шага снижается (см. этап 307), выполняется следующая итерация++i, см. ссылочную позицию 308. Это выполняется при условии, что i не равен максимальной итерации (см. этап 309 принятия решения). В случае если максимальная итерация достигается, размер шага выводится. В случае если максимальная итерация не достигается, выполняется следующая итерация.

В случае если спектр не является кодируемым, процесс, имеющий этапы 311 и 312 вместе с этапом 313 верификации (спектр теперь является кодируемым), применяется. После этого, размер шага увеличивается (см. 314) перед инициированием следующей итерации (см. этап 308).

Спектр X_MR, спектральная огибающая которого перцепционно сглаживается, скалярно квантуется с использованием одного размера g_Q шага квантования по полной кодированной полосе пропускания и энтропийно кодируется, например, с помощью контекстного арифметического кодера, формирующего кодированный spect. Кодированная полоса пропускания спектра разделяется на подполосы B_i частот увеличивающейся ширины

Оптимальный размер g_Q0 шага квантования, также называемый «глобальным усилением», итеративно находится, как пояснено.

На каждой итерации спектр X_MR квантуется в блоке 301 квантования для формирования X_Q1. В блоке 302 «адаптивного обнуления полос частот» отношение энергии нуль-квантованных линий и исходной энергии вычисляется в подполосах B_i частот, и если отношение энергий выше адаптивного порогового значения полная подполоса частот в X_Qi задается равной нулю. Пороговые значения вычисляются на основе флага φ_H тональности и флагов причем флаги указывают, обнулена ли подполоса частот в предыдущем кадре:

Для каждой обнуленной подполосы частот, флаг задается равным единице. В конце обработки текущего кадра, копируются в В качестве альтернативы, может быть предусмотрено более одного флага тональности и преобразование из множества флагов тональности в тональность каждой подполосы частот, формируя значение тональности для каждой подполосы частот. Значения например, могут иметь значение из набора значений {-0,25, 0,5, 0,75}. В качестве альтернативы, другое решение может использоваться для принятия решения на основе энергии нульквантованных линий и исходной энергии и на основе содержимого X_Qi и X_MR в отношении того, следует ли задать полную подполосу i частот в X_Q1 равной нулю.

Частотный диапазон, в котором используется адаптивное обнуление полос частот, может ограничиваться выше определенной частоты например, в 7000 Гц, расширяя адаптивное обнуление полос частот при условии, что наименьшая подполоса частот обнуляется, вниз до определенной частоты например, в 700 Гц.

Явным образом кодируются отдельные уровни заполнения нулями (отдельный zfl) подполос частот X_Q1 выше f_EZ, причем f_EZ, например, составляет 3000 Гц, которые полностью являются нулевыми, и дополнительно кодируется один уровень заполнения нулями для всех нулевых подполос частот ниже f_EZ и всех нулевых подполос частот выше f_EZ, квантованных до нуля. Подполоса частот X_Q1 может быть полностью нулевой вследствие квантования в блоке квантования, даже если явно не задается равной нулю посредством адаптивного обнуления полос частот. Вычисляется требуемое число битов для энтропийного кодирования уровней заполнения нулями (zfl, состоящих из отдельного zfl и zfl_small) и спектральных линий в X_Q1 (например, посредством параметрического кодера для каждой полосы частот). Кроме того, число N_Q спектральных линий, которые могут явно кодироваться с доступным битовым бюджетом, находится. N_Q представляет собой неотъемлемую часть кодированного spect и используется в декодере, чтобы узнать, сколько битов используется для кодирования спектральных линий; могут использоваться другие способы нахождения числа битов для кодирования спектральных линий, например, с использованием специального символа EOF. При условии, что недостаточно битов для кодирования всех ненулевых линий, линии в X_Q1 выше N_Q задаются равными нулю, и требуемое число битов повторно вычисляется.

Для вычисления битов, необходимых для кодирования спектральных линий, вычисляются биты, необходимые для кодирования линий начиная снизу. Это вычисление необходимо только однократно, поскольку повторное вычисление битов, необходимых для кодирования спектральных линий, становится эффективным посредством сохранения числа битов, требуемых для кодирования n линий для каждого n≤N_Q.

На каждой итерации, если требуемое число битов превышает число доступных битов, глобальное усиление снижается (307), в противном случае оно увеличивается (314). На каждой итерации адаптируется скорость изменения глобального усиления. Для итеративной модификации глобального усиления может использоваться такая же адаптация скорости изменения, что и модификации в контуре оптимизации искажения в зависимости от скорости передачи из EVS [20]. В конце итеративного процесса, оптимальный размер g_Q0 шага квантования равен g_Q, что формирует оптимальное кодирование спектра, например, с использованием критериев из EVS, и X_Q равен соответствующему X_Q1.

Вместо фактического кодирования, может использоваться оценка максимального числа битов, необходимых для кодирования. Вывод итеративного процесса представляет собой оптимальный размер g_Q0 шага квантования; вывод также может содержать кодированный spect и кодированные уровни заполнения шумом (zfl), поскольку они обычно уже доступны, с тем чтобы исключать повторяющуюся обработку при получении их снова.

Ниже подробно поясняется заполнение нулями.

Согласно вариантам осуществления, ниже поясняется блок «заполнения нулями», начиная с примера способа выбора спектра источника.

Для создания заполнения нулями, следующие параметры адаптивно находятся:

- оптимальное большое расстояние перезаписи,

- минимальное расстояние перезаписи,

- минимальное начало источника перезаписи,

- сдвиг расстояния перезаписи.

Оптимальное расстояние перезаписи определяет оптимальное расстояние, если спектр источника представляет собой уже полученную нижнюю часть X_CT. Значение находится между минимальным которое например, задается равным индексу, соответствующему 5600 Гц, и максимальным которое например, задается равным индексу, соответствующему 6225 Гц. Другие значения могут использоваться с ограничением

Расстояние между гармониками вычисляется из среднего запаздывания основного тона, причем среднее запаздывание основного тона декодируется из потока битов или выводится из параметров из потока битов (например, pitch contour). В качестве альтернативы, может получаться посредством анализа X_DT либо его производной (например, из сигнала временной области, полученного с использованием X_DT). Расстояние между гармониками не обязательно является целым числом. Если то задается равным нулю, причем нуль представляет собой способ передачи в служебных сигналах того, что отсутствует значимое запаздывание основного тона.

Значение является минимальным кратным расстояния между гармониками, большего минимального оптимального расстояния перезаписи:

Если равно нулю, то не используется.

Начальная спектральная TNS-линия плюс TNS-порядок обозначается как i_T; она, например, может составлять индекс, соответствующий 1000 Гц.

Если TNS является неактивным в кадре, i_Cs задается равным Если TNS является активным, i_Cs задается равным i_T, с дополнительным нижним ограничением посредством если HF являются тональными (например, если φ_H равен единице).

Спектр Z_C абсолютной величины оценивается из декодированного spect X_DT:

Нормализованная корреляция оцененного спектра абсолютной величины вычисляется следующим образом:

Длина L_C корреляции задается равной максимальному значению, разрешенному посредством доступного спектра, при необходимости ограниченному некоторым значением (например, длиной, эквивалентной 5000 Гц).

По существу, выполняется поиск n, которое максимизирует корреляцию между источником перезаписи и назначением где

выбирается из n при этом имеет первый пик и составляет выше среднего значения т.е.: и и для каждого не удовлетворяется то, что В другой реализации, можно выбирать таким образом, что оно является абсолютным максимумом в диапазоне от до Любое другое значение в диапазоне от до может выбираться для при этом оптимальное большое расстояние перезаписи ожидается.

Если TNS является активным, можно выбрать

Если TNS является неактивным, , где является нормализованной корреляцией, и является оптимальным расстоянием в предыдущем кадре. Флаг указывает, имеется ли изменение тональности в предыдущем кадре. Функция возвращает либо Решение в отношении того, какое значение следует возвращать в главным образом основано на значениях Если флаг является истинным, и или являются допустимыми, то игнорируется. Значения и используются в редких случаях.

В примере, может задаваться с использованием следующих решений:

- возвращается, если больше по меньшей мере для и больше по меньшей мере для где и являются адаптивными пороговыми значениями, которые являются пропорциональными соответственно. Кроме того, может требоваться то, что выше некоторого абсолютного порогового значения, например, 0,5,

- в противном случае возвращается, если больше по меньшей мере для порогового значения, например, 0,2,

- в противном случае возвращается, если задается, и

- в противном случае возвращается, если задается, и значение является допустимым, т.е. если возникает значимое запаздывание основного тона,

- в противном случае возвращается, если является небольшим, например, ниже 0,1, и значение является допустимым, т.е. если возникает значимое запаздывание основного тона, и изменение запаздывания основного тона из предыдущего кадра является небольшим,

- в противном случае возвращается.

Флаг задается как истинный, если TNS является активным, либо если и тональность является низкой, при этом тональность является низкой, например, если φ_H является ложью, либо если равно нулю; составляет значение меньше 1, например, 0,7. Б следующем кадре используется значение, заданное равным

Также вычисляется процентное изменение между предыдущим кадром и текущим кадром

Сдвиг расстояния перезаписи задается равным если оптимальное расстояние перезаписи не является эквивалентным , и ( составляет заданное пороговое значение), причем в этом случае задается равным тому же значению, что и значение в предыдущем кадре, так что оно становится постоянным по последовательным кадрам; представляет собой показатель изменения (например, процентного изменения) между предыдущим кадром и текущим кадром; например, может задаваться равным 0,1, если представляет собой перцепционное изменение Если TNS является активным в кадре, не используется.

Минимальное начало источника перезаписи, например, может задаваться равным i_T, если TNS является активным, при необходимости с нижним ограничением посредством если HF являются тональными, либо, например, задаваться равным если TNS не является активным в текущем кадре.

Минимальное расстояние перезаписи, например, задается равным если TNS является неактивным. Если TNS является активным, например, задается равным если HF не являются тональными, либо задается, например, равным если HF являются тональными.

С использованием, например, в качестве начального условия, случайный шумовой спектр X_N конструируется как причем функция short усекает результат до 16 битов. Любой другой генератор случайного шума и начальное условие могут использоваться. Случайный шумовой спектр X_N затем задается равным нулю в местоположении ненулевых значений в X_D, и при необходимости части в X_N между местоположениями, заданными равными нулю, подвергаются оконному взвешиванию, чтобы уменьшать случайный шум около местоположений ненулевых значений в X_D.

Для каждой подполосы B_i частот длины начиная с в X_CT, спектр источника для находится. Деление на подполосы частот может быть одинаковым с делением на подполосы частот, используемым для кодирования zfl, но также может отличаться, может быть более высоким или более низким.

Для примера, если TNS не является активным, и HF не являются тональными, то случайный шумовой спектр X_N используется в качестве спектра источника для всех подполос частот. В другом примере, X_N используется в качестве спектра источника для подполос частот, в которых другие источники являются пустыми, либо для некоторых подполос частот, которые начинаются ниже минимального назначения перезаписи:

В другом примере, если TNS не является активным, и HF являются тональными, прогнозируемый спектр X_NP может использоваться в качестве источника для подполос частот, которые начинаются ниже и в который E_B по меньшей мере на 12 дБ выше E_B в соседний подполосах частот, причем прогнозируемый спектр получается из предыдущего декодированного спектра или из сигнала, полученного из предыдущего декодированного спектра (например, из декодированного сигнала TD).

Для случаев, не содержащихся в вышеприведенных примерах, расстояние d_c может находиться таким образом, что либо смесь и может использоваться в качестве спектра источника для который начинается в где В одном примере, если TNS является активным, но начинается только на более высокой частоте (например, в 4500 Гц), и HF не являются тональными, смесь и может использоваться в качестве спектра источника, если в еще одном другом примере, в качестве источника может использоваться только или спектр, состоящий из нулей. Если то может задаваться равным Если TNS является активным, то положительное целое число n может находиться таким образом, что и d_c может задаваться равным например, наименьшему такому целому числу n. Если TNS не является активным, другое положительное целое число n может находиться таким образом, что и d_c задается равным например, наименьшему такому целому числу n.

В другом примере, наименьшие подполосы частот в X_S вплоть до начальной частоты могут задаваться равными 0, что означает то, что в наименьших подполосах частот, X_CT может представлять собой копию X_DT.

Ниже приводится пример взвешивания спектра источника на основе E_B в блоке «заполнения нулями».

В примере сглаживания E_B, может получаться из zfl, причем каждое соответствует подполосе i частот в E_B. затем сглаживаются: и

Коэффициент масштабирования вычисляется для каждой подполосы B_i частот в зависимости от спектра источника:

Кроме того, масштабирование ограничено с помощью коэффициента вычисляемого следующим образом:

Полоса частот спектра источника разбивается на две половины, и каждая половина масштабируется, первая половина с а вторая с

Следует отметить, что в вышеприведенном пояснении, извлекается с использованием и извлекается с использованием и и извлекается с использованием и извлекается с использованием и и Это пояснение использовано только чтобы явным образом показать использование Согласно дополнительным вариантам осуществления, это E_B может извлекаться с использованием g_Q0, можно записать вышеприведенную формулу другим способом:

Даже в этом дополнительном варианте осуществления, в котором E_B может извлекаться с использованием значения и могут быть равными значениям в предыдущем примере.

Масштабированная полоса частот спектра источника, причем масштабированная полоса частот спектра источника составляет суммируется с для получения

Ниже приводится пример квантования энергий нуль-квантованных линий (в качестве части iBPC).

X_QZ получается из X_MR посредством задания ненулевых квантованных линий равными нулю. Например, так же, как и с X_N, значения в местоположении ненулевых квантованных линий в X_Q задаются равными нулю, и нулевые части между ненулевыми квантованными линиями подвергаются оконному взвешиванию в X_MR, формируя X_QZ.

Энергия в расчете на полосу i частот для нулевых линий вычисляется из X_QZ:

E_Zi, например, квантуются с использованием размера шага в 1/8 и ограничены 6/8. Отдельные E_Zi кодируются в качестве отдельного zfl только для подполос частот выше f_EZ, причем f_EZ, например, составляет 3000 Гц, которые полностью квантуются до нуля. Кроме того, один энергетический уровень E_Zs вычисляется как среднее значение всех E_Zi из нулевых подполос частот ниже f_EZ и из нулевых подполос частот выше f_EZ, причем E_Zi квантуется до нуля, при этом нулевая подполоса частот означает то, что полная подполоса частот квантуется до нуля. Низкий уровень E_Zs квантуется с размером шага в 1/16 и ограничен 3/16. Энергия отдельных нулевых линий в ненулевых подполосах частот оценивается (например, декодером) и не кодируется явным образом.

Значения E_Bi получаются на стороне декодера из zfl, и значения E_Bi для нулевых подполос частот соответствуют квантованным значениям E_Zi. Таким образом, значение E_B, состоящее из E_Bi, может кодироваться в зависимости от оптимального шага g_Q0 квантования. Это проиллюстрировано фиг. 3, на котором параметрический кодер 156рс принимает в качестве ввода для g_Q0. В другом примере может использоваться другой размер шага квантования, относящийся к параметрическому кодеру, независимо от оптимального шага g_Q0 квантования. В еще одном другом примере для кодирования zfl может использоваться модуль неравномерного скалярного квантования или модуль векторного квантования. При этом в представленном примере предпочтительно использовать оптимальный шаг g_Q0 квантования вследствие зависимости квантования X_MR до нуля от оптимального шага g_Q0 квантования.

Долговременное прогнозирование (LTP)

Ниже поясняется блок LTP.

Сигнал y_C временной области используется в качестве ввода в LTP, причем y_C получается из X_C в качестве вывода IMDCT. IMDCT состоит из обратного MDCT, оконного взвешивания и суммирования с перекрытием. Левая перекрывающаяся часть и неперекрывающаяся часть y_C в текущем кадре сохраняются в буфере LTP. Буфер LTP используется в следующем кадре в LTP для формирования прогнозируемого сигнала для всего окна взвешивания MDCT. Это проиллюстрировано фиг. 17а.

Если для правого перекрытия в текущем окне взвешивания используется меньшее перекрытие, например половинное перекрытие, то также неперекрывающаяся часть «разность перекрытия» сохраняется в буфере LTP. Таким образом, выборки в положении «разность перекрытия» (см. фиг. 17b) также должны помещаться в буфер LTP вместе с выборками в положении между двумя вертикальными линиями перед «разностью перекрытия». Неперекрывающаяся часть «разность перекрытия» выводится в декодере не в текущем кадре, а только в следующем кадре (см. фиг. 17b и 17с).

Если для левого перекрытия в текущем окне взвешивания используется меньшее перекрытие, целая неперекрывающаяся часть вплоть до начала текущего окна взвешивания используется в качестве части буфера LTP для формирования прогнозируемого сигнала.

Прогнозируемый сигнал для целого окна взвешивания MDCT формируется из буфера LTP. Временной интервал длины окна взвешивания разбивается на перекрывающиеся субинтервалы длины с размером перескока в Другие размеры перескока и взаимосвязи между длиной субинтервала и размером перескока могут использоваться. Длина перекрытия может составлять или меньше. выбирается таким образом, что значимое изменение основного тона не ожидается в субинтервалах. В примере, является целым числом, ближайшим к но не большим и задается равным как проиллюстрировано посредством фиг. 17d. В другом примере, дополнительно может требоваться то, что длина кадра или длина окна взвешивания делится на

Ниже приводится пример «средства (1030) вычисления, выполненного с возможностью извлечения параметров субинтервала из кодированного параметра основного тона в зависимости от положения субинтервалов в интервале, ассоциированном с кадром кодированного аудиосигнала», а также пример «параметры извлекаются из кодированного параметра основного тона и положения субинтервала в интервале, ассоциированном с кадром кодированного аудиосигнала». Для каждого запаздывания основного тона в субинтервал в центре субинтервала, получается из контура основного тона. На первом этапе, запаздывание основного тона в субинтервал задается равным запаздыванию основного тона в положении центра субинтервала. При условии, что расстояние от конца субинтервала до начала окна взвешивания больше увеличивается для значения запаздывания основного тона из контура основного тона в положении слева от центра субинтервала, которое составляет до Расстояние от конца субинтервала до начала окна взвешивания также может называться «концом субинтервала».

В каждом субинтервале, прогнозируемый сигнал конструируется с использованием буфера LTP и фильтра с передаточной функцией при этом:

где T_int является целочисленной частью т.е. , и T_fr является дробной частью т.е. и B(z, T_fr) является фильтром с дробной задержкой. B(z, T_fr) может иметь характеристики нижних частот (либо он может компенсировать предыскажения высоких частот). Затем сигнал прогнозирования подвергается плавному переходу в перекрывающихся областях субинтервалов.

В качестве альтернативы, прогнозируемый сигнал может конструироваться с использованием способа с каскадными фильтрами, как описано в [19], с откликом при отсутствии входного сигнала (ZIR) фильтра на основе фильтра с передаточной функцией и буфера LTP, используемого в качестве начального вывода фильтра, причем:

Примеры для являются следующими:

В примерах, T_fr обычно округляется до ближайшего значения из списка значений, и для каждого значения в списке задается фильтр В.

Прогнозируемый сигнал подвергается оконному взвешиванию с окном взвешивания, равным окну взвешивания, используемому формирования X_M, и преобразуется через MDCT для получения Х_Р.

Ниже приводится пример средства для модификации прогнозируемого спектра или производной прогнозируемого спектра, в зависимости от параметра, извлекаемого из кодированного параметра основного тона. Абсолютные величины коэффициентов MDCT, отстоящие по меньшей мере на от гармоник в Х_Р, задаются равными нулю (или умножаются на положительный коэффициент меньше 1), причем например, равно 10. В качестве альтернативы, окна взвешивания, отличные от прямоугольного окна взвешивания, могут использоваться для уменьшения абсолютных величин между гармониками. Считается, что гармоники в Х_Р находятся в местоположениях элементов разрешения, которые являются целыми кратными где L_M является длиной Х_Р, и является средним скорректированным запаздыванием основного тона. Гармонические местоположения составляют Это удаляет шум между гармониками, в частности, когда обнаруживается запаздывание в половину основного тона.

Спектральная огибающая Х_Р перцепционно сглаживается с помощью такого же способа, что и способ в отношении X_M, например, через SNSE, для получения X_PS.

Ниже приводится пример того, что «число прогнозируемый гармоник определяется на основе кодированного параметра основного тона». С использованием X_PS, X_MS и определяется число n_LTP прогнозируемый гармоник; n_LTP кодируется и передается в декодер. Вплоть до N_LTP гармоник могут прогнозироваться, например, N_LTP=8. X_PS и X_MS разделяются на N_LTP полос частот с длиной причем каждая полоса частот начинается в n_LTP выбирается таким образом, что для веек отношение энергии X_MS-X_PS и X_MS ниже порогового значения например, Если нет такого n, то и LTP не является активным в текущем кадре. В служебных сигналах с помощью флага передается то, является ли LTP активным. Вместо X_PS и X_MS, могут использоваться Х_Р и X_M. Вместо X_PS и X_MS, могут использоваться X_PS и X_MT. В качестве альтернативы, число прогнозируемых гармоник может определяться на основе контура d_contour основного тона.

Если LTP является активным, то первые коэффициентов X_PS, за исключением нулевого коэффициента, вычитаются из X_MT для формирования X_MR. Нулевой коэффициент, а также коэффициенты выше копируются из X_MT в X_MR.

В процессе квантования, X_Q получается из X_MR, и X_Q кодируется в качестве spect, и посредством декодирования, X_D получается из spect.

Ниже приводится пример модуля (157) объединения, выполненного с возможностью объединения по меньшей мере части спектра (Х_Р) прогнозирования или части производной прогнозируемого спектра (X_PS) со спектром (X_D) ошибки. Если LTP является активным, то первые коэффициентов X_PS, отличных от нулевого коэффициента, суммируются с X_D, чтобы формировать X_DT. Нулевой, а также коэффициенты выше копируются из X_D в X_DT.

Ниже поясняются факультативные признаки гармонической постфильтрации.

Сигнал y_C временной области получается из x_C в качестве вывода IMDCT, причем IMDCT состоит из обратного MDCT, оконного взвешивания и суммирования с перекрытием. Гармонический постфильтр (HPF), который выполняется после контура основного тона, применяется к y_C, чтобы уменьшать уровень шума между гармониками и выводить y_H. Вместо y_C, сочетание y_C и сигнала y_P временной области, сконструированное из декодированных форм импульсного сигнала, может использоваться в качестве ввода в HPF, как проиллюстрировано Фиг. 18а.

Ввод HPF для текущего кадра k составляет Также доступны предыдущие выходные выборки где составляет по меньшей мере максимальное запаздывание основного тона). Также доступно N_ahead упреждающих выборок IMDCT, которые могут включать в себя подвергнутые временному наложению спектров части правой перекрывающейся области обратного вывода MDCT. Показывается пример, в котором временной интервал, к которому применяется HPF, равен текущему кадру, но могут использоваться различные интервалы. Местоположение текущего ввода-вывода HPF, предыдущего - вывода HPF и упреждения IMDCT относительно окон взвешивания MDCT/IMDCT проиллюстрировано посредством фиг. 18а, также показывающего перекрывающуюся часть, которая может суммироваться как обычно, чтобы формировать суммирование с перекрытием.

Если передается в служебных сигналах в потоке битов то, что HPF должен использовать постоянные параметры, сглаживание используется в начале текущего кадра, с дальнейшим выполнением HPF с постоянными параметрами для оставшейся части кадра. В качестве альтернативы, анализ основного тона может выполняться для y_C, чтобы принять решение в отношении того, должны ли использоваться постоянные параметры. Длина области, в которой используется сглаживание, может зависеть от параметров основного тона.

Когда постоянные параметры не передаются в служебных сигналах, ввод HPF разбивается на перекрывающиеся субинтервалы длины L_k с размером перескока в Другие размеры перескока могут использоваться. Длина перекрытия может составлять или меньше. L_k выбирается таким образом, что значимое изменение основного тона не ожидается в субинтервалах. В примере, является целым числом, ближайшим к pitch_mid/2, но не большим pitch_mid/2, и L_k задается равной Вместо pitch_mid, некоторые другие значения могут использоваться, например, среднее значение pitch_mid и pitch_start либо значение, полученное из анализа основного тона для y_C, или, например, ожидаемое минимальное запаздывание основного тона в интервале для сигналов с варьирующимся основным тоном. В качестве альтернативы, фиксированное число субинтервалов может выбираться. В другом примере, дополнительно может требоваться то, что длина кадра делится на (см. фиг. 18b).

Считается, что число субинтервалов в текущем интервале k составляет K_k, в предыдущем интервале k-1 составляет K_k-1, и в следующем интервале k+1 составляет K_k+1. В примере на фиг. 18b, K_k=6 и K_k-1=4.

В другом примере, возможно, что текущий (временной) интервал разбивается на нецелое число субинтервалов, и/или то, что длина субинтервалов изменяется в текущем интервале, как показано ниже. Это проиллюстрировано фиг. 18с и 18d.

Для каждого субинтервала 1 в текущем интервале k(1≤1≤L_k), запаздывание p_k,1 основного тона в субинтервал находится с использованием алгоритма поиска основного тона, который может быть таким же, что и поиск основного тона, используемый для получения контура основного тона, или отличным от него. Поиск основного тона для субинтервала 1 может использовать значения, извлеченные из кодированного запаздывания (pitch_mid, pitch_end) основного тона таким образом, чтобы уменьшить сложность поиска и/или повышать стабильность значений p_k,1 по субинтервалам, например, значения, извлеченные из кодированного запаздывания основного тона, могут быть значениями контура основного тона. В другом примере, параметры, найденные посредством глобального анализа основного тона в полном интервале y_C, могут использоваться вместо кодированного запаздывания основного тона, с тем чтобы уменьшать сложность поиска и/или стабильность значений p_k,1 по субинтервалам. В другом примере, при поиске запаздывания основного тона в субинтервал, предполагается, что промежуточный вывод гармонической постфильтрации для предыдущих субинтервалов доступен и используется в поиске основного тона (включающем в себя субинтервалы предыдущих интервалов).

N_ahead (потенциально подвергнутых временному наложению спектров) упреждающих выборок также могут использоваться для нахождения основного тона в субинтервалах, которые пересекают границу интервала/кадра, или, например, если упреждение не доступно, задержка может вводиться в декодере для обеспечения упреждения для последнего субинтервала в интервале. В качестве альтернативы, значение, извлеченное из кодированного запаздывания (pitch_mid, pitch_end) основного тона, может использоваться для

Для гармонической постфильтрации, может использоваться адаптивный к усилению гармонический постфильтр. В примере, HPF имеет передаточную функцию:

где B(z, T_fr) является фильтром с дробной задержкой. B(z, T_fr) может быть одинаковым с фильтрами с дробной задержкой, используемым в LTP, или отличным от них, поскольку вариант выбора является независимым. В HPF, QUOTE B(z, T_fr) также выступает в качестве нижних частот (или фильтра наклона, который компенсирует предыскажения высоких частот).

Пример для разностного уравнения для адаптивного к усилению гармонического постфильтра с передаточной функцией H(z) и b_j (T_fr) в качестве коэффициентов B(z, T_fr) является следующим:

Вместо фильтра нижних частот с дробной задержкой, может использоваться фильтр тождественности, что дает B(z, T_fr)=1 и разностное уравнение:

Параметр g является оптимальным усилением. Он моделирует изменение амплитуды (модуляцию) сигнала и является сигнально-адаптивным.

Параметр h является уровнем гармоничности. Он управляет требуемым увеличением гармоничности сигнала и является сигнально-адаптивным. Параметр β также управляет увеличением гармоничности сигнала и является постоянным либо зависит от частоты дискретизации и скорости передачи битов. Параметр β также может быть равным 1. Значение произведения βh должно составлять между 0 и 1, при этом 0 не вызывает изменение в гармоничности, а 1 максимально увеличивает гармоничность. На практике, обычно βh<0,75.

Часть с прямой связью гармонического постфильтра (которая представляет собой ) выступает в качестве верхних частот (или фильтра наклона, который компенсирует предыскажения низких частот). Параметр α определяет интенсивность фильтрации верхних частот (или другими словами, он управляет наклоном компенсации предыскажений) и имеет значение между 0 и 1. Параметр α является постоянным или зависит от частоты дискретизации и скорости передачи битов. Значение между 0,5 и 1 является предпочтительным в вариантах осуществления.

Для каждого субинтервала, оптимальное усиление g_k,₁ и уровень h_k,1 гармоничности находятся, либо, в некоторых случаях, они могут извлекаться из других параметров.

Для данного B(z, T_fr), функция для сдвига/фильтрации сигнала задается следующим образом:

В этих определениях, представляет, для 0≤n≤L, сигнал y_C в субинтервале l с длиной L, представляет фильтрацию y_C с B(z, 0), y^-p представляет сдвиг y_H для (возможно дробных) p выборок.

Нормализованная корреляция сигналов y_C и y_H в (суб-)интервале l с длиной L и сдвигом p задается следующим образом:

Альтернативное определение может быть следующим:

В альтернативном определении, представляет y_H в предыдущих субинтервалах для

В вышеприведенных определениях используется четвертого порядка. Может использоваться любой другой порядок, требующий изменения диапазона для j. В примере, в котором получаются и что может использоваться, если учитываются только целочисленные сдвиги.

Нормализованная корреляция, заданная таким образом, обеспечивает возможность вычисления для дробных сдвигов p.

Параметры normcorr l и L задают окно взвешивания для нормализованной корреляции. В вышеуказанном определении, используется прямоугольное окно взвешивания. Вместо этого может использоваться любой другой тип окна взвешивания (например, Ханна, косинусоидальное), которое может задаваться как умножение на w[n], где w[n] представляет окно взвешивания.

Для получения нормализованной корреляции в субинтервале, l должно задаваться равным номеру интервала, a L - равной длине субинтервала.

Вывод представляет ZIR адаптивного к усилению гармонического постфильтра H(z) для субкадра l, где и и

Оптимальное усиление g_k,1 моделирует изменение амплитуды (модуляцию) 6 субкадре l. Например, оно может вычисляться в качестве корреляции прогнозируемого сигнала с фильтрованным по нижним частотам вводом, деленной на энергию прогнозируемого сигнала:

В другом примере, оптимальное усиление g_k,1 может вычисляться как энергия фильтрованного по нижним частотам ввода, деленная на энергию прогнозируемого сигнала:

Уровень h_k,1 гармоничности управляет требуемым увеличением гармоничности сигнала и, например, может вычисляться в качестве квадрата нормализованной корреляции:

Обычно нормализованная корреляция субинтервала уже доступна из поиска основного тона в субинтервале.

Уровень h_k,1 гармоничности также может модифицироваться в зависимости от LTP и/или в зависимости от декодированных спектральных характеристик. Например, можно задавать:

где h_modLTP является значением между 0 и 1 и является пропорциональным числу гармоник, прогнозируемых посредством LTP, и является значением между 0 и 1 и является обратно пропорциональным наклону X_C. В примере, если n_LTP равно нулю, в противном случае Наклон X_C может представлять собой отношение энергии первых 7 спектральных коэффициентов к энергии следующих 43 коэффициентов.

После того, как вычислены параметры для субинтервала l, можно формировать промежуточный вывод гармонической постфильтрации для части субинтервала l, которая не перекрывается с субинтервалом l+1. Как указано выше, этот промежуточный вывод используется в нахождении параметров для последующих субинтервалов.

Каждый субинтервал является перекрывающимся, и используется операция сглаживания между двумя параметрами фильтрации. Может использоваться сглаживание, описанное в [3].

Ниже поясняются предпочтительные варианты осуществления.

Согласно вариантам осуществления, предложено устройство для кодирования аудиосигнала, причем устройство содержит следующие объекты:

- временно-спектральный преобразователь (MDCT) для преобразования аудиосигнала, имеющего частоту дискретизации, в спектральное представление;

- модуль спектрального формирования (SNS) для обеспечения перцепционно сглаженного спектрального представления из спектрального представления, при этом перцепционно сглаженное спектральное представление разделяется на подполосы частот отличающегося (более высокого) частотного разрешения относительно модуля спектрального формирования;

- контур оптимизации искажения в зависимости от скорости передачи для нахождения оптимального шага квантования;

- модуль квантования для обеспечения квантованного спектра перцепционно сглаженного спектрального представления или производной перцепционно сглаженного спектрального представления, в зависимости от оптимального шага квантования;

- спектральный кодер без потерь для обеспечения кодированного представления квантованного спектра;

- параметрический кодер для каждой полосы частот для обеспечения параметрического представления перцепционно сглаженного спектрального представления или производной перцепционно сглаженного спектрального представления, при этом параметрическое представление зависит от оптимального шага квантования и состоит из параметров, описывающих энергию в подполосах частот, в которых квантованный спектр равен нулю, так что по меньшей мере две подполосы частот имеют различные параметры, либо так что по меньшей мере один параметр ограничивается только одной подполосой частот.

Другой вариант осуществления предусматривает устройство для кодирования аудиосигнала, которое наоборот, содержит следующие объекты:

- контур оптимизации искажения в зависимости от скорости передачи для нахождения оптимального шага квантования, который предоставляет на каждой итерации контура шаг квантования и выбирает оптимальный шаг квантования в зависимости от шагов квантования;

- модуль квантования для обеспечения квантованного спектра перцепционно сглаженного спектра или производной перцепционно сглаженного спектрального представления, представления в зависимости от шага квантования;

- решение в отношении спектрального кодера для обеспечения решения в отношении того, удовлетворяет ли объединенное кодирование кодированного представления квантованного спектра и кодированного представления параметрического представления нулевых подполос частот ограничению, состоящему в том, что общее число битов для объединенного кодирования должно быть ниже заданного предела,

- при этом как кодированное представление квантованного спектра, так и кодированное представление параметрических нулевых подполос частот требуют переменного числа битов в зависимости от перцепционно сглаженного спектрального представления или производной перцепционно сглаженного спектрального представления и шага квантования.

Согласно вариантам осуществления, оба устройства могут быть усовершенствованы посредством модуля модификации, который адаптивно устанавливает равной нулю по меньшей мере подполосу частот в квантованном спектре, в зависимости от содержимого подполосы частот в квантованном спектре и в перцепционно сглаженном спектральном представлении.

Здесь, может использоваться двухэтапный параметрический кодер для каждой полосы частот. Два параметрических кодера для каждой полосы частот этапа выполнены с возможностью обеспечения параметрического представления перцепционно сглаженного спектрального представления или производной перцепционно сглаженного спектрального представления, в зависимости от шага квантования для подполос частот, в которых квантованный спектр равен нулю (так что по меньшей мере две подполосы частот имеют различное параметрическое представление);

- при этом на первом этапе из двух этапов параметрический кодер для каждой полосы частот обеспечивает отдельные параметрические представления для подполос частот выше частоты f_EZ, в которых квантованный спектр равен нулю,

- и на втором этапе обеспечивает дополнительное среднее параметрическое представление для подполос частот выше частоты f_EZ, в которых отдельное параметрическое представление является нулевым, и для подполос частот ниже f_EZ.

Другой вариант осуществления предусматривает устройство для декодирования кодированного аудиосигнала. Устройство для декодирования содержит следующие объекты:

- аудиодекодер в спектральной области для формирования декодированного спектра в зависимости от шага квантования, причем декодированный спектр разделяется на подполосы частот;

- параметрический декодер для каждой полосы частот, который идентифицирует нулевые подполосы частот, состоящие только из нулей, в декодированном спектре и декодирует параметрическое представление нулевых подполос частот с использованием шага квантования, при этом параметрическое представление состоит из параметров, описывающих энергию в нулевых подполосах частот, так что по меньшей мере две подполосы частот имеют различные параметры, либо так что по меньшей мере один параметр ограничивается только одной подполосой частот;

- генератор спектра для каждой полосы частот, который обеспечивает сформированный спектр для каждой полосы частот в зависимости от параметрического представления нулевых подполос частот;

- модуль объединения, который обеспечивает комбинированный спектр для каждой полосы частот в виде сочетания:

- сформированного спектра для каждой полосы частот и декодированный спектр; или

- сформированного спектра для каждой полосы частот и сочетания прогнозируемого спектра и декодированного спектра;

- модуля спектрального формирования (SNS) для обеспечения спектра с восстановленной исходной формой из комбинированного спектра для каждой полосы частот или производной комбинированного спектра для каждой полосы частот, при этом модуль спектрального формирования имеет отличающееся (более низкое) частотное разрешение относительно деления на подполосы частот; и

- спектрально-временного преобразователя для преобразования спектра с восстановленной исходной формой во временное представление.

Другой вариант осуществления предусматривает генератор параметрического спектра для каждой полосы частот, обеспечивающий сформированный спектр, который комбинируется с декодированным спектром; или

- сочетание прогнозируемого спектра и декодированного спектра,

- причем сформированный спектр получается для каждой полосы частот из спектра источника, причем спектр источника представляет собой одно из:

- нулевого спектра, или

- второго спектра прогнозирования, или

- случайного шумового спектра, или

- сочетания уже сформированной части и декодированного спектра (и прогнозируемого спектра),

- сочетания упомянутого,

- при этом по меньшей мере в некоторых случаях источник представляет собой сочетание уже сформированной части и декодированного спектра (и прогнозируемого спектра).

Следует обратить внимание, что спектр источника, согласно дополнительным вариантам осуществления, может взвешиваться на основе энергетических параметров нулевых подполос частот. Вариант выбора спектра источника для подполосы частот зависит от положения подполосы частот, оценки спектра мощности, энергетических параметров, информации основного тона и временной информации.

Согласно вариантам осуществления, число параметров, описывающих спектральное представление (X_MR), может зависеть от квантованного представления (X_Q).

Следует отметить, что, в еще одном другом варианте осуществления, подполосы частот (т.е. границы подполос частот) для iBPC, «декодирования zfl» и «заполнения нулями», могут извлекаться из положений нулевых спектральных коэффициентов в X_D и/или X_Q.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.

Кодированный аудиосигнал согласно изобретению может сохраняться на цифровом носителе данных либо может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, таким образом вариант осуществления способа согласно изобретению представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа выполняется на компьютере.

Следовательно, дополнительный вариант осуществления способов согласно изобретению представляет собой носитель данных (цифровой носитель данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель данных или носитель с записанными данными обычно является материальным и/или постоянным.

Следовательно, дополнительный вариант осуществления способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передачи в приемное устройство (например, электронными или оптическими средствами) компьютерной программы для осуществления одного из способов, описанных в данном документе. Приемное устройство может представлять собой, например, компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система может содержать, например, файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения части или всех из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.

Вышеописанные варианты осуществления являются лишь иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что специалистам в данной области техники должны быть очевидны модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, но не конкретными подробностями, представленными в данном документе в порядке описания и пояснения вариантов осуществления.

Библиографический список

[1] 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Audio codec processing functions; Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec; Transcoding functions (Release 16), номер 26.290. 3GPP, 2020 год.

[2] N. Rettelbach, В. Grill, G. Fuchs, S. Geyrsberger, M. Multrus, H. Popp, J. Herre, S. Wabnik, G. Schuller и J. Hirschfeld "Audio Encoder, Audio Decoder, Methods For Encoding And Decoding An Audio Signal, Audio Stream And Computer Program", PCT/EP2009/0046022009.

[3] S. Disch, M. Gayer, C. Helmrich, G. Markovic и M. Luis Valero "Noise Filling Concept", PCT/EP2014/0516302014.

[4] J. Herre и D. Schultz "Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution", in Audio Engineering Society Convention 104, 1998 год.

[5] F. Nagel, S. Disch и S. Wilde "A continuous modulated single sideband bandwidth extension", in 2010 IEEE International Conference on Acoustics, Speech and Signal Processing, 2010 год, стр. 357-360.

[6] С. Neukam, F. Nagel, G. Schuller и M. Schnabel "A MDCT based harmonic spectral bandwidth extension method", in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, 2013 год, стр. 566-570.

[7] S. Disch, R. Geiger, C. Helmrich, F. Nagel, C. Neukam, K. Schmidt и M. Fischer "Apparatus, Method And Computer Program For Decoding An Encoded Audio Signal", PCT/EP2014/0651182013.

[8] S. Disch, F. Nagel, R. Geiger, B.N. Thoshkahna, K. Schmidt, S. Bayer, C. Neukam, B. Edler и С. Helmrich "Apparatus And Method For Encoding Or Decoding An Audio Signal With Intelligent Gap Filling In The Spectral Domain", PCT/EP2014/0651232013.

[9] S. Disch, F. Nagel, R. Geiger, B.N. Thoshkahna, K. Schmidt, S. Bayer, C. Neukam, B. Edler и С. Helmrich "Apparatus And Method For Encoding And Decoding An Encoded Audio Signal Using Temporal Noise/Patch Shaping", PCT/EP2014/0651232013.

[10] S. Disch, A. Niedermeier, C.R. Helmrich, C. Neukam, K. Schmidt, R. Geiger, J. Lecomte, F. Ghido, F. Nagel и В. Edler "Intelligent Gap Filling in Perceptual Transform Coding of Audio", 2016 год.

[11] S. Disch, S. van de Par, A. Niedermeier, E. Burdiel Perez, A. Berasategui Ceberio и В. Edler "Improved Psychoacoustic Model for Efficient Perceptual Audio Codecs", in Audio Engineering Society Convention 145, 2018 год.

[12] С.R. Helmrich, A. Niedermeier, S. Disch и F. Ghido "Spectral envelope reconstruction via IGF for audio transform coding", in 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015 год, стр. 389-393.

[13] С. Neukam, S. Disch, F. Nagel, A. Niedermeier, K. Schmidt и В. N. Thoshkahna "Apparatus And Method For Decoding And Encoding An Audio Signal Using Adaptive Spectral Tile Selection", PCT/EP2014/0651162013.

[14] A. Niedermeier, C. Ertel, R. Geiger, F. Ghido и С. Helmrich "Apparatus And Method For Decoding Or Encoding An Audio Signal Using Energy Information Values For A Reconstruction Band", PCT/EP2014/0651102013.

[15] S. Disch, B. Schubert, R. Geiger и M. Dietz "Apparatus And Method For Audio Encoding And Decoding Employing Sinusoidal Substitution", PCT/EP2012/0767462012.

[16] S. Disch, B. Schubert, R. Geiger, B. Edler и M. Dietz "Apparatus And Method For Efficient Synthesis Of Sinusoids And Sweeps By Employing Spectral Patterns", PCT/EP2013/0695922013.

[17] M. Dietz, G. Fuchs, C. Helmrich и G. Markovic "Low-Complexity Tonality-Adaptive Audio Signal Quantization", PCT/EP2014/0516242014.

[18] M. Oger, S. Ragot и M. Antonini "Model-based deadzone optimization for stack-run audio coding with uniform scalar guantization", in 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, 2008 год, стр. 4761-4764.

[19] С. Helmrich, J. Lecomte, G. Markovic, M. Schnell, B. Edler и S. Reuschl "Apparatus And Method For Encoding Or Decoding An Audio Signal Using A Transient-Location Dependent Overlap", PCT/EP2014/053293, 2014 год.

[20] 3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Codec for Enhanced Voice Services (EVS); Detailed algorithmic description, номер 26.445. 3GPP, 2019 год.

[21] G. Markovic, E. Ravelli, M. Dietz и В. Grill "Signal Filtering", РСТ/ЕР2018/080837, 2018 год.

[22] E. Ravelli, M. Schnell, C. Benndorf, M. Lutzky и M. Dietz "Apparatus And Method For Encoding And Decoding An Audio Signal Using Downsampling Or Interpolation Of Scale Parameters", патент (США) РСТ/EP2017/078921.

[23] E. Ravelli, M. Schnell, C. Benndorf, M. Lutzky, M. Dietz и S. Korse "Apparatus And Method For Encoding And Decoding An Audio Signal Using Downsampling Or Interpolation Of Scale Parameters", патент (США) РСТ/EP2018/0801372018.

[24] Low Complexity Communication Codec. Bluetooth, 2020 год.

[25] Digital Enhanced Cordless Telecommunications (DECT); Low Complexity Communication Codec plus (LC3plus), номер 103 634. ETSI, 2019 год.

Иллюстрации к изобретению RU 2 834 366 C2

Реферат патента 2025 года ИНТЕГРАЛЬНОЕ ПАРАМЕТРИЧЕСКОЕ АУДИОКОДИРОВАНИЕ ДЛЯ КАЖДОЙ ПОЛОСЫ ЧАСТОТ

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в снижении количества ошибок при параметрическом кодировании. Технический результат достигается за счет этапа, на котором формируют спектр (XG) для получения сформированного спектра (XG), который суммируется с декодированным и деквантованным спектром (XD) или с сочетанием прогнозируемого спектра и декодированного и деквантованного спектра (XDT), при этом сформированный спектр (XG) получается для каждой полосы частот из спектра источника, причем спектр источника представляет собой одно из: второго спектра (XNP) прогнозирования, или случайного шумового спектра (XN), или уже сформированных частей сформированного спектра (XG), или сочетания по меньшей мере двух из них. 3 н. и 6 з.п. ф-лы, 30 ил.

Формула изобретения RU 2 834 366 C2

1. Генератор (158sg) параметрического спектра для каждой полосы частот, выполненный с возможностью формирования спектра (X_G) для получения сформированного спектра (X_G), который суммируется с декодированным и деквантованным спектром (X_D) или с сочетанием прогнозируемого спектра и декодированного и деквантованного спектра (X_DT), при этом сформированный спектр (X_G) получается для каждой полосы частот из спектра источника, причем спектр источника представляет собой одно из:

- второго спектра (X_NP) прогнозирования; или

- случайного шумового спектра (X_N); или

- уже сформированных частей сформированного спектра (X_G); или

- декодированного и деквантованного спектра (X_DT) или сочетания прогнозируемого спектра и декодированного и деквантованного спектра (X_DT); или

- сочетания одного или двух из них,

- при этом по меньшей мере одна подполоса частот получается с использованием уже сформированных частей сформированного спектра (X_G).

2. Генератор (158sg) параметрического спектра для каждой полосы частот по п. 1, в котором спектр источника взвешивается на основе энергетического параметра нулевых подполос частот.

3. Генератор (158sg) параметрического спектра для каждой полосы частот по одному из пп. 1 или 2, в котором спектр источника взвешивается на основе энергетических параметров (E_B) нулевых подполос частот.

4. Генератор (158sg) параметрического спектра для каждой полосы частот по п. 3, в котором вариант (158sc) выбора спектра источника для подполосы частот зависит по меньшей мере от одного из: положения подполосы частот, информации (toi) тональности, оценки (Z_C) спектра мощности, энергетического параметра (E_B), информации (pii) основного тона или временной информации (tei).

5. Генератор (158sg) параметрического спектра для каждой полосы частот по одному из пп. 1 или 4, в котором вариант (158sc) выбора спектра источника для подполосы частот зависит по меньшей мере от одного из: положения подполосы частот, информации (toi) тональности, оценки (Z_C) спектра мощности, энергетического параметра (E_B), информации (pii) основного тона или временной информации (tei).

6. Генератор (158sg) параметрического спектра для каждой полосы частот по п. 5, в котором информация тональности представляет собой φ_H, или информация основного тона представляет собой или временная информация представляет собой информацию в отношении того, является ли TNS активным.

7. Генератор (158sg) параметрического спектра для каждой полосы частот по п. 6, в котором информация тональности представляет собой φ_H, или информация основного тона представляет собой или временная информация представляет собой информацию в отношении того, является ли TNS активным.

8. Способ формирования сформированного спектра для каждой полосы частот, содержащий этап, на котором формируют спектр (X_G) для получения сформированного спектра (X_G), который суммируется с декодированным и деквантованным спектром (X_D) или с сочетанием прогнозируемого спектра и декодированного и деквантованного спектра (X_DT), при этом сформированный спектр (X_G) получается для каждой полосы частот из спектра источника, причем спектр источника представляет собой одно из:

- второго спектра (X_NP) прогнозирования; или

- случайного шумового спектра (X_N); или

- уже сформированных частей сформированного спектра (X_G); или

- сочетания по меньшей мере двух из них.

9. Машиночитаемый цифровой носитель данных, имеющий сохраненную компьютерную программу, имеющую программный код для осуществления способа по п. 8 при ее выполнении на компьютере.

Документы, цитированные в отчете о поиске Патент 2025 года RU2834366C2

Способ приготовления лака	1924	Петров Г.С.	SU2011A1
Способ восстановления спиралей из вольфрамовой проволоки для электрических ламп накаливания, наполненных газом	1924	Вейнрейх А.С. Гладков К.К.	SU2020A1
Токарный резец	1924	Г. Клопшток	SU2016A1
Токарный резец	1924	Г. Клопшток	SU2016A1
КОДИРОВАНИЕ АУДИОСИГНАЛА	2008	Рямё Ансси Лааксонен Лассе Василаке Адриана	RU2428748C2

RU 2 834 366 C2

Авторы

Маркович, Горан

Даты

2025-02-06—Публикация

2022-07-14—Подача

название	год	авторы	номер документа
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ ИМПУЛЬСНЫХ И ОСТАТОЧНЫХ ЧАСТЕЙ ЗВУКОВОГО СИГНАЛА	2022	Маркович, Горан	RU2825308C2
ПРОЦЕССОР ДЛЯ ФОРМИРОВАНИЯ СПЕКТРА ПРОГНОЗИРОВАНИЯ НА ОСНОВЕ ДОЛГОСРОЧНОГО ПРОГНОЗИРОВАНИЯ И/ИЛИ ГАРМОНИЧЕСКОЙ ПОСТФИЛЬТРАЦИИ	2022	Маркович, Горан Эдлер, Бернд Байер, Штефан Кине, Ян Фредерик	RU2826967C2
МАСШТАБИРУЕМОЕ КОДИРОВАНИЕ РЕЧИ И АУДИО С ИСПОЛЬЗОВАНИЕМ КОМБИНАТОРНОГО КОДИРОВАНИЯ MDCT-СПЕКТРА	2008	Резник Юрий Хуан Пэнцзюнь	RU2459282C2
АДАПТИВНОЕ РАСШИРЕНИЕ ПОЛОСЫ ПРОПУСКАНИЯ И УСТРОЙСТВО ДЛЯ ЭТОГО	2014	Гао Ян	RU2641224C2
УСТРОЙСТВО КОДИРОВАНИЯ АУДИОСИГНАЛА, УСТРОЙСТВО ДЕКОДИРОВАНИЯ АУДИОСИГНАЛА, СПОСОБ КОДИРОВАНИЯ АУДИОСИГНАЛА И СПОСОБ ДЕКОДИРОВАНИЯ АУДИОСИГНАЛА	2015	Кавасима Такуя Эхара Хироюки	RU2669706C2
УЛУЧШЕНИЕ КЛАССИФИКАЦИИ МЕЖДУ КОДИРОВАНИЕМ ВО ВРЕМЕННОЙ ОБЛАСТИ И КОДИРОВАНИЕМ В ЧАСТОТНОЙ ОБЛАСТИ	2015	Гао Ян	RU2667382C2
СПОСОБ И УСТРОЙСТВО ЭФФЕКТИВНОЙ МАСКИРОВКИ СТИРАНИЯ КАДРОВ В РЕЧЕВЫХ КОДЕКАХ	2006	Вайанкур Томми Желинек Милан Гурнай Филипп Салами Редван	RU2419891C2
МОДУЛЬ ВЫЧИСЛЕНИЯ И СПОСОБ ДЛЯ ОПРЕДЕЛЕНИЯ ДАННЫХ ФАЗОВОЙ КОРРЕКЦИИ ДЛЯ АУДИОСИГНАЛА	2015	Диш Саша Лайтинен Микко-Вилле Пулкки Вилле	RU2676899C2
КОДИРОВАНИЕ ОБОБЩЕННЫХ АУДИОСИГНАЛОВ НА НИЗКИХ СКОРОСТЯХ ПЕРЕДАЧИ БИТОВ И С НИЗКОЙ ЗАДЕРЖКОЙ	2011	Вайанкур Томми Елинек Милан	RU2596584C2
РЕШЕНИЕ ОТНОСИТЕЛЬНО НАЛИЧИЯ/ОТСУТСТВИЯ ВОКАЛИЗАЦИИ ДЛЯ ОБРАБОТКИ РЕЧИ	2014	Гао Ян	RU2636685C2

ИНТЕГРАЛЬНОЕ ПАРАМЕТРИЧЕСКОЕ АУДИОКОДИРОВАНИЕ ДЛЯ КАЖДОЙ ПОЛОСЫ ЧАСТОТ Российский патент 2025 года по МПК G10L19/02

Описание патента на изобретение RU2834366C2

Похожие патенты RU2834366C2

Иллюстрации к изобретению RU 2 834 366 C2

Реферат патента 2025 года ИНТЕГРАЛЬНОЕ ПАРАМЕТРИЧЕСКОЕ АУДИОКОДИРОВАНИЕ ДЛЯ КАЖДОЙ ПОЛОСЫ ЧАСТОТ

Формула изобретения RU 2 834 366 C2

Документы, цитированные в отчете о поиске Патент 2025 года RU2834366C2

RU 2 834 366 C2