Показать метаданные Скрыть метаданные

(19)

(11)

2 337 414

(13)

(51)

МПК

G10L19/02(2006-01-01)

(21) (22)

Заявка

2006134638/09, 2005-02-17

(24)

Дата начала отсчета патента

2005-02-17

(22)

дата подачи заявки

2005-02-17

(45)

опубликовано

2008-10-27

(72)

авторы

Шуг МихельХильперт ЙоханнесГеиэрсбергер ШтефанНойендорф Макс

(73)

патентообладатели

Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.

(56)

Документы, цитированные в отчете о поиске

US 6636830 А1, 21.10.2003

УСТРОЙСТВО И СПОСОБ ОПРЕДЕЛЕНИЯ ОЦЕНОЧНОГО ЗНАЧЕНИЯ Российский патент 2008 года по МПК G10L19/02

Описание патента на изобретение RU2337414C2

Настоящее изобретение относится к кодеру и к кодированию сигнала, содержащего аудио- и/или видеоинформацию, в частности к оценке потребности в информационных блоках для кодирования этого сигнала.

Ниже представлен известный кодер. На вход 1000 подается подлежащий кодированию аудиосигнал. Он сначала подается на блок 1002 масштабирования, в котором проводится так называемое ААС-управление усилением, чтобы установить уровень аудиосигнала. Информация разностного стереосигнала из блока масштабирования подается на блок 1004 форматирования битового потока, как это показано стрелкой между блоком 1002 и блоком 1004. Масштабированный аудиосигнал подается затем на блок 1006 фильтров модифицированного дискретного косинусного преобразования (МДКТ). В случае ААС-кодера блок фильтров реализует МДКП с перекрывающимися на 50% окнами, причем длина окна определяется посредством блока 1008.

Вообще говоря, блок 1008 применяется для того, чтобы сигналы переходных процессов подвергать взвешиванию с использованием более коротких окон, а более стационарные сигналы - с использованием более длинных окон. Это служит тому, что на основе более коротких окон для сигналов переходных процессов достигается более высокое разрешение по времени (ценой разрешения по частоте), в то время как для более стационарных сигналов за счет более длинных окон достигается более высокое разрешение по частоте (ценой разрешения по времени), причем традиционно более длинные окна считаются более предпочтительными, так как с ними связывается более высокий выигрыш от кодирования. На выходе блока 1006 фильтров, при рассмотрении во временной области, имеются следующие друг за другом блоки спектральных значений, которые, в зависимости от формы выполнения блока фильтров, могут являться коэффициентами МДКП, коэффициентами Фурье или сигналами поддиапазонов, причем каждый сигнал поддиапазона имеет определенную ограниченную ширину полосы, которая устанавливается посредством соответствующего канала поддиапазона в блоке 1006 фильтров, и каждый сигнал поддиапазона имеет определенное число значений выборок поддиапазона.

Ниже для примера представлен случай, в котором блок фильтров выдает, при рассмотрении во времени, следующие друг за другом блоки спектральных коэффициентов МДКП, которые, вообще говоря, представляют следующие друг за другом кратковременные спектры кодируемого аудиосигнала на входе 1000. Блок спектральных значений МДКП вводится затем в блок 1010 обработки, реализующей временное преобразование шумов (TNS). Метод TNS применяется для того, чтобы выполнить формирование временного представления шумов квантователя внутри каждого окна преобразования. Это достигается тем, что применяется процесс фильтрации на частях спектральных данных каждого канала. Кодирование проводится на основе окон. В частности, осуществляются следующие этапы, чтобы механизм TNS применить к окну спектральных данных, то есть к блоку спектральных значений.

Прежде всего выбирается частотный диапазон для механизма TNS. Подходящий выбор состоит в том, чтобы частотный диапазон 1,5 кГц до наивысшего возможного диапазона коэффициентов масштабирования перекрыть одним фильтром. Следует отметить, что этот частотный диапазон зависит от частоты дискретизации, как это определено стандартом AAC (ISO/IEC 14496-3: 2001 (E)).

Затем проводится вычисление на основе кодирования с линейным предсказанием (LPC), а именно со спектральными коэффициентами МДКП, которые лежат в выбранном целевом частотном диапазоне. Для повышенной устойчивости коэффициенты, которые соответствуют частотам ниже 2,5 кГц, исключаются из этого процесса обработки. Обычные процедуры LPC, как это известно из обработки речевых сигналов, могут применяться для вычисления на основе LPC, например известный алгоритм Левинсона-Дарбина. Вычисление выполняется для максимально допустимого порядка фильтра преобразования шумов.

В качестве результата вычисления на основе LPC получают ожидаемый выигрыш предсказания PG. Кроме того, получают коэффициенты отображения или Parcor-коэффициенты.

Если выигрыш предсказания не превышает определенный порог, то механизм TNS не применяется. В этом случае в битовый поток записывается управляющая информация, чтобы в кодере было известно, что обработка на основе механизма TNS не выполнялась.

Однако если выигрыш предсказания превышает определенный порог, то обработка на основе механизма TNS применяется.

На следующем этапе производится квантование коэффициентов отображения. Порядок применяемого фильтра преобразования шумов определяется путем удаления всех коэффициентов отражения с абсолютным значением меньшим, чем порог, из «хвоста» массива коэффициентов отражения. Число оставшихся коэффициентов отображения имеет порядок величины фильтра преобразования шумов. Подходящий порог составляет примерно 0,1.

Оставшиеся коэффициенты отображения преобразуются в типовом случае в коэффициенты линейного предсказания, причем этот метод также известен как процедура ступенчатого увеличения.

Вычисленные коэффициенты линейного предсказания (LPC) применяются затем как коэффициенты фильтра преобразования шумов, таким образом, как коэффициенты фильтра предсказания. Этот FIR-фильтр (с конечным импульсным откликом) проводится через определенный целевой частотный диапазон. При декодировании применяется авторегрессионный фильтр, в то время как при кодировании применяется так называемый фильтр со скользящим средним. Наконец, для механизма TNS на блок форматирования битового потока еще подводится информация разностного стереосигнала, как показано на фиг. 3 стрелкой между блоком 1010 TNS-обработки и блоком 1004 форматирования битового потока.

Затем реализуются непоказанные факультативные механизмы обработки, такие как механизм долговременного прогнозирования, механизм интенсивности/связи, механизм прогнозирования, механизм шумовой подстановки, пока, наконец, обработка не дойдет до кодера 1012 центрального/боковых сигналов. Кодер 1012 центрального/боковых сигналов активизируется в том случае, если кодируемый аудиосигнал представляет собой многоканальный сигнал, то есть стереосигнал с левым каналом и правым каналом. До сих пор, то есть в направлении обработки от блока 1012 на фиг. 3, левый и правый стереоканалы обрабатывались отдельно друг от друга, то есть масштабировались, преобразовывались блоком фильтров, подвергались TNS-обработке или пропускали ее и т.д.

Затем в кодере центрального/боковых сигналов сначала проверяется, целесообразно ли проводить кодирование центрального/боковых сигналов, то есть обеспечивает ли оно вообще выигрыш от кодирования. Кодирование центрального/боковых сигналов обеспечивает выигрыш кодирования в том случае, если левый и правый каналы подобны, так как тогда центральный канал, то есть сумма левого и правого каналов, примерно равен левому или правому каналу, без учета масштабирования посредством коэффициента ½, в то время как разностный стереосигнал имеет всего лишь малые значения, так как равен разности между левым и правым каналом. Тем самым можно видеть, что в том случае, когда левый и правый каналы приближенно одинаковы, разность приближенно равна нулю или имеет очень малые значения, которые, можно надеяться, в последующем квантователе 1014 будут квантованы к нулю и тем самым могут передаваться очень эффективным образом, так как за квантователем 1014 включен энтропийный кодер 1016.

На квантователь 1014 из психоакустической модели 1020 подается разрешенная помеха, приходящаяся на диапазон коэффициентов масштабирования. Квантователь работает итеративным способом, то есть сначала опрашивается внешний итерационный контур, который затем опрашивает внутренний итерационный контур. Вообще говоря, сначала, исходя из величины шага и начальных значений квантователя, предпринимается квантование блока значений на входе квантователя 1014. В частности, внутренний контур квантует коэффициенты МДКП, при этом применяется определенное количество битов. Внешний контур рассчитывает искажения и модифицированную энергию коэффициентов с применением коэффициента масштабирования, чтобы снова обратиться к внутреннему контуру. Этот процесс итеративно повторяется до тех пор, пока не будет выполнено определенное условие. Для каждой итерации во внешнем итерационном контуре при этом реконструируется сигнал, чтобы вычислить помеху, обусловленную квантованием, и сравнить с разрешенной помехой, выдаваемой из психоакустической модели 1020. Кроме того, коэффициенты масштабирования частотных диапазонов увеличиваются от итерации к итерации на одну ступень, а именно для каждой итерации внешнего итерационного контура.

Затем, если достигнута ситуация, при которой помеха квантователя, введенная вследствие квантования, ниже разрешенной помехи, определенной психоакустической моделью, и если одновременно выполняются требования к битам, а именно максимальная скорость битов не превышена, то итерация, то есть способ анализа через синтез, завершается, и полученные коэффициенты масштабирования кодируются, как это выполняется в блоке 1014, и в кодированной форме подаются на блок 1004 форматирования битового потока, как показано стрелкой между блоком 1014 и блоком 1004. Квантованные значения подаются затем на энтропийный кодер 1016, который в типовом случае с применением множества таблиц кодов Хафмана проводит энтропийное кодирование для различных диапазонов коэффициентов масштабирования, чтобы перевести квантованные значения в двоичный формат. Известно, что при энтропийном кодировании в форме кодирования Хафмана осуществляется обращение к кодовым таблицам, которые формируются на основе ожидаемой статистики сигналов, и в которых часто встречающиеся значения становятся более короткими кодовыми словами, чем более редко встречающиеся значения. Энтропийно кодированные значения затем также подаются в качестве собственно основной информации на блок 1004 форматирования битового потока, который затем выдает на выходе кодированный аудиосигнал, соответствующий определенному синтаксису битового потока.

Сокращение данных адудиосигналов является известным методом, который лежит в основе ряда международных стандартов (например, ISO-MPEG-1, MPEG-2 AAC, MPEG-4).

Общим для вышеназванных способов является то, что входной сигнал посредством так называемого кодера с использованием эффектов восприятия (психоакустика, психооптика) приводится в компактное представление на основе сокращенного объема данных. Для этого обычно применяется спектральный анализ сигнала, и соответствующие сигнальные составляющие с учетом модели восприятия квантуются и затем максимально возможным компактным способом кодируются в виде так называемого битового потока.

Чтобы перед собственно квантованием оценить, насколько много битов требуется определенному, подлежащему кодированию фрагменту сигнала, может использоваться так называемая перцептуальная энтропия (РЕ). Параметр РЕ представляет также меру того, насколько затруднительным для кодера является кодирование определенного сигнала или его частей.

Решающим для качества оценки является отклонение РЕ от числа действительно необходимых битов.

Кроме того, перцептуальная энтропия или каждое оценочное значение для потребности в информационных блоках может применяться при кодировании сигнала для того, чтобы оценить, является ли сигнал переходным или стационарным, так как переходные сигналы также требуют для кодирования больше битов, чем стационарные сигналы. Оценка переходного свойства сигнала применяется, например, для того, чтобы выполнить решение относительно длины окна, как это показано блоком 1008 на фиг. 3.

На фиг. 6 представлена перцептуальная энтропия, вычисленная согласно ISO/IEC IS 13818-7 (усовершенствованное аудиокодирование согласно стандарту MPEG-2 (AAC)). Для вычисления этой перцептуальной энтропии, то есть диапазонной перцептуальной энтропии, применяется уравнение, представленное на фиг. 6. В этом уравнении параметр ре обозначает перцептуальную энтропию. Кроме того, параметр width (b) обозначает число спектральных коэффициентов в соответствующем диапазоне b. Кроме того, e(b) обозначает энергию сигнала в этом диапазоне. Наконец, nb(b) обозначает подходящий для этого порог маскирования или, в общем, разрешенную помеху, которая может вводиться в сигнал, например, за счет квантования, чтобы, однако, слушатель не услышал помехи или услышал исчезающее малую помеху.

Диапазоны могут определяться распределением диапазонов психоакустической модели (блок 1020 на фиг. 3), или речь идет о применяемых при квантовании так называемых диапазонах коэффициентов масштабирования (scfb). Психоакустический порог маскирования представляет собой значение энергии, которое не должна превышать ошибка квантования.

Показанное на фиг. 6 представление иллюстрирует, насколько хорошо определенная таким образом перцептуальная энтропия функционирует в качестве оценки для числа битов, необходимых для кодирования. Для этого на примере ААС-кодера при различных битовых скоростях для каждого отдельного блока показана соответствующая перцептуальная энтропия в зависимости от требующихся битов. Применяемый тестовый фрагмент содержит типичную смесь из музыки, разговора и отдельных инструментов.

Идеальным образом, точки должны были бы сконцентрироваться вдоль прямой, проходящей через нулевую точку. Расширение последовательности точек с отклонениями от идеальной линии свидетельствует о неточной оценке.

Недостатком принципа, показанного на фиг. 6, является, таким образом, отклонение, которое выражается в том, что возникает, например, слишком большое значение для перцептуальной энтропии, что, в свою очередь, означает, что квантователю сигнализируется, что применяется больше битов, чем собственно требуется. Это ведет к тому, что квантователь осуществляет квантование с чрезмерно малым шагом квантования, что он, таким образом, не исчерпал меру разрешенной помехи, результатом чего является понижение выигрыша от кодирования. С другой стороны, если значение для перцептуальной энтропии определяется как чрезмерно малое, то квантователю сигнализируется, что для кодирования сигнала применяется меньше битов, чем собственно требуется. Это, в свою очередь, ведет к тому, что квантователь осуществляет квантование с чрезмерно грубым шагом квантования, что могло бы привести к непосредственно прослушиваемой помехе в сигнале, если бы не принимались меры противодействия. Такие меры противодействия могут состоять в том, что квантователь использует еще один или более дополнительных итерационных контуров, что обуславливает увеличение времени вычислений кодера.

Для улучшения вычисления перцептуальной энтропии можно было бы, как показано на фиг. 7, ввести постоянный член, как, например, 1,5, в логарифмическое выражение. Тогда получается уже лучший результат, то есть меньшее отклонение вверх или вниз, хотя еще можно видеть, что учет постоянного члена в логарифмическом выражении приводит к сокращению случаев, когда перцептуальная энтропия сигнализирует о чрезмерно оптимистической потребности в битах. С другой стороны, из фиг. 7 можно четко видеть, что в значительной степени сигнализируется о слишком большом числе битов, что приводит к тому, что квантователь всегда выполняет квантование со слишком малым шагом квантования, то есть принимается большая потребность в битах, чем она есть на самом деле, что вновь приводит к снижению выигрыша от кодирования. Постоянная в логарифмическом выражении представляет грубую оценку битов, необходимых для информации разностного стереосигнала.

Таким образом, добавление члена в логарифмическое выражение обеспечивает улучшение диапазонной перцептуальной энтропии, как это представлено на фиг. 6, так как диапазоны с очень незначительным расстоянием между энергией и порогом маскирования учитываются в большей степени, так как и для передачи квантованных в нуль спектральных коэффициентов требуется определенное количество битов.

Другой, очень затратный с точки зрения времени вычислений, метод вычисления перцептуальной энтропии показан на фиг. 8. На фиг. 8 показан случай, при котором перцептуальная энтропия вычисляется для каждой спектральной линии. Однако недостатком данного метода являются высокие вычислительные затраты. Здесь вместо энергии используются спектральные коэффициенты X(k), причем параметр kOffset(b) обозначает первый индекс диапазона b. Если сравнить фиг. 8 с фиг. 7, то в диапазоне от 2000 до 3000 битов отчетливо видно сокращение «выбросов» вверх. Оценка РЕ будет при этом точнее, то есть не будет оцениваться слишком пессимистично, а скорее будет соответствовать оптимуму, так что выигрыш от кодирования по сравнению со способами вычисления, иллюстрируемыми на фиг. 6 и 7, может повыситься, или число итераций в квантователе может уменьшиться.

Недостатком вычисления по линиям перцептуальной энтропии является, однако, время вычислений, требуемое, чтобы оценить показанное на фиг. 8 уравнение.

Такие недостатки, связанные с временем вычисления, не играют, решающей роли, если кодер реализуется на высокопроизводительном персональном компьютере или высокопроизводительной рабочей станции. Однако совсем по другому это представляется в том случае, когда кодер находится в портативном приборе, например телефонной трубке системы UMTS, который должен, с одной стороны, быть малогабаритным и дешевым и, с другой стороны, должен иметь низкое потребление тока, и который также должен работать с высоким быстродействием, чтобы обеспечить возможность кодирования аудиосигналов и видеосигналов, передаваемых по соединению стандарта UMTS.

Задача настоящего изобретения заключается в том, чтобы создать эффективный и вместе с том точный принцип определения оценочного значения для потребности в информационных блоках для кодирования сигнала.

Эта задача в соответствии с изобретением решается устройством согласно пункту 1 формулы изобретения, способом согласно пункту 12 формулы изобретения или компьютерной программой согласно пункту 13 формулы изобретения.

В основе изобретения лежит знание того, что при вычислении для каждого частотного диапазона оценочного значения для потребности в информационных блоках из соображений, связанных с временем вычисления, следует придерживаться того, что для получения точного определения оценочного значения должно учитываться распределение энергии в частотном диапазоне, для которого должны проводиться диапазонные вычисления.

Тем самым, до известной степени, неявным образом следующий за квантователем энтропийный кодер «включается» в определение оценочного значения для потребности в информационных блоках. Энтропийное кодирование обеспечивает, в частности, возможность того, что для передачи меньших спектральных значений требуется меньшее число битов, чем для передачи больших спектральных значений. Особенно эффективным энтропийный кодер является в тех случаях, когда могут передаваться квантованные в нуль спектральные значения. Так как они в типовом случае появляются чаще всего, то кодовое слово для передачи квантованной в нуль спектральной линии является самым коротким кодовым словом, а кодовое слово для передачи все больших квантованных спектральных линий является все более длинным. Помимо этого, для обеспечения особенно эффективного принципа, для передачи последовательности квантованных в нуль спектральных значений можно даже прибегнуть к кодированию длин последовательностей, следствием чего является то, что в случае последовательности нулей, приходящейся на квантованное в нуль спектральное значение, в среднем зачастую требуется один единственный бит.

Было найдено, что применение известного из уровня техники диапазонного вычисления перцептуальной энтропии для определения оценочного значения для потребности в информационных блоках полностью не учитывает подключенный далее энтропийный кодер, если распределение энергии в частотном диапазоне отклоняется от полностью равномерного распределения.

В соответствии с изобретением, таким образом, для сокращения неточностей диапазонного вычисления принимается во внимание, каким образом распределена энергия в пределах диапазона.

В зависимости от реализации, мера для распределения энергии в частотном диапазоне может определяться на основе действительных амплитуд или путем оценки частотных линий, которые не квантуются в нуль посредством квантователя. Эта мера, которая также обозначается как "nl", где nl - число активных линий, то есть соответствует количеству активных спектральных линий, является предпочтительной ввиду обеспечиваемой эффективности по затратам времени на вычисления. Однако также может учитываться число квантуемых в нуль спектральных линий или более точное подразделение, причем эта оценка становится тем более точной, чем больше информации подключенного далее энтропийного кодера принимается во внимание. Если энтропийный кодер строится на основе кодовых таблиц Хафмана, то свойства этих кодовых таблиц могут включаться особенно эффективным образом, так как кодовые таблицы вычисляются не на основе сигнальной статистики в известной степени оперативным способом, а потому, что кодовые таблицы и без того определяются независимо от фактического сигнала.

В зависимости от ограничений по времени вычислений, в случае особенно эффективного вычисления, получение меры распределения энергии в частотном диапазоне проводится через определение оставшихся после квантования спектральных линий, то есть количества активных линий.

Настоящее изобретение является предпочтительным в том смысле, что определяется оценочное значение для потребности в информационном содержании, которое, с одной стороны, является более точным, а с другой стороны, более эффективным, чем согласно предшествующему уровню техники.

Кроме того, заявленное изобретение является масштабируемым для различных применений, так как, в зависимости от желательной точности оценочного значения, больше свойств энтропийного кодера, однако ценой увеличения времени вычислений, может включаться в оценку потребности в битах.

Предпочтительные примеры выполнения заявленного изобретения далее поясняются более подробно со ссылками на чертежи, на которых представлено следующее:

Фиг. 1 - блок-схема соответствующего изобретению устройства для определения оценочного значения;

Фиг. 2а - предпочтительная форма выполнения устройства для вычисления меры распределения энергии в частотном диапазоне;

Фиг. 2b - предпочтительная форма выполнения устройства для вычисления оценочного значения для потребности в битах;

Фиг. 3 - блок-схема известного аудиокодера;

Фиг. 4 - принципиальное представление для пояснения влияния распределения энергии внутри диапазона на определение оценочного значения;

Фиг. 5 - диаграмма для вычисления оценочного значения согласно заявленному изобретению;

Фиг. 6 - диаграмма для вычисления оценочного значения согласно ISO/IEC IS 13818-7(ACC);

Фиг. 7 - диаграмма для вычисления оценочного значения с постоянным членом;

Фиг. 8 - диаграмма для вычисления оценочного значения с постоянным членом по каждой спектральной линии.

Далее со ссылкой на фиг. 1 описывается соответствующее изобретению устройство для определения оценочного значения для потребности в информационных блоках для кодирования сигнала. Сигнал, который может представлять собой аудио- и/или видеосигнал, вводится через вход 100. Предпочтительным образом, сигнал имеется уже в виде спектрального представления со спектральными значениями. Однако это не является обязательно необходимым, так как за счет соответствующей, например полосовой, фильтрации могут проводится также соответствующие вычисления с временным сигналом.

Сигнал подается на устройство 102 для выработки меры разрешенной помехи для частотного диапазона сигнала. Разрешенная помеха может определяться, например, посредством психоакустической модели, как это поясняется с помощью фиг. 3 (блок 1020). Устройство 102, кроме того, действует для того, чтобы выработать меру для энергии сигнала в частотном диапазоне. Предпосылка для диапазонного вычисления заключается в том, что частотный диапазон, для которого указывается разрешенная помеха или энергия сигнала, содержит, по меньшей мере, две или более спектральные линии спектрального представления сигнала. В случае типовых стандартизованных кодеров частотным диапазоном будет, предпочтительно, диапазон коэффициентов масштабирования, так как оценка потребности в битах требуется непосредственно квантователем, чтобы установить, выполняет осуществляемое квантование некоторый критерий в отношении битов или нет.

Устройство 102 выполнено таким образом, чтобы как разрешенную помеху nb(b), так и энергию сигнала e(b) в диапазоне подать на устройство 104 для вычисления оценочного значения для потребности в битах.

В соответствии с изобретением устройство 104 для вычисления оценочного значения для потребности в битах выполнено таким образом, чтобы, наряду с разрешенной помехой и энергией сигнала, принять во внимание меру nl(b) для распределения энергии в частотном диапазоне, причем распределение энергии в частотном диапазоне отклоняется от полностью равномерного распределения. Мера для распределения энергии вычисляется в устройстве 106, причем устройству 106 требуется, по меньшей мере, один диапазон, а именно рассматриваемый частотный диапазон аудио- или видеосигнала либо как полосовой сигнал, либо непосредственно как последовательность спектральных линий, чтобы например, иметь возможность выполнить спектральный анализ диапазона, чтобы получить меру для распределения энергий в частотном диапазоне.

Разумеется, аудио- или видеосигнал устройства 106 может подаваться как временной сигнал, причем устройство 106 тогда проводит полосовую фильтрацию, а также анализ в соответствующем частотном диапазоне. Альтернативно, аудио- или видеосигнал, который подается на устройство 106, может уже быть представлен в частотном диапазоне как, например, коэффициенты МДКП, или как полосовой сигнал в блоке фильтров с меньшим, по сравнению с блоком фильтров МДКП, числом полосовых фильтров.

В предпочтительном примере выполнения устройство 106 выполнено с возможностью вычисления таким образом, чтобы для вычисления оценочного значения учитывать реальные вклады, вносимые спектральными значениями в частотном диапазоне.

Кроме того, устройство для вычисления меры для распределения энергии может быть выполнено таким образом, чтобы в качестве меры для распределения энергии определять число спектральных значений, вносимый вклад которых больше или равен предварительно определенному пороговому значению вклада, или вносимый вклад которых меньше или равен пороговому значению вклада, причем пороговое значение вклада предпочтительно представляет собой оценку шага квантователя, который в квантователе обуславливает то, что значения, меньшие или равные шагу квантователя, квантуются в нуль. В этом случае мера для энергии равна числу активных линий, то есть числу линий, которые остались после квантования или которые не равны нулю.

На фиг. 2а показан предпочтительный пример выполнения устройства 106 для вычисления меры для распределения энергии в частотном диапазоне. Мера для распределения энергии в частотном диапазоне обозначена на фиг. 2а как nl(n). Коэффициент формы ffac(b) уже является мерой для распределения энергии в частотном диапазоне. Как это видно из блока 106, мера спектрального распределения nl определяется из коэффициента формы ffac(b) путем взвешивания корнем четвертой степени из энергии сигнала e(b), деленной на ширину диапазона width(b), или числом линий в диапазоне b коэффициентов масштабирования. В этой связи следует отметить, что коэффициент формы также является примером для величины, которая указывает меру для распределения энергий, в то время как параметр nl(b), в противоположность этому, является примером величины, которая представляет оценочное значение для числа линий, релевантных для квантования.

Коэффициент формы ffac(b) вычисляется посредством формирования вклада спектральной линии и последующего формирования корня из этой спектральной линии с последующим суммированием корней из вкладов спектральных линий в диапазоне.

На фиг. 2b показана предпочтительная форма выполнения устройства 104 для вычисления оценочного значения ре, причем на фиг. 2b еще проводится отличие случая, когда логарифм по основанию 2 отношения энергии к разрешенной помехе больше, чем постоянный коэффициент c1, и или равен постоянному коэффициенту. В этом случае применяется альтернативный вариант, показанный сверху в блоке 104, то есть мера для спектрального распределения nl перемножается с логарифмическим выражением.

Если, напротив, устанавливается, что логарифм по основанию 2 отношения энергии к разрешенной помехе меньше, чем постоянный коэффициент c1, то применяется альтернативный вариант, показанный снизу в блоке 104, который дополнительно еще содержит аддитивную постоянную с2, а также мультипликативную постоянную с3, которая вычисляется из постоянных с2 и с1.

Далее, со ссылками на фиг. 4а и 4b представлен принцип, соответствующий изобретению. Так на фиг. 4а показан диапазон, в котором имеются четыре спектральные линии, которые все имеют одинаковую величину. Энергия в этом диапазоне, таким образом, равномерно распределена по диапазону. Напротив, фиг. 4b иллюстрирует ситуацию, когда энергия в диапазоне сосредоточена на одной спектральной линии, в то время как другие три спектральные линии равны нулю. Показанный на фиг. 4b диапазон мог бы, например, иметь место перед квантованием или мог бы быть получен после квантования, когда установленные в нуль на фиг. 4b спектральные линии перед квантованием меньше, чем первый шаг квантования, и поэтому устанавливаются квантователем в нуль, то есть «не выживают» после квантования.

Число активных линий на фиг. 4b, таким образом, равно 1, причем параметр nl на фиг. 4b вычисляется как квадратный корень из 2. Напротив, значение nl, то есть мера для спектрального распределения энергии на фиг. 4а, вычисляется как 4. Это означает, что спектральное распределение энергии является более равномерным, если мера для распределения спектральной энергии больше по величине.

Следует отметить, что диапазонное вычисление перцептуальной энтропии, согласно уровню техники, не устанавливает различия между этими обоими случаями. В частности, не устанавливается никакого различия, если в обоих диапазонах, как показано на фиг. 4а и фиг. 4b, имеется одна и та же энергия.

Однако очевидно, что показанный на фиг. 4b случай может кодироваться с учетом только одной релевантной линии с использованием меньшего числа битов, так как три установленные в нуль спектральные линии могут передаваться очень эффективным образом. Вообще говоря, более простая квантуемость для случая, показанного на фиг. 4b, основывается на том факте, что после квантования и кодирования без потерь меньшие значения и, в частности, квантованные в нуль значения требуют для передачи меньшего числа битов.

Таким образом, в соответствии с изобретением учитывается, каким образом энергия распределена внутри диапазона. Это осуществляется, как изложено выше, путем замены числа линий, приходящихся на диапазон, в известном уравнении (фиг. 6) оценкой числа линий, которые не равны нулю после квантования. Эта оценка представлена на фиг. 2а.

Кроме того, следует отметить, что показанный на фиг. 2а коэффициент формы необходим и в другом месте в кодере, например в блоке квантования 1014, для определения величины шага квантования. Затем, когда коэффициент формы уже вычислен в другом месте, он не должен вновь вычисляться для оценки битов, так что принцип, соответствующий изобретению, для улучшенной оценки меры для требуемого числа битов реализуется с минимальными дополнительными затратами на вычисления.

Как уже изложено выше, в случае X(k) речь идет о спектральных коэффициентах, которые позже должны квантоваться, в то время как переменная kOffset(b) обозначает первый индекс в диапазоне b.

Как можно видеть из фиг. 4А и 4b, спектр на фиг. 4а дает значение nl=4, в то время как спектр на фиг. 4b дает значение 1,41. С помощью коэффициента формы, таким образом, обеспечивается мера для характеристики спектральной структуры поля в соответствующем диапазоне.

Новая формула для вычисления улучшенной диапазонной перцептуальной энтропии базируется, таким образом, на перемножении меры спектрального распределения энергии и логарифмического выражения, при этом сигнальная энергия e(b) указывается в числителе, а разрешенная помеха - в знаменателе, причем в зависимости от потребности, в логарифм может вводиться дополнительный член, как это представлено на фиг. 7. Этот член может быть равен, например, 1,5, но может также быть установлен в нуль, как в случае на фиг. 4b, причем это может определяться, например, эмпирически.

Здесь еще раз следует сослаться на фиг.5, на которой иллюстрируется вычисленная в соответствии с изобретением перцептуальная энтропия, а именно представленная соответственно требуемым битам. Можно явно видеть более высокую точность оценки по сравнению со сравнительными примерами на фиг. 6, 7 и 8. Также, по сравнению с вычислением по спектральным линиям, сокращается соответствующее изобретению модифицированное диапазонное вычисление, по меньшей мере, на ту же величину.

В зависимости от конкретных условий применения соответствующий изобретению способ может быть реализован аппаратными средствами или программным обеспечением. Реализация может осуществляться на цифровом носителе для хранения данных, например на дискете или на компакт-диске (CD) с электронным способом считываемыми управляющими сигналами, которые могут взаимодействовать с программируемой компьютерной системой таким образом, чтобы выполнить способ. Таким образом, изобретение также относится к компьютерному программному продукту с сохраненным на машиночитаемом носителе программным кодом для выполнения соответствующего изобретению способа, если компьютерный программный продукт выполняется на вычислительном устройстве. Иными словами, изобретение также может быть реализовано как компьютерная программа с программным кодом для выполнения способа, когда компьютерная программа выполняется на компьютере.

Иллюстрации к изобретению RU 2 337 414 C2

Реферат патента 2008 года УСТРОЙСТВО И СПОСОБ ОПРЕДЕЛЕНИЯ ОЦЕНОЧНОГО ЗНАЧЕНИЯ

Изобретение относится к кодеру и к кодированию сигнала, содержащего аудио- и/или видеоинформацию, в частности к оценке потребности в информационных блоках для кодирования этого сигнала. Для определения оценочного значения для потребности в информационных блоках для кодирования сигнала, наряду с разрешенной помехой для частотного диапазона и энергией частотного диапазона, дополнительно учитывается мера nl(b)) для распределения энергии в частотном диапазоне. Технический результат при реализации изобретения достигается за счет того, что обеспечивается получение лучшего оценочного значения для потребности в информационных блоках, что позволяет выполнять кодирование более эффективно и более точно. 3 н. и 8 з.п. ф-лы, 8 ил.

Формула изобретения RU 2 337 414 C2

1. Устройство для определения оценочного значения (ре) для потребности в информационных блоках для кодирования сигнала, который содержит аудио- или видеоинформацию, причем сигнал содержит множество частотных диапазонов, содержащее

средство (102) для выработки меры (nb(b)) для разрешенной помехи для частотного диапазона (b) сигнала, причем частотный диапазон (b) содержит, по меньшей мере, два спектральных значения спектрального представления сигнала, и меры (е(b)) для энергии сигнала в частотном диапазоне;

средство (106) для вычисления меры (nl(b)) для распределения энергии (е(b)) в частотном диапазоне (b), причем распределение энергии в частотном диапазоне отклоняется от полностью равномерного распределения,

причем средство (106) для вычисления меры (nl(b)) для распределения энергии (е(b)) выполнено с возможностью определения, в качестве меры для распределения энергии, оценочного значения для числа спектральных значений, величины которых больше или равны предварительно определенному пороговому значению величины, или величины которых меньше или равны пороговому значению величины, причем пороговое значение величины является точной или оцененной величиной шага квантователя, которая в квантователе (1014) ведет к тому, что значения, меньшие или равные величине шага квантователя, квантуются в значение, равное нулю; и

средство (104) для вычисления оценочного значения (ре) с использованием меры (nb(b)) для помехи и меры для энергии, подаваемыми средством (102) для выработки меры (nb(b)) для разрешенной помехи и меры (е(b)) для энергии сигнала в частотном диапазоне, и меры для распределения энергии, подаваемой средством (106) для вычисления меры (nl(b)) для распределения энергии (е(b)).

2. Устройство по п.1, в котором средство (106) для вычисления выполнено таким образом, чтобы при вычислении меры для распределения энергии учитывать величины спектральных значений в частотном диапазоне.

3. Устройство по п.1 или 2, в котором средство (106) для вычисления выполнено с возможностью вычисления коэффициента формы ffac(b), который определяется следующей формулой:

где X(k) - спектральное значение для частотного индекса k, kOffset - первое спектральное значение в диапазоне b, и ffac(b) - коэффициент формы для диапазона b.

4. Устройство по п.1 или 2, в котором средство (106) для вычисления выполнено таким образом, чтобы учитывать корень четвертой степени из отношения энергии в частотном диапазоне к ширине частотного диапазона или числу спектральных значений в частотном диапазоне.

5. Устройство по п.1 или 2, в котором средство (106) для вычисления выполнено с возможностью вычисления меры распределения энергии по следующей формуле:

где Х(к) - спектральное значение для частотного индекса k, kOffset - первое спектральное значение в диапазоне b, ffac(b) - коэффициент формы, nl(b) - мера распределения энергии в диапазоне b, е(b) - сигнальная энергия в диапазоне b, width(b) - ширина диапазона.

6. Устройство по п.1 или 2, в котором средство (104) для вычисления оценочного значения выполнено таким образом, чтобы использовать отношение энергии в частотном диапазоне к помехе в частотном диапазоне.

7. Устройство по п.1 или 2, в котором средство (104) для вычисления оценочного значения выполнено с возможностью вычисления оценочного значения с применением следующего выражения:

8. Устройство по п.1 или 2, в котором средство (104) для вычисления оценочного значения выполнено с возможностью вычисления оценочного значения с применением следующего выражения:

где

и где

где ре - оценочное значение, nl(b) - мера распределения энергии в диапазоне b, е(b) - энергия сигнала в диапазоне b, nb(b) - разрешенная помеха в диапазоне b, s - аддитивный член, который предпочтительно равен 1,5, Х(k) - спектральное значение для частотного индекса k, kOffset - первое спектральное значение в диапазоне b, ffac(b) - коэффициент формы, width(b) - ширина диапазона.

9. Устройство по п.1 или 2, в котором сигнал задан как спектральное представление со спектральными значениями.

10. Способ определения оценочного значения для потребности в информационных блоках для кодирования сигнала, который содержит аудио- или видеоинформацию, причем сигнал содержит множество частотных диапазонов, содержащий следующие этапы:

выработка (102) меры (nb(b)) для разрешенной помехи для частотного диапазона (b) сигнала, причем частотный диапазон содержит, по меньшей мере, два спектральных значения спектрального представления сигнала, и меры (е(b)) для энергии сигнала в частотном диапазоне (b);

вычисление (106) меры (nl(b)) для распределения энергии в частотном диапазоне (b), причем распределение энергии в частотном диапазоне отклоняется от полностью равномерного распределения, причем в качестве меры (nl(b)) для распределения энергии определяется оценочное значение для числа спектральных значений, величины которых больше или равны предварительно определенному пороговому значению величины, или величины которых меньше или равны пороговому значению величины, причем пороговое значение величины является точной или оцененной величиной шага квантователя, которая в квантователе (1014) ведет к тому, что значения, меньшие или равные величине шага квантователя, квантуются в значение, равное нулю; и

вычисление (104) оценочного значения (ре) с применением меры (nb(b)) для помехи, меры (е(b)) для энергии и меры (nl(b)) для распределения энергии.

11. Машиночитаемый носитель, предназначенный для взаимодействия с программируемой компьютерной системой под действием считываемых управляющих сигналов в форме программного кода, сохраненного на машиночитаемом носителе, для определения оценочного значения для потребности в информационных блоках для кодирования сигнала с использованием способа по п.10.

Документы, цитированные в отчете о поиске Патент 2008 года RU2337414C2

Аппарат для очищения воды при помощи химических реактивов	1917	Гордон И.Д.	SU2A1
US 6636830 А1, 21.10.2003
СПОСОБ И УСТРОЙСТВО ДЛЯ КОДИРОВАНИЯ ЗВУКОВЫХ СИГНАЛОВ	1996	Бернхард Грилль Карлхайнц Бранденбург Дитер Зайтцер	RU2158478C2
Регулятор расхода	1972	Раутенштейн Владимир Яковлевич Потепалов Юрий Николаевич	SU446037A1

RU 2 337 414 C2

Авторы

Шуг Михель

Хильперт Йоханнес

Геиэрсбергер Штефан

Нойендорф Макс

Даты

2008-10-27—Публикация

2005-02-17—Подача

название	год	авторы	номер документа
УСТРОЙСТВО И СПОСОБ ОПРЕДЕЛЕНИЯ ВЕЛИЧИНЫ ШАГА КВАНТОВАТЕЛЯ	2005	Грилл Бернхард Шуг Михель Тайхманн Бодо Реттельбах Николаус	RU2329549C2
СПОСОБ ОБРАБОТКИ ЗВУКОВОГО СИГНАЛА	2011	Поров Антон Викторович Осипов Константин Сергеевич Чу Кихьюн	RU2464649C1
ПЕРЕДАТЧИК СИГНАЛА АКТИВАЦИИ С ДЕФОРМАЦИЕЙ ПО ВРЕМЕНИ, КОДЕР ЗВУКОВОГО СИГНАЛА, СПОСОБ ПРЕОБРАЗОВАНИЯ СИГНАЛА АКТИВАЦИИ С ДЕФОРМАЦИЕЙ ПО ВРЕМЕНИ, СПОСОБ КОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ	2009	Фухс Гильом Баер Стефан Диш Саша Гейгер Ральф Нуендорф Макс Шуллер Геральд Эдлер Бернд	RU2536679C2
ПЕРЕДАТЧИК СИГНАЛА АКТИВАЦИИ С ДЕФОРМАЦИЕЙ ПО ВРЕМЕНИ, КОДЕР ЗВУКОВОГО СИГНАЛА, СПОСОБ ПРЕОБРАЗОВАНИЯ СИГНАЛА АКТИВАЦИИ С ДЕФОРМАЦИЕЙ ПО ВРЕМЕНИ, СПОСОБ КОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ	2012	Фухс Гильом Баер Стефан Диш Саша Гейгер Ральф Нуендорф Макс Шуллер Геральд Эдлер Бернд	RU2580096C2
УСТРОЙСТВО И СПОСОБ ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ АУДИОСИГНАЛА С ИСПОЛЬЗОВАНИЕМ ПОНИЖАЮЩЕЙ ДИСКРЕТИЗАЦИИ ИЛИ ИНТЕРПОЛЯЦИИ МАСШТАБНЫХ ПАРАМЕТРОВ	2018	Равелли, Эммануэль Шнелль, Маркус Бенндорф, Конрад Лутцки, Манфред Дитц, Мартин Корсе, Срикантх	RU2762301C2
ПЕРЕДАТЧИК СИГНАЛА АКТИВАЦИИ С ДЕФОРМАЦИЕЙ ПО ВРЕМЕНИ, КОДЕР ЗВУКОВОГО СИГНАЛА, СПОСОБ ПРЕОБРАЗОВАНИЯ СИГНАЛА АКТИВАЦИИ С ДЕФОРМАЦИЕЙ ПО ВРЕМЕНИ, СПОСОБ КОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ	2009	Фухс Гильом Баер Стефан Диш Саша Гейгер Ральф Нуендорф Макс Шуллер Геральд Эдлер Бернд	RU2589309C2
ПЕРЕДАТЧИК СИГНАЛА АКТИВАЦИИ С ДЕФОРМАЦИЕЙ ПО ВРЕМЕНИ, КОДЕР ЗВУКОВОГО СИГНАЛА, СПОСОБ ПРЕОБРАЗОВАНИЯ СИГНАЛА АКТИВАЦИИ С ДЕФОРМАЦИЕЙ ПО ВРЕМЕНИ, СПОСОБ КОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ	2012	Фухс Гильом Баер Стефан Диш Саша Гейгер Ральф Нуендорф Макс Шуллер Геральд Эдлер Бернд	RU2586843C2
ПЕРЕДАТЧИК СИГНАЛА АКТИВАЦИИ С ДЕФОРМАЦИЕЙ ПО ВРЕМЕНИ, КОДЕР ЗВУКОВОГО СИГНАЛА, СПОСОБ ПРЕОБРАЗОВАНИЯ СИГНАЛА АКТИВАЦИИ С ДЕФОРМАЦИЕЙ ПО ВРЕМЕНИ, СПОСОБ КОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ	2009	Фухс Гильом Баер Стефан Диш Саша Гейгер Ральф Нуендорф Макс Шуллер Геральд Эдлер Бернд	RU2621965C2
УСТРОЙСТВО И СПОСОБ ОБРАБОТКИ МНОГОКАНАЛЬНОГО СИГНАЛА	2005	Херре Юрген Шуг Михель Грешль Александр	RU2332727C2
РЕГУЛИРОВКА УРОВНЯ ВО ВРЕМЕННОЙ ОБЛАСТИ ДЛЯ ДЕКОДИРОВАНИЯ ИЛИ КОДИРОВАНИЯ АУДИОСИГНАЛОВ	2014	Шрайнер Штефан Борзум Арне Нойзингер Маттиас Яндер Мануэль Ловассер Маркус Нойгебауэр Бернхард	RU2608878C1