Подробное описание изобретения
Настоящее изобретение относится к кодированию/декодированию аудио и, в частности, к кодированию аудио с использованием интеллектуального заполнения интервалов (IGF).
Кодирование аудио представляет собой область сжатия сигналов, которая связана с использованием избыточности и нерелевантности в аудиосигналах с использованием психоакустических сведений. На сегодняшний день аудиокодекам типично требуется приблизительно 60 Кбит/с/канал для перцепционно прозрачного кодирования практически любого типа аудиосигнала. Более новые кодеки нацелены на уменьшение скорости передачи битов при кодировании посредством использования спектральных подобий в сигнале с использованием таких технологий, как расширение полосы пропускания (BWE). BWE-схема использует набор параметров для низкой скорости передачи битов, чтобы представлять высокочастотные (HF) компоненты аудиосигнала. HF-спектр заполнен спектральным содержимым из низкочастотных (LF) областей, и спектральная форма, наклон и временная непрерывность регулируются для того, чтобы поддерживать тембр и цвет исходного сигнала. Такие BWE-способы позволяют аудиокодекам сохранять хорошее качество даже на низких скоростях передачи битов приблизительно в 24 Кбит/с/канал.
Изобретаемая система кодирования аудио эффективно кодирует произвольные аудиосигналы в широком диапазоне скоростей передачи битов. При том, что для высоких скоростей передачи битов изобретаемая система стремится к прозрачности, для низких скоростей передачи битов минимизируется перцепционное раздражение. Следовательно, основная доля доступной скорости передачи битов используется для того, чтобы кодировать на основе формы сигналов только перцепционно наиболее релевантную структуру сигнала в кодере, и результирующие интервалы отсутствия сигнала в спектре заполняются в декодере контентом сигнала, который примерно аппроксимирует исходный спектр. Очень ограниченный битовый бюджет расходуется для того, чтобы управлять так называемым интеллектуальным заполнением интервалов отсутствия сигнала (IGF) в спектре на основе параметров посредством выделенной вспомогательной информации, передаваемой из кодера в декодер.
Хранение или передача аудиосигналов зачастую подчиняются строгим ограничениям скорости передачи битов. В прошлом, кодеры принудительно существенно уменьшали полосу пропускания передаваемого аудиосигнала, когда была доступна только очень низкая скорость передачи битов.
Современные аудиокодеки в наше время могут кодировать широкополосные сигналы посредством использования способов расширения полосы пропускания (BWE)[1]. Эти алгоритмы основываются на параметрическом представлении высокочастотного содержимого (HF), который формируется из кодированной на основе формы сигналов низкочастотной части (LF) декодированного сигнала, посредством транспозиции в спектральную HF-область ("наложения") и применения постобработки на основе параметров. В BWE-схемах, восстановление спектральной HF-области выше данной так называемой частоты разделения зачастую основано на спектральном наложении. Типично, HF-область состоит из нескольких смежных наложений, и каждое из этих наложений получается из полосовых (BP) областей LF-спектра ниже данной частоты разделения. Системы предшествующего уровня техники эффективно выполняют наложение в представлении на основе гребенки фильтров, например, гребенки квадратурных зеркальных фильтров (QMF), посредством копирования набора смежных подполосных коэффициентов из исходной в целевую область.
Еще одна технология, разработанная в современных аудиокодеках, которая повышает эффективность сжатия и за счет этого обеспечивает расширенную полосу пропускания аудиосигнала на низких скоростях передачи битов, представляет собой синтетическую замену на основе параметров подходящих частей спектров звука. Например, шумоподобные части сигнала исходного аудиосигнала могут быть заменены без существенных потерь субъективного качества посредством искусственного шума, сформированного в декодере, и масштабированы посредством параметров вспомогательной информации. Один пример представляет собой инструментальное средство для перцепционного замещения шума (PNS), содержащееся в усовершенствованном кодировании аудио (AAC) на основе MPEG-4 [5].
Дополнительная мера, которая также обеспечивает расширенную полосу пропускания аудиосигнала на низких скоростях передачи битов, представляет собой технологию заполнения шумом, содержащуюся в стандартизированном кодировании речи и аудио (USAC) на основе MPEG-D [7]. Интервалы отсутствия сигнала в спектре (нули), которые логически выводятся посредством мертвой зоны квантователя вследствие слишком приблизительного квантования, затем заполняются искусственным шумом в декодере и масштабируются посредством постобработки на основе параметров.
Другая система предшествующего уровня техники называется "точной спектральной заменой (ASR)" [2-4]. В дополнение к кодеку на основе формы сигналов, ASR использует выделенную стадию синтеза сигналов, которая восстанавливает перцепционно важные синусоидальные части сигнала в декодере. Кроме того, система, описанная в [5], основывается на синусоидальном моделировании в HF-области кодера на основе формы сигналов, чтобы обеспечивать расширенную полосу пропускания аудиосигнала, имеющую неплохое перцепционное качество на низких скоростях передачи битов. Все эти способы заключают в себе преобразование данных во второй области, отличное от модифицированного дискретного косинусного преобразования (MDCT), а также довольно комплексные стадии анализа/синтеза для сохранения синусоидальных HF-компонентов.
Фиг. 13a иллюстрирует принципиальную схему аудиокодера для технологии расширения полосы пропускания, например, используемой при высокоэффективном усовершенствованном кодировании аудио (HE-AAC). Аудиосигнал в линии 1300 вводится в систему фильтров, состоящую из нижних частот 1302 и верхних частот 1304. Сигнал, выводимый посредством фильтра 1304 верхних частот, вводится в модуль 1306 извлечения/кодирования параметров. Модуль 1306 извлечения/кодирования параметров выполнен с возможностью вычисления и кодирования параметров, таких как, например, параметр спектральной огибающей, параметр добавления шума, параметр пропущенных гармоник или параметр обратной фильтрации. Эти извлеченные параметры вводятся в мультиплексор 1308 потоков битов. Выходной сигнал нижних частот вводится в процессор, типично содержащий функциональность модуля 1310 понижающей дискретизации и базового кодера 1312. Нижние частоты 1302 ограничивают полосу пропускания, которая должна кодироваться, значительно меньшей полосой пропускания, чем возникающая исходном входном аудиосигнале на линии 1300. Это предоставляет значительное усиление при кодировании вследствие того факта, что полные функциональности, осуществляемые в базовом кодере, должны работать только для сигнала с уменьшенной полосой пропускания. Когда, например, полоса пропускания аудиосигнала на линии 1300 составляет 20 кГц, и когда фильтр 1302 нижних частот примерно имеет полосу пропускания в 4 кГц, чтобы удовлетворять теореме дискретизации, теоретически достаточно того, что сигнал после модуля понижающей дискретизации имеет частоту дискретизации в 8 кГц, что является существенным уменьшением по сравнению с частотой дискретизации, требуемой для аудиосигнала 1300, которая должна составлять, по меньшей мере, 40 кГц.
Фиг. 13b иллюстрирует принципиальную схему соответствующего декодера расширения полосы пропускания. Декодер содержит мультиплексор 1320 потоков битов. Демультиплексор 1320 потоков битов извлекает входной сигнал для базового декодера 1322 и входной сигнал для декодера 1324 параметров. Выходной сигнал базового декодера имеет, в вышеприведенном примере, частоту дискретизации в 8 кГц, и следовательно, полосу пропускания в 4 кГц, тогда как для восстановления полной полосы пропускания выходной сигнал модуля 1330 восстановления высоких частот должен иметь 20 кГц, что требует частоты дискретизации, по меньшей мере, в 40 кГц. Для обеспечения возможности этого, требуется процессор декодера, имеющий функциональность модуля 1325 повышающей дискретизации и гребенки 1326 фильтров. Модуль 1330 восстановления высоких частот затем принимает частотно проанализированный низкочастотный сигнал, выводимый посредством гребенки 1326 фильтров, и восстанавливает частотный диапазон, заданный посредством фильтра 1304 верхних частот по фиг. 13a, с использованием параметрического представления полосы высоких частот. Модуль 1330 восстановления высоких частот имеет несколько функциональностей, таких как повторное формирование диапазона верхних частот с использованием исходного диапазона в диапазоне низких частот, регулирование спектральной огибающей, функциональность добавления шума и функциональность для того, чтобы вводить пропущенные гармоники в диапазоне верхних частот, и если применяется и вычисляется в кодере по фиг. 13a, операция обратной фильтрации, чтобы учитывать тот факт, что диапазон верхних частот типично не является настолько тональным, как диапазон нижних частот. В HE-AAC, пропущенные гармоники повторно синтезируются на стороне декодера и размещаются точно в середине полосы частот восстановления. Следовательно, все линии пропущенных гармоник, которые определяются в определенной полосе частот восстановления, не размещены в значениях частоты, в которых они располагаются в исходном сигнале. Вместо этого, эти линии пропущенных гармоник размещены в частотах в центре определенной полосы частот. Таким образом, когда линия пропущенных гармоник в исходном сигнале размещена очень близко к границе полосы частот восстановления в исходном сигнале, ошибка в частоте, введенная посредством размещения этой линии пропущенных гармоник в восстановленном сигнале в центре полосы частот, находится близко к 50% отдельной полосы частот восстановления, для которой сформированы и переданы параметры.
Кроме того, даже если типичные аудио базовые кодеры работают в спектральной области, базовый декодер, тем не менее, формирует сигнал временной области, который затем снова преобразуется в спектральную область посредством функциональности гребенки 1326 фильтров. Это вводит дополнительные задержки при обработке, может вводить артефакты вследствие тандемной обработки преобразования сначала из спектральной области в частотную область и снова преобразования типично в другую частотную область, и, конечно, это также требует значительной сложности вычислений и в силу этого электроэнергии, что представляет собой проблему, в частности, когда технология расширения полосы пропускания применяется в мобильных устройствах, к примеру, в мобильных телефонах, планшетных или переносных компьютерах и т.д.
Современные аудиокодеки выполняют кодирование аудио с низкой скоростью передачи битов с использованием BWE в качестве неотъемлемой части схемы кодирования. Тем не менее, BWE-технологии ограничены тем, что они заменяют только высокочастотный (HF) спектр. Более того, они не обеспечивают возможность кодирования на основе формы сигналов перцепционно важного содержимого выше данной частоты разделения. Следовательно, современные аудиокодеки теряют HF-детали или тембр, когда реализуется BWE, поскольку точное совмещение тональных гармоник сигнала не учитывается в большинстве систем.
Другой недостаток BWE-систем современного уровня техники заключается в необходимости преобразования аудиосигнала в новую область для реализации BWE (например, преобразования из MDCT-в QMF-область). Это приводит к усложнению синхронизации, дополнительной вычислительной сложности и повышенным требованиям к запоминающему устройству.
Хранение или передача аудиосигналов зачастую подчиняются строгим ограничениям скорости передачи битов. В прошлом, кодеры принудительно существенно уменьшали полосу пропускания передаваемого аудиосигнала, когда доступна только очень низкая скорость передачи битов. Современные аудиокодеки в наше время могут кодировать широкополосные сигналы посредством использования способов расширения полосы пропускания (BWE) [1-2]. Эти алгоритмы основываются на параметрическом представлении высокочастотного контента (HF), который формируется из кодированной на основе формы сигналов низкочастотной части (LF) декодированного сигнала, посредством транспозиции в спектральную HF-область ("наложения") и применения постобработки на основе параметров.
В BWE-схемах, восстановление спектральной HF-области выше данной так называемой частоты разделения зачастую основано на спектральном наложении. Другие схемы, которые являются функциональными для того, чтобы заполнять интервалы отсутствия сигнала в спектре, например, интеллектуальное заполнение интервалов отсутствия сигнала (IGF), используют соседние так называемые спектральные фрагменты, чтобы повторно формировать части HF-спектров аудиосигнала. Типично, HF-область состоит из нескольких смежных наложений или фрагментов, и каждое из этих наложений или фрагментов получается из полосовых (BP) областей LF-спектра ниже данной частоты разделения. Системы предшествующего уровня техники эффективно выполняют наложение или мозаичное размещение в представлении на основе гребенки фильтров посредством копирования набора смежных подполосных коэффициентов из исходной в целевую область. Тем не менее, для некоторого контента сигнала, сборка восстановленного сигнала из полосы LF-частот и смежных наложений в полосе HF-частот может приводить к биению, диссонансу и акустической нечеткости.
Следовательно, в [19], принцип фильтрации защитной полосы частот от диссонанса представлен в контексте BWE-системы на основе гребенки фильтров. Предлагается эффективно применять режекторный фильтр с полосой пропускания приблизительно в 1 барк при частоте разделения между LF и повторно BWE-сформированной HF, чтобы исключать вероятность диссонанса и заменять спектральный контент нулями или шумом.
Тем не менее, предлагаемое решение в [19] имеет некоторые недостатки. Во-первых, строгая замена спектрального контента посредством нулей или посредством шума также может нарушать перцепционное качество сигнала. Кроме того, предложенная обработка не является сигнально-адаптивной и, следовательно, может отрицательно влиять на перцепционное качество в некоторых случаях. Например, если сигнал содержит переходные части, это может приводить к опережающим и запаздывающим эхо.
Во-вторых, диссонансы также могут возникать при переходах между последовательными HF-наложениями. Предлагаемое решение в [19] является функциональным только для того, чтобы исправлять диссонансы, которые возникают на частоте разделения между LF и повторно BWE-сформированным HF.
Наконец, в отличие от систем на основе гребенки фильтров, к примеру, как предложено в [19], BWE-системы также могут быть реализованы в реализациях на основе преобразования, таких как, например, модифицированное дискретное косинусное преобразование (MDCT). Преобразования, такие как MDCT, очень подвержены так называемым артефактам щелкания [20] или звона, которые возникают, если полосовые области спектральных коэффициентов копируются, или спектральные коэффициенты задаются равными нулю, к примеру, как предложено в [19].
В частности, патент (США) 8412365 раскрывает использование, при трансляции или сворачивании на основе гребенки фильтров, так называемых защитных полос частот, которые вставляются и состоят из одного или более подполосных каналов, заданных равными нулю. Определенное число каналов гребенки фильтров используется в качестве защитных полос частот, и полоса пропускания защитной полосы частот должна составлять 0,5 барков. Эти защитные полосы частот от диссонанса частично восстанавливаются с использованием случайных сигналов белого шума, т.е. в подполосы частот подается белый шум вместо равенства нулю. Защитные полосы частот вставляются независимо от текущего сигнала и обрабатываются.
Системы расширения полосы пропускания являются особенно проблематичными, когда они реализованы в реализациях на основе преобразования, такого как, например, модифицированное дискретное косинусное преобразование (MDCT). Преобразования, такие как MDCT и другие преобразования, также очень подвержены так называемым артефактам щелкания, как пояснено в [3], и звона, которые возникают, если полосовые области спектральных коэффициентов копируются, или спектральные коэффициенты задаются равными нулю, как предложено в [2].
Цель настоящего изобретения заключается в том, чтобы предоставлять улучшенные устройство и способ для декодирования кодированного аудиосигнала.
Это цель достигается посредством устройства для декодирования кодированного аудиосигнала по п. 1, способа декодирования кодированного аудиосигнала по п. 15 или компьютерной программы по п. 16.
В соответствии с настоящим изобретением, устройство для декодирования кодированного аудиосигнала содержит базовый декодер, модуль формирования фрагментов для формирования одного или более спектральных фрагментов, имеющих частоты, не включенные в декодированный базовый сигнал, с использованием спектральной части декодированного базового сигнала и фильтр разделения для спектральной фильтрации для разделения декодированного базового сигнала и первого частотного фрагмента, имеющего частоты, идущие от частоты заполнения интервалов отсутствия сигнала до конечной частоты первого фрагмента, или для спектральной фильтрации для разделения фрагмента и дополнительного частотного фрагмента, причем дополнительный частотный фрагмент имеет нижнюю граничную частоту, смежную по частоте с верхней граничной частотой частотного фрагмента.
Предпочтительно, эта процедура имеет намерение применяться в расширении полосы пропускания на основе преобразования, такого как MDCT. Тем не менее, настоящее изобретение, в общем, является применимым, в частности, в сценарии расширения полосы пропускания, основывающемся на гребенке квадратурных зеркальных фильтров (QMF), в частности, если система критически дискретизирована, например, когда предусмотрено действительнозначное QMF-представление в качестве временно-частотного преобразования или в качестве частотно-временного преобразования.
Настоящее изобретение является особенно полезным для переходных сигналов, поскольку для таких переходных сигналов, звон является слышимым и раздражающим артефактом. Артефакты звона фильтра вызываются посредством так называемой характеристики "кирпичной стены" фильтра в полосе частот перехода, т.е. крутого перехода от полосы пропускания к полосе задерживания на частоте отсечки. Такие фильтры могут быть эффективно реализованы посредством задания одного коэффициента или групп коэффициентов равными нулю в частотной области частотно-временного преобразования. Следовательно, настоящее изобретение основывается на фильтре разделения на каждой частоте перехода между наложениями/ фрагментами или между полосой базовых частот и первым наложением/ фрагментом, чтобы уменьшать этот артефакт звона. Фильтр разделения предпочтительно реализуется посредством спектрального взвешивания в области преобразования с использованием подходящих функций усиления.
Предпочтительно, фильтр разделения является сигнально-адаптивным и состоит из двух фильтров, фильтра постепенного затухания, который применяется к нижней спектральной области, и фильтра постепенного нарастания, который применяется к верхней спектральной области. Фильтры могут быть симметричными или асимметричными в зависимости от конкретной реализации.
В дополнительном варианте осуществления, частотный фрагмент или частотное наложение не только подвергается фильтрации для разделения, но модуль формирования фрагментов предпочтительно выполняет, перед выполнением фильтрации для разделения, адаптацию наложений, содержащую задание частотных границ в локальных спектральных минимумах и удаление или ослабление тональных частей, остающихся в переходных диапазонах вокруг частот перехода.
В этом варианте осуществления, анализ сигналов на стороне декодера с использованием анализатора выполняется для анализа декодированного базового сигнала до или после выполнения операции повторного формирования частоты, чтобы предоставлять результат анализа. Затем этот результат анализа используется посредством модуля повторного формирования частоты для повторного формирования спектральных частей, не включенных в декодированный базовый сигнал.
Таким образом, в отличие от фиксированной настройки декодера, при которой наложение или частотное мозаичное размещение выполняется фиксированным способом, т.е. при которой определенный исходный диапазон принимается из базового сигнала, и определенные фиксированные частотные границы применяются для того, чтобы задавать либо частоту между исходным диапазоном и диапазоном восстановления, либо частотную границу между двумя смежными частотными наложениями или фрагментами в диапазоне восстановления, выполняется зависимое от сигнала наложение или мозаичное размещение, при котором, например, базовый сигнал может анализироваться, чтобы находить локальные минимумы в базовом сигнале, и после этого базовый диапазон выбирается таким образом, что частотные границы базового диапазона совпадают с локальными минимумами в спектре базового сигнала.
Альтернативно или дополнительно, анализ сигналов может выполняться для предварительного повторно сформированного сигнала либо предварительного частотно наложенного или мозаичного сигнала, при этом после процедуры предварительного повторного формирования частоты, граница между базовым диапазоном и диапазоном восстановления анализируется для того, чтобы обнаруживать создающие артефакты части сигнала, такие как проблематичность тональных частей в том, что они находятся достаточно близко друг к другу для того, чтобы формировать артефакт биений при восстановлении. Альтернативно или дополнительно, границы также могут анализироваться таким образом, что обнаруживается отсечение наполовину тональной части, и это отсечение тональной части также должно создавать артефакт при восстановлении как есть. Во избежание этих процедур частотная граница диапазона восстановления и/или исходного диапазона и/или между двумя отдельными частотными фрагментами или наложениями в диапазоне восстановления может модифицироваться посредством манипулятора сигналов, чтобы снова выполнять восстановление с новыми заданными границами.
Дополнительно или альтернативно, повторное формирование частоты представляет собой повторное формирование на основе результата анализа в том, что частотные границы оставляются как есть, и выполняется исключение либо, по меньшей мере, ослабление проблематичных тональных частей около частотных границ между исходным диапазоном и диапазоном восстановления либо между двумя отдельными частотными фрагментами или наложениями в диапазоне восстановления. Такие тональные части могут быть близкими тонами, что приводит к артефакту биений, либо могут быть отсеченными тональными частями.
В частности, когда используется преобразование без сохранения энергии, такое как MDCT, один тон не преобразуется непосредственно в одну спектральную линию. Вместо этого, один тон преобразуется в группу спектральных линий с определенными амплитудами в зависимости от фазы тона. Когда операция наложения отсекает эту тональную часть, то это приводит к артефакту после восстановления, даже если применяется идеальное восстановление, как в модуле MDCT-восстановления. Это обусловлено тем фактом, что модуль MDCT-восстановления требует полного тонального шаблона для тона, чтобы в итоге корректно восстанавливать этот тон. Вследствие того факта, что отсечение осуществлено раньше, оно более невозможно, и в силу этого создается изменяющийся во времени артефакт щелкания. На основе анализа в соответствии с настоящим изобретением, модуль повторного формирования частоты исключает эту ситуацию посредством ослабления полной тональной части, создающей артефакт, либо, как пояснено выше, посредством изменения соответствующих граничных частот или посредством применения обоих показателей, или посредством даже восстановления отсеченной части на основе определенных предварительных сведений относительно таких тональных шаблонов.
Изобретаемый подход в основном имеет намерение применяться в BWE на основе преобразования, такого как MDCT. Тем не менее, идеи изобретения, в общем, являются применимыми, например, аналогично в системе на основе гребенки квадратурных зеркальных фильтров (QMF), в частности, если система критически дискретизирована, например, как действительнозначное QMF-представление.
Далее поясняются предпочтительные варианты осуществления относительно прилагаемых чертежей, на которых:
Фиг. 1a иллюстрирует устройство для кодирования аудиосигнала;
Фиг. 1b иллюстрирует декодер для декодирования кодированного аудиосигнала, совпадающий с кодером по фиг. 1a;
Фиг. 2a иллюстрирует предпочтительную реализацию декодера;
Фиг. 2b иллюстрирует предпочтительную реализацию кодера;
Фиг. 3a иллюстрирует схематичное представление спектра, сформированного посредством декодера в спектральной области по фиг. 1b;
Фиг. 3b иллюстрирует таблицу, указывающую взаимосвязь между коэффициентами масштабирования для полос частот коэффициентов масштабирования и энергиями для полос частот восстановления и информацией заполнения шумом для полосы частот заполнения шумом;
Фиг. 4a иллюстрирует функциональность кодера в спектральной области для применения выбора спектральных частей к первому и второму наборам спектральных частей;
Фиг. 4b иллюстрирует реализацию функциональности по фиг. 4a;
Фиг. 5a иллюстрирует функциональность MDCT-кодера;
Фиг. 5b иллюстрирует функциональность декодера с MDCT-технологией;
Фиг. 5c иллюстрирует реализацию модуля повторного формирования частоты;
Фиг. 6a является устройством для декодирования кодированного аудиосигнала в соответствии с одной реализацией;
Фиг. 6b является дополнительным вариантом осуществления устройства для декодирования кодированного аудиосигнала;
Фиг. 7a иллюстрирует предпочтительную реализацию модуля повторного формирования частоты по фиг. 6a или 6b;
Фиг. 7b иллюстрирует дополнительную реализацию взаимодействия между анализатором и модулем повторного формирования частоты;
Фиг. 8 иллюстрирует реализацию модуля повторного формирования частоты;
Фиг. 8b иллюстрирует дополнительный вариант осуществления изобретения;
Фиг. 9a иллюстрирует декодер с технологией повторного формирования частоты с использованием значений энергии для частотного диапазона повторного формирования;
Фиг. 9b иллюстрирует более подробную реализацию модуля повторного формирования частоты по фиг. 9a;
Фиг. 9c иллюстрирует схематический вид, иллюстрирующий функциональность по фиг. 9b;
Фиг. 9d иллюстрирует дополнительную реализацию декодера по фиг. 9a;
Фиг. 10a иллюстрирует блок-схему кодера, совпадающего с декодером по фиг. 9a;
Фиг. 10b иллюстрирует блок-схему для иллюстрации дополнительной функциональности модуля вычисления параметров по фиг. 10a;
Фиг. 10c иллюстрирует блок-схему, иллюстрирующую дополнительную функциональность параметрического модуля вычисления по фиг. 10a;
Фиг. 10d иллюстрирует блок-схему, иллюстрирующую дополнительную функциональность параметрического модуля вычисления по фиг. 10a;
Фиг. 11a иллюстрирует спектр звона фильтра, окружающего переходную часть;
Фиг. 11b иллюстрирует спектрограмму переходной части после применения расширения полосы пропускания;
Фиг. 11c иллюстрирует спектрограмму переходной части после применения расширения полосы пропускания с уменьшением звона фильтра;
Фиг. 12a иллюстрирует блок-схему устройства для декодирования кодированного аудиосигнала;
Фиг. 12b иллюстрирует спектры абсолютной величины (стилизованные) тонального сигнала, перезапись без адаптации наложений/ фрагментов, перезапись с измененными частотными границами и дополнительным исключением создающих артефакты тональных частей;
Фиг. 12c иллюстрирует примерную функцию плавного перехода;
Фиг. 13a иллюстрирует кодер предшествующего уровня техники с расширением полосы пропускания; и
Фиг. 13b иллюстрирует декодер предшествующего уровня техники с расширением полосы пропускания.
Фиг. 14a иллюстрирует дополнительное устройство для декодирования кодированного аудиосигнала с использованием фильтра разделения;
Фиг. 14b иллюстрирует более подробную иллюстрацию примерного фильтра разделения;
Фиг. 6a иллюстрирует устройство для декодирования кодированного аудиосигнала, содержащего кодированный базовый сигнал и параметрические данные. Устройство содержит базовый декодер 600 для декодирования кодированного базового сигнала, чтобы получать декодированный базовый сигнал, анализатор 602 для анализа декодированного базового сигнала до или после выполнения операции повторного формирования частоты. Анализатор 602 выполнен с возможностью предоставления результата 603 анализа. Модуль 604 повторного формирования частоты выполнен с возможностью повторного формирования спектральных частей, не включенных в декодированный базовый сигнал, с использованием спектральной части декодированного базового сигнала, данных 605 огибающей для пропущенных спектральных частей и результата 603 анализа. Таким образом, в отличие от более ранних реализаций, повторное формирование частоты не выполняется на стороне декодера независимо от сигнала, а выполняется зависимо от сигнала. Это имеет такое преимущество, что когда проблемы не существуют, повторное формирование частоты выполняется как есть, но когда проблематичные части сигнала существуют, то это обнаруживается посредством результата 603 анализа, и модуль 604 повторного формирования частоты затем выполняет адаптированный способ повторного формирования частоты, которое, например, может представлять собой изменение начальной частотной границы между базовой областью и полосой частот восстановления либо изменение частотной границы между двумя отдельными фрагментами/наложениями в полосе частот восстановления. В отличие от реализации защитных полос частот, это имеет такое преимущество, что конкретные процедуры выполняются только при необходимости, а не, как в реализации защитной полосы частот, все время без зависимости от сигнала.
Предпочтительно, базовый декодер 600 реализуется как каскад 612 энтропийного (например, декодер Хаффмана или арифметический декодер) декодирования и деквантования, как проиллюстрировано на фиг. 6b. Базовый декодер 600 затем выводит спектр базового сигнала, и спектр анализируется посредством спектрального анализатора 614, который является фактически аналогичным анализатору 602 на фиг. 6a, реализованному как спектральный анализатор, а не как произвольный анализатор, который может, как проиллюстрировано на фиг. 6a, также анализировать сигнал временной области. В варианте осуществления по фиг. 6b, спектральный анализатор выполнен с возможностью анализа спектрального сигнала таким образом, что определяются локальные минимумы в исходной полосе частот и/или в целевой полосе частот, т.е. в частотных наложениях или частотных фрагментах. Затем модуль 604 повторного формирования частоты выполняет, как проиллюстрировано на 616, повторное формирование частоты, причем границы наложений размещены в минимумах в исходной полосе частот и/или целевой полосе частот.
Далее поясняется фиг. 7a для того, чтобы описывать предпочтительную реализацию модуля 604 повторного формирования частоты по фиг. 6a. Модуль 702 повторного формирования предварительных сигналов принимает, в качестве ввода, исходные данные из исходной полосы частот и, дополнительно, информацию предварительного наложения, такую как предварительные граничные частоты. Затем формируется предварительный повторно сформированный сигнал 703, который обнаруживается посредством блока 704 обнаружения для обнаружения тональных компонентов в предварительном восстановленном сигнале 703. Альтернативно или дополнительно, исходные данные 705 также могут быть проанализированы посредством блока обнаружения, соответствующего анализатору 602 по фиг. 6a. В таком случае этап повторного формирования предварительных сигналов не требуется. Когда возникает четко определенное преобразование из исходных данных в данные для восстановления, то минимумы или тональные части могут обнаруживаться даже посредством рассмотрения только исходных данных, имеются или нет тональные части близко к верхней границе базового диапазона либо на частотной границе между двумя отдельно сформированными частотными фрагментами, как поясняется ниже относительно фиг. 12b.
В случае если проблематичные тональные компоненты обнаружены около частотных границ, модуль 706 регулирования частоты перехода выполняет регулирование частоты перехода, к примеру, частоты перехода или частоты разделения, или начальной частоты заполнения интервалов отсутствия сигнала между полосой базовых частот и полосой частот восстановления либо между отдельными частотными частями, сформированными посредством идентичных исходных данных в полосе частот восстановления. Выходной сигнал блока 706 перенаправляется в модуль 708 удаления тональных компонентов на границах. Модуль удаления выполнен с возможностью удаления оставшихся тональных компонентов, которые еще присутствуют после регулирования частоты перехода посредством блока 706. Результат модуля 708 удаления затем перенаправляется в фильтр 710 разделения, чтобы разрешать проблему звона фильтра, и результат фильтра 710 разделения затем вводится в блок 712 формирования спектральной огибающей, который выполняет формирование спектральной огибающей в полосе частот восстановления.
Как пояснено в контексте фиг. 7a, обнаружение тональных компонентов в блоке 704 может быть выполнено как для исходных данных 705, так и для предварительного восстановленного сигнала 703. Этот вариант осуществления проиллюстрирован на фиг. 7b, на котором предварительный повторно сформированный сигнал создается, как показано в блоке 718. Сигнал, соответствующий сигналу 703 по фиг. 7a, затем перенаправляется в блок 720 обнаружения, который обнаруживает создающие артефакты компоненты. Хотя блок 720 обнаружения может быть выполнен с возможностью представлять собой блок обнаружения для обнаружения тональных компонентов на частотных границах, как проиллюстрировано на 704 на фиг. 7a, блок обнаружения также может реализовываться, чтобы обнаруживать другие создающие артефакты компоненты. Такие спектральные компоненты могут представлять собой даже компоненты, отличные от тональных компонентов, и обнаружение того, создан или нет артефакт, может выполняться посредством попытки различных повторных формирований и сравнения различных результатов повторного формирования, чтобы узнать, какой из них предоставляет создающие артефакты компоненты.
Блок 720 обнаружения теперь управляет манипулятором 722 для манипулирования сигналом, т.е. предварительным повторно сформированным сигналом. Это манипулирование может выполняться посредством фактической обработки предварительного повторно сформированного сигнала посредством линии 723 либо посредством выполнения заново повторного формирования, но теперь, например, с измененными частотами перехода, как проиллюстрировано посредством линии 724.
Одна реализация процедуры манипулирования состоит в том, что частота перехода регулируется, как проиллюстрировано на 706 на фиг. 7a. Дополнительная реализация проиллюстрирована на фиг. 8a, которая может выполняться вместо блока 706 или вместе с блоком 706 по фиг. 7a. Блок 802 обнаружения предоставляется для обнаружения начальных и конечных частот проблематичной тональной части. Затем модуль 804 интерполяции выполнен с возможностью интерполяции и, предпочтительно, комплексной интерполяции между началом и концом тональной части в спектральном диапазоне. Затем, как проиллюстрировано на фиг. 8a посредством блока 806, тональная часть заменена посредством результата интерполяции.
Альтернативная реализация проиллюстрирована на фиг. 8a посредством блоков 808, 810. Вместо выполнения интерполяции, случайное формирование спектральных линий 808 выполняется между началом и концом тональной части. Затем энергетическое регулирование случайно сформированных спектральных линий выполняется, как проиллюстрировано в 810, и энергия случайно сформированных спектральных линий задается таким образом, что энергия является аналогичной смежным нетональным спектральным частям. Затем тональная часть заменена посредством подвергнутых регулированию огибающей случайно сформированных спектральных линий. Спектральные линии могут быть случайно сформированы или псевдослучайно сформированы, чтобы предоставлять заменяющий сигнал, который в максимально возможной степени не содержит артефактов.
Дополнительная реализация проиллюстрирована на фиг. 8b. Модуль формирования частотных фрагментов, расположенный в модуле 604 повторного формирования частоты по фиг. 6a, проиллюстрирован в блоке 820. Модуль формирования частотных фрагментов использует предварительно определенные частотные границы. Затем анализатор анализирует сигнал, сформированный посредством модуля формирования частотных фрагментов, и модуль 820 формирования частотных фрагментов предпочтительно выполнен с возможностью выполнения нескольких операций мозаичного размещения, чтобы формировать несколько частотных фрагментов. Затем манипулятор 824 на фиг. 8b манипулирует результатом модуля формирования частотных фрагментов в соответствии с результатом анализа, выводимым посредством анализатора 822. Манипулирование может представлять собой изменение частотных границ или ослабление отдельных частей. Затем модуль 826 регулирования спектральной огибающей выполняет регулирование спектральной огибающей с использованием параметрической информации 605, как уже пояснено в контексте фиг. 6a.
Затем спектрально отрегулированный сигнал, выводимый посредством блока 826, вводится в частотно-временной преобразователь, который, дополнительно, принимает первые спектральные части, т.е. спектральное представление выходного сигнала базового декодера 600. Вывод частотно-временного преобразователя 828 после этого может использоваться для хранения или для передачи в громкоговоритель для рендеринга аудио.
Настоящее изобретение либо может применяться к известным процедурам повторного формирования частоты, к примеру, проиллюстрированным на фиг. 13a, 13b, либо предпочтительно может применяться в контексте интеллектуального заполнения интервалов отсутствия сигнала, который описывается ниже относительно фиг. 1a-5b и 9a-10d.
Фиг. 1a иллюстрирует устройство для кодирования аудиосигнала 99. Аудиосигнал 99 вводится во временно-спектральный преобразователь 100 для преобразования аудиосигнала, имеющего частоту дискретизации, в спектральное представление 101, выводимое посредством временно-спектрального преобразователя. Спектр 101 вводится в спектральный анализатор 102 для анализа спектрального представления 101. Спектральный анализатор 101 выполнен с возможностью определения первого набора первых спектральных частей 103, которые должны быть кодированы с первым спектральным разрешением, и другого второго набора вторых спектральных частей 105, которые должны быть кодированы со вторым спектральным разрешением. Второе спектральное разрешение меньше первого спектрального разрешения. Второй набор вторых спектральных частей 105 вводится в модуль 104 вычисления параметров или параметрический кодер для вычисления информации спектральной огибающей, имеющей второе спектральное разрешение. Кроме того, аудиокодер 106 в спектральной области предоставляется для формирования первого кодированного представления 107 первого набора первых спектральных частей, имеющих первое спектральное разрешение. Кроме того, модуль 104 вычисления параметров/параметрический кодер выполнен с возможностью формирования второго кодированного представления 109 второго набора вторых спектральных частей. Первое кодированное представление 107 и второе кодированное представление 109 вводятся в мультиплексор потоков битов или формирователь 108 потоков битов, и блок 108, в завершение, выводит кодированный аудиосигнал для передачи или хранения на устройстве хранения данных.
Типично, первая спектральная часть, к примеру, 306 по фиг. 3a, окружена посредством двух вторых спектральных частей, к примеру, 307a, 307b. Дело обстоит не так в HE-AAC, в котором частотный диапазон базового кодера имеет ограниченную полосу частот.
Фиг. 1b иллюстрирует декодер, совпадающий с кодером по фиг. 1a. Первое кодированное представление 107 вводится в аудиодекодер 112 в спектральной области для формирования первого декодированного представления первого набора первых спектральных частей, причем декодированное представление имеет первое спектральное разрешение. Кроме того, второе кодированное представление 109 вводится в параметрический декодер 114 для формирования второго декодированного представления второго набора вторых спектральных частей, имеющих второе спектральное разрешение ниже первого спектрального разрешения.
Декодер дополнительно содержит модуль 116 повторного формирования частоты для повторного формирования восстановленной второй спектральной части, имеющей первое спектральное разрешение, с использованием первой спектральной части. Модуль 116 повторного формирования частоты выполняет операцию заполнения фрагментами, т.е. использует фрагмент или часть первого набора первых спектральных частей и копирует этот первый набор первых спектральных частей в диапазон восстановления или полосу частот восстановления, имеющую вторую спектральную часть, и типично выполняет формирование спектральной огибающей или другую операцию, как указано посредством декодированного второго представления, выводимого посредством параметрического декодера 114, т.е. посредством использования информации относительно второго набора вторых спектральных частей. Декодированный первый набор первых спектральных частей и восстановленный второй набор спектральных частей, как указано на выходе модуля 116 повторного формирования частоты на линии 117, вводятся в спектрально-временной преобразователь 118, выполненный с возможностью преобразования первого декодированного представления и восстановленной второй спектральной части во временное представление 119, причем временное представление имеет определенную высокую частоту дискретизации.
Фиг. 2b иллюстрирует реализацию кодера по фиг. 1a. Входной аудиосигнал 99 вводится в гребенку 220 аналитических фильтров, соответствующую временно-спектральному преобразователю 100 по фиг. 1a. Затем операция временного формирования шума выполняется в TNS-блоке 222. Следовательно, ввод в спектральный анализатор 102 по фиг. 1a, соответствующий блочной тональной маске 226 по фиг. 2b, может представлять собой либо полные спектральные значения, когда не применяется операция временного формирования шума/временного формирования фрагментов, либо может представлять собой остаточные спектральные значения, когда применяется TNS-операция, как проиллюстрировано на фиг. 2b, блок 222. Для двухканальных сигналов или многоканальных сигналов, дополнительно может выполняться объединенное канальное кодирование 228, так что кодер 106 в спектральной области по фиг. 1a может содержать блок 228 объединенного канального кодирования. Кроме того, предоставляется энтропийный кодер 232 для выполнения сжатия данных без потерь, который также является частью кодера 106 в спектральной области по фиг. 1a.
Спектральный анализатор/тональная маска 226 разделяет вывод TNS-блока 222 на полосу базовых частот и тональные компоненты, соответствующие первому набору первых спектральных частей 103, и остаточные компоненты, соответствующие второму набору вторых спектральных частей 105 по фиг. 1a. Блок 224, указываемый в качестве кодирования с извлечением IGF-параметров, соответствует параметрическому кодеру 104 по фиг. 1a, а мультиплексор 230 потоков битов соответствует мультиплексору 108 потоков битов по фиг. 1a.
Предпочтительно, гребенка аналитических фильтров 222 реализована как MDCT (гребенка фильтров модифицированного дискретного косинусного преобразования), и MDCT используется для того, чтобы преобразовывать сигнал 99 в частотно-временную область с помощью модифицированного дискретного косинусного преобразования, выступающего в качестве инструментального средства частотного анализа.
Спектральный анализатор 226 предпочтительно применяет маску тональности. Эта стадия оценки масок тональности используется для того, чтобы отделять тональные компоненты от шумоподобных компонентов в сигнале. Это дает возможность базовому кодеру 228 кодировать все тональные компоненты с помощью психоакустического модуля. Стадия оценки масок тональности может реализовываться множеством различных способов и предпочтительно реализуется аналогично по функциональности стадии оценки синусоидальных дорожек, используемой при синусоидальном и шумовом моделировании для кодирования речи/аудио [8, 9] или в аудиокодере на основе HILN-модели, описанном в [10]. Предпочтительно, используется реализация, которую просто реализовывать без необходимости поддерживать траектории процесса "рождения и гибели", но также может использоваться любой другой блок обнаружения тональности или шума.
IGF-модуль вычисляет подобие, которое существует между исходной областью и целевой областью. Целевая область должна быть представлена посредством спектра из исходной области. Мера подобия между исходными и целевыми областями задается с использованием подхода на основе взаимной корреляции. Целевая область разбивается на неперекрывающихся частотных фрагментов. Для каждого фрагмента в целевой области,/исходных фрагментов создаются из фиксированной начальной частоты. Эти исходные фрагменты перекрываются на коэффициент между 0 и 1, где 0 означает 0%-ое перекрытие, а 1 означает 100%-ое перекрытие. Каждый из этих исходных фрагментов коррелирован с целевым фрагментом с различными запаздываниями с тем, чтобы находить исходный фрагмент, который наилучше совпадает с целевым фрагментом. Наилучше совпадающий номер фрагмента сохраняется в , запаздывание, при котором он лучше всего коррелируется с целью, сохраняется в , а знак корреляции сохраняется в . В случае если корреляция является сильно отрицательной, исходный фрагмент должен быть умножен на -1 перед процессом заполнения фрагментами в декодере. IGF-модуль также отслеживает неперезапись тональных компонентов в спектре, поскольку тональные компоненты сохраняются с использованием маски тональности. Энергетический параметр для каждой полосы частот используется для того, чтобы сохранять энергию целевой области, позволяя точно восстанавливать спектр.
Этот способ имеет определенные преимущества по сравнению с классическим SBR [1] в том, что гармоническая сетка многотонального сигнала сохраняется посредством базового кодера, тогда как только интервалы отсутствия сигнала между синусоидами заполнены наилучше совпадающим "шумом определенной формы" из исходной области. Другое преимущество этой системы по сравнению с ASR (точной спектральной заменой) [2-4] заключается в отсутствии стадии синтеза сигналов, которая создает важные части сигнала в декодере. Вместо этого, выполнение этой задачи возлагается на базовый кодер, обеспечивая сохранение важных компонентов спектра. Другое преимущество предложенной системы заключается в непрерывной масштабируемости, которую предлагают признаки. Использование только и для каждого фрагмента называется "общим совпадением степени детализации" и может использоваться для низких скоростей передачи битов, тогда как использование переменной/для каждого фрагмента позволяет обеспечивать лучшее совпадение целевых и исходных спектров.
Помимо этого, предложена технология стабилизации выбора фрагментов, которая удаляет артефакты в частотной области, такие как растроение и музыкальный шум.
В случае пар стереоканалов применяется дополнительная объединенная стереообработка. Это необходимо, поскольку для определенного целевого диапазона сигнал может высококоррелированный панорамированный источник звука. В случае если исходные области, выбранные для этой конкретной области, не имеют хорошей корреляции, хотя энергии совпадают для целевых областей, пространственное изображение может ухудшаться некоррелированных исходных областей. Кодер анализирует каждую энергетическую полосу частот целевой области, типично выполняя взаимную корреляцию спектральных значений, и если определенное пороговое значение превышается, задает объединенный флаг для этой энергетической полосы частот. В декодере, энергетические полосы частот левого и правого канала обрабатываются по отдельности, если этот флаг объединенного стерео не задан. В случае если флаг объединенного стерео задается, как энергии, так и наложение выполняются в объединенной стереообласти. Объединенная стереоинформация для IGF-областей передается в служебных сигналах, аналогично объединенной стереоинформации для базового кодирования, включающей в себя флаг, указывающий, в случае прогнозирования, то, представляет собой направление прогнозирования от низведения до остатка или наоборот.
Энергии могут вычисляться из передаваемых энергий в L/R-области.
где является частотным индексом в области преобразования.
Другое решение состоит в том, чтобы вычислять и передавать энергии непосредственно в объединенной стереообласти для полос частот, в которых объединенное стерео является активным, так что дополнительное преобразование энергии не требуется на стороне декодера.
Исходные фрагменты всегда создаются согласно матрице среднего/бокового каналов:
Энергетическое регулирование:
Объединенное стерео->LR-преобразование:
Если дополнительные параметры прогнозирования не кодируются:
Если дополнительный параметр прогнозирования кодируется, и если передаваемое в служебных сигналах направление представляет собой от среднего к боковому:
Если передаваемое в служебных сигналах направление представляет собой от бокового к среднему:
Эта обработка обеспечивает то, что из фрагментов, используемых для повторного формирования высококоррелированных целевых областей и панорамированных целевых областей, результирующие левый и правый каналы по-прежнему представляют коррелированный и панорамированный источник звука, даже если исходные области не коррелированы, сохраняя стереоизображение для таких областей.
Другими словами, в потоке битов передаются флаги объединенного стерео, которые указывают то, должен использоваться L/R или M/S в качестве примера для общего объединенного стереокодирования. В декодере, во-первых декодируется базовый сигнал, как указано посредством флагов объединенного стерео для полос базовых частот. Во-вторых, базовый сигнал сохраняется в обоих L/R- и M/S-представлениях. Для заполнения IGF-фрагментами, представление исходных фрагментов выбрано таким образом, что оно соответствует представлению целевых фрагментов, как указано посредством объединенной стереоинформации для полос IGF-частот.
Временное формирование шума (TNS) является стандартной технологией и частью AAC [11-13]. TNS может рассматриваться как расширение базовой схемы перцепционного кодера, вставляющее необязательный этап обработки между гребенкой фильтров и стадией квантования. Основная задача модуля TNS состоит в том, чтобы скрывать сформированный шум квантования в области временного маскирования переходных сигналов, в силу чего это приводит к более эффективной схеме кодирования. Во-первых, TNS вычисляет набор коэффициентов прогнозирования с использованием "прямого прогнозирования" в области преобразования, например, MDCT. Эти коэффициенты затем используются для сглаживания временной огибающей сигнала. Поскольку квантование затрагивает TNS-фильтрованный спектр, также шум квантования является временно плоским. Посредством применения обратной TNS-фильтрации на стороне декодера, шуму квантования придается определенная форма согласно временной огибающей TNS-фильтра, и следовательно, шум квантования маскируется посредством переходной части.
IGF основано на MDCT-представлении. Для эффективного кодирования предпочтительно должны использоваться длинные блоки приблизительно в 20 мс. Если сигнал в таком длинном блоке содержит переходные части, слышимые опережающие и запаздывающие эхо возникают в полосах IGF-спектра вследствие заполнения фрагментами. Фиг. 7c показывает типичный эффект опережающего эхо перед началом переходной части вследствие IGF. Слева показана спектрограмма исходного сигнала, а справа показана спектрограмма сигнала с расширенной полосой пропускания без TNS-фильтрации.
Этот эффект опережающего эхо уменьшается посредством использования TNS в IGF-контексте. Здесь, TNS используется в качестве инструментального средства временного формирования фрагментов (TTS), поскольку повторное формирование спектра в декодере выполняется для остаточного TNS-сигнала. Требуемые коэффициенты TTS-прогнозирования вычисляются и применяются с использованием полного спектра на стороне кодера, как обычно. Начальные и конечные TNS/TTS-частоты не затрагиваются посредством начальной IGF-частоты инструментального IGF-средства. По сравнению с унаследованным TNS, конечная TTS-частота увеличивается до конечной частоты инструментального IGF-средства, которая выше . На стороне декодера, TNS/TTS-коэффициенты применяются к полному спектру снова, т.е. к базовому спектру плюс повторно сформированный спектр плюс тональные компоненты из карты тональности (см. фиг. 7e). Применение TTS необходимо для того, чтобы снова формировать временную огибающую повторно сформированного спектра таким образом, что она совпадает с огибающей исходного сигнала. Таким образом, уменьшаются показанные опережающие эхо. Помимо этого, оно по-прежнему придает определенную форму шуму квантования в сигнале ниже , что является стандартным для TNS.
В унаследованных декодерах, спектральное наложение на аудиосигнал нарушает спектральную корреляцию на границах наложений и в силу этого искажает временную огибающую аудиосигнала посредством введения дисперсии. Следовательно, другое преимущество выполнения заполнения IGF-фрагментами для остаточного сигнала заключается в том, что после применения формирующего фильтра границы фрагментов прозрачно коррелированы, приводя к более достоверному временному воспроизведению сигнала.
В изобретаемом кодере, спектр, подвергнутый TNS/TTS-фильтрации, обработке маски тональности и оценке IGF-параметров, не имеет сигналов выше начальной IGF-частоты за исключением тональных компонентов. Далее этот разреженный спектр кодируется посредством базового кодера с использованием принципов арифметического кодирования и прогнозирующего кодирования. Эти кодированные компоненты вместе с сигнальными битами формируют поток битов аудио.
Фиг. 2a иллюстрирует соответствующую реализацию декодера. Поток битов на фиг. 2a, соответствующий кодированному аудиосигналу, вводится в демультиплексор/декодер, который должен быть соединен, относительно фиг. 1b, с блоками 112 и 114. Демультиплексор потоков битов разделяет входной аудиосигнал на первое кодированное представление 107 по фиг. 1b и второе кодированное представление 109 по фиг. 1b. Первое кодированное представление, имеющее первый набор первых спектральных частей, вводится в блок 204 объединенного канального декодирования, соответствующий декодеру 112 в спектральной области по фиг. 1b. Второе кодированное представление вводится в параметрический декодер 114, не проиллюстрированный на фиг. 2a, а затем вводится в IGF-блок 202, соответствующий модулю 116 повторного формирования частоты по фиг. 1b. Первый набор первых спектральных частей, требуемых для повторного формирования частоты, вводится в IGF-блок 202 через линию 203. Кроме того, после объединенного канального декодирования 204, конкретное базовое декодирование применяется в блоке 206 применения тональной маски, так что вывод тональной маски 206 соответствует выводу декодера 112 в спектральной области. Затем выполняется комбинирование посредством модуля 208 комбинирования, т.е. компоновка кадров, причем вывод модуля 208 комбинирования в данный момент имеет полнодиапазонный спектр, но при этом в TNS/TTS-фильтрованной области. Затем в блоке 210 обратная TNS/TTS-операция выполняется с использованием информации TNS/TTS-фильтра, предоставленной через линию 109, т.е. вспомогательная TTS-информация предпочтительно включена в первое кодированное представление, сформированное посредством кодера 106 в спектральной области, который, например, может представлять собой простой базовый AAC- или USAC-кодер, либо также может быть включена во второе кодированное представление. На выходе блока 210 предоставляется полный спектр до максимальной частоты, которая представляет собой полнодиапазонную частоту, заданную посредством частоты дискретизации исходного входного сигнала. Затем спектрально-временное преобразование выполняется в гребенке 212 синтезирующих фильтров с тем, чтобы, в завершение, получать выходной аудиосигнал.
Фиг. 3a иллюстрирует схематичное представление спектра. Спектр подразделяется на полосы SCB частот коэффициентов масштабирования, причем предусмотрено семь полос SCB1-SCB7 частот коэффициентов масштабирования в проиллюстрированном примере по фиг. 3a. Полосы частот коэффициентов масштабирования могут представлять собой полосы частот AAC-коэффициентов масштабирования, которые задаются в AAC-стандарте и имеют возрастающую полосу пропускания до верхних частот, как схематично проиллюстрировано на фиг. 3a. Предпочтительно выполнять интеллектуальное заполнение интервалов не с самого начала спектра, т.е. на низких частотах, а начинать IGF-операцию на начальной IGF-частоте, проиллюстрированной на 309. Следовательно, полоса базовых частот идет от наименьшей частоты до начальной IGF-частоты. Выше начальной IGF-частоты, применяется спектральный анализ для того, чтобы отделять спектральные компоненты 304, 305, 306, 307 высокого разрешения (первый набор первых спектральных частей) от компонентов низкого разрешения, представленных посредством второго набора вторых спектральных частей. Фиг. 3a иллюстрирует спектр, который примерно вводится в кодер 106 в спектральной области или объединенный канальный кодер 228, т.е. базовый кодер работает в полном диапазоне, но кодирует существенное число нулевых спектральных значений, т.е. эти нулевые спектральные значения квантованы до нуля или задаются равными нулю до квантования или после квантования. В любом случае, базовый кодер работает в полном диапазоне, т.е. как если спектр является таким, как проиллюстрировано, т.е. базовый декодер не обязательно должен знать об интеллектуальном заполнении интервалов или кодировании второго набора вторых спектральных частей с более низким спектральным разрешением.
Предпочтительно, высокое разрешение задается посредством полинейного кодирования спектральных линий, таких как MDCT-линии, тогда как второе разрешение или низкое разрешение задается, например, посредством вычисления только одного спектрального значения в расчете на полосу частот коэффициентов масштабирования, при этом полоса частот коэффициентов масштабирования покрывает несколько частотных линий. Таким образом, второе низкое разрешение, относительно спектрального разрешения, гораздо ниже первого или высокого разрешения, заданного посредством полинейного кодирования, типично применяемого посредством базового кодера, к примеру, базового AAC- или USAC-кодера.
Относительно вычисления коэффициентов масштабирования или энергии, ситуация проиллюстрирована на фиг. 3b. Вследствие того факта, что кодер представляет собой базовый кодер, и вследствие того факта, что могут (но не обязательно должны) быть предусмотрены компоненты первого набора спектральных частей в каждой полосе частот, базовый кодер вычисляет коэффициент масштабирования для каждой полосы частот не только в базовом диапазоне ниже начальной IGF-частоты 309, но также и выше начальной IGF-частоты вплоть до максимальной частоты , которая меньше или равна половине частоты дискретизации, т.е. fs/2. Таким образом, кодированные тональные части 302, 304, 305, 306, 307 по фиг. 3a, в этом варианте осуществления, вместе с коэффициентами SCB1-SCB7 масштабирования соответствуют спектральным данным высокого разрешения. Спектральные данные низкого разрешения вычисляются, начиная с начальной IGF-частоты, и соответствуют значениям E1, E2, E3, E4 информации энергии, которые передаются вместе с коэффициентами SF4-SF7 масштабирования.
В частности, когда базовый кодер применяется в состоянии с низкой скоростью передачи битов, помимо этого, может применяться дополнительная операция заполнения шумом в полосе базовых частот, т.е. ниже по частоте по сравнению с начальной IGF-частотой, т.е. в полосах SCB1-SCB3 частот коэффициентов масштабирования. При заполнении шумом, существует несколько смежных спектральных линий, которые квантованы до нуля. На стороне декодера, эти квантованные до нуля спектральные значения повторно синтезируются, и повторно синтезированные спектральные значения регулируются по абсолютной величине с использованием энергии заполнения шумом, к примеру, NF2, проиллюстрированной на 308 на фиг. 3b. Энергия заполнения шумом, которая может предоставляться в абсолютном выражении или в относительном выражении, в частности, относительно коэффициента масштабирования, что характерно для USAC, соответствует энергии набора спектральных значений, квантованных до нуля. Эти спектральные линии заполнения шумом также могут рассматриваться в качестве третьего набора третьих спектральных частей, которые повторно формируются посредством прямого синтеза заполнения шумом без IGF-операции на основе повторного формирования частоты с использованием частотных фрагментов из других частот, для восстановления частотных фрагментов с использованием спектральных значений из исходного диапазона и информации E1, E2, E3, E4 энергии.
Предпочтительно, полосы частот, для которых вычисляется информация энергии, совпадают с полосами частот коэффициентов масштабирования. В других вариантах осуществления, применяется группировка значения информации энергии, так что, например, для полос 4 и 5 частот коэффициентов масштабирования, передается только одно значение информации энергии, но даже в этом варианте осуществления границы сгруппированных полос частот восстановления совпадают с границами полос частот коэффициентов масштабирования. Если применяются различные разделения полос частот, то определенные повторные вычисления или вычисления синхронизации могут применяться, и это может быть целесообразным в зависимости от определенной реализации.
Предпочтительно, кодер 106 в спектральной области по фиг. 1a представляет собой психоакустически регулируемый кодер, как проиллюстрировано на фиг. 4a. Типично, как, например, проиллюстрировано в стандарте MPEG2/4 AAC или в стандарте MPEG1/2 Layer 3, аудиосигнал, который должен быть кодирован, после преобразования в спектральный диапазон (401 на фиг. 4a) перенаправляется в модуль 400 вычисления коэффициентов масштабирования. Модуль вычисления коэффициентов масштабирования управляется посредством психоакустической модели, дополнительно принимающей подлежащий квантованию аудиосигнал или принимающей, согласно стандарту MPEG1/2 Layer 3 или MPEG AAC, комплексное спектральное представление аудиосигнала. Психоакустическая модель вычисляет, для каждой полосы частот коэффициентов масштабирования, коэффициент масштабирования, представляющий психоакустическое пороговое значение. Кроме того, коэффициенты масштабирования затем, посредством взаимодействия известных внутренних и внешних итерационных циклов либо посредством любой другой подходящей процедуры кодирования, регулируются таким образом, что удовлетворяются определенные условия по скорости передачи битов. Далее подлежащие квантованию спектральные значения, с одной стороны, и вычисленные коэффициенты масштабирования, с другой стороны, вводятся в процессор 404 квантователя. В простом алгоритме работы аудиокодера, подлежащие квантованию спектральные значения взвешиваются посредством коэффициентов масштабирования, и взвешенные спектральные значения затем вводятся в квантователь с фиксированным шагом, типично имеющий функциональность сжатия до диапазонов верхних амплитуд. Затем на выходе процессора квантователя, существуют индексы квантования, которые затем передаются в энтропийный кодер, типично имеющий конкретное и очень эффективное кодирование для набора нулевых индексов квантования для смежных значений частоты или, как они также называются в данной области техники, для "серий" нулевых значений.
Тем не менее, в аудиокодере по фиг. 1a, процессор квантователя типично принимает информацию относительно вторых спектральных частей из спектрального анализатора. Таким образом, процессор 404 квантователя удостоверяется, что на выходе процессора 404 квантователя вторые спектральные части, идентифицированные посредством спектрального анализатора 102, являются нулевыми или имеют представление, подтвержденное посредством кодера или декодера как нулевое представление, которое может быть очень эффективно кодировано, в частности, когда существуют "серии" нулевых значений в спектре.
Фиг. 4b иллюстрирует реализацию процессора квантователя. Спектральные MDCT-значения могут вводиться в блок 410 обнуления. Затем вторые спектральные части уже задаются равными нулю до того, как выполняется взвешивание посредством коэффициентов масштабирования в блоке 412. В дополнительной реализации, блок 410 не предоставляется, а взаимодействие для обнуления выполняется в блоке 418 после взвешивающего блока 412. В еще одной дополнительной реализации, операция обнуления также может выполняться в блоке 422 обнуления после квантования в блоке 420 квантователя. В этой реализации, блоки 410 и 418 не должны присутствовать. Обычно, по меньшей мере, один из блоков 410, 418, 422 предоставляется в зависимости от конкретной реализации.
Затем на выходе блока 422 получается квантованный спектр согласно тому, что проиллюстрировано на фиг. 3a. Этот квантованный спектр затем вводится в энтропийный кодер, такой как 232 на фиг. 2b, который может представлять собой кодер Хаффмана или арифметический кодер, например, заданный в USAC-стандарте.
Блоки 410, 418, 422 обнуления, которые предоставляются альтернативно друг другу или параллельно, управляются посредством спектрального анализатора 424. Спектральный анализатор предпочтительно содержит любую реализацию известного блока обнаружения тональности или содержит любой другой тип блока обнаружения, выполненного с возможностью разделения спектра на компоненты, которые должны быть кодированы с высоким разрешением, и компоненты, которые должны быть кодированы с низким разрешением. Другие такие алгоритмы, реализованные в спектральном анализаторе, могут представлять собой блок обнаружения речевой активности, блок обнаружения шума, блок обнаружения речи или любой другой блок обнаружения, определяющий, в зависимости от спектральной информации или ассоциированных метаданных, требования по разрешению для различных спектральных частей.
Фиг. 5a иллюстрирует предпочтительную реализацию временно-спектрального преобразователя 100 по фиг. 1a, например, реализованного в AAC или USAC. Временно-спектральный преобразователь 100 содержит модуль 502 кодирования со взвешиванием, управляемый посредством блока 504 обнаружения переходных частей. Когда блок 504 обнаружения переходных частей обнаруживает переходную часть, в таком случае переключение с длинных окон кодирования со взвешиванием на короткие окна кодирования со взвешиванием передается в служебных сигналах в модуль кодирования со взвешиванием. Модуль 502 кодирования со взвешиванием затем вычисляет, для перекрывающихся блоков, кодированные со взвешиванием кадры, причем каждый кодированный со взвешиванием кадр типично имеет два N значений, к примеру, 2048 значений. После этого выполняется преобразование в модуле 506 блочного преобразования, и этот модуль блочного преобразования типично дополнительно предоставляет прореживание, так что комбинированное прореживание/преобразование выполняется для того, чтобы получать спектральный кадр с N значениями, к примеру, спектральными MDCT-значениями. Таким образом, для работы в периоды длинных окон кодирования со взвешиванием, кадр на входе блока 506 содержит два N значений, к примеру, 2048 значений, и спектральный кадр в таком случае имеет 1024 значения. Тем не менее, затем выполняется переключение на короткие блоки, когда выполняются восемь коротких блоков, при этом каждый короткий блок имеет 1/8 от числа кодированных со взвешиванием значений во временной области по сравнению с длинным окном кодирования со взвешиванием, и каждый спектральный блок имеет 1/8 от числа спектральных значений по сравнению с длинным блоком. Таким образом, когда это прореживание комбинировано с операцией 50%-ого перекрытия модуля кодирования со взвешиванием, спектр является критически дискретизированной версией аудиосигнала 99 временной области.
Далее следует обратиться к фиг. 5b, иллюстрирующему конкретную реализацию модуля 116 повторного формирования частоты и спектрально-временного преобразователя 118 по фиг. 1b или комбинированной работы блоков 208, 212 по фиг. 2a. На фиг. 5b, рассматривается конкретная полоса частот восстановления, к примеру, полоса 6 частот коэффициентов масштабирования по фиг. 3a. Первая спектральная часть в этой полосе частот восстановления, т.е. первая спектральная часть 306 по фиг. 3a вводится в блок 510 компоновки/регулирования кадров. Кроме того, восстановленная вторая спектральная часть для полосы 6 частот коэффициентов масштабирования также вводится в модуль 510 компоновки/регулирования кадров. Кроме того, информация энергии, к примеру, E3 по фиг. 3b для полосы 6 частот коэффициентов масштабирования также вводится в блок 510. Восстановленная вторая спектральная часть в полосе частот восстановления уже сформирована посредством заполнения частотными фрагментами с использованием исходного диапазона, и полоса частот восстановления затем соответствует целевому диапазону. Далее, выполняется энергетическое регулирование кадра, чтобы затем в итоге получать полный восстановленный кадр, имеющий N значений, например, получаемый на выходе модуля 208 комбинирования по фиг. 2a. После этого в блоке 512 обратное блочное преобразование/интерполяция выполняется для того, чтобы получать 248 значений во временной области, например, для 124 спектральных значений на входе блока 512. Затем операция синтезирующего кодирования со взвешиванием выполняется в блоке 514, который снова управляется посредством индикатора длинного окна кодирования со взвешиванием/короткого окна кодирования со взвешиванием, передаваемого в качестве вспомогательной информации в кодированном аудиосигнале. После этого в блоке 516, выполняется операция суммирования/перекрытия с предыдущим временным кадром. Предпочтительно, MDCT применяет 50%-ое перекрытие, так что для каждого нового временного кадра с 2N значений, в итоге выводятся N значений во временной области. 50%-ое перекрытие в большой степени предпочитается вследствие того факта, что оно предоставляет критическую дискретизацию и непрерывное разделение от одного кадра до следующего кадра вследствие операции суммирования/перекрытия в блоке 516.
Как проиллюстрировано на 301 на фиг. 3a, операция заполнения шумом дополнительно может применяться не только ниже начальной IGF-частоты, но также и выше начальной IGF-частоты, к примеру, для рассмотренной полосы частот восстановления, совпадающей с полосой 6 частот коэффициентов масштабирования по фиг. 3a. Затем спектральные значения заполнения шумом также могут вводиться в модуль 510 компоновки/регулирования кадров, и регулирование спектральных значений заполнения шумом также может применяться в этом блоке, или спектральные значения заполнения шумом могут уже регулироваться с использованием энергии заполнения шумом до ввода в модуль 510 компоновки/регулирования кадров.
Предпочтительно, IGF-операция, т.е. операция заполнения частотными фрагментами с использованием спектральных значений из других частей, может применяться в полном спектре. Таким образом, операция заполнения спектральными фрагментами может не только применяться в полосе высоких частот выше начальной IGF-частоты, но также может применяться в полосе низких частот. Кроме того, заполнение шумом без заполнения частотными фрагментами также может применяться не только ниже начальной IGF-частоты, но также и выше начальной IGF-частоты. Тем не менее, обнаружено, что высокое качество и высокоэффективное кодирование аудио могут быть получены, когда операция заполнения шумом ограничена частотным диапазоном ниже начальной IGF-частоты, и когда операция заполнения частотными фрагментами ограничивается частотным диапазоном выше начальной IGF-частоты, как проиллюстрировано на фиг. 3a.
Предпочтительно, целевые фрагменты (TT) (имеющие частоты, большие начальной IGF-частоты), ограничены границами полос частот коэффициентов масштабирования полноскоростного кодера. Исходные фрагменты (ST), из которых извлекается информация, т.е. для частот ниже начальной IGF-частоты, не ограничены посредством границ полос частот коэффициентов масштабирования. Размер ST должен соответствовать размеру ассоциированного TT. Это проиллюстрировано с использованием следующего примера. TT[0] имеет длину в 10 элементов MDCT-выборки. Она точно соответствует длине двух последующих SCB (к примеру, 4+6). Далее все возможные ST, которые должны быть коррелированы с TT[0], также имеют длину в 10 элементов выборки. Второй целевой фрагмент TT[1], смежный с TT[0], имеет длину в 15 элементов l выборки (SCB, имеющий длину 7+8). Далее ST для него имеют длину 15 элементов выборки, а не 10 элементов выборки, как для TT[0].
Если возникает такая ситуация, что невозможно находить TT для ST с длиной целевого фрагмента (когда, например, длина TT превышает доступный исходный диапазон), то корреляция не вычисляется, и исходный диапазон копируется определенное число раз в этот TT (копирование выполняется по одному элементу, так что частотная линия для наименьшей частоты второй копии идет сразу – по частоте – после частотной линии для наибольшей частоты первой копии) до тех пор, пока целевой фрагмент (TT) не будет полностью заполнен.
В дальнейшем следует обратиться к фиг. 5c, иллюстрирующему дополнительный предпочтительный вариант осуществления модуля 116 повторного формирования частоты по фиг. 1b или IGF-блока 202 по фиг. 2a. Блок 522 представляет собой модуль формирования частотных фрагментов, принимающий не только идентификатор целевой полосы частот, но и дополнительно принимающий идентификатор исходной полосы частот. В качестве примера, на стороне кодера определено то, что полоса 3 частот коэффициентов масштабирования по фиг. 3a очень хорошо подходит для восстановления полосы 7 частот коэффициентов масштабирования. Таким образом, идентификатор исходной полосы частот должен составлять 2, а идентификатор целевой полосы частот должен составлять 7. На основе этой информации модуль 522 формирования частотных фрагментов применяет операцию заполнения фрагментов перезаписи или гармоник или любую другую операцию заполнения фрагментами, чтобы формировать необработанную вторую часть спектральных компонентов 523. Необработанная вторая часть спектральных компонентов имеет частотное разрешение, идентичное частотному разрешению, включенному в первый набор первых спектральных частей.
Затем первая спектральная часть полосы частот восстановления, к примеру, 307 по фиг. 3a, вводится в модуль 524 компоновки кадров, и необработанная вторая часть 523 также вводится в модуль 524 компоновки кадров. Затем восстановленный кадр регулируется посредством модуля 526 регулирования с использованием коэффициента усиления для полосы частот восстановления, вычисленной посредством модуля 528 вычисления коэффициентов усиления. Тем не менее, важно, что первая спектральная часть в кадре не затрагивается посредством модуля 526 регулирования, а только необработанная вторая часть для кадра восстановления затрагивается посредством модуля 526 регулирования. С этой целью, модуль 528 вычисления коэффициентов усиления анализирует исходную полосу частот или необработанную вторую часть 523 и дополнительно анализирует первую спектральную часть в полосе частот восстановления, чтобы, в завершение, находить корректный коэффициент 527 усиления, так что энергия отрегулированного кадра, выводимого посредством модуля 526 регулирования, имеет энергию E4, когда рассматривается полоса 7 частот коэффициентов масштабирования.
В этом контексте, очень важно оценивать точность восстановления высоких частот настоящего изобретения по сравнению с HE-AAC. Это поясняется относительно полосы 7 частот коэффициентов масштабирования на фиг. 3a. Предполагается, что кодер предшествующего уровня техники, к примеру, проиллюстрированный на фиг. 13a, обнаруживает спектральную часть 307, которая должна кодироваться с высоким разрешением, в качестве "пропущенных гармоник". Затем энергия этого спектрального компонента передается вместе с информацией спектральной огибающей для полосы частот восстановления, к примеру, для полосы 7 частот коэффициентов масштабирования, в декодер. Далее декодер должен воссоздавать пропущенную гармонику. Тем не менее, спектральное значение, при котором пропущенная гармоника 307 восстанавливается посредством декодера предшествующего уровня техники по фиг. 13b, должно находиться в середине полосы частот 7 на частоте, указываемой посредством частоты 390 восстановления. Таким образом, настоящее изобретение избегает ошибки 391 по частоте, которая вводится посредством декодера предшествующего уровня техники по фиг. 13d.
В реализации, спектральный анализатор также реализован с возможностью вычислять подобия между первыми спектральными частями и вторыми спектральными частями и определять, на основе вычисленных подобий для второй спектральной части в диапазоне восстановления, первую спектральную часть, совпадающую со второй спектральной частью в максимально возможной степени. Затем в этой реализации с переменными исходными диапазонами/целевыми диапазонами параметрический кодер дополнительно вводит во второе кодированное представление информацию совпадения, указывающую для каждого целевого диапазона совпадающий исходный диапазон. На стороне декодера, эта информация затем используется посредством модуля 522 формирования частотных фрагментов по фиг. 5c, иллюстрирующего формирование необработанной второй части 523 на основе идентификатора исходной полосы частот и идентификатора целевой полосы частот.
Кроме того, как проиллюстрировано на фиг. 3a, спектральный анализатор выполнен с возможностью анализировать спектральное представление вплоть до максимальной аналитической частоты, представляющей собой только небольшую величину ниже половины частоты дискретизации и предпочтительно составляющей, по меньшей мере, одну четверть частоты дискретизации или типично выше.
Как проиллюстрировано, кодер работает без понижающей дискретизации, а декодер работает без повышающей дискретизации. Другими словами, аудиокодер в спектральной области выполнен с возможностью формировать спектральное представление, имеющее частоту Найквиста, заданную посредством частоты дискретизации первоначального входного аудиосигнала.
Кроме того, как проиллюстрировано на фиг. 3a, спектральный анализатор выполнен с возможностью анализировать спектральное представление начиная с начальной частоты заполнения интервалов и завершая максимальной частотой, представленной посредством максимальной частоты, включенной в спектральное представление, при этом спектральная часть, идущая от минимальной частоты вплоть до начальной частоты заполнения интервалов, принадлежит первому набору спектральных частей, и при этом дополнительная спектральная часть, к примеру, 304, 305, 306, 307, имеющая значения частоты выше частоты заполнения интервалов, дополнительно включена в первый набор первых спектральных частей.
Как указано, аудиодекодер 112 в спектральной области имеет такую конфигурацию, в которой максимальная частота, представленная посредством спектрального значения в первом декодированном представлении, равна максимальной частоте, включенной во временное представление, имеющее частоту дискретизации, при которой спектральное значение для максимальной частоты в первом наборе первых спектральных частей является нулем или отличается от нуля. В любом случае, для этой максимальной частоты в первом наборе спектральных компонентов существует коэффициент масштабирования для полосы частот коэффициентов масштабирования, который формируется и передается независимо от того, задаются или нет все спектральные значения в этой полосе частот коэффициентов масштабирования равными нулю, как пояснено в контексте фиг. 3a и 3b.
Следовательно, изобретение является преимущественным в том, что относительно других параметрических технологий для того, чтобы повышать эффективность сжатия, например, замещения шума и заполнения шумом (эти технологии служат исключительно для эффективного представления шумоподобного локального содержимого сигнала), изобретение обеспечивает возможность точного воспроизведения частоты тональных компонентов. К настоящему времени ни одна технология предшествующего уровня техники не разрешает эффективное параметрическое представление произвольного содержимого сигнала посредством заполнения интервалов в спектре без ограничения фиксированного априорного разделения в полосе низких частот (LF) и полосе высоких частот (HF).
Варианты осуществления изобретаемой системы совершенствуют подходы предшествующего уровня техники и за счет этого предоставляют высокую эффективность сжатия, отсутствие либо только небольшое перцепционное раздражение и полную полосу пропускания аудиосигнала даже для низких скоростей передачи битов.
Общая система состоит из:
- полнополосного базового кодирования,
- интеллектуального заполнения интервалов (заполнения фрагментами или заполнения шумом),
- разреженных тональных частей в базовом кодере, выбранных посредством тональной маски,
- кодирования на основе объединенных стереопар для полной полосы частот, включающего в себя заполнение фрагментами,
- TNS для фрагмента,
- спектрального отбеливания в IGF-диапазоне.
Первый шаг к более эффективной системе заключается в том, чтобы устранять необходимость преобразования спектральных данных во вторую область преобразования, отличающуюся от области преобразования базового кодера. Поскольку большинство аудиокодеков, к примеру, AAC, например, используют MDCT в качестве базового преобразования, полезно также выполнять BWE в MDCT-области. Второе требование для BWE-системы заключается в необходимости сохранять тональную сетку, в силу чего сохраняются даже тональные HF-компоненты, и качество кодированного аудио за счет этого превосходит существующие системы. Чтобы обеспечивать выполнение обоих вышеуказанных требований для BWE-схемы, предложена новая система, называемая "интеллектуальным заполнением интервалов (IGF)". Фиг. 2b показывает блок-схему предложенной системы на стороне кодера, а фиг. 2a показывает систему на стороне декодера.
Фиг. 9a иллюстрирует устройство для декодирования кодированного аудиосигнала, содержащего кодированное представление первого набора первых спектральных частей и кодированное представление параметрических данных, указывающих спектральные энергии для второго набора вторых спектральных частей. Первый набор первых спектральных частей указывается на 901a на фиг. 9a, а кодированное представление параметрических данных указывается на 901b на фиг. 9a. Аудиодекодер 900 предоставляется для декодирования кодированного представления 901a первого набора первых спектральных частей для того, чтобы получать декодированный первый набор первых спектральных частей 904, и для декодирования кодированного представления параметрических данных для того, чтобы получать декодированные параметрические данные 902 для второго набора вторых спектральных частей, указывающих отдельные энергии для отдельных полос частот восстановления, причем вторые спектральные части расположены в полосах частот восстановления. Кроме того, модуль 906 повторного формирования частоты предоставляется для восстановления спектральных значений полосы частот восстановления, содержащей вторую спектральную часть. Модуль 906 повторного формирования частоты использует первую спектральную часть первого набора первых спектральных частей и информацию отдельных энергий для полосы частот восстановления, при этом полоса частот восстановления содержит первую спектральную часть и вторую спектральную часть. Модуль 906 повторного формирования частоты содержит модуль 912 вычисления для определения информации энергии выживания, содержащей накопленную энергию первой спектральной части, имеющей частоты в полосе частот восстановления. Кроме того, модуль 906 повторного формирования частоты содержит модуль 918 вычисления для определения информации энергии фрагментов дополнительных спектральных частей полосы частот восстановления и для значений частоты, отличающихся от первой спектральной части, причем эти значения частоты имеют частоты в полосе частот восстановления, при этом дополнительные спектральные части должны формироваться посредством повторного формирования частоты с использованием первой спектральной части, отличающейся от первой спектральной части в полосе частот восстановления.
Модуль 906 повторного формирования частоты дополнительно содержит модуль 914 вычисления для недостающей энергии в полосе частот восстановления, и модуль 914 вычисления работает с использованием отдельной энергии для полосы частот восстановления и энергии выживания, сформированной посредством блока 912. Кроме того, модуль 906 повторного формирования частоты содержит модуль 916 регулирования спектральной огибающей для регулирования дополнительных спектральных частей в полосе частот восстановления на основе информации недостающей энергии и информации энергии фрагментов, сформированной посредством блока 918.
Следует обратиться к фиг. 9c, иллюстрирующий определенную полосу 920 частот восстановления. Полоса частот восстановления содержит первую спектральную часть в полосе частот восстановления, к примеру, первую спектральную часть 306 на фиг. 3a, схематично проиллюстрированную на 921. Кроме того, остальные спектральные значения в полосе 920 частот восстановления должны формироваться с использованием исходной области, например, из полосы 1, 2, 3 частот коэффициентов масштабирования ниже начальной частоты 309 интеллектуального заполнения интервалов по фиг. 3a. Модуль 906 повторного формирования частоты выполнен с возможностью формирования необработанных спектральных значений для вторых спектральных частей 922 и 923. Затем коэффициент g усиления вычисляется так, как проиллюстрировано на фиг. 9c, чтобы, в завершение, регулировать необработанные спектральные значения в полосах частот 922, 923 так, чтобы получать восстановленные и отрегулированные вторые спектральные части в полосе 920 частот восстановления, которые в данный момент имеют спектральное разрешение, т.е. линейное расстояние, идентичное спектральному разрешению (линейному расстоянию) первой спектральной части 921. Важно понимать, что первая спектральная часть в полосе частот восстановления, проиллюстрированная на 921 на фиг. 9c, декодируется посредством аудиодекодера 900 и не затрагивается посредством регулирования огибающей, выполняемого посредством блока 916 по фиг. 9b. В отличие от этого, первая спектральная часть в полосе частот восстановления, указываемая на 921, остается как есть, поскольку эта первая спектральная часть выводится посредством полноскоростного (с полной полосой пропускания) аудиодекодера 900 через линию 904.
Далее поясняется конкретный пример с действительными числами. Оставшаяся энергия выживания, вычисленная посредством блока 912, составляет, например, пять энергетических единиц, и эта энергия представляет собой энергию примерно указываемых четырех спектральных линий в первой спектральной части 921.
Кроме того, значение E3 энергии для полосы частот восстановления, соответствующей полосе 6 частот коэффициентов масштабирования по фиг. 3b или фиг. 3a, равно 10 единицам. Важно, что значение энергии содержит не только энергию спектральных частей 922, 923, но и полную энергию полосы 920 частот восстановления, вычисленную на стороне кодера, т.е. до выполнения спектрального анализа с использованием, например, маски тональности. Следовательно, десять энергетических единиц покрывают первую и вторую спектральные части в полосе частот восстановления. Далее предполагается, что энергия данных исходного диапазона для блоков 922, 923 или для необработанных данных целевого диапазона для блока 922, 923 равна восьми энергетическим единицам. Таким образом, вычисляется недостающая энергия в пять единиц.
На основе недостающей энергии, деленной на энергию tEk фрагментов, вычисляется коэффициент усиления в 0,79. После этого необработанные спектральные линии для вторых спектральных частей 922, 923 умножаются на вычисленный коэффициент усиления. Таким образом, регулируются только спектральные значения для вторых спектральных частей 922, 923, и спектральные линии для первой спектральной части 921 не затрагиваются посредством этого регулирования огибающей. После умножения необработанных спектральных значений для вторых спектральных частей 922, 923, вычислена полная полоса частот восстановления, состоящая из первых спектральных частей в полосе частот восстановления и состоящая из спектральных линий во вторых спектральных частях 922, 923 в полосе 920 частот восстановления.
Предпочтительно, исходный диапазон для формирования необработанных спектральных данных в полосах частот 922, 923, относительно частоты, ниже начальной IGF-частоты 309, а полоса 920 частот восстановления выше начальной IGF-частоты 309.
Кроме того, предпочтительно, чтобы границы полос частот восстановления совпадали с границами полос частот коэффициентов масштабирования. Таким образом, полоса частот восстановления имеет, в одном варианте осуществления, размер соответствующих полос частот коэффициентов масштабирования базового аудиодекодера, либо имеет такой размер, что когда применяется энергетическое спаривание, значение энергии для полосы частот восстановления предоставляет энергию в две или более высокое целое число полос частот коэффициентов масштабирования. Таким образом, когда предполагается, что аккумулирование энергии выполняется для полосы 4 частот коэффициентов масштабирования, полосы 5 частот коэффициентов масштабирования и полосы 6 частот коэффициентов масштабирования, в таком случае нижняя частотная граница полосы 920 частот восстановления равна нижней границе полосы 4 частот коэффициентов масштабирования, а верхняя частотная граница полосы 920 частот восстановления совпадает с верхней границей полосы 6 частот коэффициентов масштабирования.
Далее поясняется фиг. 9d для того, чтобы показывать дополнительные функциональности декодера по фиг. 9a. Аудиодекодер 900 принимает деквантованные спектральные значения, соответствующие первым спектральным частям первого набора спектральных частей, и дополнительно, коэффициенты масштабирования для полос частот коэффициентов масштабирования, к примеру, проиллюстрированных на фиг. 3b предоставляются в блок 940 обратного масштабирования. Блок 940 обратного масштабирования предоставляет все первые наборы первых спектральных частей ниже начальной IGF-частоты 309 по фиг. 3a и, дополнительно, первые спектральные части выше начальной IGF-частоты, т.е. первые спектральные части 304, 305, 306, 307 по фиг. 3a, которые находятся в полосе частот восстановления, как проиллюстрировано на 941 на фиг. 9d. Кроме того, первые спектральные части в исходной полосе частот, используемые для заполнения частотными фрагментами в полосе частот восстановления, предоставляются в модуль 942 регулирования/вычисления огибающей, и этот блок дополнительно принимает информацию энергии для полосы частот восстановления, предоставленную в качестве параметрической вспомогательной информации в кодированном аудиосигнале, как проиллюстрировано на 943 на фиг. 9d. Затем модуль 942 регулирования/вычисления огибающей предоставляет функциональности по фиг. 9b и 9c и, в завершение, выводит отрегулированные спектральные значения для вторых спектральных частей в полосе частот восстановления. Эти отрегулированные спектральные значения 922, 923 для вторых спектральных частей в полосе частот восстановления и первых спектральных частей 921 в полосе частот восстановления указывают то, что линия 941 на фиг. 9d объединенно представляет полное спектральное представление полосы частот восстановления.
Далее следует обратиться к фиг. 10a в 10b для пояснения предпочтительных вариантов осуществления аудиокодера для кодирования аудиосигнала, чтобы предоставлять или формировать кодированный аудиосигнал. Кодер содержит временно-спектральный преобразователь 1002, подающий спектральный анализатор 1004, и спектральный анализатор 1004 соединяется с модулем 1006 вычисления параметров, с одной стороны, и с аудиокодером 1008, с другой стороны. Аудиокодер 1008 предоставляет кодированное представление первого набора первых спектральных частей и не покрывает второй набор вторых спектральных частей. С другой стороны, модуль 1006 вычисления параметров предоставляет информацию энергии для полосы частот восстановления, покрывающей первые и вторые спектральные части. Кроме того, аудиокодер 1008 выполнен с возможностью формирования первого кодированного представления первого набора первых спектральных частей, имеющих первое спектральное разрешение, при этом аудиокодер 1008 предоставляет коэффициенты масштабирования для всех полос частот спектрального представления, сформированного посредством блока 1002. Кроме того, как проиллюстрировано на фиг. 3b, кодер предоставляет информацию энергии, по меньшей мере, для полос частот восстановления, расположенных, относительно частоты, выше начальной IGF-частоты 309, как проиллюстрировано на фиг. 3a. Таким образом, для полос частот восстановления, предпочтительно совпадающих с полосами частот коэффициентов масштабирования или с группами полос частот коэффициентов масштабирования, предоставляются два значения, т.е. соответствующий коэффициент масштабирования из аудиокодера 1008 и, дополнительно, информация энергии, выводимая посредством модуля 1006 вычисления параметров.
Аудиокодер предпочтительно имеет полосы частот коэффициентов масштабирования с различными полосами пропускания частот, т.е. с различным количеством спектральных значений. Следовательно, параметрический модуль вычисления содержит нормализатор 1012 для нормализации энергий для различной полосы пропускания относительно полосы пропускания конкретной полосы частот восстановления. С этой целью, нормализатор 1012 принимает, в качестве вводов, энергию в полосе частот и количество спектральных значений в полосе частот, и нормализатор 1012 затем выводит нормализованную энергию в расчете на полосу частот восстановления/коэффициентов масштабирования.
Кроме того, параметрический модуль 1006a вычисления по фиг. 10a содержит модуль вычисления значений энергии, принимающей управляющую информацию из базового кодера или аудиокодера 1008, как проиллюстрировано посредством линии 1007 на фиг. 10a. Эта управляющая информация может содержать информацию относительно длинных/коротких блоков, используемых посредством аудиокодера, и/или информацию группировки. Следовательно, в то время как информация относительно длинных/коротких блоков и информация группировки относительно коротких окон кодирования со взвешиванием связаны с "временной" группировкой, информация группировки дополнительно может означать спектральную группировку, т.е. группировку двух полос частот коэффициентов масштабирования в одну полосу частот восстановления. Следовательно, модуль 1014 вычисления значений энергии выводит одно значение энергии для каждой сгруппированной полосы частот, покрывающей первую и вторую спектральную часть, когда только спектральные части сгруппированы.
Фиг. 10d иллюстрирует дополнительный вариант осуществления для реализации спектральной группировки. С этой целью, блок 1016 выполнен с возможностью вычисления значений энергии для двух смежных полос частот. Затем в блоке 1018 сравниваются значения энергии для смежных полос частот, и когда значения энергии сильно не отличаются или отличаются в меньшей степени, чем задано, например, посредством порогового значения, то формируется одно (нормализованное) значение для обеих полос частот, как указано в блоке 1020. Как проиллюстрировано посредством линии 1019, блок 1018 может обходиться. Кроме того, формирование одного значения для двух или более полос частот, выполняемое посредством блока 1020, может управляться посредством управления 1024 скоростью передачи битов кодера. Таким образом, когда скорость передачи битов должна уменьшаться, управление 1024 кодированной скоростью передачи битов управляет блоком 1020 таким образом, чтобы формировать одно нормализованное значение для двух или более полос частот, даже если сравнение в блоке 1018 не разрешено для того, чтобы группировать значения информации энергии.
В случае если аудиокодер выполняет группировку двух или более коротких окон кодирования со взвешиванием, эта группировка также применяется для информации энергии. Когда базовый кодер выполняет группировку двух или более коротких блоков, то для двух или более блоков вычисляется и передается только один набор коэффициентов масштабирования. На стороне декодера, аудиодекодер затем применяет идентичный набор коэффициентов масштабирования для обоих сгруппированных окон кодирования со взвешиванием.
Относительно вычисления информации энергии, спектральные значения в полосе частот восстановления накапливаются за два или более коротких окна кодирования со взвешиванием. Другими словами, это означает то, что спектральные значения в определенной полосе частот восстановления для короткого блока и для последующего короткого блока накапливаются вместе, и только одно значение информации энергии передается для этой полосы частот восстановления, покрывающей два коротких блока. Затем на стороне декодера, регулирование огибающей, поясненное относительно фиг. 9a на 9d, выполняется не по отдельности для каждого короткого блока, а совместно для набора сгруппированных коротких окон кодирования со взвешиванием.
После этого снова применяется соответствующая нормализация, так что даже если выполнена группировка по частоте или группировка во времени, нормализация легко обеспечивает то, что для вычисления информации значений энергии на стороне декодера, должно быть известно только значение информации энергии, с одной стороны, и количество спектральных линий в полосе частот восстановления или в наборе сгруппированных полос частот восстановления.
Кроме того, следует подчеркнуть, что информация относительно спектральных энергий, информация относительно отдельных энергий (или информация отдельных энергий), информация относительно энергии выживания (или информация энергии выживания), информация относительно энергии фрагментов (или информация энергии фрагментов) либо информация относительно недостающей энергии (или информация недостающей энергии) может содержать не только значение энергии, но также и (например, абсолютное) значение амплитуды, значение уровня или любое другое значение, из которого может быть получено конечное значение энергии. Следовательно, информация относительно энергии, например, может содержать само значение энергии и/или значение уровня и/или амплитуды, и/или абсолютной амплитуды.
Фиг. 12a иллюстрирует дополнительную реализацию устройства для декодирования. Поток битов принимается посредством базового декодера 1200, который, например, может представлять собой AAC-декодер. Результат сконфигурирован, например, в каскад для выполнения наложения 1202 или мозаичного размещения расширения полосы пропускания, соответствующего модулю 604 повторного формирования частоты. Далее выполняется процедура адаптации и постобработки наложений/ фрагментов, и когда адаптация наложений выполнена, модуль 1202 повторного формирования частоты управляется таким образом, чтобы выполнять дополнительное повторное формирование частоты, но теперь, например, с отрегулированными частотными границами. Кроме того, когда обработка наложения выполняется, к примеру, посредством исключения или ослабления тональных линий, результат затем перенаправляется в блок 1206, выполняющий формирование огибающей полосы пропускания на основе параметров, как, например, также пояснено в контексте блока 712 или 826. Результат затем перенаправляется в блок 1208 синтезирующего преобразования для выполнения преобразования в конечную выходную область, которая представляет собой, например, выходную PCM-область, как проиллюстрировано на фиг. 12a.
Основные признаки вариантов осуществления изобретения заключаются в следующем:
Предпочтительный вариант осуществления основан на MDCT, которое демонстрирует вышеуказанные артефакты щелкания, если тональные спектральные области отсечены посредством неудачного выбора частоты разделения, и/или допустимые запасы наложения либо тональные компоненты стремятся к размещению слишком близко на границах наложений.
Фиг. 12b показывает то, как новая предложенная технология уменьшает артефакты, обнаруженные в BWE-способах предшествующего уровня техники. На панели (2) по фиг. 12, показан стилизованный спектр абсолютной величины вывода современного BWE-способа. В этом примере, сигнал перцепционно повреждается посредством биения, вызываемого посредством двух близлежащих тонов, а также посредством разбиения тона. Обе проблематичных спектральных области помечаются с помощью окружности.
Чтобы преодолевать эти проблемы, новая технология сначала обнаруживает спектральное местоположение тональных компонентов, содержащихся в сигнале. Затем, согласно одному аспекту изобретения, предпринимается попытка регулировать частоты перехода между LF и всеми наложениями посредством отдельных сдвигов (в данных пределах) таким образом, что минимизируется разбиение или биение тональных компонентов. С этой целью, частота перехода предпочтительно должна совпадать с локальным спектральным минимумом. Этот этап показан на панели (2) и на панели (3) по фиг. 12b, на которых частота/перехода сдвигается к верхним частотам, что приводит в результате к .
Согласно другому аспекту изобретения, если проблематичный спектральный контент в переходных областях остается, по меньшей мере, один из ошибочных тональных компонентов удаляется, чтобы уменьшать либо артефакт биений на частотах перехода, либо щелкание. Это выполняется через спектральную экстраполяцию или интерполяцию/фильтрацию, как показано на панели (3) по фиг. 2. Тональный компонент в силу этого удаляется от нижней точки до нижней точки, т.е. от своего левого локального минимума до своего правого локального минимума. Результирующий спектр после применения изобретаемой технологии показан на панели (4) по фиг. 12b.
Другими словами, фиг. 12b иллюстрирует, в верхнем левом углу, т.е. на панели (1), исходный сигнал. В верхнем правом углу, т.е. на панели (2), показан сравниваемый сигнал с расширенной полосой пропускания с проблематичными областями, помеченными посредством эллипсов 1220 и 1221. В нижнем левом углу, т.е. на панели (3), проиллюстрированы два предпочитаемых признака обработки наложений или частотных фрагментов. Разбиение тональных частей разрешено посредством увеличения частотной границы f'x2 таким образом, что отсечение соответствующей тональной части более не выполняется. Кроме того, применяются функции 1030 усиления для исключения тональной части 1031 и 1032, либо альтернативно, указывается интерполяция, проиллюстрированная посредством 1033. В завершение, нижний правый угол по фиг. 12b, т.е. панель (4) иллюстрирует улучшенный сигнал, получающийся в результате комбинации регулирования частоты фрагмента/наложения, с одной стороны, и исключения либо, по меньшей мере, ослабления проблематичных тональных частей.
Панель (1) по фиг. 12b иллюстрирует, как пояснено выше, исходный спектр, и исходный спектр имеет базовый частотный диапазон вплоть до частоты fx1 разделения или начальной частоты заполнения интервалов отсутствия сигнала.
Таким образом, частота fx1 иллюстрирует граничную частоту 1250 между исходным диапазоном 1252 и диапазоном 1254 восстановления, идущим между граничной частотой 1250 и максимальной частотой, которая меньше или равна частоте fNyquist Найквиста. На стороне кодера предполагается, что сигнал имеет ограниченную полосу пропускания при fx1, либо, когда применяется технология относительно интеллектуального заполнения интервалов отсутствия сигнала, предполагается, что fx1 соответствует начальной частоте 309 заполнения интервалов отсутствия сигнала по фиг. 3a. В зависимости от технологии, диапазон восстановления выше fx1 является пустым (в случае реализации по фиг. 13a, 13b) или содержит определенные первые спектральные части, которые должны кодироваться с высоким разрешением, как пояснено в контексте фиг. 3a.
Панель (2) по фиг. 12b иллюстрирует предварительный повторно сформированный сигнал, например, сформированный посредством блока 702 по фиг. 7a, который имеет две проблематичных части. Одна проблематичная часть проиллюстрирована на 1220. Частотное расстояние между тональной частью в базовой области, проиллюстрированной на 1220a, и тональной частью в начале частотного фрагмента, проиллюстрированной на 1220b, является слишком маленьким, так что должен создаваться артефакт биений. Дополнительная проблема состоит в том, что на верхней границе первого частотного фрагмента, сформированного посредством первой операции наложения или операции частотного мозаичного размещения, проиллюстрированной на 1225, имеется отсеченная наполовину или разбитая тональная часть 1226. Когда эта тональная часть 1226 сравнивается с другими тональными частями на фиг. 12b, становится очевидным, что ширина меньше ширины типичной тональной части, и это означает то, что данная тональная часть разбита посредством задания частотной границы между первым частотным фрагментом 1225 и вторым частотным фрагментом 1227 в неправильном месте в исходном диапазоне 1252. Чтобы разрешать эту проблему, граничная частота fx2 модифицируется таким образом, что она становится немного больше, как проиллюстрировано на панели (3) на фиг. 12b, так что отсечение этой тональной части не возникает.
С другой стороны, эта процедура, в которой изменяется f'x2, эффективно не разрешает проблему биений, которая, в силу этого, разрешается посредством удаления тональных компонентов посредством фильтрации или интерполяции либо любых других процедур, как пояснено в контексте блока 708 по фиг. 7a. Таким образом, фиг. 12b иллюстрирует последовательное применение регулирования 706 частоты перехода и удаление тональных компонентов на границах, проиллюстрированных на 708.
Другой вариант заключается в том, чтобы задавать границу fx1 перехода таким образом, что она немного ниже, так что тональная часть 1220a более не находится в базовом диапазоне. Затем тональная часть 1220a также удаляется или исключается посредством задания частоты fx1 перехода равной меньшему значению.
Эта процедура также работает для разрешения проблемы с проблематичным тональным компонентом 1032. Посредством задания f'x2 еще выше, спектральная часть, в которой расположена тональная часть 1032, может повторно формироваться в первой операции 1225 наложения, и в силу этого две смежных или соседних тональных части не должны возникать.
По существу, проблема биений зависит от амплитуд и расстояния по частоте смежных тональных частей. Блок 704, 720 обнаружения или, вообще говоря, анализатор 602 предпочтительно сконфигурирован таким образом, что анализ нижней спектральной части, расположенной на частоте ниже частоты перехода, такой как fx1, fx2, f'x2, анализируется для того, чтобы находить все тональные компоненты. Кроме того, спектральный диапазон выше частоты перехода также анализируется для того, чтобы обнаруживать тональный компонент. Когда обнаружение приводит к двум тональным компонентам, один слева от частоты перехода относительно частоты и один справа (относительно возрастающей частоты), то активируется модуль удаления тональных компонентов на границах, проиллюстрированный на 708 на фиг. 7a. Обнаружение тональных компонентов выполняется в определенном диапазоне обнаружения, который идет, от частоты перехода, в обоих направлениях, по меньшей мере, на 20% относительно полосы пропускания соответствующей полосы частот, и предпочтительно идет только вплоть до 10% вниз слева от частоты перехода и вверх справа от частоты перехода, связанной с соответствующей полосой пропускания, т.е. полосой пропускания исходного диапазона, с одной стороны, и диапазона восстановления, с другой стороны, или, когда частота перехода является частотой перехода между двумя частотными фрагментами 1225, 1227, соответствующей 10%-й величины соответствующего частотного фрагмента. В дополнительном варианте осуществления, предварительно определенная полоса пропускания обнаружения составляет один барк. Должно быть возможным удалять тональные части в диапазоне 1 барк вокруг границы наложения, так что полный диапазон обнаружения составляет 2 барка, т.е. один барк в полосе нижних частот и один барк в полосе верхних частот, причем один барк в полосе нижних частот является непосредственно смежным с одним барком в полосе верхних частот.
Согласно другому аспекту изобретения, чтобы уменьшать артефакт звона фильтра, фильтр разделения в частотной области применяется к двум последовательным спектральным областям, т.е. между полосой базовых частот и первым наложением или между двумя наложениями. Предпочтительно, фильтр разделения является сигнально-адаптивным.
Фильтр разделения состоит из двух фильтров, фильтра/постепенного затухания, который применяется к нижней спектральной области, и фильтра/постепенного нарастания, который применяется к верхней спектральной области.
Каждый из фильтров имеет длину .
Помимо этого, наклон обоих фильтров характеризуется посредством сигнально-адаптивного значения, называемого , определяющего характеристику режекции фильтра разделения, где
Если , то сумма обоих фильтров равна 1, т.е. отсутствует характеристика режекторного фильтра в результирующем фильтре.
Если , то оба фильтра являются полностью нулевыми.
Базовая структура фильтров разделения является ограничением для следующих уравнений:
,
где/является частотным индексом. Фиг. 12c показывает пример такого фильтра разделения.
В этом примере, следующее уравнение используется для того, чтобы создавать фильтр :
Следующее уравнение описывает, как фильтры/и/затем применяются:
,
где/обозначает собранный спектр,/является частотой перехода,/является низкочастотным контентом, и/является высокочастотным контентом.
Далее представлены доказательства преимущества этой технологии. Исходный сигнал в нижеприведенных примерах представляет собой переходный сигнал, в частности, его фильтрованную по нижним частотам версию, с частотой отсечки 22 кГц. Во-первых, эта переходная часть имеет ограниченную полосу частот в 6 кГц в области преобразования. После этого, полоса пропускания фильтрованного по нижним частотам исходного сигнала расширена до 24 кГц. Расширение полосы пропускания выполняется посредством копирования полосы LF-частот три раза, чтобы полностью заполнять частотный диапазон, который доступен выше 6 кГц в преобразовании.
Фиг. 11a показывает спектр этого сигнала, который может рассматриваться как типичный спектр артефакта звона фильтра, который спектрально окружает переходную часть вследствие упомянутой характеристики "кирпичной стены" преобразования (речевых пиков 1100). Посредством применения изобретаемого подхода, звон фильтра уменьшается приблизительно на 20 дБ на каждой частоте перехода (уменьшенные речевые пики).
Идентичный эффект, но на другой иллюстрации, показан на фиг. 11b, 11c. Фиг. 11b показывает спектрограмму упомянутого переходного сигнала с артефактом звона фильтра, который временно предшествует и идет после переходной части после применения вышеописанной BWE-технологии без уменьшения звона фильтра. Каждая из горизонтальных линий представляет звон фильтра на частоте перехода между последовательными наложениями. Фиг. 6 показывает идентичный сигнал после применения изобретаемого подхода в BWE. Через применение уменьшения звона, звон фильтра уменьшается приблизительно на 20 дБ по сравнению с сигналом, отображаемым на предыдущем чертеже.
Далее поясняются фиг. 14a, 14b, чтобы дополнительно иллюстрировать аспект изобретения касательно фильтра разделения, уже поясненный в контексте с признаком анализатора. Тем не менее, фильтр 710 разделения также может реализовываться независимо от изобретения, поясненного в контексте фиг. 6a-7b.
Фиг. 14a иллюстрирует устройство для декодирования кодированного аудиосигнала, содержащего кодированный базовый сигнал и информацию относительно параметрических данных. Устройство содержит базовый декодер 1400 для декодирования кодированного базового сигнала, чтобы получать декодированный базовый сигнал. Декодированный базовый сигнал может иметь ограниченную полосу пропускания в контексте реализации по фиг. 13a, фиг. 13b, либо базовый декодер может представлять собой полнодиапазонный или полноскоростной кодер в контексте фиг. 1-5c или 9a-10d.
Кроме того, модуль 1404 формирования фрагментов для повторного формирования одного или более спектральных фрагментов, имеющих частоты, не включенные в декодированный базовый сигнал, формируется с использованием спектральной части декодированного базового сигнала. Фрагменты могут представлять собой восстановленные вторые спектральные части в полосе частот восстановления, как, например, проиллюстрировано в контексте фиг. 3a, либо которые могут включать в себя первые спектральные части, которые должны быть восстановлены с высоким разрешением, но, альтернативно, спектральные фрагменты также могут содержать абсолютно пустые полосы частот, когда кодер выполняет жесткое ограничение полосы частот, как проиллюстрировано на фиг. 13a.
Кроме того, фильтр 1406 разделения предоставляется для спектральной фильтрации для разделения декодированного базового сигнала и первого частотного фрагмента, имеющего частоты, идущие от частоты 309 заполнения интервалов отсутствия сигнала до конечной частоты первого фрагмента, или для спектральной фильтрации для разделения первого частотного фрагмента 1225 и второго частотного фрагмента 1221, причем второй частотный фрагмент имеет нижнюю граничную частоту, смежную по частоте с верхней граничной частотой первого частотного фрагмента 1225.
В дополнительной реализации, выходной сигнал фильтра 1406 разделения подается в модуль 1408 регулирования огибающей, который применяет параметрическую информацию спектральной огибающей, включенную в кодированный аудиосигнал в качестве параметрической вспомогательной информации, чтобы в завершение получать подвергнутый регулированию огибающей повторно сформированный сигнал. Элементы 1404, 1406, 1408 могут реализовываться, например, как модуль повторного формирования частоты, как, например, проиллюстрировано на фиг. 13b, фиг. 1b или фиг. 6a.
Фиг. 14b иллюстрирует дополнительную реализацию фильтра 1406 разделения. Фильтр 1406 разделения содержит субфильтр постепенного затухания, принимающий первый входной сигнал IN1, и второй субфильтр 1422 постепенного нарастания, принимающий второй ввод IN2, и результаты или выводы обоих фильтров 1420 и 1422 предоставляются в модуль 1424 комбинирования, который представляет собой, например, сумматор. Сумматор или модуль 1424 комбинирования выводит спектральные значения для элементов разрешения по частоте. Фиг. 12c иллюстрирует примерную функцию плавного перехода, содержащую характеристику 1420a субфильтра постепенного затухания и характеристику 1422a субфильтра постепенного нарастания. Оба фильтра имеют определенное перекрытие частот в примере на фиг. 12c, равное 21, т.е. N=21. Таким образом, на другие значения частоты, например, на исходную область 1252 влияние не оказывается. Только на наибольшие 21 элементов разрешения по частоте исходного диапазона 1252 оказывает влияние функция 1420a постепенного затухания.
С другой стороны, только на наименьшие 21 частотные линии первого частотного фрагмента 1225 оказывает влияние функция 1422a постепенного нарастания.
Дополнительно, из функций плавного перехода становится очевидным, что на частотные линии между 9 и 13 оказывается влияние, но функция постепенного нарастания фактически не оказывает влияние на частотные линии между 1 и 9, и функция 1420a постепенного затухания не оказывает влияние на частотные линии между 13 и 21. Это означает то, что перекрытие требуется только между частотными линиями 9 и 13, и частота разделения, к примеру, fx1 размещается в частотной выборке или элементе 11 разрешения по частоте. Таким образом, перекрытие только двух элементов разрешения по частоте или значений частоты между исходным диапазоном и первым частотным фрагментом требуется для того, чтобы реализовывать функцию разделения или плавного перехода.
В зависимости от конкретной реализации, может применяться более высокое или более низкое перекрытие, и дополнительно, могут использоваться другие функции постепенного изменения, отличные от косинусоидальной функции. Кроме того, как проиллюстрировано на фиг. 12c, предпочтительно применять определенную режекцию в диапазоне разделения. Другими словами, энергия в граничных диапазонах уменьшается вследствие того факта, что обе функции фильтра не составляют в целом единицу, что имеет место в функции плавного перехода без режекции. Эти потери энергии для границ частотного фрагмента, т.е. первого частотного фрагмента, ослабляются на нижней границе и на верхней границе, причем энергии концентрируются больше к середине полос частот. Тем не менее, вследствие того факта, что регулирование спектральной огибающей осуществляется после обработки посредством фильтра разделения, полная частота не затрагивается, а задается посредством данных спектральной огибающей, таких как соответствующие коэффициенты масштабирования, как пояснено в контексте фиг. 3a. Другими словами, модуль 918 вычисления по фиг. 9b затем вычисляет "уже сформированный необработанный целевой диапазон", который является выводом фильтра разделения. Кроме того, энергетические потери вследствие удаления тональной части посредством интерполяции также должны компенсироваться вследствие того факта, что это удаление впоследствии приводит к более низкой энергии фрагментов, и коэффициент усиления для полной полосы частот восстановления становится более высоким. Тем не менее, с другой стороны, частота разделения приводит к концентрации энергии больше к середине частотного фрагмента, и это, в конечном счете, эффективно уменьшает артефакты, в частности, вызываемые посредством переходных частей, как пояснено в контексте фиг. 11a-11c.
Фиг. 14b иллюстрирует различные комбинации входов. Для фильтрации на границе между исходным частотным диапазоном и частотным фрагментом, вход 1 представляет собой верхнюю спектральную часть базового диапазона, а вход 2 представляет собой нижнюю спектральную часть первого частотного фрагмента или одночастотного фрагмента, когда существует только одночастотный фрагмент. Кроме того, вход может представлять собой первый частотный фрагмент, и частота перехода может представлять собой верхнюю частотную границу первого фрагмента, а вход в субфильтр 1422 представляет собой нижнюю часть второго частотного фрагмента. Когда существует дополнительный третий частотный фрагмент, в таком случае дополнительная частота перехода представляет собой частотную границу между вторым частотным фрагментом и третьим частотным фрагментом, и вход в субфильтр 1421 постепенного затухания представляет собой верхний спектральный диапазон второго частотного фрагмента, как определено посредством параметра фильтрации, когда используется характеристика по фиг. 12c, и вход в субфильтр 1422 постепенного нарастания представляет собой нижнюю часть третьего частотного фрагмента и, в примере по фиг. 12c, наименьшие 21 спектральные линии.
Как проиллюстрировано на фиг. 12c, предпочтительно иметь параметр N равным для субфильтра постепенного затухания и субфильтра постепенного нарастания. Тем не менее, это необязательно. Значения для N могут варьироваться, и результат в таком случае заключается в том, что "режекция" фильтра является асимметричной между нижним и верхним диапазоном. Дополнительно, функции постепенного нарастания/постепенного затухания не обязательно должна иметь идентичную характеристику, как показано на фиг. 12c. Вместо этого, также могут использоваться асимметричные характеристики.
Кроме того, предпочтительно задавать характеристику фильтра разделения сигнально-адаптивной. Следовательно, на основе анализа сигналов, характеристика фильтра адаптируется. Вследствие того факта, что фильтр разделения является особенно полезным для переходных сигналов, обнаруживается то, возникают или нет переходные сигналы. Когда возникают переходные сигналы, то может использоваться характеристика фильтра, к примеру, проиллюстрированная на фиг. 12c. Тем не менее, когда обнаруживается непереходный сигнал, предпочтительно изменять характеристику фильтра, чтобы уменьшать влияние фильтра разделения. Это, например, может получаться посредством задания N равным нулю или посредством задания Xbias равным нулю, так что сумма обоих фильтров равна 1, т.е. в результирующем фильтре отсутствует характеристика режекторного фильтра. Альтернативно, фильтр 1406 разделения может просто обходиться в случае непереходных сигналов. Тем не менее, предпочтительно, относительно медленно изменяющаяся характеристика фильтра посредством изменения параметров N, Xbias предпочитается во избежание артефактов, полученных посредством быстро изменяющихся характеристик фильтра. Кроме того, фильтр нижних частот предпочитается для обеспечения только таких относительно небольших изменений характеристики фильтра, даже если сигнал изменяется более быстро, как обнаружено посредством определенного блока обнаружения переходных частей/тональности. Блок обнаружения проиллюстрирован на 1405 на фиг. 14a. Он может принимать входной сигнал в модуль формирования фрагментов или выходной сигнал модуля 1404 формирования фрагментов либо он может даже соединяться с базовым декодером 1400, чтобы получать информацию переходных частей/непереходных частей, такую как, например, индикатор коротких блоков из AAC-декодирования. Естественно, также может использоваться любой другой фильтр разделения, отличающийся от фильтра разделения, показанного на фиг. 12c.
После этого, на основе обнаружения переходных частей или на основе обнаружения тональности либо на основе любого другого обнаружения характеристики сигналов, изменяется характеристика фильтра 1406 разделения, как пояснено выше.
Хотя некоторые аспекты описаны в контексте устройства для кодирования или декодирования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.
В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием энергонезависимого носителя хранения данных, такого как цифровой носитель хранения данных, например, гибкий диск, жесткий диск (HDD), DVD, Blu-Ray, CD, ROM, PROM и EPROM, EEPROM или флэш-память, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.
Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.
Список библиографических ссылок
[1] Dietz, L. Liljeryd, K. Kjörling и O. Kunz "Spectral Band Replication, the novel approach in audio coding", in 112th AES Convention, Мюнхен, май 2002 года.
[2] Ferreira, D. Sinha "Accurate Spectral Replacement", Audio Engineering Society Convention, Барселона, Испания, 2005 год.
[3] D. Sinha, A. Ferreira1 и E. Harinarayanan "A Novel Integrated Audio Bandwidth Extension Toolkit (ABET)", Audio Engineering Society Convention, Париж, Франция, 2006 год.
[4] R. Annadana, E. Harinarayanan, A. Ferreira и D. Sinha "New Results in Low Bit Rate Speech Coding и Bandwidth Extension", Audio Engineering Society Convention, Сан-Франциско, США, 2006 год.
[5] T. Żernicki, M. Bartkowiak "Audio bandwidth extension by frequency scaling of sinusoidal partials", Audio Engineering Society Convention, Сан-Франциско, США, 2008 год.
[6] J. Herre, D. Schulz "Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution", 104th AES Convention, Амстердам, 1998 год, Preprint 4720.
[7] M. Neuendorf, M. Multrus, N. Rettelbach и др. "MPEG Unified Speech и Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types", 132nd AES Convention, Будапешт, Венгрия, апрель 2012 года.
[8] McAulay, Robert J., Quatieri, Thomas F. "Speech Analysis/Synthesis Based on the Sinusoidal Representation". IEEE Transactions on Acoustics, Speech и Signal Processing, издание 34(4), август 1986 года.
[9] Smith, J.O., Serra, X "PARSHL: An analysis/synthesis program for non-harmonic sounds based on the sinusoidal representation", Proceedings of the International Computer Music Conference, 1987 год.
[10] Purnhagen, H.; Meine, Nikolaus "HILN-the MPEG-4 parametric audio coding tools", Circuits и Systems, 2000 Proceedings ISCAS, 2000 год, Женева, The 2000 IEEE International Symposium on, издание 3, номер, стр. 201, 204, том 3, 2000 год
[11] International Standard ISO/IEC 13818-3 "Generic Coding of Moving Pictures и Associated Audio: Audio", Женева, 1998 год.
[12] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Oikawa "MPEG-2 Advanced Audio Coding", 101st AES Convention, Ло-Анжелес, 1996 год
[13] J. Herre "Temporal Noise Shaping, Quantization и Coding methods in Perceptual Audio Coding: A Tutorial introduction", 17th AES International Conference on High Quality Audio Coding, август 1999 года.
[14] J. Herre "Temporal Noise Shaping, Quantization и Coding methods in Perceptual Audio Coding: A Tutorial introduction", 17th AES International Conference on High Quality Audio Coding, август 1999 года.
[15] International Standard ISO/IEC 23001-3:2010 "Unified speech и audio coding Audio", Женева, 2010 год.
[16] International Standard ISO/IEC 14496-3:2005 "Information technology – Coding of audio-visual objects – Part 3: Audio", Женева, 2005 год.
[17] P. Ekstrand "Bandwidth Extension of Audio Signals by Spectral Band Replication", in Proceedings of 1st IEEE Benelux Workshop on MPCA, Leuven, ноябрь 2002 года
[18] F. Nagel, S. Disch, S. Wilde "A continuous modulated single sideband bandwidth extension", ICASSP International Conference on Acoustics, Speech и Signal Processing, Даллас, Texas (США), апрель 2010 года
[19] Liljeryd, Lars; Ekstrand, Per; Henn, Fredrik; Kjorling, Kristofer, "Spectral translation/folding in the subband domain", патент (США) 8412365, 2 апреля 2013 года.
[20] Daudet, L.; Sandler, M., "MDCT analysis of sinusoids: exact results and applications to coding artifacts reduction", Speech and Audio Processing, IEEE Transactions on, издание 12, номер 3, стр. 302-312, май 2004 года.
название | год | авторы | номер документа |
---|---|---|---|
УСТРОЙСТВО, СПОСОБ И КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА | 2014 |
|
RU2651229C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ КОДИРОВАНИЯ ИЛИ ДЕКОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА С ИНТЕЛЛЕКТУАЛЬНЫМ ЗАПОЛНЕНИЕМ ИНТЕРВАЛОВ В СПЕКТРАЛЬНОЙ ОБЛАСТИ | 2014 |
|
RU2635890C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА С ИСПОЛЬЗОВАНИЕМ ВРЕМЕННОГО ФОРМИРОВАНИЯ ШУМА/НАЛОЖЕНИЙ | 2014 |
|
RU2607263C2 |
АУДИОКОДЕР, АУДИОДЕКОДЕР И СВЯЗАННЫЕ СПОСОБЫ С ИСПОЛЬЗОВАНИЕМ ДВУХКАНАЛЬНОЙ ОБРАБОТКИ В ИНФРАСТРУКТУРЕ ИНТЕЛЛЕКТУАЛЬНОГО ЗАПОЛНЕНИЯ ИНТЕРВАЛОВ ОТСУТСТВИЯ СИГНАЛА | 2014 |
|
RU2646316C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ ДЕКОДИРОВАНИЯ ИЛИ КОДИРОВАНИЯ ЗВУКОВОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ЗНАЧЕНИЙ ИНФОРМАЦИИ ЭНЕРГИИ ДЛЯ ПОЛОСЫ ЧАСТОТ ВОССТАНОВЛЕНИЯ | 2014 |
|
RU2649940C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ ДЕКОДИРОВАНИЯ И КОДИРОВАНИЯ АУДИОСИГНАЛА С ИСПОЛЬЗОВАНИЕМ АДАПТИВНОГО ВЫБОРА СПЕКТРАЛЬНЫХ ФРАГМЕНТОВ | 2014 |
|
RU2643641C2 |
УСТРОЙСТВО И СПОСОБ ФОРМИРОВАНИЯ РАСШИРЕННОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ЗАПОЛНЕНИЯ НЕЗАВИСИМЫМ ШУМОМ | 2015 |
|
RU2665913C2 |
УСТРОЙСТВО И СПОСОБ ФОРМИРОВАНИЯ РАСШИРЕННОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ЗАПОЛНЕНИЯ НЕЗАВИСИМЫМ ШУМОМ | 2015 |
|
RU2667376C2 |
АУДИОКОДЕР ДЛЯ КОДИРОВАНИЯ МНОГОКАНАЛЬНОГО СИГНАЛА И АУДИОДЕКОДЕР ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА | 2016 |
|
RU2680195C1 |
КОДЕР И ДЕКОДЕР АУДИОСИГНАЛА, ИСПОЛЬЗУЮЩИЕ ПРОЦЕССОР ЧАСТОТНОЙ ОБЛАСТИ С ЗАПОЛНЕНИЕМ ПРОМЕЖУТКА В ПОЛНОЙ ПОЛОСЕ И ПРОЦЕССОР ВРЕМЕННОЙ ОБЛАСТИ | 2015 |
|
RU2671997C2 |
Изобретение относится к средствам для декодирования кодированного аудиосигнала. Технический результат заключается в обеспечении возможности кодирования аудиосигналов в широком диапазоне скоростей передачи битов. Устройство для декодирования кодированного аудиосигнала, содержащего кодированный базовый сигнал, содержит: базовый декодер для декодирования кодированного базового сигнала, чтобы получать декодированный базовый сигнал; модуль формирования фрагментов для формирования одного или более спектральных фрагментов, имеющих частоты, не включенные в декодированный базовый сигнал, с использованием спектральной части декодированного базового сигнала; и фильтр разделения для спектральной фильтрации для разделения декодированного базового сигнала и первого частотного фрагмента, имеющего частоты, идущие от частоты заполнения интервалов отсутствия сигнала до верхней граничной частоты, либо для спектральной фильтрации для разделения первого частотного фрагмента и второго частотного фрагмента. 3 н. и 12 з.п. ф-лы, 35 ил.
1. Устройство для декодирования кодированного аудиосигнала, содержащего кодированный базовый сигнал (1), содержащее:
базовый декодер (1400) для декодирования кодированного базового сигнала (1401), чтобы получать декодированный базовый сигнал;
модуль (1404) формирования фрагментов для формирования одного или более спектральных фрагментов, имеющих частоты, не включенные в декодированный базовый сигнал, с использованием спектральной части декодированного базового сигнала; и
фильтр (1406) разделения для спектральной фильтрации для разделения декодированного базового сигнала и первого частотного фрагмента, имеющего частоты, идущие от частоты (309) заполнения интервалов отсутствия сигнала до верхней граничной частоты, либо для спектральной фильтрации для разделения упомянутого первого частотного фрагмента и второго частотного фрагмента,
при этом фильтр (1406) разделения выполнен с возможностью осуществлять почастотное взвешенное суммирование (1424) декодированного базового сигнала, фильтруемого посредством субфильтра (1420) постепенного затухания, и по меньшей мере части первого частотного фрагмента, фильтруемого посредством субфильтра (1422) постепенного нарастания, в диапазоне разделения, охватывающем по меньшей мере три значения частоты, или выполнять почастотное взвешенное суммирование (1424) по меньшей мере части первого частотного фрагмента, фильтруемого посредством субфильтра (1420) постепенного затухания, и по меньшей мере части упомянутого второго частотного фрагмента, фильтруемого посредством субфильтра (1422) постепенного нарастания, в упомянутом диапазоне разделения, охватывающем по меньшей мере три значения частоты.
2. Устройство по п. 1,
в котором спектральная часть декодированного базового сигнала, спектральная часть первого частотного фрагмента или спектральная часть второго частотного фрагмента под влиянием фильтра (1406) разделения меньше 30% от спектральной части, покрываемой посредством полной полосы спектра декодированного базового сигнала или полной полосы спектра первого или второго частотного фрагмента, и превышает или равна полосе частот, заданной посредством по меньшей мере 5 смежных значений частоты.
3. Устройство по п. 1,
в котором фильтр (1406) разделения выполнен с возможностью применения характеристики косинусного фильтра для постепенного нарастания и постепенного затухания.
4. Устройство по п. 1, содержащее модуль (1408) регулирования огибающей для регулирования огибающей подвергнутого фильтрации для разделения спектрального сигнала в спектральном диапазоне, заданном посредством спектральных диапазонов одного или более спектральных фрагментов с использованием параметрической информации (1407) спектральной огибающей, включенной в кодированный аудиосигнал.
5. Устройство по п. 1,
дополнительно содержащее частотно-временной преобразователь (828) для преобразования подвергнутого регулированию огибающей сигнала вместе с декодированным базовым сигналом во временное представление.
6. Устройство по п. 5, в котором частотно-временной преобразователь выполнен с возможностью применения обратного модифицированного дискретного косинусного преобразования (512, 514, 516), содержащего обработку (516) суммирования/перекрытия текущего кадра с предыдущим временным кадром.
7. Устройство по п. 1, в котором фильтр разделения представляет собой управляемый фильтр,
при этом устройство дополнительно содержит блок (1405) обнаружения характеристик сигналов, и
при этом блок (1405) обнаружения характеристик сигналов выполнен с возможностью управления характеристикой фильтра для фильтра (1406) разделения в соответствии с результатом обнаружения, извлекаемым из декодированного базового сигнала.
8. Устройство по п. 7,
в котором блок (1405) обнаружения характеристик сигналов представляет собой блок обнаружения переходных частей, и при этом блок (1405) обнаружения переходных частей выполнен с возможностью управлять фильтром разделения таким образом, что для первой части сигнала фильтр разделения оказывает первое влияние на входной сигнал фильтра разделения, и таким образом, что фильтр (1406) разделения оказывает второе влияние на входной сигнал фильтра разделения для второй части сигнала, при этом первое влияние сильнее второго влияния, и при этом первая часть сигнала обладает большей переходной характеристикой, чем вторая часть сигнала.
9. Устройство по п. 1,
в котором характеристика фильтра (1406) разделения задается посредством характеристики (1420a) субфильтра постепенного затухания и характеристики (1422a) субфильтра постепенного нарастания,
при этом характеристика hin(k) субфильтра постепенного нарастания и характеристика hout(k) субфильтра постепенного затухания задаются на основе следующих уравнений:
при этом Xbias является целым числом, задающим наклон обоих фильтров, идущий между нулем и целым числом N, при этом k является частотным индексом, идущим между нулем и N-1, и при этом N является дополнительным целым числом, и при этом различные значения для N и Xbias приводят к различным характеристикам фильтра разделения.
10. Устройство по п. 9,
в котором Xbias задается равным между 2 и 20 и в котором N задается равным между 10 и 50.
11. Устройство по п. 1,
в котором модуль (1404) формирования фрагментов выполнен с возможностью формировать предварительный частотный фрагмент (703), при этом анализатор (702) выполнен с возможностью анализа предварительного частотного фрагмента, при этом модуль формирования фрагментов дополнительно выполнен с возможностью формирования повторно сформированного сигнала, имеющего ослабленные или исключенные тональные части относительно предварительного частотного фрагмента, при этом модуль формирования фрагментов выполнен с возможностью исключать или ослаблять тональные части около границ (708) частотных фрагментов, чтобы получать входной сигнал в фильтр (1406) разделения.
12. Устройство по п. 11, в котором модуль формирования фрагментов выполнен с возможностью обнаруживать и удалять или ослаблять тональные спектральные части в диапазоне обнаружения меньшем 20% от полосы пропускания частотного фрагмента или исходного диапазона для повторного формирования.
13. Устройство по п. 1, в котором фильтр (1406) разделения выполнен с возможностью осуществлять фильтрацию для разделения в диапазоне перекрытия, причем диапазон перекрытия содержит часть верхних частот декодированного базового сигнала и часть нижних частот первого частотного фрагмента, или
при этом фильтр (1406) разделения выполнен с возможностью осуществлять фильтрацию для разделения в диапазоне перекрытия, причем диапазон перекрытия содержит часть верхних частот первого частотного фрагмента и часть нижних частот второго частотного фрагмента.
14. Способ декодирования кодированного аудиосигнала, содержащего кодированный базовый сигнал (1), содержащий этапы, на которых:
декодируют (1400) кодированный базовый сигнал (1401), чтобы получать декодированный базовый сигнал;
формируют (1404) один или более спектральных фрагментов, имеющих частоты, не включенные в декодированный базовый сигнал, с использованием спектральной части декодированного базового сигнала; и
спектрально фильтруют для разделения с использованием фильтра (1406) разделения декодированный базовый сигнал и первый частотный фрагмент, имеющий частоты, идущие от частоты (309) заполнения интервалов отсутствия сигнала до верхней граничной частоты либо для спектральной фильтрации для разделения упомянутого первого частотного фрагмента и второго частотного фрагмента,
при этом фильтр (1406) разделения выполнен с возможностью осуществлять почастотное взвешенное суммирование (1424) декодированного базового сигнала, фильтруемого посредством субфильтра (1420) постепенного затухания, и по меньшей мере части первого частотного фрагмента, фильтруемого посредством субфильтра (1422) постепенного нарастания, в диапазоне разделения, охватывающем по меньшей мере три значения частоты, или выполнять почастотное взвешенное суммирование (1424), по меньшей мере, части первого частотного фрагмента, фильтруемого посредством субфильтра (1420) постепенного затухания, и по меньшей мере части упомянутого второго частотного фрагмента, фильтруемого посредством субфильтра (1422) постепенного нарастания, в упомянутом диапазоне разделения, охватывающем по меньшей мере три значения частоты.
15. Машиночитаемый носитель, хранящий компьютерную программу для осуществления при выполнении на компьютере или процессоре способа по п. 14.
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
Колосоуборка | 1923 |
|
SU2009A1 |
JP 3943127 B2, 11.07.2007 | |||
Способ приготовления лака | 1924 |
|
SU2011A1 |
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
УСТРОЙСТВО И СПОСОБ КОДИРОВАНИЯ И ВОСПРОИЗВЕДЕНИЯ ЗВУКА | 2008 |
|
RU2477532C2 |
Авторы
Даты
2018-01-10—Публикация
2014-07-15—Подача