ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Изобретение относится к аудиокодеку, поддерживающему синтез шума в течение неактивных фаз.
УРОВЕНЬ ТЕХНИКИ
Возможность сокращения полосы пропускания передачи посредством использования преимущества неактивных периодов речи или других источников шума известна в данной области техники. Такие схемы обычно используют некоторую форму обнаружения для того, чтобы осуществлять различение между неактивными (или молчания) и активными (немолчания) фазами. В течение неактивных фаз более низкая скорость передачи битов достигается посредством прекращения передачи обычного потока данных, точно кодирующего записанный сигнал, и вместо этого отправки только обновления описания вставки молчания (SID). SID-обновления могут передаваться с равным интервалом или тогда, когда обнаруживаются изменения характеристик фонового шума. SID-кадры затем могут быть использованы на стороне декодирования для того, чтобы формировать фоновый шум с характеристиками, аналогичными фоновому шуму в течение активных фаз, так что прекращение передачи обычного потока данных, кодирующего записанный сигнал, не приводит к неприятному переходу от активной фазы к неактивной фазе на стороне получателя.
Тем не менее по-прежнему существует потребность в дополнительном уменьшении скорости передачи. Растущее число потребителей скорости передачи битов, к примеру растущее число мобильных телефонов и растущее число вариантов применения с большим или меньшим потреблением скорости передачи битов, таких как беспроводная широковещательная передача, требует постоянного уменьшения используемой скорости передачи битов.
С другой стороны, синтезированный шум должен близко эмулировать реальный шум, так что синтез является прозрачным для пользователей.
Соответственно одна цель изобретения состоит в том, чтобы предоставлять схему аудиокодека, поддерживающую формирование шума в течение неактивных фаз, которое обеспечивает уменьшение скорости передачи битов с поддержанием достижимого качества формирования шума.
Эта цель достигается посредством предмета изобретения в части находящихся на рассмотрении независимых пунктов формулы изобретения.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Основная идея изобретения заключается в том, что ценная скорость передачи битов может сокращаться при сохранении качества формирования шума в неактивных фазах, если параметрическая оценка фонового шума непрерывно обновляется в течение активной фазы, так что формирование шума может начинаться сразу при переходе к неактивной фазе после активной фазы. Например, непрерывное обновление может быть выполнено на стороне декодирования, и нет необходимости предварительно предоставлять стороне декодирования кодированное представление фонового шума в течение подготовительной фазы сразу после обнаружения неактивной фазы, при том, что это предоставление потребляет ценную скорость передачи битов, поскольку сторона декодирования непрерывно обновляет параметрическую оценку фонового шума в течение активной фазы и в силу этого в любое время подготовлена к тому, чтобы сразу переходить к неактивной фазе с надлежащим формированием шума. Аналогично такая подготовительная фаза может исключаться, если параметрическая оценка фонового шума выполняется на стороне кодирования. Вместо предварительного продолжения предоставления стороне декодирования традиционного кодированного представления фонового шума после обнаружения перехода к неактивной фазе, чтобы распознавать фоновый шум и информировать сторону декодирования после обучающей фазы соответствующим образом, кодер имеет возможность предоставлять в декодер необходимую параметрическую оценку фонового шума сразу после обнаружения перехода к неактивной фазе посредством возвращения к параметрической оценке фонового шума, непрерывно обновляемой в течение предыдущей активной фазы, тем самым исключая затратное с точки зрения скорости передачи битов предварительное выполнение чрезмерного кодирования фонового шума.
В соответствии с конкретными вариантами осуществления изобретения достигается более реалистичное формирование шума при небольших затратах с точки зрения, например, скорости передачи битов и вычислительной сложности. В частности, в соответствии с этими вариантами осуществления спектральная область используется для того, чтобы параметризовать фоновый шум, за счет этого обеспечивая синтез фонового шума, который является более реалистичным и в силу этого приводит к более прозрачному переключению активной фазы на неактивную. Кроме того, выяснено, что параметризация фонового шума в спектральной области обеспечивает отделение шума от полезного сигнала, и соответственно параметризация фонового шума в спектральной области имеет преимущество при комбинировании с вышеуказанным непрерывным обновлением параметрической оценки фонового шума в течение активных фаз, поскольку в спектральной области может достигаться лучшее разделение между шумом и полезным сигналом, так что дополнительный переход от одной области к другой не требуется при комбинировании обоих преимущественных аспектов настоящей заявки.
Дополнительно преимущественные подробности вариантов осуществления изобретения являются предметом зависимых пунктов текущей формулы изобретения.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Предпочтительные варианты осуществления настоящей заявки описываются ниже со ссылкой на чертежи.
Фиг. 1 показывает блок-схему, показывающую аудиодекодер согласно варианту осуществления;
фиг. 2 показывает возможную реализацию механизма 14 кодирования;
фиг. 3 показывает блок-схему аудиодекодера согласно варианту осуществления;
фиг. 4 показывает возможную реализацию механизма декодирования согласно фиг. 3 в соответствии с вариантом осуществления;
фиг. 5 показывает блок-схему аудиокодера согласно дополнительному более подробному описанию варианта осуществления;
фиг. 6 показывает блок-схему декодера, который может быть использован в связи с кодером согласно фиг. 5 в соответствии с вариантом осуществления;
фиг. 7 показывает блок-схему аудиодекодера в соответствии с дополнительным более подробным описанием варианта осуществления;
фиг. 8 показывает блок-схему блока расширения спектральной полосы пропускания аудиокодера в соответствии с вариантом осуществления;
фиг. 9 показывает реализацию CNG-кодера расширения спектральной полосы пропускания согласно фиг. 8 в соответствии с вариантом осуществления;
фиг. 10 показывает блок-схему аудиодекодера в соответствии с вариантом осуществления с использованием расширения спектральной полосы пропускания;
фиг. 11 показывает блок-схему возможного подробного описания варианта осуществления для аудиодекодера с использованием репликации спектральной полосы пропускания;
фиг. 12 показывает блок-схему аудиокодера в соответствии с дополнительным вариантом осуществления с использованием расширения спектральной полосы пропускания; и
фиг. 13 показывает блок-схему дополнительного варианта осуществления аудиодекодера.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Фиг. 1 показывает аудиокодер согласно варианту осуществления изобретения. Аудиокодер согласно фиг. 1 содержит модуль 12 оценки фонового шума, механизм 14 кодирования, детектор 16, вход 18 для аудиосигналов и выход 20 потока данных. Поставщик 12, механизм 14 кодирования и детектор 16 имеют вход, соединенный с входом 18 для аудиосигналов соответственно. Выходы модуля 12 оценки и механизма 14 кодирования соответственно соединяются с выходом 20 потока данных через коммутатор 22. Коммутатор 22, модуль 12 оценки и механизм 14 кодирования имеют вход для управляющих сигналов, соединенный с выходом детектора 16 соответственно.
Модуль 12 оценки фонового шума может быть выполнен с возможностью непрерывно обновлять параметрическую оценку фонового шума в течение активной фазы 24 на основе входного аудиосигнала, поступающего в аудиокодер 10 на входе 18. Хотя фиг. 1 предлагает то, что модуль 12 оценки фонового шума может получать непрерывное обновление параметрической оценки фонового шума на основе аудиосигнала, вводимого на входе 18, это не обязательно имеет место. Модуль 12 оценки фонового шума альтернативно или дополнительно может получать версию аудиосигнала из механизма 14 кодирования, как проиллюстрировано посредством пунктирной линии 26. В этом случае модуль 12 оценки фонового шума альтернативно или дополнительно должен соединяться с входом 18 косвенно через соединительную линию 26 и механизм 14 кодирования соответственно. В частности, существуют различные возможности для модуля 12 оценки фонового шума с тем, чтобы непрерывно обновлять оценку фонового шума, и некоторые из этих возможностей описываются дополнительно ниже.
Механизм 14 кодирования выполнен с возможностью кодировать входной аудиосигнал, поступающий на вход 18, в поток данных в течение активной фазы 24. Активная фаза должна охватывать все случаи, в которых полезная информация содержится в аудиосигнале, такие как речь или другой полезный звук источника шума. С другой стороны, звуки с практически независимой от времени характеристикой, к примеру с независимым от времени спектром, вызываемые, например, дождем или трафиком на фоне динамика, должны быть классифицированы в качестве фонового шума, и каждый раз, когда присутствует только этот фоновый шум, соответствующий период времени должен быть классифицирован в качестве неактивной фазы 28. Детектор 16 отвечает за обнаружение входа в неактивную фазу 28 после активной фазы 24 на основе входного аудиосигнала на входе 18. Другими словами, детектор 16 выполняет различение между двумя фазами, а именно между активной фазой и неактивной фазой, когда детектор 16 определяет то, какая фаза в данный момент присутствует. Детектор 16 информирует механизм 14 кодирования в отношении текущей фазы, и, как уже упомянуто, механизм 14 кодирования выполняет кодирование входного аудиосигнала в поток данных в течение активных фаз 24. Детектор 16 управляет коммутатором 22 соответствующим образом, так что поток данных, выводимый посредством механизма 14 кодирования, выводится на выходе 20. В течение неактивных фаз механизм 14 кодирования может прекращать кодирование входного аудиосигнала. По меньшей мере, в поток данных, выведенный на выходе 20, более не подается поток данных, возможно выводимый посредством механизма 14 кодирования. В дополнение к этому механизм 14 кодирования может выполнять только минимальную обработку для того, чтобы поддерживать модуль 12 оценки с определенными обновлениями переменных состояния. Это действие значительно сокращает вычислительную мощность. Коммутатор 22, например, установлен таким образом, что выход модуля 12 оценки соединяется с выходом 20 вместо выхода механизма кодирования. Таким образом, сокращается ценная скорость передачи битов для передачи потока битов, выводимого на выходе 20.
Модуль 12 оценки фонового шума выполнен с возможностью непрерывно обновлять параметрическую оценку фонового шума в течение активной фазы 24 на основе входного аудиосигнала 18, как уже упомянуто выше, и, вследствие этого, модуль 12 оценки имеет возможность вставлять в поток 30 данных, выводимый на выходе 20, параметрическую оценку фонового шума, непрерывно обновляемую в течение активной фазы 24, сразу после перехода от активной фазы 24 к неактивной фазе 28, т.е. непосредственно после входа в неактивную фазу 28. Модуль 12 оценки фонового шума, например, может вставлять кадр 32 дескриптора вставки молчания в поток 30 данных сразу после окончания активной фазы 24 и сразу после момента 34 времени, в который детектор 16 обнаруживает переход к неактивной фазе 28. Другими словами, отсутствует временной промежуток между обнаружением посредством детекторов перехода к неактивной фазе 28 и вставкой SID 32, необходимый вследствие непрерывного обновления посредством модуля оценки фонового шума параметрической оценки фонового шума в течение активной фазы 24.
Таким образом, суммируя вышеприведенное описание, аудиокодер 10 на фиг. 1 может работать следующим образом. Представим себе в качестве иллюстрации, что в данный момент идет активная фаза 24. В этом случае механизм 14 кодирования в данный момент кодирует входной аудиосигнал на входе 18 в поток 20 данных. Коммутатор 22 соединяет выход механизма 14 кодирования с выходом 20. Механизм 14 кодирования может использовать параметрическое кодирование и кодирование с преобразованием для того, чтобы кодировать входной аудиосигнал 18 в поток данных. В частности, механизм 14 кодирования может кодировать входной аудиосигнал в единицах кадров, при этом каждый кадр кодирует один из последовательных - частично взаимно перекрывающихся - временных интервалов входного аудиосигнала. Механизм 14 кодирования дополнительно может иметь возможность переключаться между различными режимами кодирования между последовательными кадрами потока данных. Например, некоторые кадры могут быть кодированы с использованием прогнозирующего кодирования, к примеру CELP-кодирования, а некоторые другие кадры могут быть кодированы с использованием кодирования с преобразованием, к примеру TCX- или AAC-кодирования. Следует обратиться, например, к USAC и его режимам кодирования, как описано в ISO/IEC CD 23003-3, опубликованном 24 сентября 2010 года.
Модуль 12 оценки фонового шума непрерывно обновляет параметрическую оценку фонового шума в течение активной фазы 24. Соответственно модуль 12 оценки фонового шума может быть выполнен с возможностью осуществлять различение между компонентом шума и компонентом полезного сигнала во входном аудиосигнале, чтобы определять параметрическую оценку фонового шума просто из компонента шума. Согласно вариантам осуществления, дополнительно описанным ниже, узел 12 оценки фонового шума может выполнять это обновление в спектральной области, к примеру в спектральной области, также используемой для кодирования с преобразованием в механизме 14 кодирования. Тем не менее также доступны другие альтернативы, такие как временная область. В случае спектральной области, она может быть областью перекрывающихся преобразований, такой как MDCT-область, или областью гребенки фильтров, такой как комплекснозначная область гребенки фильтров, к примеру QMF-область.
Кроме того, узел 12 оценки фонового шума может выполнять обновление на основе сигнала возбуждения или остаточного сигнала, полученного в качестве промежуточного результата в механизме 14 кодирования, например, в ходе прогнозирующего кодирования и/или кодирования с преобразованием, вместо аудиосигнала, поступающего на вход 18 или кодированного с потерями в поток данных. За счет этого большая величина компонента полезного сигнала во входном аудиосигнале уже удалена, так что обнаружение компонента шума упрощается для модуля 12 оценки фонового шума.
В течение активной фазы 24 детектор 16 также непрерывно работает для того, чтобы обнаруживать вход в неактивную фазу 28. Детектор 16 может быть осуществлен в качестве детектора речевой/звуковой активности (VAD/SAD) или некоторого другого средства, которое определяет то, присутствует или нет компонент полезного сигнала в данный момент во входном аудиосигнале. Базовый критерий для определения посредством детектора 16 того, продолжается или нет активная фаза 24, может представлять собой проверку того, остается или нет фильтрованная по нижним частотам мощность входного аудиосигнала ниже определенного порогового значения, при условии, что вход в неактивную фазу осуществляется, как только превышается пороговое значение.
Независимо от точного способа, которым детектор 16 выполняет обнаружение перехода к неактивной фазе 28 после активной фазы 24, детектор 16 сразу информирует другие объекты 12, 14 и 22 относительно входа в неактивную фазу 28. Вследствие непрерывного обновления посредством модуля оценки фонового шума параметрической оценки фонового шума в течение активной фазы 24 можно сразу не допускать дополнительную подачу потока 30 данных, выводимого на выходе 20, из механизма 14 кодирования. Вместо этого модуль 12 оценки фонового шума непосредственно после информирования относительно входа в неактивную фазу 28 должен вставлять в поток 30 данных информацию относительно последнего обновления параметрической оценки фонового шума в форме SID-кадра 32. Иными словами, SID-кадр 32 может следовать сразу после последнего кадра механизма кодирования, который кодирует кадр аудиосигнала относительно временного интервала, в котором детектор 16 обнаруживает вход в неактивную фазу.
Обычно фоновый шум не изменяется очень часто. В большинстве случаев фоновый шум имеет тенденцию быть до некоторой степени независимым от времени. Соответственно после того, как модуль 12 оценки фонового шума вставляет SID-кадр 32 сразу после того, как детектор 16 обнаруживает начало неактивной фазы 28, любая передача потока данных может прерываться, так что в этой фазе 34 прерывания поток 30 данных не потребляет скорость передачи битов либо потребляет только минимальную скорость передачи битов, требуемую для некоторых целей передачи. Чтобы поддерживать минимальную скорость передачи битов, модуль 12 оценки фонового шума может прерывистым образом повторять вывод SID 32.
Тем не менее несмотря на тенденцию фонового шума не изменяться во времени все-таки может происходить то, что фоновый шум изменяется. Например, представим себе пользователя мобильного телефона, выходящего из автомобиля, так что фоновый шум изменяется с шума двигателя на шум трафика за пределами автомобиля в ходе звонка пользователя. Чтобы отслеживать такие изменения фонового шума, модуль 12 оценки фонового шума может быть выполнен с возможностью непрерывно исследовать фоновый шум даже в течение неактивной фазы 28. Каждый раз, когда модуль 12 оценки фонового шума определяет то, что параметрическая оценка фонового шума изменяется на величину, которая превышает некоторое пороговое значение, модуль 12 оценки фонового шума может вставлять обновленную версию параметрической оценки фонового шума в поток 20 данных с помощью другого SID 38, после чего другая фаза 40 прерывания может следовать, например, до тех пор, пока не начнется другая активная фаза 42, обнаруженная посредством детектора 16, и т.д. Естественно SID-кадры, раскрывающие в данный момент обновленную параметрическую оценку фонового шума, альтернативно или дополнительно могут вставляться в неактивных фазах промежуточным способом независимо от изменений параметрической оценки фонового шума.
Очевидно поток 44 данных, выводимый посредством механизма 14 кодирования и указываемый на фиг. 1 посредством использования штриховки, использует большую скорость передачи битов, чем фрагменты 32 и 38 потока данных, которые должны быть переданы в течение неактивных фаз 28, и соответственно экономия скорости передачи битов является значительной. Кроме того, в случае возможности модуля 12 оценки фонового шума сразу начинать с перехода к дополнительной подаче потока 30 данных, необязательно предварительно продолжать передачу потока 44 данных механизма 14 кодирования за пределами момента 34 времени обнаружения неактивной фазы, за счет этого дополнительно сокращая общую потребляемую скорость передачи битов.
Как подробнее поясняется ниже относительно более конкретных вариантов осуществления, механизм 14 кодирования может быть выполнен с возможностью при кодировании входного аудиосигнала прогнозирующим образом кодировать входной аудиосигнал в коэффициенты линейного прогнозирования и сигнал возбуждения с кодированием с преобразованием сигнала возбуждения и кодированием коэффициентов линейного прогнозирования в поток 30 данных и 44 соответственно. Одна возможная реализация показана на фиг. 2. Согласно фиг. 2 механизм 14 кодирования содержит преобразователь 50, формирователь 52 шума в частотной области и модуль 54 квантования, которые последовательно соединяются в порядке упоминания между входом 56 для аудиосигналов и выходом 58 потока данных механизма 14 кодирования. Дополнительно механизм 14 кодирования согласно фиг. 2 содержит модуль 60 анализа с линейным прогнозированием, который выполнен с возможностью определять коэффициенты линейного прогнозирования из аудиосигнала 56 посредством соответствующего анализа, вырезающего (в виде окон) части аудиосигнала и применения автокорреляции к вырезанным частям либо определять автокорреляцию на основе преобразований в области преобразования входного аудиосигнала, выводимого посредством преобразователя 50, при использовании его спектра мощности и применении обратного DFT к нему с тем, чтобы определять автокорреляцию с последующим выполнением LPC-оценки на основе автокорреляции, к примеру, с использованием алгоритма (Винера-Левинсона-Дурбина).
На основе коэффициентов линейного прогнозирования, определенных посредством модуля 60 анализа с линейным прогнозированием, в поток данных, выводимый на выходе 58, подается соответствующая информация относительно LPC, и формирователь шума в частотной области управляется таким образом, что он спектрально формирует спектрограмму аудиосигнала в соответствии с передаточной функцией, соответствующей передаточной функции фильтра анализа с линейным прогнозированием, определенного посредством коэффициентов линейного прогнозирования, выводимых посредством модуля 60. Квантование LPC для их передачи в потоке данных может быть выполнено в LSP/LSF-области и с использованием интерполяции, с тем, чтобы уменьшать скорость передачи по сравнению со скоростью анализа в анализаторе 60. Дополнительно взвешивающее преобразование LPC в спектр, выполняемое в FDNS, может заключать в себе применение ODFT к LPC и применение результирующих взвешенных значений к спектрам преобразователя в качестве делителя.
Модуль 54 квантования затем квантует коэффициенты преобразования спектрально сформированной (сглаженной) спектрограммы. Например, преобразователь 50 использует перекрывающееся преобразование, к примеру MDCT, чтобы переводить аудиосигнал из временной области в спектральную область, тем самым получая последовательные преобразования, соответствующие перекрытию вырезанных частей входного аудиосигнала, которые затем спектрально формируются посредством формирователя 52 шума в частотной области посредством взвешивания этих преобразований в соответствии с передаточной функцией аналитического LP-фильтра.
Сформированная спектрограмма может быть интерпретирована в качестве сигнала возбуждения, и как проиллюстрировано посредством пунктирной стрелки 62, модуль 12 оценки фонового шума может быть выполнен с возможностью обновлять параметрическую оценку фонового шума с использованием этого сигнала возбуждения. Альтернативно, как указано посредством пунктирной стрелки 64, модуль 12 оценки фонового шума может использовать представление перекрывающего преобразования, выводимое посредством преобразователя 50, в качестве основы для непосредственного обновления, т.е. без формирования шума в частотной области посредством формирователя 52 шума.
Более подробная информация, связанная с возможной реализацией элементов, показанных на фиг. 1 и 2, может быть получена из нижеизложенных более подробных вариантов осуществления, и следует отметить, что все эти подробности могут по отдельности переноситься на элементы фиг. 1 и 2.
Тем не менее перед описанием этих более подробных вариантов осуществления следует обратиться к фиг. 3, который показывает дополнительно или альтернативно, что обновление параметрической оценки фонового шума может быть выполнено на стороне декодера.
Аудиодекодер 80 согласно фиг. 3 выполнен с возможностью декодировать поток данных, поступающий на вход 82 декодера 80, с тем, чтобы восстанавливать из него аудиосигнал, который должен выводиться на выходе 84 декодера 80. Поток данных содержит, по меньшей мере, активную фазу 86, после которой следует неактивная фаза 88. Внутренне, аудиодекодер 80 содержит модуль 90 оценки фонового шума, механизм 92 декодирования, параметрический генератор 94 случайных чисел и формирователь 96 фонового шума. Механизм 92 декодирования соединяется между входом 82 и выходом 84, и аналогично последовательное соединение поставщика 90, формирователя 96 фонового шума и параметрического генератора 94 случайных чисел соединяется между входом 82 и выходом 84. Декодер 92 выполнен с возможностью восстанавливать аудиосигнал из потока данных в течение активной фазы, так что аудиосигнал 98, выводимый на выходе 84, содержит шум и полезный звук в надлежащем качестве. Модуль 90 оценки фонового шума выполнен с возможностью непрерывно обновлять параметрическую оценку фонового шума из потока данных в ходе активной фазы. С этой целью модуль 90 оценки фонового шума может соединяться с входом 82 не непосредственно, а через механизм 92 декодирования, как проиллюстрировано посредством пунктирной линии 100, с тем, чтобы получать из механизма 92 декодирования некоторую восстановленную версию аудиосигнала. В принципе модуль 90 оценки фонового шума может быть выполнен с возможностью работать во многом аналогично модулю 12 оценки фонового шума за исключением того факта, что модуль 90 оценки фонового шума имеет доступ только к восстанавливаемой версии аудиосигнала, т.е. включающей в себя потери, вызываемые посредством квантования на стороне кодирования.
Параметрический генератор 94 случайных чисел может содержать один или более генераторов истинных или псевдослучайных чисел, выводимая последовательность значений которых может соответствовать статистическому распределению, которое может быть параметрическим образом задано с помощью формирователя 96 фонового шума.
Формирователь 96 фонового шума выполнен с возможностью синтезировать аудиосигнал 98 в течение неактивной фазы 88 посредством управления параметрическим генератором 94 случайных чисел в течение неактивной фазы 88 в зависимости от параметрической оценки фонового шума, получаемой из модуля 90 оценки фонового шума. Хотя оба объекта 96 и 94 показаны как последовательно соединенные, последовательное соединение не должно быть интерпретировано как ограничивающее. Формирователь 96 и генератор 94 могут быть связаны между собой. Фактически генератор 94 может быть интерпретирован в качестве части формирователя 96.
Таким образом, режим работы аудиодекодера на фиг. 3 может быть следующим. В ходе активной фазы 86 на вход 82 непрерывно предоставляется часть 102 потока данных, которая должна быть обработана посредством механизма 92 декодирования в ходе активной фазы 86. Поток 104 данных, поступающий на вход 82, затем прекращает передачу части 102 потока данных, выделяемой для механизма 92 декодирования, в некоторый момент времени 106. Иными словами, дополнительный кадр части потока данных недоступен в момент 106 времени для декодирования посредством механизма 92. Сигнализирование входа в неактивную фазу 88 может быть либо прекращением передачи части 102 потока данных, либо может быть передано в служебных сигналах посредством некоторой информации 108, размещаемой непосредственно в начале неактивной фазы 88.
В любом случае вход в неактивную фазу 88 происходит очень внезапно, но это не является проблемой, поскольку модуль 90 оценки фонового шума непрерывно обновляет параметрическую оценку фонового шума в ходе активной фазы 86 на основе части 102 потока данных. Вследствие этого, модуль 90 оценки фонового шума имеет возможность предоставлять в формирователь 96 фонового шума самую последнюю версию параметрической оценки фонового шума, как только неактивная фаза 88 начинается на 106. Соответственно с момента 106 времени и далее механизм 92 декодирования прекращает вывод восстановления аудиосигналов, поскольку в механизм 92 декодирования более не подается часть 102 потока данных, а параметрический генератор 94 случайных чисел управляется посредством формирователя 96 фонового шума в соответствии с параметрической оценкой фонового шума, так что эмуляция фонового шума может выводиться на выходе 84 сразу после момента 106 времени таким образом, что она следует без интервала отсутствия сигнала после восстановленного аудиосигнала, выводимого посредством механизма 92 декодирования до момента 106 времени. Перекрестное затухание может быть использовано для того, чтобы переходить от последнего восстановленного кадра активной фазы, выводимого посредством механизма 92, к фоновому шуму, определенному посредством недавно обновленной версии параметрической оценки фонового шума.
Поскольку модуль 90 оценки фонового шума выполнен с возможностью непрерывно обновлять параметрическую оценку фонового шума из потока 104 данных в ходе активной фазы 86, он может быть выполнен с возможностью осуществлять различение между компонентом шума и компонентом полезного сигнала в версии аудиосигнала, восстановленной из потока 104 данных в активной фазе 86, и определять параметрическую оценку фонового шума просто из компонента шума, а не из компонента полезного сигнала. Способ, посредством которого модуль 90 оценки фонового шума выполняет это различение/разделение, соответствует способу, указанному выше относительно модуля 12 оценки фонового шума. Например, может быть использован сигнал возбуждения или остаточный сигнал, внутренне восстановленный из потока 104 данных в механизме 92 декодирования.
Аналогично фиг. 2, фиг. 4 показывает возможную реализацию для механизма 92 декодирования. Согласно фиг. 4 механизм 92 декодирования содержит вход 110 для приема части 102 потока данных и выход 112 для вывода восстановленного аудиосигнала в активной фазе 86. Последовательно соединенный между ними механизм 92 декодирования содержит модуль 114 деквантования, формирователь 116 шума в частотной области и обратный преобразователь 118, которые соединяются между входом 110 и выходом 112 в порядке упоминания. Часть 102 потока данных, поступающая на вход 110, содержит кодированную с преобразованием версию сигнала возбуждения, т.е. уровни коэффициентов преобразования, представляющие ее, которые подаются на вход модуля 114 деквантования, а также информацию относительно коэффициентов линейного прогнозирования, причем эта информация подается в формирователь 116 шума в частотной области. Модуль 114 деквантования деквантует спектральное представление сигнала возбуждения и перенаправляет его в формирователь 116 шума в частотной области, который, в свою очередь, спектрально формирует спектрограмму сигнала возбуждения (вместе с гладким шумом квантования) в соответствии с передаточной функцией, которая соответствует синтезирующему фильтру линейного прогнозирования, тем самым формируя шум квантования. В принципе, FDNS 116 согласно фиг. 4 работает аналогично FDNS согласно фиг. 2: LPC извлекаются из потока данных и затем подвергаются взвешивающему преобразованию LPC в спектральную область, например, посредством применения ODFT к извлеченным LPC с последующим применением результирующих спектральных взвешиваний к деквантованным спектрам, входящим из модуля 114 деквантования, в качестве множителей. Повторный преобразователь 118 затем переводит такое полученное восстановление аудиосигналов из спектральной области во временную область и выводит такой полученный восстановленный аудиосигнал на выход 112. Перекрывающееся преобразование может быть использовано посредством обратного преобразователя 118, к примеру посредством IMDCT. Как проиллюстрировано посредством пунктирной стрелки 120, спектрограмма сигнала возбуждения может быть использована посредством модуля 90 оценки фонового шума для параметрического обновления фонового шума. Альтернативно может быть использована спектрограмма самого аудиосигнала, как указано посредством пунктирной стрелки 122.
Относительно фиг. 2 и 4 следует отметить, что эти варианты осуществления для реализации механизмов кодирования/декодирования не должны быть интерпретированы в качестве ограничивающих. Альтернативные варианты осуществления также осуществимы. Кроме того, механизмы кодирования/декодирования могут иметь многорежимный тип кодека, в котором части согласно фиг. 2 и 4 просто принимают на себя ответственность за кодирование/декодирование кадров, имеющих ассоциированный конкретный режим кадрового кодирования, тогда как другие кадры подвергаются обработке посредством других частей механизмов кодирования/декодирования, не показанных на фиг. 2 и 4. Такой другой режим кадрового кодирования также может представлять собой, например, режим прогнозирующего кодирования с использованием линейного прогнозного кодирования, но с кодированием во временной области вместо использования кодирования с преобразованием.
Фиг. 5 показывает более подробный вариант осуществления кодера согласно фиг. 1. В частности, модуль 12 оценки фонового шума показывается подробнее на фиг. 5 в соответствии с конкретным вариантом осуществления.
В соответствии с фиг. 5 модуль 12 оценки фонового шума содержит преобразователь 140, FDNS 142, модуль 144 LP-анализа, модуль 146 оценки шума, модуль 148 оценки параметров, модуль 150 измерения стационарности и модуль 152 квантования. Некоторые вышеуказанные компоненты могут частично или полностью совместно использоваться посредством механизма 14 кодирования. Например, преобразователь 140 и преобразователь 50 согласно фиг. 2 могут быть идентичными, модули 60 и 144 LP-анализа быть идентичными, FDNS 52 и 142 могут быть идентичными, и/или модули 54 и 152 квантования могут быть реализованы в одном модуле.
Фиг. 5 также показывает модуль 154 пакетирования потоков битов, который принимает на себя пассивную ответственность за работу коммутатора 22 на фиг. 1. В частности, VAD, как для примера называется детектор 16 кодера согласно фиг. 5, просто выполняет определение в отношении того, какой тракт должен быть использован, тракт кодирования 14 аудио или тракт модуля 12 оценки фонового шума. Если точнее, механизм 14 кодирования и модуль 12 оценки фонового шума соединяются параллельно между входом 18 и модулем 154 пакетирования, при этом в модуле 12 оценки фонового шума преобразователь 140, FDNS 142, модуль 144 LP-анализа, модуль 146 оценки шума, модуль 148 оценки параметров и модуль 152 квантования последовательно соединяются между входом 18 и модулем 154 пакетирования (в порядке упоминания), в то время как модуль 144 LP-анализа соединяется между входом 18 и LPC-входом FDNS-модуля 142 и дополнительным входом модуля 152 квантования соответственно и модуль 150 измерения стационарности дополнительно соединяется между модулем 144 LP-анализа и входом для управляющих сигналов модуля 152 квантования. Модуль 154 пакетирования потоков битов просто выполняет пакетирование, если он принимает ввод из какого-либо из объектов, соединенных с его входами.
В случае передачи нулевых кадров, т.е. в течение фазы прерывания неактивной фазы, детектор 16 информирует модуль 12 оценки фонового шума, в частности модуль 152 квантования, о необходимости прекращать обработку и не отправлять вообще ничего в модуль 154 пакетирования потоков битов.
В соответствии с фиг. 5 детектор 16 может работать во временной области и/или в области преобразования/спектральной области для того, чтобы обнаруживать активные/неактивные фазы.
Режим работы кодера согласно фиг. 5 заключается в следующем. Как должно быть понятно, кодер согласно фиг. 5 имеет возможность повышать качество комфортного шума, такого как стационарный шум в целом, к примеру шум автомобилей, шум приглушенных разговоров множества говорящих, некоторых музыкальных инструментов, и, в частности, шумов, которые имеют насыщенные гармоники, к примеру капли дождя.
В частности, кодер согласно фиг. 5 должен управлять генератором случайных чисел на стороне декодирования таким образом, чтобы возбуждать коэффициенты преобразования, так что эмулируется шум, обнаруженный на стороне кодирования. Соответственно перед дальнейшим пояснением функциональности кодера согласно фиг. 5 следует вкратце обратиться к фиг. 6, показывающей возможный вариант осуществления для декодера, который имеет возможность эмулировать комфортный шум на стороне декодирования согласно инструкциям посредством кодера согласно фиг. 5. Если обобщать, фиг. 6 показывает возможную реализацию декодера, соответствующего кодеру согласно фиг. 1.
В частности, декодер согласно фиг. 6 содержит механизм 160 декодирования, который декодирует часть 44 потока данных в течение активных фаз, и блок 162 формирования комфортного шума для формирования комфортного шума на основе информации 32 и 38, предоставляемой в потоке данных относительно неактивных фаз 28. Блок 162 формирования комфортного шума содержит параметрический генератор 164 случайных чисел, FDNS 166 и обратный преобразователь (или синтезатор) 168. Модули 164-168 последовательно соединяются друг с другом так, что на выходе синтезатора 168 в итоге получается комфортный шум, который заполняет интервал отсутствия сигнала между восстановленным аудиосигналом, выводимым посредством механизма 160 декодирования в течение неактивных фаз 28, как пояснено относительно фиг. 1. Процессоры FDNS 166 и обратный преобразователь 168 могут быть частью механизма 160 декодирования. В частности, они могут быть идентичными, например, FDNS 116 и 118 на фиг. 4.
Режим работы и функциональность отдельных модулей согласно фиг. 5 и 6 должна стать более понятной из следующего пояснения.
В частности, преобразователь 140 спектрально раскладывает входной сигнал на спектрограмму, к примеру, посредством использования перекрывающегося преобразования. Модуль 146 оценки шума выполнен с возможностью определять из нее параметры шума. Одновременно детектор 16 речевой или звуковой активности оценивает признаки, извлекаемые из входного сигнала, с тем, чтобы обнаруживать то, осуществляется переход от активной фазы к неактивной фазе или наоборот либо нет. Эти функции, используемые посредством детектора 16, могут иметь форму детектора переходных процессов/вступлений, измерения тональности и измерения LPC-остатка. Детектор переходных процессов/вступлений может быть использован для того, чтобы обнаруживать атаку (внезапное увеличение энергии) либо начало активной речи в чистом окружении или в сигнале без шумов; измерение тональности может быть использовано для того, чтобы отличать полезный фоновый шум, к примеру гудок, телефонный звонок и музыку; LPC-остаток может быть использован для того, чтобы получать индикатор относительно присутствия речи в сигнале. На основе этих признаков детектор 16 может предоставлять примерную информацию в отношении того, может или нет текущий кадр быть классифицирован, например, в качестве речи, молчания, музыки или шума.
Хотя модуль 146 оценки шума может отвечать за различение шума на спектрограмме от компонента полезного сигнала, к примеру, как предложено в работе [R. Martin, "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics", 2001 год], модуль 148 оценки параметров может отвечать за статистический анализ компонентов шума и определение параметров для каждого спектрального компонента, например, на основе компонента шума.
Модуль 146 оценки шума, например, может быть выполнен с возможностью осуществлять поиск локальных минимумов на спектрограмме, и модуль 148 оценки параметров может быть выполнен с возможностью определять статистику шума в этих частях при условии, что минимумы на спектрограмме являются главным образом атрибутом фонового шума, а не звука переднего плана.
В качестве промежуточного примечания следует подчеркнуть, что также может быть возможным выполнять оценку посредством модуля оценки шума без FDNS 142, поскольку минимумы также возникают в спектре без определенной формы. Большая часть описания фиг. 5 остается идентичной.
Модуль 152 квантования параметров, в свою очередь, может быть выполнен с возможностью параметризовать параметры, оцененные посредством модуля 148 оценки параметров. Например, эти параметры могут описывать среднюю амплитуду и момент первого или высшего порядка распределения спектральных значений на спектрограмме входного сигнала в отношении компонента шума. Чтобы сокращать скорость передачи битов, параметры могут перенаправляться в поток данных для вставки в него в SID-кадрах при спектральном разрешении ниже спектрального разрешения, предоставляемого посредством преобразователя 140.
Модуль 150 измерения стационарности может быть выполнен с возможностью получать (выводить) показатель стационарности для шумового сигнала. Модуль 148 оценки параметров, в свою очередь, может использовать показатель стационарности для того, чтобы определять то, должно или нет обновление параметра быть инициировано посредством отправки другого SID-кадра, к примеру кадра 38 на фиг. 1, либо влиять на способ, которым оцениваются параметры.
Модуль 152 квантует параметры, вычисленные посредством модуля 148 оценки параметров и LP-анализа 144, и передает их в служебных сигналах на сторону декодирования. В частности, до квантования спектральные компоненты могут быть сгруппированы в группы. Такое группирование может быть выбрана в соответствии с психоакустическими аспектами, к примеру, соответствующими шкале резких звуков и т.п. Детектор 16 информирует модуль 152 квантования, должно или нет выполняться квантование. В случае, если квантование не требуется, должны предоставляться нулевые кадры.
При переходе к описанию конкретного сценария переключения от активной фазы к неактивной фазе модули согласно фиг. 5 работают следующим образом.
В течение активной фазы механизм 14 кодирования продолжает кодирование аудиосигнала с помощью модуля пакетирования в поток битов. Кодирование может быть выполнено покадрово. Каждый кадр потока данных может представлять одну временную часть/интервал аудиосигнала. Аудиокодер 14 может быть выполнен с возможностью кодировать все кадры с использованием LPC-кодирования. Аудиокодер 14 может быть выполнен с возможностью кодировать, например, некоторые кадры, как описано относительно фиг. 2, что называется режимом кадрового TCX-кодирования. Оставшиеся кадры могут быть кодированы, например, с использованием кодирования на основе линейного прогнозирования с кодовым возбуждением (CELP), к примеру, режима ACELP-кодирования. Иными словами, часть 44 потока данных может содержать непрерывное обновление LPC-коэффициентов с использованием некоторой скорости LPC-передачи, которая может быть равной или превышать частоту кадров.
Параллельно модуль 146 оценки шума анализирует LPC-сглаженные (фильтрованные на основе LPC-анализа) спектры для того, чтобы идентифицировать минимумы kmin в TCX-спектре, представленном посредством последовательности этих спектров. Конечно, эти минимумы могут варьироваться во времени t, т.е. kmin(t). Тем не менее минимумы могут формировать следы на спектрограмме, выводимой посредством FDNS 142, и тем самым для каждого последовательного спектра i во время ti минимумы могут ассоциироваться с минимумами в предыдущем и последующем спектре соответственно.
Модуль оценки параметров затем получает (выводит) параметры оценки фонового шума из них, такие как, например, центральная тенденция (усредненное среднее, среднее и т.п.) m и/или дисперсия (среднеквадратическое отклонение, статистическая дисперсия и т.п.) d для различных спектральных компонентов или полос частот. Получение может заключать в себе статистический анализ последовательных спектральных коэффициентов спектров спектрограммы при минимумах, тем самым давая в результате m и d для каждого минимума при kmin. Интерполяция вдоль спектрального измерения между вышеуказанными минимумами спектра может быть выполнена таким образом, чтобы получать m и d для других предварительно определенных спектральных компонентов или полос частот. Спектральное разрешение для получения и/или интерполяции центральной тенденции (усредненного среднего) и получения дисперсии (среднеквадратического отклонения, статистической дисперсии и т.п.) может отличаться.
Вышеуказанные параметры непрерывно обновляются, например, согласно спектру, выводимому посредством FDNS 142.
После того, как детектор 16 обнаруживает вход в неактивную фазу, детектор 16 может информировать механизм 14 соответственно, что дополнительные активные кадры не перенаправляются в модуль 154 пакетирования. Тем не менее модуль 152 квантования вместо этого выводит вышеуказанные параметры статистического шума в первом SID-кадре в неактивной фазе. Первый SID-кадр может содержать или не содержать обновление LPC. Если имеется LPC-обновление, оно может быть передано в потоке данных в SID-кадре 32 в формате, используемом в части 44, т.е. в течение активной фазы, к примеру, с использованием квантования в LSF/LSP-области, или в другом случае, к примеру, с использованием спектральных взвешиваний, соответствующих LPC-анализу или передаточной функции синтезирующего LPC-фильтра, таких как спектральные взвешивания, которые должны применяться посредством FDNS 142 в пределах инфраструктуры механизма 14 кодирования при переходе к активной фазе.
В течение неактивной фазы модуль 146 оценки шума, модуль 148 оценки параметров и модуль 150 измерения стационарности продолжают взаимодействовать таким образом, чтобы поддерживать обновленной сторону декодирования при изменениях фонового шума. В частности, модуль 150 измерения проверяет спектральное взвешивание, заданное посредством LPC, с тем, чтобы идентифицировать изменения и информировать модуль оценки 148, когда SID-кадр должен отправляться в декодер. Например, модуль 150 измерения может активировать модуль оценки соответственно каждый раз, когда вышеуказанный показатель стационарности указывает степень колебания в LPC, которая превышает некоторую величину. Дополнительно или альтернативно модуль оценки может быть активирован для того, чтобы отправлять обновленные параметры на регулярной основе. Между этими кадрами 40 SID-обновления ничего не должно отправляться в потоках данных, т.е. "нулевые кадры".
На стороне декодера в течение активной фазы механизм 160 декодирования принимает на себя ответственность за восстановление аудиосигнала. Как только начинается неактивная фаза, адаптивный параметрический генератор 164 случайных чисел использует деквантованные параметры генератора случайных чисел, отправленные в течение неактивной фазы в потоке данных из модуля 152 квантования параметров, для того чтобы формировать случайные спектральные компоненты, тем самым формируя случайную спектрограмму, которая спектрально формируется в процессоре 166 спектральной энергии, при этом синтезатор 168 далее выполняет повторное преобразование из спектральной области во временную область. Для формирования спектра в FDNS 166 либо могут быть использованы последние LPC-коэффициенты из последних активных кадров, либо спектральное взвешивание, которое должно применяться посредством FDNS 166, может получаться из них посредством экстраполяции, либо сам SID-кадр 32 может передавать информацию. Посредством этой меры в начале неактивной фазы FDNS 166 продолжает спектрально взвешивать входящий спектр в соответствии с передаточной функцией синтезирующего LPC-фильтра, причем LPS задает синтезирующий LPC-фильтр, извлекаемый из активной части 44 данных или SID-кадра 32. Тем не менее с началом неактивной фазы спектр, который должен формироваться посредством FDNS 166, является произвольно сформированным спектром, а не кодированным с преобразованием, как в случае режима кадрового TCX-кодирования. Кроме того, формирование спектра, применяемое в 166, просто прерывисто обновляется посредством использования SID-кадров 38. Интерполяция или затухание может быть выполнено для того, чтобы постепенно переключаться с одного задания формирования спектра на следующее в течение фаз 36 прерывания.
Как показано на фиг. 6, адаптивный параметрический генератор случайных чисел 164 дополнительно может необязательно использовать деквантованные коэффициенты преобразования, содержащиеся в последних частях последней активной фазы в потоке данных, а именно в части 44 потока данных непосредственно перед переходом к неактивной фазе. Например, в силу этого использование может состоять в том, что выполняется плавный переход от спектрограммы в активной фазе к случайной спектрограмме в неактивной фазе.
Снова вкратце ссылаясь на фиг. 1 и 3, из вариантов осуществления согласно фиг. 5 и 6 (и поясненной ниже фиг. 7) следует, что параметрическая оценка фонового шума, формируемая в кодере и/или декодере, может содержать статистическую информацию по распределению временно последовательных спектральных значений для различных спектральных частей, таких как полосы частот резких звуков или различные спектральные компоненты. Для каждой такой спектральной части, например, статистическая информация может содержать показатель дисперсии. Показатель дисперсии соответственно должен быть задан в спектральной информации спектрально разрешенным способом, а именно дискретизированным в/для спектральных частей. Спектральное разрешение, т.е. число показателей для дисперсии и центральной тенденции, распределенных вдоль спектральной оси, может отличаться, например, между показателем дисперсии и необязательно текущим показателем средней или центральной тенденции. Статистическая информация содержится в SID-кадрах. Она может означать сформированный спектр, такой как фильтрованный на основе LPC-анализа (т.е. LPC-сглаженный) спектр, к примеру сформированный MDCT-спектр, который обеспечивает синтез посредством синтезирования случайного спектра в соответствии со статистическим спектром и отмены его формирования в соответствии с передаточной функцией синтезирующего LPC-фильтра. В этом случае информация формирования спектра может присутствовать в SID-кадрах, хотя она, например, может не приниматься во внимание в первом SID-кадре 32. Тем не менее, как показано позднее, эта статистическая информация альтернативно может означать не сформированный спектр. Кроме того, вместо использования действительнозначного представления спектра, к примеру MDCT, может быть использован комплекснозначный спектр гребенки фильтров, к примеру QMF-спектр аудиосигнала. Например, не сформированный QMF-спектр аудиосигнала может быть использован и статистически описан посредством статистической информации, когда отсутствует формирование спектра, за исключением содержащегося в самой статистической информации.
Аналогично взаимосвязи между вариантом осуществления согласно фиг. 3 относительно варианта осуществления согласно фиг. 1, фиг. 7 показывает возможную реализацию декодера согласно фиг. 3. Как показано посредством использования идентичных с фиг. 5 ссылочных позиций, декодер согласно фиг. 7 может содержать модуль 146 оценки шума, модуль 148 оценки параметров и модуль 150 измерения стационарности, которые работают как идентичные элементы на фиг. 5; тем не менее при этом модуль 146 оценки шума согласно фиг. 7 работает с передаваемой и деквантованной спектрограммой, к примеру, 120 или 122 на фиг. 4. Модуль 146 оценки параметров в таком случае работает аналогично модулю оценки, поясненному на фиг. 5. То же применимо в отношении модуля 148 измерения стационарности, который управляет значениями энергии и спектральными значениями либо LPC-данными, раскрывающими развитие во времени спектра аналитического LPC-фильтра (или синтезирующего LPC-фильтра), передаваемого и деквантованного через/из потока данных в течение активной фазы.
Хотя элементы 146, 148 и 150 выступают в качестве модуля 90 оценки фонового шума согласно фиг. 3, декодер согласно фиг. 7 также содержит адаптивный параметрический генератор 164 случайных чисел и FDNS 166, а также обратный преобразователь 168, и они соединяются последовательно друг с другом, как показано на фиг. 6, с тем, чтобы выводить комфортный шум на выходе синтезатора 168. Модули 164, 166 и 168 выступают в качестве формирователя 96 шума фонового согласно фиг. 3, при этом модуль 164 принимает на себя ответственность за функциональность параметрического генератора 94 случайных чисел. Адаптивный параметрический генератор 94 или 164 случайных чисел выводит произвольно сформированные спектральные компоненты спектрограммы в соответствии с параметрами, определенными посредством модуля 148 оценки параметров, который, в свою очередь, инициируется с использованием показателя стационарности, выводимого посредством модуля 150 измерения стационарности. Процессор 166 затем спектрально формирует такую сформированную спектрограмму с помощью обратного преобразователя 168 и после этого выполняет переход из спектральной области во временную область. Следует отметить, что когда в течение неактивной фазы 88 декодер принимает информацию 108, модуль 90 оценки фонового шума выполняет обновление оценок шума, после чего активируется некоторое средство интерполяции. В противном случае, если принимаются нулевые кадры, то он просто выполняет такую обработку, как интерполяция и/или затухание.
Обобщая фиг. 5-7, эти варианты осуществления показывают, что технически возможно применять управляемый генератор 164 случайных чисел для того, чтобы возбуждать TCX-коэффициенты, которые могут быть действительными значениями, как, к примеру, в MDCT, либо комплексным значениями, как, к примеру, в FFT. Также может быть преимущественным применять генератор 164 случайных чисел к группам коэффициентов, что обычно выполняется через гребенки фильтров.
Генератор 164 случайных чисел предпочтительно управляется таким образом, что он максимально близко моделирует тип шума. Это может достигаться, если целевой шум известен заранее. Некоторые варианты применения могут это обеспечивать. Во многих реалистичных вариантах применения, в которых субъект может сталкиваться с различными типами шума, требуется адаптивный способ, как показано на фиг. 5-7. Соответственно используется адаптивный параметрический генератор 164 случайных чисел, который может быть вкратце задан как g=f(x), где x=(x1, x2,...,) является набором параметров генератора случайных чисел, предоставляемых посредством модулей 146 и 150 оценки параметров соответственно.
Чтобы обеспечивать адаптивность параметрического генератора случайных чисел, модуль 146 оценки параметров генератора случайных чисел надлежащим образом управляет генератором случайных чисел. Компенсация смещения может быть включена для того, чтобы компенсировать случаи, в которых данные предположительно являются статистически недостаточными. Она служит для того, чтобы формировать статистически согласованную модель шума на основе предыдущих кадров и всегда приводит к обновлению оцененных параметров. Приводится пример, в котором генератор 164 случайных чисел предположительно формирует гауссов шум. В этом случае, например, могут требоваться только параметры среднего и дисперсии, и смещение может вычисляться и применяться к этим параметрам. Более усовершенствованный способ может обрабатывать любой тип шума или распределения, и параметры не обязательно представляют собой моменты распределения.
Для нестационарного шума требуется иметь показатель стационарности, и в таком случае может быть использован менее адаптивный параметрический генератор случайных чисел. Показатель стационарности, определенный посредством модуля 148 измерения, может получаться из спектральной формы входного сигнала с использованием различных способов, таких как, например, показатель расстояния Итакуры, показатель расстояния Кульбака-Лейблера и т.д.
Чтобы обрабатывать прерывистый характер обновлений шума, отправленных через SID-кадры, к примеру, проиллюстрированных посредством 38 на фиг. 1, обычно отправляется дополнительная информация, такая как энергия и спектральная форма шума. Эта информация является полезной для формирования шума в декодере, имеющем плавный переход, даже в течение периода прерывистости в неактивной фазе. В завершение, различные технологии сглаживания или фильтрации могут применяться для того, чтобы помочь повышать качество эмулятора комфортного шума.
Как уже отмечено выше, фиг. 5 и 6, с одной стороны, и фиг. 7, с другой стороны, принадлежат различным сценариям. В одном сценарии, соответствующем фиг. 5 и 6, параметрическая оценка фонового шума выполняется в кодере на основе обработанного входного сигнала, и затем параметры передаются в декодер. Фиг. 7 соответствует другому сценарию, в котором декодер может осуществлять параметрическую оценку фонового шума на основе предыдущих принимаемых кадров в активной фазе. Использование детектора речевой активности/активности сигналов или модуля оценки шума может быть полезным, например, для того, чтобы помогать в извлечении компонентов шума даже в ходе активной речи.
Из сценариев, показанных на фиг. 5-7, сценарий согласно фиг. 7 может предпочитаться, поскольку этот сценарий приводит к передаче на более низкой скорости передачи битов. Тем не менее сценарий фиг. 5 и 6 имеет преимущество доступности более точной оценки шума.
Все вышеописанные варианты осуществления могут быть комбинированы с технологиями расширения полосы пропускания, такими как репликация полос спектра (SBR), хотя может быть использовано расширение полосы пропускания в общем.
Чтобы иллюстрировать это см. фиг. 8. Фиг. 8 показывает модули, посредством которых кодеры фиг. 1 и 5 могут быть дополнены, чтобы выполнять параметрическое кодирование относительно части верхних частот входного сигнала. В частности, в соответствии с фиг. 8 входной аудиосигнал временной области спектрально раскладывается посредством гребенки 200 анализирующих фильтров, такой как гребенка анализирующих QMF-фильтров, как показано на фиг. 8. Вышеописанные варианты осуществления согласно фиг. 1 и 5 затем должны применяться только к части более низких частот спектрального разложения, сформированного посредством гребенки 200 фильтров. Чтобы передавать информацию относительно части более высоких частот на сторону декодера, также используется параметрическое кодирование. С этой целью обычный кодер 202 репликации полос спектра выполнен с возможностью параметризовать часть верхних частот в течение активных фаз и подавать информацию в нее в форме информации репликации полос спектра в потоке данных на сторону декодирования. Коммутатор 204 может предоставляться между выходом гребенки 200 QMF-фильтров и входом кодера 202 репликации полос спектра для того, чтобы соединять выход гребенки 200 фильтров с входом кодера 206 репликации полос спектра, соединенным параллельно с кодером 202, с тем, чтобы принимать на себя ответственность за расширение полосы пропускания в течение неактивных фаз. Иными словами, коммутатор 204 может управляться как коммутатор 22 на фиг. 1. Как подробнее указано ниже, модуль 206 кодера репликации полос спектра может быть выполнен с возможностью работать аналогично кодеру 202 репликации полос спектра: оба могут быть выполнены с возможностью, например, параметризовать спектральную огибающую входного аудиосигнала в части верхних частот, т.е. оставшаяся часть верхних частот не подвергается базовому кодированию посредством механизма кодирования. Тем не менее модуль 206 кодера репликации полос спектра может использовать минимальное частотно-временное разрешение, при котором спектральная огибающая параметризована и передана в потоке данных, тогда как кодер 202 репликации полос спектра может быть выполнен с возможностью адаптировать частотно-временное разрешение к входному аудиосигналу, к примеру, в зависимости от возникновений переходных процессов в аудиосигнале.
Фиг. 9 показывает возможную реализацию модуля 206 кодирования расширения полосы пропускания. Модуль 208 задания частотно-временной сетки, модуль 210 вычисления энергии и энергетический кодер 212 последовательно соединяются друг с другом между входом и выходом модуля 206 кодирования. Модуль 208 задания частотно-временной сетки может быть выполнен с возможностью задавать частотно-временное разрешение, при котором определяется огибающая части верхних частот. Например, минимальное разрешенное частотно-временное разрешение непрерывно используется посредством модуля 206 кодирования. Модуль 210 вычисления энергии затем может определять энергию части верхних частот спектрограммы, выводимой посредством гребенки фильтров 200, в части верхних частот в частотно-временных фрагментах, соответствующих частотно-временному разрешению, и энергетический кодер 212 может использовать, например, энтропийное кодирование для того, чтобы вставлять виды энергии, вычисленные посредством модуля 210 вычисления, в поток 40 данных (см. фиг. 1) в течение неактивных фаз, к примеру, в SID-кадрах, таких как SID-кадр 38.
Следует отметить, что информация расширения полосы пропускания, сформированная в соответствии с вариантами осуществления согласно фиг. 8 и 9, также может быть использована в связи с использованием декодера в соответствии с любым из вышеуказанных вариантов осуществления, к примеру, фиг. 3, 4 и 7.
Таким образом, фиг. 8 и 9 проясняет, что формирование комфортного шума, как пояснено относительно фиг. 1-7, также может быть использовано в связи с репликацией полос спектра. Например, аудиокодеры и декодеры, описанные выше, могут работать в различных рабочих режимах, некоторые из которых могут содержать репликацию полос спектра, а некоторые могут не содержать. Сверхширокополосные рабочие режимы, например, могут заключать в себе репликацию полос спектра. В любом случае вышеописанные варианты осуществления согласно фиг. 1-7, показывающие примеры для формирования комфортного шума, могут быть комбинированы с технологиями расширения полосы пропускания способом, описанным относительно фиг. 8 и 9. Модуль 206 кодирования репликации полос спектра, отвечающий за расширение полосы пропускания в течение неактивных фаз, может быть выполнен с возможностью работать при очень низком временном и частотном разрешении. По сравнению с обычной обработкой репликации полос спектра кодер 206 может работать при другом частотном разрешении, что влечет за собой дополнительную таблицу полос частот с очень низким частотным разрешением наряду со сглаживающими IIR-фильтрами в декодере для каждой полосы частот коэффициентов масштабирования для формирования комфортного шума, которая интерполирует коэффициенты масштабирования энергии, применяемые в модуле регулирования огибающей в течение неактивных фаз. Как упомянуто выше, частотно-временная сетка может быть сконфигурирована с возможностью соответствовать наименьшему временному разрешению.
Иными словами, кодирование расширения полосы пропускания может выполняться по-разному в QMF-области или спектральной области в зависимости от наличия фазы молчания или активной фазы. В активной фазе, т.е. в течение активных кадров, обычное SBR-кодирование выполняется посредством кодера 202, приводя к обычному потоку SBR-данных, который сопровождает потоки 44 и 102 данных соответственно. В неактивных фазах или в течение кадров, классифицированных в качестве SID-кадров, только информация относительно спектральной огибающей, представленной в качестве коэффициентов масштабирования энергии, может быть извлечена посредством применения частотно-временной сетки, которая демонстрирует очень низкое частотное разрешение и, например, наименьшее возможное временное разрешение. Результирующие коэффициенты масштабирования могут эффективно кодироваться посредством кодера 212 и записываться в поток данных. В нулевых кадрах или в течение фаз 36 прерывания вспомогательная информация не может записываться в поток данных посредством модуля 206 кодирования репликации полос спектра, и, как следствие, вычисление энергии не может быть выполнено посредством модуля 210 вычисления.
В соответствии с фиг. 8, фиг. 10 показывает возможное расширение вариантов осуществления декодера фиг. 3 и 7 на технологии кодирования расширения полосы пропускания. Если точнее, фиг. 10 показывает возможный вариант осуществления аудиодекодера в соответствии с настоящей заявкой. Базовый декодер 92 соединяется параллельно с формирователем комфортного шума, причем формирователь комфортного шума указывается с помощью ссылки с номером 220 и содержит, например, модуль 162 формирования шума или модули 90, 94 и 96 согласно фиг. 3. Коммутатор 222 показан как распределяющий кадры в потоках 104 и 30 данных соответственно в базовый декодер 92 или формирователь 220 комфортного шума в зависимости от типа кадра, а именно того, кадр относится или принадлежит к активной фазе либо относится или принадлежит к неактивной фазе, к примеру к SID-кадрам или нулевым кадрам относительно фаз прерывания. Выходы базового декодера 92 и формирователя 220 комфортного шума соединяются с входом декодера 224 расширения спектральной полосы пропускания, выход которого раскрывает восстановленный аудиосигнал.
Фиг. 11 показывает более подробный вариант осуществления возможной реализации декодера 224 расширения полосы пропускания.
Как показано на фиг. 11, декодер 224 расширения полосы пропускания в соответствии с вариантом осуществления согласно фиг. 11 содержит вход 226 для приема восстановления во временной области части низких частот полного аудиосигнала, который должен быть восстановлен. Именно вход 226 соединяет декодер 224 расширения полосы пропускания с выходами базового декодера 92 и формирователя 220 комфортного шума, так что вход для временной области на входе 226 может быть либо восстановленной частью более низких частот аудиосигнала, содержащего как компонент шума, так и полезный компонент, либо комфортным шумом, сформированным для распределения времени между активными фазами.
В соответствии с вариантом осуществления согласно фиг. 11 декодер 224 расширения полосы пропускания сконструирован с возможностью выполнять репликацию спектральной полосы пропускания, декодер 224 далее называется "SBR-декодером". Относительно фиг. 8-10 тем не менее следует подчеркнуть, что эти варианты осуществления не ограничены репликацией спектральной полосы пропускания. Наоборот, более общий альтернативный способ расширения полосы пропускания также может быть использован относительно этих вариантов осуществления.
Дополнительно SBR-декодер 224 согласно фиг. 11 содержит выход 228 для временной области для вывода конечного восстановленного аудиосигнала, т.е. в активных фазах или в неактивных фазах. Между входом 226 и выходом 228 SBR-декодер 224 содержит - последовательно соединенные в порядке упоминания модуль 230 разложения спектра, который может быть таким, как показано на фиг. 11, гребенку анализирующих фильтров, такую как гребенку анализирующих QMF-фильтров, HF-формирователь 232, модуль 234 регулирования огибающей и преобразователь 236 спектральной области во временную, который, как показано на фиг. 11, может быть осуществлен в качестве гребенки синтезирующих фильтров, такой как гребенка синтезирующих QMF-фильтров.
Модули 230-236 работают следующим образом. Модуль 230 разложения спектра спектрально раскладывает входной сигнал временной области для того, чтобы получать восстановленную часть низких частот. HF-формирователь 232 формирует часть высокочастотной реплики на основе восстановленной части низких частот, и модуль 234 регулирования огибающей спектрально формирует или формирует высокочастотную реплику с использованием представления спектральной огибающей части высоких частот, передаваемой с помощью части потока SBR-данных и предоставляемой посредством модулей, еще не поясненных, но показанных на фиг. 11 выше модуля 234 регулирования огибающей. Таким образом, модуль 234 регулирования огибающей регулирует огибающую части высокочастотной реплики в соответствии с представлением в форме частотно-временной сетки передаваемой высокочастотной огибающей и перенаправляет эту полученную часть высоких частот в преобразователь 236 из спектральной во временную область для преобразования всего частотного спектра, т.е. спектрально сформированной части высоких частот вместе с восстановленной частью низких частот, в восстановленный сигнал временной области на выходе 228.
Как уже упомянуто выше относительно фиг. 8-10, спектральная огибающая части высоких частот может быть передана в потоке данных в форме коэффициентов масштабирования энергии, и SBR-декодер 224 содержит вход 238, чтобы принимать эту информацию относительно спектральной огибающей частей высоких частот. Как показано на фиг. 11, в случае активных фаз, т.е. активных кадров, присутствующих в потоке данных в течение активных фаз, входы 238 могут непосредственно соединяться с входом для спектральной огибающей модуля 234 регулирования огибающей через соответствующий коммутатор 240. Тем не менее SBR-декодер 224 дополнительно содержит модуль 242 комбинирования коэффициентов масштабирования, хранилище 244 данных коэффициентов масштабирования, модуль 246 интерполяционной фильтрации, к примеру модуль IIR-фильтрации и модуль 248 регулирования усиления. Модули 242, 244, 246 и 248 последовательно соединяются друг с другом между 238 и входом для спектральной огибающей модуля 234 регулирования огибающей, при этом коммутатор 240 соединен между модулем 248 регулирования усиления и модулем 234 регулирования огибающей, и дополнительный коммутатор 250 соединен между хранилищем 244 данных коэффициентов масштабирования и модулем 246 фильтрации. Коммутатор 250 выполнен с возможностью соединять это хранилище 244 данных коэффициентов масштабирования с входом либо модуля 246 фильтрации, либо восстановителя 252 данных коэффициентов масштабирования. В случае SID-кадров в течение неактивных фаз и необязательно в случаях активных кадров, для которых допустимо очень приблизительное представление спектральной огибающей части высоких частот, коммутаторы 250 и 240 соединяют последовательность модулей 242-248 между входом 238 и модулем 234 регулирования огибающей. Модуль 242 комбинирования коэффициентов масштабирования адаптирует частотное разрешение, при котором спектральная огибающая частей высоких частот передана через поток данных, к разрешению, которое модуль 234 регулирования огибающей ожидает принимать, и хранилище 244 данных коэффициентов масштабирования сохраняет результирующую спектральную огибающую до следующего обновления. Модуль 246 фильтрации фильтрует спектральную огибающую во временном и/или спектральном измерении, и модуль 248 регулирования усиления адаптирует усиление спектральной огибающей части высоких частот. С этой целью модуль регулирования усиления может комбинировать данные огибающей, полученные посредством модуля 246, с фактической огибающей, извлекаемой из выхода гребенки QMF-фильтров. Восстановитель 252 данных коэффициентов масштабирования воспроизводит данные коэффициентов масштабирования, представляющие спектральную огибающую, в фазах прерывания или нулевых кадрах, сохраненных посредством хранилища 244 коэффициентов масштабирования.
Таким образом, на стороне декодера может быть выполнена следующая обработка. В активных кадрах или в течение активных фаз может применяться обычная обработка репликации полос спектра. В течение этих активных периодов коэффициенты масштабирования из потока данных, которые типично доступны для большего числа полос частот коэффициентов масштабирования по сравнению с обработкой формирования комфортного шума, преобразуются в частотное разрешение для формирования комфортного шума посредством модуля 242 комбинирования коэффициентов масштабирования. Модуль комбинирования коэффициентов масштабирования комбинирует коэффициенты масштабирования для более высокого частотного разрешения, что приводит к числу коэффициентов масштабирования, сопоставимого с CNG, за счет использования границ общей полосы частот для различных таблиц полос частот. Результирующие значения коэффициентов масштабирования на выходе модуля 242 комбинирования коэффициентов масштабирования сохраняются для многократного использования в нулевых кадрах и последующего воспроизведения посредством восстановителя 252 и затем используются для обновления модуля 246 фильтрации для рабочего CNG-режима. В SID-кадрах применяется модифицированный модуль считывания потоков SBR-данных, который извлекает информацию коэффициентов масштабирования из потока данных. Оставшаяся конфигурация SBR-обработки инициализируется с предварительно заданными значениями, частотно-временная сетка инициализируется как идентичное частотно-временное разрешение, используемое в кодере. Извлеченные коэффициенты масштабирования подаются в модуль 246 фильтрации, в котором, например, один сглаживающий IIR-фильтр интерполирует изменения энергии для одной полосы частот коэффициентов масштабирования низкого разрешения во времени. В случае нулевых кадров рабочие данные не считываются из потока битов, и SBR-конфигурация, включающая в себя частотно-временную сетку, является идентичной SBR-конфигурации, используемой в SID-кадрах. В нулевых кадрах в сглаживающие фильтры в модуле 246 фильтрации подается значение коэффициента масштабирования, выводимое из модуля 242 комбинирования коэффициентов масштабирования, которое сохранено в последнем кадре, содержащем допустимую информацию коэффициентов масштабирования. В случае, если текущий кадр классифицируется в качестве неактивного кадра или SID-кадра, комфортный шум формируется в TCX-области и преобразуется обратно во временную область. Затем сигнал временной области, содержащий комфортный шум, подается в гребенку 230 анализирующих QMF-фильтров SBR-модуля 224. В QMF-области расширение полосы пропускания комфортного шума выполняется посредством транспозиции копии в HF-формирователе 232, и в завершение спектральная огибающая искусственно созданной высокочастотной части регулируется посредством применения информации коэффициентов масштабирования энергии в модуле 234 регулирования огибающей. Эти коэффициенты масштабирования энергии получаются посредством выхода модуля 246 фильтрации и масштабируются посредством модуля 248 регулирования усиления до применения в модуле 234 регулирования огибающей. В этом модуле 248 регулирования усиления значение усиления для масштабирования коэффициентов масштабирования вычисляется и применяется, чтобы компенсировать огромные разности энергий на границе между частью низких частот и высокочастотным спектром сигнала.
Варианты осуществления, описанные выше, обычно используются в вариантах осуществления согласно фиг. 12 и 13. Фиг. 12 показывает вариант осуществления аудиокодера согласно варианту осуществления настоящей заявки, и фиг. 13 показывает вариант осуществления аудиодекодера. Подробности, раскрытые относительно этих чертежей, должны в равной степени применяться к вышеуказанным элементам по отдельности.
Аудиокодер согласно фиг. 12 содержит гребенку 200 анализирующих QMF-фильтров для спектрального разложения входного аудиосигнала. Детектор 270 и модуль 262 оценки шума соединяются с выходом гребенки 200 анализирующих QMF-фильтров. Модуль 262 оценки шума принимает на себя ответственность за функциональность модуля 12 оценки фонового шума. В течение активных фаз QMF-спектры из гребенки анализирующих QMF-фильтров обрабатываются посредством параллельного соединения модуля 260 оценки параметров репликации полос спектра, после которого следует некоторый SBR-кодер 264, с одной стороны, и конкатенации гребенки 272 синтезирующих QMF-фильтров, после которой следует базовый кодер 14, с другой стороны. Оба параллельных тракта соединяются с соответствующим входом модуля 266 пакетирования потоков битов. В случае вывода SID-кадров кодер 274 SID-кадров принимает данные из модуля 262 оценки шума и выводит SID-кадры в модуль 266 пакетирования потоков битов.
Данные расширения спектральной полосы пропускания, выводимые посредством модуля 260 оценки, описывают спектральную огибающую части высоких частот спектрограммы или спектра, выводимой посредством гребенки 200 анализирующих QMF-фильтров, которая затем кодируется, к примеру, посредством энтропийного кодирования, посредством SBR-кодера 264. Мультиплексор 266 потоков данных вставляет данные расширения спектральной полосы пропускания в активных фазах в поток данных, выводимый на выходе 268 мультиплексора 266.
Детектор 270 обнаруживает то, активирована в данный момент активная или неактивная фаза. На основе этого обнаружения в данный момент должен выводиться активный кадр, SID-кадр или нулевой кадр, т.е. неактивный кадр. Другими словами, модуль 270 определяет то активирована активная фаза или неактивная фаза, и если активирована неактивная фаза, то должен или нет выводиться SID-кадр. Решения указываются на фиг. 12 с использованием I для нулевых кадров, A для активных кадров и S для SID-кадров. Кадры, которые соответствуют временным интервалам входного сигнала, в которых присутствует активная фаза, также передаются в соединение гребенки 272 синтезирующих QMF-фильтров и базового кодера 14. Гребенка 272 синтезирующих QMF-фильтров имеет меньшее частотное разрешение или работает при меньшем числе QMF-подполос частот по сравнению с гребенкой 200 анализирующих QMF-фильтров с тем, чтобы достигать посредством отношения числа подполос частот соответствующей частоты понижающей дискретизации при переводе активных частей кадра входного сигнала снова во временную область. В частности, гребенка 272 синтезирующих QMF-фильтров применяется к частям более низких частот или подполосам более низких частот спектрограммы гребенки анализирующих QMF-фильтров в активных кадрах. Таким образом, базовый кодер 14 принимает версию после понижающей дискретизации входного сигнала, которая, таким образом, покрывает просто часть более низких частот исходного входного сигнала, вводимого в гребенку 200 анализирующих QMF-фильтров. Оставшаяся часть более высоких частот параметрическим образом кодируется посредством модулей 260 и 264.
SID-кадры (или, если точнее, информация, которая должна быть передана посредством них) перенаправляются в SID-кодер 274, который принимает на себя ответственность, например, за функциональности модуля 152 согласно фиг. 5. Единственное отличие: модуль 262 управляет спектром входного сигнала напрямую, т.е. без LPC-формирования. Кроме того, когда используется анализирующая QMF-фильтрация, работа модуля 262 является независимой от кадрового режима, выбираемого посредством базового кодера, либо от того, применяется или нет необязательный вариант расширения спектральной полосы пропускания. Функциональности модуля 148 и 150 согласно фиг. 5 могут быть реализованы в модуле 274.
Мультиплексор 266 мультиплексирует соответствующую кодированную информацию в поток данных на выходе 268.
Аудиодекодер согласно фиг. 13 имеет возможность управлять потоком данных, выводимым посредством кодера согласно фиг. 12. Иными словами, модуль 280 выполнен с возможностью принимать поток данных и классифицировать кадры в потоке данных, например, на активные кадры, SID-кадры и нулевые кадры, т.е. отсутствие кадров в потоке данных. Активные кадры перенаправляются в конкатенацию базового декодера 92, гребенки 282 анализирующих QMF-фильтров и модуля 284 расширения спектральной полосы пропускания. Необязательно модуль 286 оценки шума соединяется с выходом гребенки анализирующих QMF-фильтров. Модуль 286 оценки шума может работать аналогично и может принимать на себя ответственность за функциональности модуля 90 оценки фонового шума согласно фиг. 3, например, за исключением того, что модуль оценки шума управляет спектрами без определенной формы, а не спектрами возбуждения. Соединение модулей 92, 282 и 284 соединяется с входом гребенки 288 синтезирующих QMF-фильтров. SID-кадры перенаправляются в декодер 290 SID-кадров, который принимает на себя ответственность, например, за функциональность формирователя 96 фонового шума согласно фиг. 3. В модуль 292 обновления параметров формирования комфортного шума подается информация из декодера 290 и модуля 286 оценки шума, причем этот модуль 292 обновления управляет генератором 294 случайных чисел, который принимает на себя ответственность за функциональность параметрических генераторов случайных чисел согласно фиг. 3. Поскольку неактивные или нулевые кадры отсутствуют, они вообще не должны перенаправляться, но они инициируют другой цикл формирования случайных чисел генератора 294 случайных чисел. Выход генератора 294 случайных чисел соединяется с гребенкой 288 синтезирующих QMF-фильтров, выход которой раскрывает восстановленный аудиосигнал в фазах молчания и активных фазах во временной области.
Таким образом, в течение активных фаз, базовый декодер 92 восстанавливает часть низких частот аудиосигнала, включающую в себя компоненты шума и полезного сигнала. Гребенка 282 анализирующих QMF-фильтров спектрально раскладывает восстановленный сигнал, и модуль 284 расширения спектральной полосы пропускания использует информацию расширения спектральной полосы пропускания в потоке данных и активных кадрах соответственно для того, чтобы добавлять часть высоких частот. Модуль 286 оценки шума, если есть, выполняет оценку шума на основе части спектра, восстановленной посредством базового декодера, т.е. на основе части низких частот. В неактивных фазах SID-кадры передают информацию, параметрическим образом описывающую оценку фонового шума, извлекаемую посредством оценки 262 шума на стороне кодера. Модуль 292 обновления параметров может использовать информацию кодера главным образом для того, чтобы обновлять свою параметрическую оценку фонового шума, с использованием информации, предоставляемой посредством модуля 286 оценки шума, главным образом в качестве позиции восстановления после сбоя в случае потерь при передаче относительно SID-кадров. Гребенка 288 синтезирующих QMF-фильтров преобразует спектрально разложенный сигнал, выводимый посредством модуля репликации полос спектра 284 в активных фазах и сформированный вследствие комфортного шума спектр сигнала во временной области. Таким образом, фиг. 12 и 13 проясняют то, что инфраструктура гребенки QMF-фильтров может быть использована в качестве основы для формирования комфортного шума на основе QMF. QMF-инфраструктура предоставляет удобный способ для того, чтобы повторно дискретизировать с понижением частоты входной сигнал до частоты дискретизации базового кодера в кодере или дискретизировать с повышением частоты выходной сигнал базового декодера базового декодера 92 на стороне декодера с использованием гребенки 288 синтезирующих QMF-фильтров. Одновременно QMF-инфраструктура также может быть использована в сочетании с расширением полосы пропускания, чтобы извлекать и обрабатывать высокочастотные компоненты сигнала, которые переносятся посредством модулей 14 и 92 базового кодера и базового декодера. Соответственно гребенка QMF-фильтров может предлагать общую инфраструктуру для различных инструментальных средств обработки сигналов. В соответствии с вариантами осуществления согласно фиг. 12 и 13 формирование комфортного шума успешно включается в эту инфраструктуру.
В частности, в соответствии с вариантами осуществления согласно фиг. 12 и 13 можно отметить, что возможно формировать комфортный шум на стороне декодера, например, после QMF-анализа, но до QMF-синтеза посредством применения генератора 294 случайных чисел, чтобы возбуждать вещественные и мнимые части каждого QMF-коэффициента гребенки 288 синтезирующих QMF-фильтров. Амплитуда случайных последовательностей, например, по отдельности вычисляется в каждой QMF-полосе частот, так что спектр сформированного комфортного шума напоминает спектр фактического входного сигнала фонового шума. Это может достигаться в каждой QMF-полосе частот с использованием модуля оценки шума после QMF-анализа на стороне кодирования. Эти параметры затем могут быть переданы через SID-кадры для того, чтобы обновлять амплитуду случайных последовательностей, применяемых в каждой QMF-полосе частот на стороне декодера.
В идеале следует отметить, что оценка 262 шума, применяемая на стороне кодера, должна иметь возможность работать в течение как неактивных (т.е. только с шумом), так и активных периодов (типично содержащих зашумленную речь), так что параметры комфортного шума могут сразу обновляться в конце каждого периода активности. Помимо этого, также оценка шума может быть использована на стороне декодера. Поскольку кадры только с шумом отбрасываются в системе кодирования/декодирования на основе DTX, оценка шума на стороне декодера предпочтительно может работать с зашумленным речевым контентом. Преимущество выполнения оценки шума на стороне декодера в дополнение к стороне кодера состоит в том, что спектральная форма комфортного шума может быть обновлена, даже когда пакетная передача из кодера в декодер завершается неудачно для первого SID-кадра(ов) после периода активности.
Оценка шума должна иметь возможность точно и быстро соответствовать изменениям спектрального контента фонового шума, и в идеале она должна иметь возможность выполняться в течение как активных, так и неактивных кадров, как указано выше. Один способ достигать этих целей состоит в том, чтобы отслеживать минимумы, взятые в каждой полосе частот, посредством спектра мощности с использованием окна переменной длительности конечной длины, как предложено в работе [R. Martin, "Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics", 2001]. В основе этого лежит такая идея, что мощность спектра зашумленной речи часто затухает до мощности фонового шума, например, между словами или слогами. Поэтому отслеживание минимума спектра мощности предоставляет оценку минимального уровня шума в каждой полосе частот, даже во время речевой активности. Тем не менее эти минимальные уровни шума недооцениваются в общем. Кроме того, они не позволяют захватывать быстрые колебания спектральных мощностей, в частности внезапные увеличения энергии.
Тем не менее минимальный уровень шума, вычисленный так, как описано выше в каждой полосе частот, предоставляет очень полезную вспомогательную информацию для того, чтобы применять вторую стадию оценки шума. Фактически можно ожидать, что мощность зашумленного спектра должна находиться рядом с оцененным минимальным уровнем шума в ходе неактивности, тогда как спектральная мощность должна быть существенно выше минимального уровня шума в ходе активности. Минимальные уровни шума, вычисленные отдельно в каждой полосе частот, следовательно, могут быть использованы в качестве детекторов приблизительной активности для каждой полосы частот. На основе этих знаний мощность фонового шума может быть легко оценена в качестве рекурсивно сглаженной версии спектра мощности следующим образом:
где обозначает спектральную плотность мощности входного сигнала в кадре m и в полосе k частот, означает оценку мощности шума, и является коэффициентом отсутствия последействия (обязательно между 0 и 1), управляющим величиной сглаживания для каждой полосы частот и каждого кадра отдельно. С использованием информации минимального уровня шума для того, чтобы отражать состояние активности, она должна принимать небольшое значение в течение неактивных периодов (т.е. когда спектр мощности находится рядом с минимальным уровнем шума), тогда как высокое значение должно выбираться, чтобы применять большее сглаживание (идеально сохраняя константой) в течение активных кадров. Чтобы достигать этого, мягкое решение может приниматься посредством вычисления коэффициентов отсутствия последействия следующим образом:
где является мощностью минимального уровня шума, и является параметром управления. Более высокое значение для приводит к большим коэффициентам отсутствия последействия, и, следовательно, вызывает большее совокупное сглаживание.
Таким образом, описан принцип формирования комфортного шума (CNG), когда искусственный шум формируется на стороне декодера в области преобразования. Вышеописанные варианты осуществления могут применяться фактически в сочетании с любым типом инструментального средства спектро-временного анализа (т.е. преобразования или гребенки фильтров), раскладывающего сигнал временной области на несколько полос спектра.
Таким образом, вышеописанные варианты осуществления, в числе прочего, описывают CNG на основе TCX, при котором базовый формирователь комфортного шума использует случайные импульсы для того, чтобы моделировать остаток.
Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.
В зависимости от определенных требований к реализации варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно-читаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.
В общем, варианты осуществления изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.
Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.
Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.
Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненное с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может быть компьютером, мобильным устройством, запоминающим устройством и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.
Изобретение относится к аудиокодеку, поддерживающему синтез шума в течение неактивных фаз. Техническим результатом является уменьшение скорости передачи битов с поддержанием достижимого качества формирования шума. Параметрическая оценка фонового шума непрерывно обновляется в течение активной фазы или фазы немолчания, так что формирование шума может начинаться сразу при переходе к неактивной фазе после активной фазы. Спектральная область очень эффективно используется для того, чтобы параметризовать фоновый шум, за счет этого обеспечивая синтез фонового шума, который является более реалистичным и в силу этого приводит к более прозрачному переключению активной фазы на неактивную. 5 н. и 22 з.п. ф-лы, 13 ил.
1. Аудиокодер, содержащий:
- модуль (12) оценки фонового шума, выполненный с возможностью непрерывно обновлять параметрическую оценку фонового шума в течение активной фазы (24) на основе входного аудиосигнала;
- кодер (14) для кодирования входного аудиосигнала в поток данных в течение активной фазы; и
- детектор (16), выполненный с возможностью обнаруживать вход в неактивную фазу (28) после активной фазы (24) на основе входного аудиосигнала,
- при этом аудиокодер выполнен с возможностью, при обнаружении входа в неактивную фазу, кодировать в поток данных параметрическую оценку фонового шума как непрерывно обновляемую в течение активной фазы, после которой следует обнаруженная неактивная фаза.
2. Аудиокодер по п. 1, в котором модуль (12) оценки фонового шума выполнен с возможностью, при непрерывном обновлении параметрической оценки фонового шума, осуществлять различение между компонентом шума и компонентом полезного сигнала во входном аудиосигнале и определять параметрическую оценку фонового шума просто из компонента шума.
3. Аудиокодер по п. 1, в котором кодер (14) выполнен с возможностью, при кодировании входного аудиосигнала, выполнять прогнозирующее кодирование входного аудиосигнала в коэффициенты линейного прогнозирования и сигнал возбуждения, а также кодировать с преобразованием сигнал возбуждения и кодировать коэффициенты линейного прогнозирования в поток (30) данных.
4. Аудиокодер по п. 3, в котором модуль (12) оценки фонового шума выполнен с возможностью обновлять параметрическую оценку фонового шума с использованием сигнала возбуждения в течение активной фазы.
5. Аудиокодер по п. 3, в котором модуль оценки фонового шума выполнен с возможностью, при обновлении параметрической оценки фонового шума, идентифицировать локальные минимумы в сигнале возбуждения и выполнять статистический анализ сигнала возбуждения в локальных минимумах с тем, чтобы получать параметрическую оценку фонового шума.
6. Аудиокодер по п. 1, в котором кодер выполнен с возможностью, при кодировании входного сигнала, использовать прогнозирующее кодирование и/или кодирование с преобразованием для того, чтобы кодировать часть более низких частот входного аудиосигнала, и использовать параметрическое кодирование для того, чтобы кодировать спектральную огибающую части более высоких частот входного аудиосигнала.
7. Аудиокодер по п. 1, в котором кодер выполнен с возможностью, при кодировании входного сигнала, использовать прогнозирующее кодирование и/или кодирование с преобразованием для того, чтобы кодировать часть более низких частот входного аудиосигнала, и выбирать между использованием параметрического кодирования для того, чтобы кодировать спектральную огибающую части более высоких частот входного аудиосигнала, или оставлением части более высоких частот входного аудиосигнала некодированной.
8. Аудиокодер по п. 6, в котором кодер выполнен с возможностью прерывать прогнозирующее кодирование и/или кодирование с преобразованием и параметрическое кодирование в неактивных фазах или прерывать прогнозирующее кодирование и/или кодирование с преобразованием и выполнять параметрическое кодирование спектральной огибающей части более высоких частот входного аудиосигнала при более низком частотно-временном разрешении по сравнению с использованием параметрического кодирования в активной фазе.
9. Аудиокодер по п. 6, в котором кодер использует гребенку фильтров для того, чтобы спектрально разлагать входной аудиосигнал на набор подполос частот, формирующих часть более низких частот, и набор подполос частот, формирующих часть более высоких частот.
10. Аудиокодер по п. 9, в котором модуль оценки фонового шума выполнен с возможностью обновлять параметрическую оценку фонового шума в активной фазе на основе частей более низких и более высоких частот входного аудиосигнала.
11. Аудиокодер по п. 10, в котором модуль оценки фонового шума выполнен с возможностью, при обновлении параметрической оценки фонового шума, идентифицировать локальные минимумы в частях более низких и более высоких частот входного аудиосигнала и выполнять статистический анализ частей более низких и более высоких частот входного аудиосигнала в локальных минимумах с тем чтобы получать параметрическую оценку фонового шума.
12. Аудиокодер по п. 1, в котором модуль оценки шума выполнен с возможностью продолжать непрерывное обновление параметрической оценки фонового шума даже в течение неактивной фазы, при этом аудиокодер выполнен с возможностью прерывисто кодировать обновления параметрической оценки фонового шума, непрерывно обновляемой в течение неактивной фазы.
13. Аудиокодер по п. 12, при этом аудиокодер выполнен с возможностью прерывисто кодировать обновления параметрической оценки фонового шума в фиксированном или переменном интервале времени.
14. Аудиодекодер для декодирования потока данных таким образом, чтобы восстанавливать из него аудиосигнал, причем поток данных содержит, по меньшей мере, активную фазу (86), после которой следует неактивная фаза (88), причем аудиодекодер содержит:
- модуль (90) оценки фонового шума, выполненный с возможностью непрерывно обновлять параметрическую оценку фонового шума из потока (104) данных в течение активной фазы (86);
- декодер (92), выполненный с возможностью восстанавливать аудиосигнал из потока данных в течение активной фазы;
- параметрический генератор (94) случайных чисел;
- формирователь (96) фонового шума, выполненный с возможностью синтезировать аудиосигнал в течение неактивной фазы (88) посредством управления параметрическим генератором (94) случайных чисел в течение неактивной фазы (88) в зависимости от параметрической оценки фонового шума;
- при этом декодер (92) выполнен с возможностью, при восстановлении аудиосигнала из потока данных, формировать сигнал возбуждения, кодированный с преобразованием в поток данных, согласно коэффициентам линейного прогнозирования, также кодированным в поток данных; и
- при этом модуль (90) оценки фонового шума выполнен с возможностью обновлять параметрическую оценку фонового шума с использованием сигнала возбуждения.
15. Аудиодекодер по п. 14, в котором модуль (90) оценки фонового шума выполнен с возможностью, при непрерывном обновлении параметрической оценки фонового шума, осуществлять различение между компонентом шума и компонентом полезного сигнала в версии аудиосигнала, восстановленной из потока (104) данных в активной фазе (86), и определять параметрическую оценку фонового шума просто из компонента шума.
16. Аудиодекодер по п. 14, в котором модуль оценки фонового шума выполнен с возможностью, при обновлении параметрической оценки фонового шума, идентифицировать локальные минимумы в сигнале возбуждения и выполнять статистический анализ сигнала возбуждения в локальных минимумах с тем, чтобы получать параметрическую оценку фонового шума.
17. Аудиодекодер по п. 14, в котором декодер выполнен с возможностью, при восстановлении аудиосигнала, использовать прогнозирующее декодирование и/или декодирование с преобразованием для того, чтобы восстанавливать часть более низких частот аудиосигнала из потока данных и синтезировать часть более высоких частот аудиосигнала.
18. Аудиодекодер по п. 17, в котором декодер выполнен с возможностью синтезировать часть более высоких частот аудиосигнала из спектральной огибающей части более высоких частот аудиосигнала, параметрически кодированного в поток данных, или синтезировать часть более высоких частот аудиосигнала посредством расширения полосы пропускания вслепую на основе части более низких частот.
19. Аудиодекодер по п. 18, в котором декодер выполнен с возможностью прерывать прогнозирующее декодирование и/или декодирование с преобразованием в неактивных фазах и выполнять синтезирование части более высоких частот аудиосигнала посредством спектрального формирования реплики части более низких частот аудиосигнала согласно спектральной огибающей в активной фазе и спектрального формирования реплики синтезированного аудиосигнала согласно спектральной огибающей в неактивной фазе.
20. Аудиодекодер по п. 18, в котором декодер содержит гребенку обратных фильтров, чтобы спектрально составлять аудиосигнал из набора подполос частот части более низких частот и набора подполос частот части более высоких частот.
21. Аудиодекодер по п. 14, при этом аудиодекодер выполнен с возможностью обнаруживать вход в неактивную фазу каждый раз, когда поток данных прерывается, и/или каждый раз, когда поток данных сигнализирует поступление потока данных.
22. Аудиодекодер по п. 14, в котором формирователь (96) фонового шума выполнен с возможностью синтезировать аудиосигнал в течение неактивной фазы (88) посредством управления параметрическим генератором (94) случайных чисел в течение неактивной фазы (88) в зависимости от параметрического фонового шума, непрерывно обновляемого посредством модуля оценки фонового шума, просто в случае отсутствия информации параметрической оценки фонового шума в потоке данных сразу после перехода от активной фазы к неактивной фазе.
23. Аудиодекодер по п. 14, в котором модуль (90) оценки фонового шума выполнен с возможностью, при непрерывном обновлении параметрической оценки фонового шума, использовать спектральное разложение аудиосигнала, когда восстановлено из декодера (92).
24. Аудиодекодер по п. 14, в котором модуль (90) оценки фонового шума выполнен с возможностью, при непрерывном обновлении параметрической оценки фонового шума, использовать QMF-спектр аудиосигнала, когда восстановлен из декодера (92).
25. Способ аудиокодирования, содержащий этапы, на которых:
- непрерывно обновляют параметрическую оценку фонового шума в течение активной фазы (24) на основе входного аудиосигнала;
- кодируют входной аудиосигнал в поток данных в течение активной фазы;
- обнаруживают вход в неактивную фазу (28) после активной фазы (24) на основе входного аудиосигнала; и
- при обнаружении входа в неактивную фазу кодируют в поток данных параметрическую оценку фонового шума как непрерывно обновляемую в течение активной фазы, после которой следует обнаруженная неактивная фаза.
26. Способ аудиодекодирования для декодирования потока данных таким образом, чтобы восстанавливать из него аудиосигнал, причем поток данных содержит, по меньшей мере, активную фазу (86), после которой следует неактивная фаза (88), при этом способ содержит этапы, на которых:
- непрерывно обновляют параметрическую оценку фонового шума из потока (104) данных в течение активной фазы (86);
- восстанавливают аудиосигнал из потока данных в течение активной фазы;
- синтезируют аудиосигнал в течение неактивной фазы (88) посредством управления параметрическим генератором (94) случайных чисел в течение неактивной фазы (88) в зависимости от параметрической оценки фонового шума;
- при этом восстановление аудиосигнала из потока данных содержит этап, на котором формируют сигнал возбуждения, кодированный с преобразованием в поток данных, согласно коэффициентам линейного прогнозирования, также кодированным в поток данных, и
- при этом непрерывное обновление параметрической оценки фонового шума выполняется с использованием сигнала возбуждения.
27. Носитель данных, имеющий программный код для осуществления, при выполнении на компьютере, способа по любому из пп. 25-26.
Способ обработки целлюлозных материалов, с целью тонкого измельчения или переведения в коллоидальный раствор | 1923 |
|
SU2005A1 |
Топчак-трактор для канатной вспашки | 1923 |
|
SU2002A1 |
Аппарат для очищения воды при помощи химических реактивов | 1917 |
|
SU2A1 |
Способ обработки целлюлозных материалов, с целью тонкого измельчения или переведения в коллоидальный раствор | 1923 |
|
SU2005A1 |
Аппарат для очищения воды при помощи химических реактивов | 1917 |
|
SU2A1 |
Аппарат для очищения воды при помощи химических реактивов | 1917 |
|
SU2A1 |
Авторы
Даты
2016-06-10—Публикация
2012-02-14—Подача