Заявляемая группа изобретений относится к звуковому кодированию и декодированию и связана, в частности, с кодированием/декодированием звукового сигнала, имеющего гармоническое или речевое содержание, который может быть подвергнут обработке с деформацией по времени.
В дальнейшем будет дано краткое введение в область звукового кодирования с деформацией по времени (временной деформацией), содержание которого может применяться в сочетании с некоторыми из вариантов изобретения.
В последние годы были разработаны способы преобразования звукового сигнала в представление частотной области и эффективного кодирования этого представления частотной области, например, с учетом перцепционных порогов маскирования. Эта концепция кодирования звукового сигнала особенно эффективна, если длина блока, для которого передается набор кодированных спектральных коэффициентов, значительна, и если только сравнительно небольшое количество спектральных коэффициентов находится намного выше глобального порога маскирования, в то время как большое количество спектральных коэффициентов находится около или ниже глобального порога маскирования, и которыми, таким образом, можно пренебречь (или кодировать с минимальной длиной кода).
Например, косинусоидальные или синусоидальные модулированные перекрывающиеся преобразования часто применяются для кодирования источника, благодаря их свойствам уплотнения энергии. То есть, для гармонических тонов с постоянными основными частотами (основной тон) они концентрируют энергию сигнала на малом числе спектральных компонентов (поддиапазоны), что приводит к эффективному представлению сигнала.
Обычно, основной тон сигнала должен пониматься как самая низкая преобладающая частота, различимая в спектре сигнала. В общем случае речевой модели, основной тон - частота сигнала возбуждения, модулированного человеческим горлом. Если бы присутствовала только одна единственная основная частота, спектр был бы чрезвычайно прост и включал бы только основную частоту и обертоны. Такой спектр может кодироваться высокоэффективно. Для сигналов с переменным основным тоном, однако, энергия, соответствующая каждому гармоническому компоненту, распространяется по нескольким коэффициентам преобразования, таким образом, приводя к снижению эффективности кодирования.
Чтобы преодолеть это снижение эффективности кодирования, звуковой сигнал, подлежащий кодированию, подвергается эффективной повторной выборке на неравномерной временной сетке. При последующей обработке положения образцов, полученные посредством неравномерной повторной выборки, обрабатываются, как будто они представляют значения на равномерной временной сетке. Эта операция обычно обозначается термином «деформация по времени (временная деформация)». Время выборки может быть благоприятно выбрано в зависимости от временного изменения основного тона, таким образом, что изменение основного тона в версии звукового сигнала с деформацией по времени меньше, чем изменение основного тона в оригинальной версии звукового сигнала (до деформации по времени). Это изменение основного тона может также быть обозначено термином «контур деформации по времени». После деформации по времени звукового сигнала, версия звукового сигнала с деформацией по времени преобразуется в частотную область. Деформация по времени, зависящая от основного тона, обладает эффектом, заключающимся в том, что представление частотной области звукового сигнала с деформацией по времени обычно проявляет уплотнение энергии в намного меньшем числе спектральных компонентов, чем представление частотной области оригинального (без деформации по времени) звукового сигнала.
На стороне декодера представление частотной области звукового сигнала с деформацией по времени преобразуется обратно во временную область, таким образом, что представление временной области звукового сигнала с деформацией по времени доступно на стороне декодера. Однако в представлении временной области звукового сигнала с деформацией по времени, восстановленного на стороне декодера, оригинальные изменения основного тона входного звукового сигнала на стороне кодирующего устройства не включены. Соответственно, применяется другая деформация по времени, осуществляемая посредством повторной выборки восстановленного на стороне декодера представления временной области звукового сигнала с деформацией по времени. Чтобы получить хорошее восстановление в декодере входного звукового сигнала на стороне кодирующего устройства, желательно, чтобы деформация по времени на стороне декодера была, по крайней мере, приблизительно обратной операцией относительно деформации по времени на стороне кодирующего устройства. Чтобы получить подходящую деформацию времени, желательно иметь информацию, доступную в декодере, которая учитывает регулирование деформации по
времени на стороне декодера.
Поскольку это обычно требуется для передачи такой информации от кодера звукового сигнала декодеру звукового сигнала, желательно поддерживать скорость передачи информации незначительной, в то же время, обеспечивая надежное восстановление необходимой информации о деформации по времени на стороне декодера.
Ввиду вышеизложенного обсуждения, желательно создать концепцию, которая позволит для скорости передачи информации эффективно применять концепцию деформации по времени в аудио кодере.
Задачей изобретения является создание концепций для улучшения впечатления прослушивания, обеспеченного кодированным звуковым сигналом на основе информации, доступной в аудио кодере с деформацией по времени или в декодере звукового сигнала с деформацией по времени.
Поставленная задача решается за счет преобразователя сигнала активации деформации по времени для обеспечения деформации по времени сигнала активации на основе представления звукового сигнала по п.1, кодера звукового сигнала для кодирования входного звукового сигнала по п.12, способа преобразования сигнала активации деформации по времени по п.14, способа преобразования кодированного представления входного звукового сигнала согласно п.15, или компьютерной программы по п.16 заявляемой
формулы изобретения.
Также задачей изобретения является обеспечение улучшенной схемы звукового кодирования/декодирования, которая обеспечивает более высокое качество или более низкую скорость передачи информации (битрейт).
Данная задача решается посредством звукового кодера по пп.17, 26, 32, 37, звукового декодера по п.20, способа звукового кодирования по п.23, п.30, п.35 или п.37, способа декодирования по п.24, или компьютерной программы по п.25, 31, 36, или 43.
Варианты реализации согласно изобретению связаны со способами деформации по времени кодера с MDCT-преобразованием. Некоторые осуществления связаны только со средствами кодера. Другие осуществления также связаны со средствами декодера.
Реализацию изобретения обеспечивает преобразователь сигнала активации деформации по времени для обеспечения сигнала активации деформации по времени на основе представления звукового сигнала. Преобразователь сигнала активации деформации по времени включает средства доступа к информации об уплотнении энергии, формируемые для предоставления информации об уплотнении энергии, описывающей уплотнение энергии в представлении преобразованного спектра звукового сигнала с деформацией по времени. Преобразователь сигнала активации деформации по времени также включает компаратор, сконфигурированный таким образом, чтобы сравнить информацию об уплотнении энергии с контрольным значением, и обеспечить сигнал активации деформации по времени в зависимости от результата сравнения.
Эта реализация основана на обнаружении того, что использование функциональных возможностей деформации по времени в кодере звукового сигнала обычно способствует усовершенствованию, в смысле сокращения скорости передачи информации (битрейта) кодированного звукового сигнала, если представление преобразованного спектра звукового сигнала с деформацией по времени включает распределение достаточно уплотненной энергии, в котором энергия концентрируется в одной или нескольких спектральных областях (или спектральных линиях). Это обеспечивается благодаря тому, что успешная деформация по времени способствует эффекту уменьшения скорости передачи информации (битрейта) посредством преобразования размазанного спектра, например, звукового фрейма, в спектр, имеющий один или более заметных пиков, и, следовательно, имеющий более высокое уплотнение энергии, чем спектр оригинального (с невременной деформацией) звукового сигнала.
Относительно этой проблемы следует понимать, что фрейм звукового сигнала, на протяжении которого основной тон звукового сигнала значительно изменяется, включает размазанный спектр. Изменяемый во времени основной тон звукового сигнала имеет эффект преобразования временной области в частотную область, выполняемое на протяжении фрейма звуковой сигнала, приводит к размазанному распределению энергии сигнала по частоте, особенно в более высокой частотной области. Соответственно, представление спектра такого оригинального (с невременной деформацией) звукового сигнала включает низкое уплотнение энергии и обычно не показывает спектральные пики в более высокой частотной части спектра, или только показывает относительно небольшие спектральные пики в более высокой частотной части спектра. Напротив, если деформация по времени успешна (исходя из обеспечения улучшения эффективности кодирования), деформация по времени оригинального звукового сигнала дает в результате звуковой сигнал с деформацией по времени, имеющий спектр с относительно высокими и ясными пиками (особенно, в более высокой частотной части спектра). Это благодаря тому, что звуковой сигнал, имеющий изменяющийся во времени основной тон, преобразуется в звуковой сигнал с деформацией по времени, имеющий меньшее изменение основного тона или даже приблизительно постоянный основной тон. Следовательно, представление спектра звукового сигнала с деформацией по времени (который можно рассматривать как представление преобразованного спектра звукового сигнала с деформацией по времени) включает один или несколько ясных спектральных пиков. Другими словами, размазывание спектра оригинального звукового сигнала (имеющего изменяющийся во времени основной тон) уменьшается посредством успешной операции деформации по времени таким образом, что представление преобразованного спектра звукового сигнала с деформацией по времени включает более высокое уплотнение энергии, чем спектр оригинального звукового сигнала. Однако, деформация по времени не всегда успешна в отношении улучшения эффективности кодирования. Например, деформация по времени не улучшает эффективность кодирования, если входной звуковой сигнал включает большие шумовые компоненты, или, если извлеченный контур деформации по времени неточен.
В связи с этим, информация об уплотнении энергии, предоставленная преобразователем информации об уплотнении энергии, является важным индикатором принятия решения о том, успешна ли деформация по времени в отношении сокращения скорости передачи информации (битрейта).
Осуществление изобретения создает преобразователь сигнала активации деформации по времени для обеспечения сигнала активации деформации по времени на основе представления звукового сигнала. Преобразователь сигнала активации деформации по времени включает два преобразователя представления деформации по времени, формируемые таким образом, чтобы обеспечить два представления того же самого звукового сигнала с деформацией по времени, используя отличную информацию о контуре деформации по времени. Таким образом, преобразователи представления деформации по времени могут формироваться (структурно и/или функционально) таким же образом и использовать тот же самый звуковой сигнал, но различную информацию о контуре деформации по времени. Преобразователь сигнала активации деформации по времени также включает два преобразователя информации об уплотнении энергии, формируемые для предоставления первой информации об уплотнении энергии на основе первого представления деформации по времени, и предоставления второй информации об уплотнении энергии на основе второго представления деформации по времени. Преобразователи информации об уплотнении энергии могут формироваться таким же образом, но использовать различные представления деформации по времени. Кроме того, преобразователь сигнала активации деформации по времени включает компаратор для сравнения двух различных информации об уплотнении энергии и обеспечения сигнала активации деформации по времени в зависимости от результата сравнения.
В предпочтительном варианте реализации изобретения преобразователь информации об уплотнении энергии формируется таким образом, чтобы обеспечить меру спектральной плоскостности, описывающей представление преобразованного спектра звукового сигнала с деформацией по времени как информацию об уплотнении энергии. Было обнаружено, что деформация по времени успешна, в отношении сокращения скорости передачи информации (битрейта), если она преобразовывает спектр входного звукового сигнала в менее плоский спектр деформации по времени, представляющий версию входного звукового сигнала с деформацией по времени. Соответственно, мера спектральной плоскостности может использоваться для того, чтобы решить, не выполняя полный процесс спектрального кодирования, следует ли активизировать или дезактивировать деформацию по времени.
В предпочтительном варианте осуществления преобразователь информации об уплотнении энергии формируется таким образом, чтобы вычислить фактор геометрического значения преобразованного спектра мощности с деформацией по времени и афивметическое значение преобразованного спектра мощности с деформацией по времени для получения меры спектральной плоскостности. Было обнаружено, что этот фактор - мера спектральной плоскостности, которая хорошо приспособлена для описания возможного выигрыша (выгоды) в скорости передачи информации (битрейта), доступного при деформации по времени.
В другом предпочтительном варианте осуществления изобретенияпреобразователь информации об уплотнении энергии формируется таким образом, чтобы выделить более высокочастотную часть представления преобразованного спектра с деформацией по времени при сравнении с низкочастотной частью представления преобразованного спектра с деформацией по времени, чтобы получить информацию об уплотнении энергии. Эта концепция основывается на обнаружении того, что деформация по времени обычно оказывает намного большее влияние на высокочастотный диапазон, чем на низкочастотный диапазон. Соответственно, доминирующая оценка высокочастотного диапазона подходит для определения эффективности деформации по времени посредством использования меры спектральной плоскостности. Кроме того, обычные звуковые сигналы демонстрируют гармонический контекст (включая гармоники основной частоты), ослабление интенсивности которого происходит с увеличением частоты. Акцент на высокочастотную часть представления преобразованного спектра с деформацией по времени при сравнении с низкочастотной частью представления преобразованного спектра с деформацией по времени также помогает компенсировать это типичное ослабление спектральных линий с увеличением частоты. Чтобы суммировать вышесказанное, акцентированное рассмотрение высокочастотной части спектра способствует увеличению надежности информации об уплотнении энергии, и поэтому позволяет получить более надежное обеспечение сигнала активации деформации по времени.
В другом предпочтительном варианте осуществления изобретенияпреобразователь информации об уплотнении энергии формируется таким образом, чтобы обеспечить множество диапазоноподобных мер спектральной плоскостности, и чтобы вычислить среднее число множества диапазоноподобных мер спектральной плоскостности, получить информацию об уплотнении энергии. Было обнаружено, что рассмотрение диапазоноподобных мер спектральной плоскостности способствует получению особенно надежной информации о том, эффективна ли деформация по времени относительно уменьшения скорости передачи информации (битрейта) кодированного звукового сигнала. Во-первых, кодирование представления преобразованного спектра с деформацией по времени обычно выполняется диапазоноподобным образом, так что комбинация диапазоноподобных мер спектральной плоскостности хорошо приспосабливается для кодирования, и поэтому предоставляет возможность улучшить скорость передачи информации (битрейт) с хорошей точностью. Далее, диапазоноподобное вычисление мер спектральной плоскостности существенно устраняет зависимость информации об уплотнении энергии от распределения гармоник. Например, даже если высокочастотный диапазон включает относительно маленькую энергию (меньше, чем энергии низкочастотных диапазонов), высокочастотный диапазон может все еще быть перцепционно релевантным. Однако, положительное воздействие деформации по времени (в смысле сокращения размазывания спектральных линий) в этом высокочастотном диапазоне должно рассматриваться как незначительное, просто из-за малой энергии высокочастотного диапазона, если мера спектральной плоскостности не будет вычисляться диапазоноподобным образом. Напротив, при применении диапазоноподобного вычисления положительное воздействие деформации по времени может быть принято в серьезный расчет, потому что диапазоноподобные меры спектральной плоскостности не зависят от абсолютных энергий в соответствующих частотных диапазонах.
В другом предпочтительном варианте осуществления изобретенияпреобразователь сигнала активации деформации по времени включает вычислитель контрольного значения, формируемый таким образом, чтобы вычислять меру спектральной плоскостности, описывающей представление спектра звукового сигнала с невременной деформацией для получения контрольного значения. Соответственно, сигнал активации деформации по времени может быть предоставлен на основе сравнения спектральной плоскостности версии входного звукового сигнала с «невременной деформацией» (или «недеформированной») и спектральной плоскостности версии входного звукового сигнала с деформацией по времени.
В другом предпочтительном варианте осуществления изобретенияпреобразователь информации об уплотнении энергии формируется таким образом, чтобы обеспечить меру перцепционной энтропии, описывающую представление преобразованного спектра звукового сигнала с деформацией по времени как информацию об уплотнении энергии. Эта концепция основывается на обнаружении того, что перцепционная энтропия представления преобразованного спектра с деформацией по времени является хорошей оценкой числа битов (или скорости передачи информации (битрейта)), необходимой для кодирования преобразованного спектра с деформацией по времени. Соответственно, мера перцепционной энтропии представления преобразованного спектра с деформацией по времени - хорошая мера того, можно ли ожидать сокращение скорости передачи информации (битрейта) при деформации по времени, даже ввиду того факта, что дополнительная информация о деформации по времени должна быть закодирована, если используется деформация по времени.
В другом предпочтительном варианте осуществления изобретения преобразователь информации об уплотнении энергии формируется таким образом, чтобы обеспечить меру автокорреляции, описывающую автокорреляцию представления звукового сигнала с деформацией по времени как информацию об уплотнении энергии. Эта концепция основывается на обнаружении того, что эффективность деформации по времени (в отношении сокращения скорости передачи информации (битрейта)) может быть измерена (или, по крайней мере, оценена) на основе сигнала временной области с деформацией по времени (или неравномерной повторной выборки). Было обнаружено, что деформация по времени эффективна, если сигнал временной области с деформацией по времени включает относительно высокую степень периодичности, которая отражается мерой автокорреляции. Напротив, если сигнал временной области с деформацией по времени не включает существенную периодичность, можно прийти к заключению о том, что деформация по времени не эффективна.
Это обнаружение основывается на том факте, что эффективная деформация по времени преобразовывает часть синусоидального сигнала переменной частоты (который не включает периодичность) в часть синусоидального сигнала приблизительно постоянной частоты (который включает высокую степень периодичности). Напротив, если деформация по времени не может обеспечить сигнал временной области, имеющий высокую степень периодичности, можно ожидать, что деформация по времени также не обеспечивает существенной экономии скорости передачи информации (битрейта), которая оправдала бы ее применение.
В предпочтительном варианте осуществления изобретения преобразователь информации об уплотнении энергии формируется таким образом, чтобы определить сумму абсолютных значений нормализованной функции автокорреляции (по множеству значений задержки) представления звукового сигнала с деформацией по времени для получения информации об уплотнении энергии. Было обнаружено, что сложное в вычислительном отношении определение пиков автокорреляции не требует оценки эффективности деформации по времени. Напротив, было обнаружено, что оценка суммирования автокорреляции по (широкому) диапазону значений задержки автокорреляции также способствует получению очень надежных результатов. Это достигается благодаря тому, что деформация по времени фактически преобразует множество компонентов сигнала (например, основная частота и ее гармоника) переменной частоты в периодические компоненты сигнала. Соответственно, автокорреляция такого сигнала с деформацией по времени показывает пики на множестве значений задержки автокорреляции. Таким образом, формирование суммы в вычислительном отношении - эффективный способ извлечения информации об уплотнении энергии из автокорреляции.
В другом предпочтительном варианте осуществления изобретения преобразователь сигнала активации деформации по времени включает вычислитель контрольного значения, формируемый для вычисления контрольного значения на основе спектрального представления звукового сигнала с невременной деформацией или на основе представления звукового сигнала временной области с невременной деформацией. В этом случае, компаратор обычно формируется таким образом, чтобы сформировать значение соотношения, используя информацию об уплотнении энергии, описывающую уплотнение энергии в преобразованном спектре звукового сигнала с деформацией по времени и контрольное значение. Компаратор также формируется таким образом, чтобы сравнивать значение соотношения с одним или несколькими пороговыми значениями, чтобы получить сигнал активации деформации по времени. Было обнаружено, что соотношение между информацией об уплотнении энергии в случае невременной деформации и информацией об уплотнении энергии в случае деформации по времени обеспечивает эффективное в вычислительном отношении, но и достаточно надежное генерирование сигнала активации деформации по времени.
В соответствии с другим предпочтительным вариантом осуществления изобретения создается кодер звукового сигнала для кодирования входного звукового сигнала для получения кодированного представления входного звукового сигнала. Кодер звукового сигнала включает преобразователь с деформацией по времени, формируемый для обеспечения представления преобразованного спектра с деформацией по времени на основе входного звукового сигнала. Кодер звукового сигнала также включает преобразователь сигнала активации деформации по времени, как описано выше. Преобразователь сигнала активации деформации по времени формируется таким образом, чтобы получить входной звуковой сигнал и предоставить информацию об уплотнении энергии таким образом, что информация об уплотнении энергии описывает уплотнение энергии в представлении преобразованного спектра входного звукового сигнала с деформацией по времени. Кодер аудио сигнала включает контроллер, формируемый таким образом, чтобы селективно предоставить, в зависимости от сигнала активации деформации по времени, обнаруженную непостоянную (переменную) часть контура деформации по времени или информацию о деформации по времени, или стандартную постоянную (непеременную) часть контура деформации по времени или информацию о деформации по времени, преобразователю деформации по времени. Таким образом, можно селективно принять или отклонить обнаруженную непостоянную часть контура деформации по времени при дифференцировании представления кодированного звукового сигнала от входного звукового сигнала.
Эта концепция основывается на обнаружении того, что не всегда эффективно вводить информацию о деформации по времени в кодированное представление входного звукового сигнала, потому что требуется значительное число битов для кодирования информации о деформации по времени. Далее, было обнаружено, что информация об уплотнении энергии, которая вычисляется преобразователем сигнала активации деформации по времени, является в вычислительном отношении эффективной мерой принятия решения о том, выгодно ли предоставлять преобразователю деформации по времени найденную переменную (непостоянную) часть контура деформации по времени или стандартный (неизменяющийся, постоянный) контур деформации по времени. Следует заметить, что, когда преобразователь с деформацией по времени включает перекрывающее преобразование, найденная часть контура деформации по времени может использоваться в вычислении двух или нескольких последующих преобразующих блоков. В частности, было обнаружено, что не обязательно полностью кодировать и версию преобразованного спектрального представления входного звукового сигнала с деформацией по времени, использующую вновь найденную переменную часть контура деформации по времени, и версию преобразованного спектрального представления входного звукового сигнала с деформацией по времени, использующую стандартную (непеременную) часть контура деформации по времени, чтобы принять решение о том, учитывает ли деформация по времени выигрыш в скорости передачи информации (битрейт) или нет. Более того, было обнаружено, что оценка уплотнения энергии преобразованного спектрального представления входного звукового сигнала с деформацией по времени формирует надежное основание для принятия решения. Соответственно, необходимая скорость передачи информации (битрейт) может сохраняться незначительной.
В дальнейшем предпочтительном варианте осуществления изобретения кодер звукового сигнала включает выходной интерфейс, формируемый таким образом, чтобы выборочно включать, в зависимости от сигнала активации деформации по времени, информацию о контуре деформации по времени, представляющую найденный переменный контур деформации по времени, в кодированное представление звукового сигнала. Таким образом, может быть получена высокая эффективность кодирования звукового сигнала, независимо от того, приспособлен ли входной сигнал для деформации по времени или нет.
Следующий вариант реализации изобретения относится к способу преобразования сигнала активации деформации по времени на основе звукового сигнала. Способ реализует функциональные возможности преобразователя сигнала активации деформации по времени и может поддерживаться любым средством и функциональной возможностью, описанной здесь относительно преобразователя сигнала активации деформации по времени.
Другой вариант реализации изобретения относится к способу кодирования входного звукового сигнала для получения кодированного представления входного звукового сигнала. Этот способ может быть реализован любым средством и функциональной возможностью, описанной здесь относительно кодирующего устройства звукового сигнала.
Другой вариант реализации изобретения относится к компьютерным программам для реализации способов, упомянутых здесь.
В соответствии с первым аспектом данного изобретения, анализ звукового сигнала, независимо от того, имеет ли звуковой сигнал гармоническую или речевую характеристику, благоприятно используется для управления обработкой шумового наполнения на стороне кодирующего устройства и/или на стороне декодера. Анализ звукового сигнала легко доступен в системе, в которой используются функциональные возможности деформации по времени, так как эти функциональные возможности деформации по времени обычно включают следящий фильтр высоты тона и/или классификатор сигнала для того, чтобы различать речь с одной стороны и музыку с другой стороны и/или для того, чтобы различать вокализованную речь и невокализованную речь. Так как эта информация доступна в таком контексте без дальнейших затрат, доступная информация успешно используется для управления характеристикой шумового наполнения так, чтобы специально для речевых сигналов шумовое наполнение между гармоническими линиями было уменьшено или, в частности для речевых сигналов, даже устранено. Даже в ситуациях, когда сильный гармонический контекст получен, а речь прямо не обнаружена детектором речи, сокращение шумового наполнения, тем не менее, приведет к более высокому качеству восприятия. Хотя эта характеристика особенно полезна в системе, в которой анализ гармоники/речи выполняется в любом случае, и эта информация, поэтому, доступна без любых дополнительных затрат, управление схемой шумового наполнения, основанное на анализе сигнала, то есть, имеет ли сигнал гармоническую или речевую характеристику или нет, дополнительно полезно, даже когда специфический анализатор сигналов должен быть вставлен в систему, так как качество улучшается без увеличения скорости передачи информации (битрейта) или, напротив, скорость передачи информации (битрейт) уменьшается без потери качества, так как биты, необходимые для кодирования уровня шумового наполнения, уменьшаются, когда уменьшается сам уровень шумового наполнения, который может передаваться от кодирующего устройства к декодеру.
В дальнейшем аспекте данного изобретения результат анализа сигнала, то есть информация о том, является ли сигнал гармоническим сигналом или речевым сигналом, используется для управления обработкой функции окна звукового кодирующего устройства. Было обнаружено, что в ситуации, в которой начинается речевой сигнал или гармонический сигнал, высока возможность того, что прямой кодер переключится с длинных окон на короткие окна. Эти короткие окна, однако, имеют соответственно уменьшенное частотное разрешение, которое, с другой стороны, уменьшило бы эффективность кодирования для сильно гармонических сигналов и, поэтому, увеличило бы число битов, необходимых для кодирования такой части сигнала. Ввиду этого, данное изобретение, рассматриваемое в этом аспекте, использует окна длиннее, чем короткое окно, когда обнаружено начало речевого или гармонического сигнала. Альтернативно, выбираются окна длиной, примерно аналогичной длинным окнам, но с более коротким перекрыванием, чтобы эффективно уменьшить предэхо. В общем, характеристика сигнала, определяющая, имеет ли временной фрейм звукового сигнала гармоническую или речевую характеристику, используется для выбора функции окна для этого временного фрейма.
В соответствии с дальнейшим аспектом данного изобретения, TNS (временное ограничение шума) средство контролируется на основе того, что, основывается ли базовый сигнал на операции деформации по времени или находится в линейной области. Как правило, сигнал, обработанный посредством операции деформации по времени, будет иметь сильный гармонический контекст. Иначе, следящий фильтр высоты тона, связанный со стадией деформации по времени, не будет производить действительный контур основного тона и, в отсутствие такого действительного контура основного тона, функциональные возможности деформации по времени будут дезактивированы для этого временного фрейма звукового сигнала. Однако, гармонические сигналы, обычно, не подходят для обработки TNS. Обработка TNS особенно полезна и дает существенный выигрыш в скорости передачи информации (битрейте)/качестве, когда сигнал, обработанный стадией TNS, имеет почти плоский спектр. Однако, когда вид сигнала тональный, то есть, не плоский, как в случае спектров, имеющих гармонический контекст или вокализованный контекст, выигрыш в качестве/скорости передачи информации (битрейте), обеспеченный инструментом (средством) TNS, будет уменьшен. Поэтому, без изобретательной модификации инструмента TNS части с деформацией по времени обычно не обрабатываются TNS, но будут обрабатываться без фильтрования TNS. С другой стороны, свойство ограничения шума TNS, тем не менее, обеспечивает улучшенное качество, особенно, в ситуациях, когда сигнал изменяется по амплитуде/мощности. В случаях, когда присутствует начало гармонического или речевого сигнала, и когда свойство коммутации блока реализуется так, чтобы вместо этого начала сохранялись длинные окна или, по крайней мере, окна длиннее, чем короткие окна, активация свойства временного ограничения шума этого фрейма приведет к концентрации шума вокруг начала речи, которое эффективно уменьшает предэхо, которое могло бы возникнуть перед началом речи, вследствие квантизации фрейма, происходящей при последующей обработке посредством кодирующего устройства.
В соответствии с дальнейшим аспектом данного изобретения, переменное число линий обрабатывается квантизатором/энтропийным кодером в звуковом кодирующем аппарате, чтобы вычислить переменную полосу пропускания, которая вводится от фрейма к фрейму, вследствие выполнения операции деформации по времени с переменным свойством деформации по времени/контуром деформации. Когда операция деформации по времени приводит к ситуации, что время фрейма (в линейных показателях), включенное во фрейм с деформацией по времени, увеличивается, диапазон пропускания одиночной частотной линии уменьшается, и для постоянного полного диапазона пропускания число частотных линий, подлежащих обработке, должно быть увеличено относительно ситуации невременной деформации. С другой стороны, когда операция деформации по времени приводит к тому, что фактическое время звукового сигнала в области с деформацией по времени уменьшается относительно длины блока звукового сигнала в линейной области, частотный диапазон пропускания одиночной частотной линии увеличивается и, поэтому, число линий, обработанных исходным кодером, должно быть сокращено относительно ситуации невременной деформации, чтобы иметь уменьшенное изменение диапазона пропускания или, оптимально, не иметь никакого изменения полосы пропускания.
Предпочтительные варианты осуществления изобретения в дальнейшем описываются в соответствии со следующими изображениями, на которых:
Фиг.1 содержит изображение блок-схемы преобразователя сигнала активации деформации по времени, в соответствии с одним из вариантов осуществления изобретения;
Фиг.2а содержит изображение блок-схемы кодера звукового сигнала в соответствии с вариантом осуществления изобретения;
Фиг.2b содержит изображение блок-схемы преобразователя сигнала активации деформации по времени, в соответствии с другим вариантом осуществления изобретения;
Фиг.3а содержит графическое представление спектра версии звукового сигнала с невременной деформации;
Фиг.3b содержит графическое представление спектра версии звукового сигнала с деформацией по времени;
Фиг.3с содержит графическое представление индивидуального вычисления мер спектральной плоскостности для различных частотных диапазонов;
Фиг.3d содержит графическое представление вычисления меры спектральной плоскостности, учитывающего только высокую частотную часть спектра;
Фиг.3е содержит графическое представление вычисления меры спектральной плоскостности, использующего представление спектра, в котором высокая частотная часть выделяется на нижней частотной части;
Фиг.3f содержит изображение блок-схемы преобразователя информации об уплотнении энергии согласно другому варианту осуществления изобретения;
Фиг.3g содержит графическое представление звукового сигнала, имеющего переменный во времени основной тон во временной области;
Фиг.3h содержит графическое представление версии (неравномерно повторно выбранной) звукового сигнала с деформацией по времени фиг.3 g;
Фиг.3i содержит графическое представление функции автокорреляции звукового сигнала согласно фиг.3g;
Фиг.3j содержит графическое представление функции автокорреляции звукового сигнала согласно фиг.3h;
Фиг.3k содержит блок-схему преобразователя информации об уплотнении энергии согласно другому варианту осуществления изобретения;
Фиг.4а содержит блок-схему способа преобразования сигнала активации деформации по времени на основе звукового сигнала;
Фиг.4b содержит блок-схему способа кодирования входного звукового сигнала для получения кодированного представления входного звукового сигнала согласно осуществлению изобретения;
Фиг.5а иллюстрирует предпочтительный вариант реализации кодера аудио сигнала, имеющего изобретательные аспекты;
Фиг.5b иллюстрирует предпочтительный вариант реализации звукового декодера, имеющего изобретательные аспекты;
Фиг.6а иллюстрирует предпочтительный вариант реализации аспекта шумового наполнения данного изобретения;
Фиг.6b иллюстрирует таблицу, задающую процедуру управления, выполняемую манипулятором уровня шумового наполнения;
Фиг.7а иллюстрирует предпочтительное осуществление выполнения коммутации блока, основанного на деформации по времени в соответствии с данным изобретением;
Фиг.7b иллюстрирует альтернативное осуществление воздействия на функцию окна;
Фиг.7 с иллюстрирует дальнейшее альтернативное осуществление иллюстрации функции окна, основанной на информации о деформации по времени;
Фиг.7d иллюстрирует последовательность окон нормального ААС (Расширенное звуковое кодирование) поведения при вокализованном начале;
Фиг.7е иллюстрирует альтернативные последовательности окон, полученные в соответствии с предпочтительным осуществлением данного изобретения;
Фиг.8а иллюстрирует предпочтительное осуществление управления TNS (временное ограничение шума) инструментом, основанным на деформации по времени;
Фиг.8b иллюстрирует таблицу, задающую процедуры управления, выполняемые в генераторе порогового управляющего сигнала на фиг.8а;
Фиг.9а-9е иллюстрирует различные свойства деформации по времени и соответствующее влияние на полосу пропускания звукового сигнала, происходящее вслед за операцией устранения деформации по времени на стороне декодера;
Фиг.10а иллюстрирует предпочтительное осуществление
контроллера для регулирования числа линий в процессоре кодирования;
Фиг.10b иллюстрирует зависимость между числом линий,
подлежащих отбраковке/добавлению для частоты выборки;
Фиг.11 иллюстрирует сравнение между линейной шкалой времени и шкалой с деформацией по времени;
Фиг.12а иллюстрирует выполнение в контексте расширения полосы пропускания;
и
Фиг.12b иллюстрирует таблицу, показывающую зависимость между
локальной частотой выборки в области с деформацией по времени и регулированием спектральных коэффициентов.
Фиг.1 содержит блок-схему преобразователя сигнала активации деформации по времени согласно осуществлению изобретения. Преобразователь сигнала активации деформации по времени 100 формируется таким образом, чтобы получить представление 110 звукового сигнала и преобразовать, на его основе, сигнал активации деформации по времени 112. Преобразователь сигнала активации деформации по времени 100 включает преобразователь информации об уплотнении энергии 120, который формируется таким образом, чтобы предоставить информацию об уплотнении энергии 122, описывающую уплотнение энергии в представлении преобразованного спектра звукового сигнала с деформацией по времени. Преобразователь сигнала активации деформации по времени 100 далее включает компаратор 130 формируемый таким образом, чтобы сравнить информацию об уплотнении энергии 122 с контрольным значением 132 и обеспечить сигнал активации деформации по времени 112 в зависимости от результата сравнения.
Как обсуждалось выше, было обнаружено, что информация об уплотнении энергии является ценной информацией, которая обеспечивает эффективную, в вычислительном отношении, оценку того, способствует ли деформация по времени экономии битов или нет.
Было обнаружено, что наличие экономии битов близко коррелировано с вопросом о том, приводит ли деформация по времени к уплотнению энергии или нет.
Фиг.2а содержит блок - схему кодера звукового сигнала 200 согласно осуществлению изобретения. Кодер звукового сигнала 200 формируется таким образом, чтобы получить входной звуковой сигнал 210 (также обозначено a (t)), и обеспечить, на его основе, кодированное представление 212 входного звукового сигнала 210. Кодер звукового сигнала 200 включает преобразователь с деформацией по времени 220, который формируется таким образом, чтобы получить входной звуковой сигнал 210 (который может быть представлен во временной области), и обеспечить, на его основе, преобразованное спектральное представление с деформацией по времени 222 входного звукового сигнала 210. Кодер звукового сигнала 200 далее включает анализатор деформации по времени 284, который формируется таким образом, чтобы проанализировать входной звуковой сигнал 210 и обеспечить, на его основе, информацию о контуре деформации по времени (например, абсолютную или относительную информацию о контуре деформации по времени) 286.
Кодер звукового сигнала 200 далее включает механизм переключения, например, в форме регулируемого переключателя 240, позволяющий принять решение о том, используется ли найденная информация о контуре деформации по времени 286 или стандартная информация о контуре деформации по времени 288 для дальнейшей обработки. Таким образом, механизм переключения 240 формируется таким образом, чтобы селективно предоставить, в зависимости от информации об активации деформации по времени, или найденную информацию о контуре деформации по времени 286 или стандартную информацию о контуре деформации по времени 288 в качестве новой информации о контуре деформации по времени 242, для дальнейшей обработки, например, преобразователю с деформацией по времени 220. Следует заметить, что преобразователь с деформацией по времени 220 может, например, использовать новую информацию о контуре деформации по времени 242 (например, новая часть контура деформации по времени) и, кроме того, ранее полученную информацию о деформации по времени (например, одна или более ранее полученные части контура деформации по времени) для деформации по времени звукового фрейма. Дополнительная постобработка спектра может, например, включать временное ограничение шума и/или анализ шумового наполнения. Кодер звукового сигнала 200 также включает квантизатор/кодер 260, который формируется таким образом, чтобы получать спектральное представление 222 (дополнительно обработанное постобработкой спектра 250) и квантовать и кодировать преобразованное спектральное представление 222. С этой целью, квантизатор/кодер 260 может соединяться с перцепционной моделью 270 и получать перцепционную релевантную информацию 272 от перцепционной модели 270, чтобы принимать во внимание перцепционную маскировку и регулировать точность квантизации в различных элементах разрешения по частоте в соответствии с человеческим восприятием. Кодер звукового сигнала 200 далее включает выходной интерфейс 280, который формируется таким образом, чтобы преобразовать кодированное представление 212 звукового сигнала на основе квантованного и кодированного спектрального представления 262, предоставленного квантизатором/кодирующим устройством 260.
Кодер звукового сигнала 200 далее включает преобразователь сигнала активации деформации по времени 230, который формируется таким образом, чтобы обеспечить сигнал активации деформации по времени 232. Сигнал активации деформации по времени 232 может, например, использоваться для управления механизмом переключения 240, позволяющим принять решение о том, используется ли недавно найденная информация о контуре деформации по времени 286 или стандартная информация о контуре деформации по времени 288 на дальнейших стадиях обработки (например, преобразователем с деформацией по времени 220). Далее, информация об активации деформации по времени 232 может использоваться в переключателе 280 для принятия решения о том, включена ли отобранная новая информация о контуре деформации по времени 242 (отобранная из недавно найденной информации о контуре деформации по времени 286 и стандартной информации о контуре деформации по времени) в кодированном представлении 212 входного звукового сигнала 210. Как правило, информация о контуре деформации по времени включена только в кодированное представление 212 звукового сигнала, если отобранная информация о контуре деформации по времени описывает непостоянный (переменный) контур деформации по времени. Кроме того, информация об активации деформации по времени 232 сама может быть включена в кодированное представление 212, например, в форме однобитового флажка, показывающего активацию или дезактивацию деформации по времени.
Чтобы облегчить понимание, следует заметить, что преобразователь с деформацией по времени 220 обычно включает устройство организации окна анализа 220а, ресэмплер (устройство восстановления дискретизованного сигнала) или «устройство деформации по времени» 220b и преобразователь спектральной области (или преобразователь времени/частоты) 220 с. В зависимости от выполнения, однако, устройство деформации по времени 220b может быть помещено - в направлении обработки сигнала - перед устройством окна анализа 220а. Однако деформация по времени и временная область для преобразования спектральной области могут быть объединены в единый блок в некоторых осуществлениях.
В дальнейшем будут описаны детали относительно работы преобразователя сигнала активации деформации по времени 230. Следует заметить, что преобразователь сигнала активации деформации по времени 230 может быть эквивалентным преобразователю сигнала активации деформации по времени 100.
Преобразователь сигнала активации деформации по времени 230 предпочтительно формируется таким образом, чтобы получать представление временной области звукового сигнала с деформацией по времени 210 (также обозначается a (t)), недавно найденную информацию о контуре деформации по времени 286, и стандартную информацию о контуре деформации по времени 288. Преобразователь сигнала активации деформации по времени 230 также формируется таким образом, чтобы получать, используя звуковой сигнал временной области 210, недавно найденную информацию о контуре деформации по времени 286 и стандартную информацию о контуре деформации по времени 288, информацию об уплотнении энергии, описывающую уплотнение энергии, благодаря недавно найденной информации о контуре деформации по времени 286, и обеспечить сигнал активации деформации по времени 232 на основе этой информации об уплотнении энергии.
Фиг.2b содержит блок-схему преобразователя сигнала активации деформации по времени 234 согласно осуществлению изобретения. Преобразователь сигнала активации деформации по времени 234 может взять роль преобразователя сигнала активации деформации по времени 230 в некоторых осуществлениях. Преобразователь сигнала активации деформации по времени 234 формируется таким образом, чтобы получать входной звуковой сигнал 210 и информацию о двух контурах деформации 286 и 288 и обеспечить, на их основе, сигнал активации деформации по времени 234р. Сигнал активации деформации по времени 234р может взять роль сигнала активации деформации по времени 232. Преобразователь сигнала активация деформации по времени включает два идентичных преобразователя представления деформации по времени 234а, 234 г, которые формируются, чтобы получать входной звуковой сигнал 210 и информацию о контуре деформации по времени 286 и 288, соответственно, и обеспечивать, на их основе, два представления деформации по времени 234е и 234k, соответственно. Преобразователь сигнала активации деформации по времени 234 далее включает два идентичных преобразователя информации об уплотнении энергии 234f и 2341, которые формируются, чтобы получить представления деформации по времени 234е и 234 к, соответственно, и, на их основе, предоставить информацию об уплотнении энергии 234 m и 234п, соответственно. Преобразователь сигнала активации деформации по времени далее включает компаратор 234о, формируемый таким образом, чтобы получить информацию об уплотнении энергии 234m.и 234n, и, на их основе, обеспечить сигнал активации деформации по времени 234р.
Чтобы облегчить понимание, следует заметить, что преобразователи представления деформации по времени 234а и 234g обычно включают (дополнительные) идентичные устройства окна анализа 234b и 234h, идентичные ресэмплеры или устройства деформации по времени 234с и 234i, и (дополнительные) идентичные преобразователи спектральной области 234d и 234j.
В дальнейшем, будут обсуждены различные концепции получения информации об уплотнении энергии. Предварительно будет дано введение, объясняющее влияние деформации по времени на типичном звуковом сигнале.
В дальнейшем, воздействие деформации по времени на звуковой сигнал будет описано со ссылкой на Фиг.3а и 3b. Фиг.3а содержит графическое представление спектра звукового сигнала. Абсцисса 301 описывает частоту, а ордината 302 описывает интенсивность звукового сигнала. Кривая 303 описывает интенсивность звукового сигнала с невременной деформацией как функцию частоты f.
Фиг.3b показывает графическое представление спектра версии звукового сигнала с деформацией по времени, представленного на фиг.3а. Снова, абсцисса 306 описывает частоту, а ордината 307 описывает интенсивность версии звукового сигнала с деформацией. Кривая 308 описывает интенсивность версии звукового сигнала с деформацией по времени по частоте. Как можно видеть из сравнения графического представления Фиг.3а и 3b, версия звукового сигнала с невременной деформацией («недеформированная») включает размазанный спектр, особенно в высокой частотной зоне. Напротив, версия входного звукового сигнала с деформацией по времени включает спектр, имеющий ясно различимые спектральные пики, даже в высокой частотной зоне. Кроме того, умеренное заострение спектральных пиков можно наблюдать даже в низкой спектральной зоне версии входного звукового сигнала с деформацией по времени.
Следует заметить, что спектр версии входного звукового сигнала с деформацией по времени, который показан на фиг.3b, может квантоваться и кодироваться, например, квантизатором/кодирующим устройством 260, с более низкой скоростью передачи информации (битрейтом), чем спектр недеформированного входного звукового сигнала, показанный на фиг.3а. Это вследствие того, что размазанный спектр обычно включает большое количество перцепционно релевантных спектральных коэффициентов (то есть, сравнительно небольшое количество спектральных коэффициентов, квантованных до нуля или квантованных до незначительных величин), в то время как «менее плоский» спектр, показанный на фиг.3, обычно включает большее число спектральных коэффициентов, квантованных до нуля или квантованных до незначительных величин. Спектральные коэффициенты, квантованные до нуля или квантованные до незначительных величин, могут кодироваться с меньшим количеством битов, чем спектральные коэффициенты, квантованные до более высоких величин, таким образом, спектр фиг.3b может быть закодирован с использованием меньшего количества битов, чем спектр фиг.3а.
Однако, следует также заметить, что использование деформации по времени не всегда приводит к существенному улучшению эффективности кодирования сигнала с деформацией по времени. Соответственно, в некоторых случаях цена, в переводе на скорость передачи битов (битрейт), необходимую для кодирования информации о деформации по времени (например, контур деформации по времени), может превысить экономию, в переводе на скорость передачи информации (битрейт), необходимую для кодирования преобразованного спектра деформации по времени (при сравнении с кодированием преобразованного спектра невременной деформации). В этом случае, предпочтительно обеспечить кодированное представление звукового сигнала, используя стандартный (непеременный) контур деформации по времени, чтобы управлять преобразованием с деформацией по времени. Следовательно, передача любой информации о деформации по времени (то есть, информации о контуре деформации по времени) может быть опущена (за исключением флажка, показывающего дезактивацию деформации по времени), таким образом, сохраняя скорость передачи информации (битрейт) низкой.
В дальнейшем, будут описаны различные концепции надежного и эффективного вычисления сигнала активации деформации по времени 112, 232, 234р со ссылкой на Фиг.3с-3k. Однако, перед этим будут кратко резюмированы предпосылки создания изобретательной концепции.
Основное предположение состоит в том, что применение деформации по времени к гармоническому сигналу с переменным основным тоном делает основной тон постоянным, и что придание постоянства основному тону улучшает кодирование спектров, полученных посредством следующего частотно - временного преобразования, потому что вместо размазывания различных гармоник по нескольким спектральным элементам разрешения (см. Фиг.3а) остается только ограниченное число значимых линий (см. фиг.3b). Однако, даже когда обнаруживается изменение основного тона, улучшение эффективности кодирования (то есть, количество сэкономленных битов) может быть незначительным (например, если имеется сильный шум, лежащий в основе гармонического сигнала, или если изменение настолько мало, что размазывание высших гармоник не является проблемой), или может быть меньше, чем количество битов, необходимое для передачи контура деформации по времени декодеру, или может просто быть неправильным. В этих случаях предпочтительно отклонить переменный контур деформации по времени (например, 286) произведенный кодирующим устройством контура деформации по времени и вместо этого используют эффективную однобитовую передачу сигналов, передающую стандартный (непеременный) контур деформации по времени.
Область данного изобретения включает создание способа принятия решения о том, обеспечивает ли полученная часть контура деформации по времени достаточную эффективность кодирования (например, достаточную эффективность кодирования для компенсации служебных сигналов, необходимых для кодирования контура деформации по времени).
Как показано выше, самым важным аспектом деформации по времени является уплотнение спектральной энергии до меньшего количества числа линий (см. Фиг.3a и 3b). Один взгляд на это показывает, что уплотнение энергии также соответствует «более неплоскому» спектру (см. Фиг.3а и 3b), так как различие между пиками и долинами спектра увеличивается. Энергия концентрируется на меньшем количестве линий, причем на линиях между теми, которые имеют меньше энергии, чем прежде.
Фиг.3а и 3b показывают схематический пример недеформированного спектра фрейма с сильными гармониками и изменением основного тона (фиг.3а), и спектра версии того же самого фрейма с деформацией по времени (фиг.3b).
Ввиду этой ситуации было обнаружено, что выгодно использовать меру спектральной плоскостности как возможную меру эффективности деформации по времени.
Спектральная плоскостность может быть вычислена, например, посредством деления среднего геометрического спектра мощности на среднее арифметическое спектра мощности.
Например, спектральная плоскостность (также кратко называемая «плоскостность») может быть вычислена согласно следующему уравнению:
(Flatness - плоскостность)
В вышеприведенном уравнении, х (n) представляет величину (магнитуду) числа элемента разрешения n. Кроме того, в вышеприведенном уравнении, N представляет общее количество спектральных элементов разрешения, которые учитываются при вычислении меры спектральной плоскостности.
В осуществлении изобретения вышеупомянутое вычисление «плоскостности», которое может служить информацией об уплотнении энергии, может выполняться посредством использования представлений преобразованного спектра с деформацией по времени 234е, 234k, таким образом, чтобы сохранялось следующее соотношение:
х(n)=|X|tw(n).
В этом случае, N может быть равным числу спектральных линий, предоставленных преобразователем спектральной области 234d, 234j, и |X|tw (n) - представление преобразованного спектра с деформацией по времени 234е, 234k.
Даже при том, что спектральная мера - важный параметр для обеспечения сигнала активации деформации по времени, один недостаток меры спектральной плоскостности, такой как мера отношения сигнала к шуму (SNR), состоит в том, что если она применяется к целому спектру, она выделяет части с более высокой энергией. Обычно, гармонические спектры имеют определенный наклон спектра, означающий, что большая часть энергии концентрируется на нескольких первых парциальных тонах и затем уменьшается с увеличением частоты, что приводит к тому, что высокие парциальные тоны в мере представлены недостаточно. Это не желательно в некоторых осуществлениях, так как необходимо улучшить качество этих высоких парциальных тонов, потому что они размазываются в большей степени (см. фиг.3а). В дальнейшем будут обсуждены несколько дополнительных концепций релевантности меры спектральной плоскостности.
В реализации изобретения выбирается подход, аналогичный так называемой мере «сегментного SNR (отношения сигнала к шуму)», что приводит к диапазоноподобной мере спектральной плоскостности. Вычисление меры спектральной плоскостности выполняется (например, отдельно) в пределах нескольких полос, и берется основная (или средняя). Различные полосы могут иметь равную полосу пропускания. Однако, предпочтительно, если диапазоны пропускания могут следовать за перцепционным масштабом, таким как критические полосы (диапазоны), или соответствовать, например, полосе масштабного коэффициента так называемого «расширенного звукового кодирования», также известного как ААС.
Вышеупомянутая концепция будет кратко объяснена в дальнейшем со ссылкой на фиг.3с, который содержит графическое представление индивидуального вычисления мер спектральной плоскостности для различных частотных диапазонов. Как можно заметить, спектр может быть разделен на различные частотные диапазоны 311, 312, 313, которые могут иметь равную полосу пропускания, или которые могут иметь различные полосы пропускания. Например, первая мера спектральной плоскостности может быть вычислена для первого частотного диапазона 311, например, используя уравнение для «плоскостности», приведенное выше. В этом вычислении могут рассматриваться элементы разрешения по частоте первого частотного диапазона (промежуточная переменная n может принимать индексы элементов разрешения по частоте элементов разрешения по частоте первого частотного диапазона), а также может рассматриваться ширина первого частотного диапазона 311 (переменная N может принимать ширину, исходя из элементов разрешения по частоте первого частотного диапазона). Соответственно, получается мера плоскостности для первого частотного диапазона 311. Аналогично, мера плоскостности может быть вычислена для второго частотного диапазона 312, учитывая элементы разрешения по частоте вторых частотных диапазонов 312, а также ширину второго частотного диапазона. Далее, меры плоскостности дополнительных частотных диапазонов, таких как третий частотный диапазон 313, могут быть вычислены таким же образом.
Впоследствии, может быть вычислена средняя величина мер плоскостности для различных частотных диапазонов 311, 312, 313, и средняя величина может служить информацией об уплотнении энергии.
Другой подход (для улучшения дифференцирования сигнала активации деформации по времени) заключается в применении меры спектральной плоскостности только на определенной частоте. Такой подход проиллюстрирован на фиг.3b. Как может видеть, только элементы разрешения по частоте в верхней частотной части 316 спектров рассматриваются для вычисления меры спектральной плоскостности. Нижней частотной частью спектра можно пренебречь для вычисления меры спектральной плоскостности. Верхняя частотная часть 316 может считаться диапазоноподобной частотой для вычисления меры спектральной плоскостности. Альтернативно, вся верхняя частотная часть 316 может рассматриваться полностью для вычисления меры спектральной плоскостности.
Чтобы суммировать вышесказанное, можно заявить, что уменьшение спектральной плоскостности (вызванное применением деформации по времени) можно рассматривать как первую меру эффективности деформации по времени.
Например, преобразователь сигнала активации деформации по времени 100, 230, 234 (или его компаратор 130, 234о) может сравнивать меру спектральной плоскостности преобразованного спектрального представления с деформацией по времени 234е с мерой спектральной плоскостности преобразованного спектрального представления с деформацией по времени 234k посредством использования стандартной информации о контуре деформации по времени, и принимать решение, на основе указанного сравнения, должен ли сигнал активации деформации по времени быть активирован или дезактивирован. Например, деформация по времени активизируется посредством соответствующего регулирования сигнала активации деформации по времени, если деформация по времени приводит к достаточному сокращению меры спектральной плоскостности при сравнении со случаем без деформации по времени.
В дополнение к вышеперечисленным подходам, верхняя частотная часть спектра может быть выделена (например, соответствующим масштабированием) на низкой частотной части для вычисления меры спектральной плоскостности. Фиг.3с содержит графическое представление преобразованного спектра с деформацией по времени, в котором верхняя частотная часть выделена на низкой частотной части. Соответственно, компенсируется недостаточное представление верхних парциальных тонов в спектре. Таким образом, мера плоскостности может быть вычислена по полному масштабированному спектру, в котором верхние элементы разрешения по частоте выделены на низких элементах разрешения по частоте, как показано на фиг.3е.
В отношении экономии битов, обычной мерой эффективности кодирования будет перцепционная энтропия, которая может определяться таким образом, чтобы она хорошо коррелировалась с фактическим числом битов, необходимых для кодирования определенного спектра, как описано в 3GPP TS 26.403 V.7.0.0: Партнерский Проект 3-го Поколения; Группа Обслуживания Технических Спецификаций и Аспектов Системы; Функции звуковой обработки стандартного звукового кодер-декодера; расширенный AAC Plus стандартный звуковой кодер-декодер; спецификация кодирующего устройства часть ААС: раздел 5.6.1.1.3 Соотношение между расходом битов и перцепционной энтропией. В результате, сокращение перцепционной энтропии будет другой мерой эффективности деформации по времени.
Фиг.3f показывает преобразователь информации об уплотнении энергии 325, который может занять место преобразователя информации об уплотнении энергии 120, 234f, 2341, и который может использоваться в преобразователях сигнала активации деформации по времени 100, 290, 234. Преобразователь информации об уплотнении энергии 325 формируется таким образом, чтобы получить представление звукового сигнала, например, в форме преобразованного спектрального представления с деформацией по времени 234е, 234k, также определяемого посредством |X|tw. Преобразователь информации об уплотнении энергии 325 также формируется таким образом, чтобы предоставить информацию о перцепционной энтропии 326, которая может занять место информации об уплотнении энергии 122, 234m, 234n.
Преобразователь информации об уплотнении энергии 325 включает вычислитель форм-фактора 327, который формируется таким образом, чтобы получить преобразованное спектральное представление с деформацией по времени 234е, 234k и обеспечить, на их основе, информацию о форм-факторе 328, которая может быть связана с частотным диапазоном. Преобразователь информации об уплотнении энергии 325 также включает вычислитель энергии частотного диапазона 329, который формируется таким образом, чтобы вычислять информацию об энергии частотного диапазона en(n) (330) на основе представления спектра с деформацией по времени 234е, 234k. Преобразователь информации об уплотнении энергии 325 также включает приблизительный подсчет числа линий 331, который формируется таким образом, чтобы обеспечить информацию о расчетном числе линий n1 (332) для частотного диапазона, имеющего индекс n. Кроме того, преобразователь информации об уплотнении энергии 325 включает перцепционный вычислитель энтропии 333, который формируется таким образом, чтобы вычислять перцепционную энтропийную информацию 326 на основе информации об энергии частотного диапазона 330 и информации о расчетном числе линий 332. Например, вычислитель форм-фактора 327 может формироваться, чтобы вычислять форм-фактор согласно
В вышеупомянутом уравнении, ffac (n) определяет форм-фактор для частотного диапазона, имеющего индекс частотного диапазона п.к обозначает промежуточную переменную, которая выходит за пределы индексов спектрального элемента разрешения масштабного коэффициента диапазона (или частотного диапазона) n. X (k) обозначает спектральное значение (например, энергетическое значение или значение магнитуды) спектрального элемента разрешения (или элемента разрешения по частоте), имеющее индекс спектрального элемента разрешения (или индекс элемента разрешения по частоте) к.
Приблизительный подсчет (счетчик) числа линий может формироваться таким образом, чтобы оценить число ненулевых линий, обозначенных n1, согласно следующему уравнению:
В вышеупомянутом уравнении, en (n) обозначает энергию в частотном диапазоне, или полосу масштабного коэффициента, имеющую индекс n.kOffset (n+1)-kOffset (n) обозначает ширину частотного диапазона или полосы масштабного коэффициента индекса n в отношении элементов разрешения по частоте.
Кроме того, вычислитель перцепционной энтропии 332 может формироваться, чтобы вычислять информацию о перцепционной энтропии sfbPe согласно следующему уравнению:
В вышеупомянутом уравнении могут сохраняться следующие соотношения:
Полная перцепционная энтропия Ре может быть вычислена как сумма перцепционных энтропии множественных частотных диапазонов или полос масштабного коэффициента.
Как упомянуто выше, информация о перцепционной энтропии 326 может использоваться как информация об уплотнении энергии.
Для получения дальнейших деталей относительно вычисления перцепционной энтропии делается ссылка на раздел 5.6.1.1.3 Международного Стандарта «3GPP TS 26.403 V7.0.0 (2006-06)».
В дальнейшем будет описана концепция вычисления информации об уплотнении энергии во временной области.
Другой взгляд на TW-MDCT (измененное дискретное косинусоидальное преобразование с деформацией по времени) - основная идея состоит в изменении сигнала таким образом, чтобы иметь постоянный или почти постоянный основной тон в одном блоке. Если достигнут постоянный основной тон, это означает, что увеличиваются максимумы автокорреляции одного блока обработки. Так как, это не обычно - находить соответствующие максимумы в автокорреляции в случае с деформацией по времени и с невременной деформацией, сумма абсолютных значений нормализованной автокорреляции может использоваться как мера улучшения. Увеличение этой суммы соответствует увеличению уплотнения энергии.
Эта концепция будет объяснена более подробно в дальнейшей со ссылкой на Фиг.3 г, 3h, 3i, 3j и 3k.
Фиг.3g содержит графическое представление сигнала с невременной деформацией во временной области. Абсцисса 350 описывает время, а ордината 351 описывает уровень a(t) временного сигнала с невременной деформацией. Кривая 352 описывает развитие во времени временного сигнала с невременной деформацией. Предполагается, что частота временного сигнала с невременной деформацией, описанного кривой 352, увеличивается во времени, как видно на фиг.3g.
Фиг.3h содержит графическое представление версии временного сигнала с деформацией по времени фиг.3g. Абсцисса 355 описывает деформированное время (например, в нормализованной форме), а ордината 356 описывает уровень версии a(tw) сигнала a(t) с деформацией по времени. Как видно из фиг.3h, версия a(tw) с деформацией по времени временного сигнала a(t) с невременной деформацией, включает (по крайней мере, приблизительно) постоянную во времени частоту в деформированной временной области.
Другими словами, фиг.3h иллюстрирует тот факт, что временной сигнал с переменной во времени частотой преобразуется во временной сигнал с постоянной во времени частотой посредством соответствующей операции деформации по времени, которая может включать повторную выборку с деформацией по времени.
Фиг.3i содержит графическое представление функции автокорреляции недеформированного временного сигнала a(t). Абсцисса 360 описывает задержку автокорреляции τ, а ордината 361 описывает величину (магнитуду) функции автокорреляции. Маркировка 362 описывает развитие функции автокорреляции Ruw (τ), как функцию задержки автокорреляции х. Как видно по фиг.3i, функция автокорреляции Ruw недеформированного временного сигнала a(t) включает пик для τ=0 (отражающий энергию сигнала a (t)), и принимает маленькие значения для τ≠0.
Фиг.3j содержит графическое представление функции автокорреляции Rtw временного сигнала с деформацией по времени a(tw). Как видно из фиг.3j, функция автокорреляции Rtw включает пик для τ=0 и также включает пики для других значений τ1, τ2, τ3 задержки автокорреляции τ. Эти дополнительные пики для τ1, τ2, τ3 получены посредством эффекта деформации по времени для увеличения периодичности временного сигнала с деформацией по времени a(tw). Эта периодичность отражается дополнительными пиками функции автокорреляции Rtw (τ) при сравнении с функцией автокорреляции Ruw (τ). Таким образом, присутствие дополнительных пиков (или увеличение интенсивности пиков) функции автокорреляции звукового сигнала с деформацией по времени при сравнении с функцией автокорреляции оригинального звукового сигнала может использоваться как признак эффективности (в отношении уменьшения скорости передачи информации (битрейта)) деформации по времени.
Фиг.3k содержит блок-схему преобразователя информации об уплотнении энергии 370, формируемого, чтобы получить представление временной области звукового сигнала с деформацией по времени, например, сигнала с деформацией по времени 234е, 234k (где опущено преобразование спектральной области 234d, 234j, и дополнительно, устройство организации окна анализа 234b и 234h), чтобы обеспечить, на его основе, информацию об уплотнении энергии 374, которая может выполнять роль информации об уплотнении энергии 372. Преобразователь информации об уплотнении энергии 370 фиг.3k включает вычислитель автокорреляции 371, формируемый таким образом, чтобы вычислить функцию автокорреляции Rtw (τ) сигнала a(tw) с временной деформацией на предварительно определенном диапазоне дискретных значений τ. Преобразователь информации об уплотнении энергии 370 также включает сумматор автокорреляции 372, формируемый таким образом, чтобы суммировать множество значений функции автокорреляции Rtw (τ) (например, на предварительно определенном диапазоне дискретных значений τ), и чтобы предоставить полученную сумму как информацию об уплотнении энергии 122, 234m, 234n.
Таким образом, преобразователь информации об уплотнении энергии 370 позволяет обеспечивать надежную информацию, указывающую на эффективность деформации по времени, фактически, без выполнения преобразования спектральной области версии временной области с деформацией по времени входного звукового сигнала 210. Поэтому, можно выполнять преобразование спектральной области версии входного звукового сигнала 310 с деформацией по времени, только если обнаружено, на основе информации об уплотнении энергии 122, 234m, 234n, предоставленной преобразователем информации об уплотнении энергии 370, что деформация по времени, фактически, способствует повышению эффективности кодирования.
Чтобы суммировать вышесказанное, реализации заявляемого изобретения создают концепцию заключительного технического контроля. Получающийся контур основного тона (используемый в кодере звукового сигнала с деформацией по времени) оценивается в отношении эффективности кодирования и или принимается, или отклоняется. Несколько измерений относительно разреженности спектра или эффективности кодирования могут приниматься во внимание, например, мера спектральной плоскостности, мера спектральной плоскостности диапазоноподобного сегмента, и/или перцепционная энтропия.
Обсуждалось использование различной информации о спектральном уплотнении, например, использование меры спектральной плоскостности, использование меры перцепционной энтропии, и использование меры автокорреляции временной области. Однако имеются другие меры, которые показывают уплотнение энергии в спектре с деформацией по времени.
Могут использоваться все эти меры. Предпочтительно, для всех этих мер определяется соотношение между мерой для недеформированного спектра и спектра с деформацией по времени, и в кодирующем устройстве устанавливается порог для этого соотношения, чтобы определить, имеет ли полученный контур с деформацией по времени преимущество в кодировании или нет.
Все эти меры могут применяться к полному фрейму, где только третья часть контура основного тона новая (где, например, три части контура основного тона связаны с полным фреймом), или, предпочтительно, только к части сигнала, для которого была получена эта новая часть, например, посредством использования преобразования с низким окном перекрывания, сцентрированным на (соответствующей) части сигнала.
Естественно, по желанию может использоваться одиночная мера или комбинация вышеупомянутых мер.
Фиг.4а содержит блок-схему способа преобразования сигнала активации деформации по времени на основе звукового сигнала. Способ 400 фиг.4а включают стадию 410 обеспечения информации об уплотнении энергии, описывающей уплотнение энергии в преобразованном спектральном представлении звукового сигнала с деформацией по времени. Способ 400 далее включает стадию 420 сравнения информации об уплотнении энергии с контрольным значением. Способ 400 также включает стадию 430 обеспечения сигнала активации деформации по времени в зависимости от результата сравнения.
Способ 400 может быть дополнен любым из средств и функциональных возможностей, описанных здесь, относительно предоставления сигнала активации деформации по времени.
Фиг.4b показывает блок-схему способа кодирования входного звукового сигнала для получения кодированного представления входного звукового сигнала. Способ 450 дополнительно включает стадию 460 обеспечения преобразованного спектрального представления с деформацией по времени на основе входного звукового сигнала. Способ 450 также включает стадию 470 обеспечения сигнала активации деформации по времени. Стадия 470 может, например, включать функциональные возможности способа 400. Таким образом, информация об уплотнении энергии может предоставляться таким образом, чтобы информация об уплотнении энергии описывала уплотнение энергии в преобразованном спектральном представлении входного звукового сигнала с деформацией по времени. Способ 450 также включает стадию 480 селективного предоставления, в зависимости от сигнала активации деформации по времени, описания преобразованного спектрального представления входного звукового сигнала с деформацией по времени посредством использования вновь обнаруженной информации о контуре с деформацией по времени, или описания преобразованного спектрального представления входного звукового сигнала с невременной деформацией посредством использования стандартной (непеременной) информации о контуре с деформацией по времени для включения в кодированное представление входного звукового сигнала.
Способ 450 может быть дополнен любым из свойств и функциональных возможностей, обсужденных здесь относительно кодирования входного звукового сигнала.
Фиг.5 иллюстрирует предпочтительное осуществление звукового кодирующего устройства в соответствии с данным изобретением, в котором осуществлены несколько аспектов данного изобретения. Звуковой сигнал подается на вход кодирующего устройства 500. Этот звуковой сигнал обычно является дискретным звуковым сигналом, который был получен из аналогового звукового сигнала посредством использования частоты дискретизации, которую также называют нормальной частотой дискретизации. Эта нормальная частота дискретизации отличается от локальной частоты дискретизации, полученной в результате операции деформации по времени, и нормальная частота дискретизации звукового сигнала на входе 500 является постоянной частотой дискретизации, приводящей к тому, что звуковые образцы разделяются постоянной временной частью. Сигнал помещается в устройство организации окна анализа 502, которое, в этом осуществлении, связано с контроллером функции окна 504. Устройство организации окна анализа 502 связано с устройством для деформации по времени 506. В зависимости от выполнения, однако, устройство для деформации по времени 506 может быть размещено - в направлении обработки сигнала - перед устройством окна анализа 502. Это выполнение предпочтительно, когда свойство деформации по времени требуется для управления окнами анализа в блоке 502, и когда операция деформации по времени должна быть выполнена скорее на образцах с деформацией по времени, а не на недеформированных образцах. Особенно в контексте основанной на MDCT деформации по времени как описано в работе Бернда Эдлера и др., «MDCT с деформацией по времени», Международная заявка на изобретение, рег.№РСТ/ЕР2009/002118. Для других применений деформации по времени, таких как описано в работе Л.Виллемуса (L.Villemoes) «Кодирование с преобразованием звуковых сигналов с деформацией по времени», РСТ/ЕР2006/010246, Международная заявка на изобретение, ноябрь 2005 г., размещение между устройством для деформации по времени 506 и устройством окна анализа 502 может быть установлено по необходимости. Дополнительно, преобразователь времени/частоты 508 предоставляется для выполнения преобразования времени/частоты звукового сигнала с деформацией по времени в спектральное представление. Спектральное представление может быть введено в TNS (временное ограничение шума) стадию 510, которая обеспечивает, в качестве выхода 510а, информацию TNS и, в качестве выхода 510b, спектральные остаточные значения. Выход 510b соединен с квантизатором, и блоком кодирующего устройства 512, которое может управляться перцепционной моделью 514 для квантования сигнала таким образом, чтобы шум квантизации был скрыт ниже перцепционного маскирующего порога звукового сигнала.
Дополнительно, кодер, проиллюстрированный на фиг.5а, включает анализатор деформации по времени 516, который может быть выполнен как следящий фильтр высоты тона, который предоставляет информацию о деформации по времени на выходе 518. Сигнал на линии 518 может включать свойство деформации по времени, характеристику основного тона, контур основного тона, или информацию о том, является ли сигнал, проанализированный анализатором деформации по времени, гармоническим сигналом или негармоническим сигналом. Анализатор деформации по времени может также реализовывать функциональные возможности, чтобы различать вокализованную речь и невокализованную речь. Однако, в зависимости от выполнения, и от того, выполняется ли классификатор сигнала 520, вокализованное/невокализованное решение может также быть выполнено классификатором сигнала 520. В этом случае, анализатор деформации по времени не обязательно должен реализовывать те же самые функциональные возможности. Выход анализатора деформации по времени 518 связан, по крайней мере, с одной, и предпочтительно, больше, чем с одной, функциональной возможностью в группе функциональных возможностей, включающих контроллер функции окна 504, устройство для деформации по времени 506, стадию TNS 510, квантизатор и Кодер 512 и выходной интерфейс 522.
Аналогично, выход 522 классификатора сигнала 520 может быть связан с одной или большим количеством функциональных возможностей группы функциональных возможностей, включающих контроллер функции окна 504, стадию TNS 510, анализатор шумового наполнения 524 или выходной интерфейс 522. Дополнительно, выход анализатора деформации по времени 518 может также быть связан с анализатором шумового наполнения 524.
Хотя фиг.5а иллюстрирует ситуацию, где звуковой сигнал на выходе устройства окна анализа 500 вводится в анализатор деформации по времени 516 и классификатор сигнала 520, входные сигналы для этих функциональных возможностей могут также быть взяты из выхода устройства окна анализа 502 и, относительно классификатора сигнала, могут даже быть взяты из выхода устройства для деформации по времени 506, выхода преобразователя времени/частоты 508 или выхода стадии TNS 510.
В дополнение к сигналу, произведенному квантизатором кодирующего устройства 512, обозначенному 526, выходной интерфейс 522 получает дополнительную информацию TNS 510а, дополнительную информацию перцепционной модели 528, которая может включать масштабные коэффициенты в закодированной форме, данные показаний деформации по времени для более расширенной дополнительной информации о деформации по времени, такой как контур основного тона на линии 518, и информацию о классификации сигнала на линии 522. Дополнительно, анализатор шумового наполнения 524 может также подавать данные шумового наполнения на выход 530 в выходном интерфейсе 522. Выходной интерфейс 522 формируется для генерирования кодированных звуковых выходных данные на линии 532 для передачи декодеру или для сохранения в устройстве хранения данных, таком как запоминающее устройство. В зависимости от выполнения выходные данные 532 могут включать весь вход в выходной интерфейс 522 или могут включать меньше информации, при условии, что информация не требуется соответствующим декодером, имеющим уменьшенные функциональные возможности, или при условии, что информация уже доступна в декодере, вследствие передачи через другой канал передачи.
Кодер, проиллюстрированный на фиг.5а, может быть реализован так, как подробно определено в стандарте MPEG-4, кроме дополнительных функциональных возможностей, проиллюстрированных в заявляемом кодере, выполненном по фиг.5а, представленном контроллером функции окна 504, анализатором шумового наполнения 524, квантизатором кодирующего устройства 512 и стадией TNS 510, которые имеют расширенные функциональные возможности, по сравнению со стандартом MPEG-4. Дальнейшее описание имеется в стандарте ААС (международный стандарт 13818-7) или 3GPP TS 26.403 V7.0.0: Партнерский Проект 3-его Поколения; Группа Обслуживания Технических Спецификаций и Аспектов Системы; Функции звуковой обработки стандартного звукового кодер-декодера; Расширенный ААС плюс общий звуковой кодер-декодер.
Далее обсуждается фиг.5b, которое иллюстрирует предпочтительное осуществление звукового декодера для декодирования кодированного звукового сигнала, полученного через вход 540. Входной интерфейс 540 служит для обработки кодированного звукового сигнала таким образом, чтобы различные информационные единицы информации извлекались из сигнала на линии 540. Эта информация включает информацию о классификации сигнала 541, информацию о деформации по времени 542, данные о шумовом наполнении 543, масштабные коэффициенты 544, данные TNS 545, и кодированную спектральную информацию 546. Кодированная спектральная информация вводится в энтропийный декодер 547, который может включать декодер Хаффмана или арифметический декодер, при условии, что функциональные возможности кодирующего устройства в блоке 512 на фиг.5а реализуются как соответствующее Кодер, такое как Кодер Хаффмана или арифметическое Кодер. Декодированная спектральная информация вводится в реквантизатор 550, который соединен с шумовым наполнителем 552. Выход шумового наполнителя 552 вводится в обратную стадию TNS 554, которая дополнительно получает данные TNS на линии 545. В зависимости от выполнения шумовой наполнитель 552 и стадия TNS 554 может применяться в различном порядке так, чтобы шумовой наполнитель 552 воздействовал скорее на выходные данные стадии TNS 554, а не на входные данные TNS. Дополнительно, предоставляется преобразователь частоты/времени 556, который снабжает устройство для устранения деформации по времени 558. На выходе цепи обработки сигнала, устройство организации окна синтеза, предпочтительно выполняющее перекрывающую/добавляющую обработку, применяется, как обозначено цифрой 560. Последовательность устройства для устранения деформации по времени 558 и стадии синтеза 560 может быть изменена, но, в предпочтительном осуществлении, желательно выполнять алгоритм кодирования/декодирования на основе MDCT, как определено в стандарте ААС (ААС = расширенное звуковое кодирование). Затем, с выгодой используется неотъемлемая операция взаимного ослабления от одного блока до следующего, вследствие процедуры перекрывания/добавления, как последней операции в цепи обработки, в результате чего удается эффективно избежать всех артефактов блокирования.
Дополнительно, предоставляется анализатор шумового наполнения 562, который формируется для управления шумовым наполнителем 552, и который получает в качестве входа, информацию о деформации по времени 542 и/или информацию о классификации сигнала 541 и информацию о повторно квантованном спектре, в зависимости от обстоятельств.
Предпочтительно, все функциональные возможности, описанные далее, вместе применены в расширенной звуковой схеме кодера/декодера. Однако, функциональные возможности, описанные далее, могут также применяться независимо друг от друга, то есть, так, чтобы только одна или группа, но не все функциональные возможности, были осуществлены в определенной схеме кодера/декодера.
Далее будет подробно описан аспект шумового наполнения данного изобретения.
При реализации дополнительная информация, предоставленная средством деформации по времени/ контура основного тона 516 на фиг.5а, успешно используется для управления другими инструментами кодер-декодера и, в частности, инструментом шумового наполнения, выполненного анализатором шумового наполнения 524 на стороне кодирующего устройства, и/или выполненного анализатором шумового наполнения 562 и шумовым наполнителем 552 на стороне декодера.
Некоторые инструменты кодирующего устройства в пределах ААС фрейма, такие как инструмент шумового наполнения, управляются информацией, собранной посредством анализа контура основного тона и/или посредством дополнительных знаний о классификации сигнала, предоставленной классификатором сигнала 520.
Найденный контур основного тона показывает сегменты сигнала с ясной гармонической структурой, таким образом, шумовое наполнение между гармоническими линиями может ухудшить качество восприятия, особенно речевых сигналов, поэтому уровень шума уменьшается, когда обнаружен контур основного тона. Иначе, между парциальными тонами будет шум, который имеет тот же самый эффект, что и увеличенный шум квантизации для размазанного спектра. Кроме того, величина снижения уровня шума может быть далее уточнена при использовании информации классификатора сигнала, так, например, для речевых сигналов не будет никакого шумового наполнения, и умеренное шумовое наполнение будет применено к родовым сигналам с сильной гармонической структурой.
В общем, шумовой наполнитель 552 полезен для вставки спектральных линий в декодированный спектр, где нули были переданы от кодирующего устройства декодеру, то есть, где квантизатор 512 на фиг.5а квантовал спектральные линии до нуля. Естественно, квантование до нуля спектральных линий значительно уменьшало скорость передачи информации (битрейт) переданного сигнала, и, в теории, устранение этих (маленьких) спектральных линий не слышимо, когда эти спектральные линии ниже перцепционного маскирующего порога, как определено перцепционной моделью 514. Однако, было обнаружено, что эти «спектральные дыры», которые могут включать многие смежные спектральные линии, приводят к возникновению весьма неестественного звука. Поэтому, инструмент шумового наполнения предоставляется для того, чтобы вставить спектральные линии в позиции, где линии квантовались до нуля квантизатором на стороне кодирующего устройства. Эти спектральные линии могут иметь произвольную амплитуду или фазу, и эти синтезированные спектральные линии на стороне декодера масштабируются посредством использования меры шумового наполнения, определенной на стороне кодирующего устройства, как проиллюстрировано на фиг.5а, или в зависимости от меры, определенной на стороне декодера, как проиллюстрировано на фиг.5b дополнительным блоком 562. Анализатор шумового наполнения 524 на фиг.5а, поэтому, формируется для оценки меры шумового наполнения энергии звуковых значений, квантованных до нуля для временного фрейма звукового сигнала.
В осуществлении данного изобретения кодер для кодирования звукового сигнала на линии 500 включает квантизатор 512, который формируется для квантования звуковых значений, где квантизатор 512, кроме того, формируется таким образом, чтобы квантовать до нуля звуковые значения ниже порога квантизации. Этот порог квантизации может быть первым шагом основанного на шагах (ступенях) квантизатора, который используется для принятия решения о том, квантуется ли определенное звуковое значение до нуля, то есть, до индекса квантизации нуля, или квантуется до единицы, то есть, индекса квантизации единицы, указывающего, что звуковая величина выше этого первого порога. Хотя квантизатор на фиг.5а иллюстрируется, как выполнение квантизации значений частотной области, квантизатор может также использоваться для квантования величин временной области в альтернативном осуществлении, в котором шумовое наполнение выполняется скорее во временной области, а не в частотной области.
Анализатор шумового наполнения 524 выполняется как вычислитель шумового наполнения для оценки меры шумового наполнения энергии звуковых значений, квантованных до нуля, для временного фрейма звукового сигнала квантизатором 512. Дополнительно, кодер включает анализатор звукового сигнала 600, проиллюстрированный на фиг.6а, который формируется для того, чтобы проанализировать, имеет ли временной фрейм звукового сигнала гармоническую характеристику или речевую характеристику. Анализатор сигнала 600 может, например, включать блок 516 фиг.5а или блок 520 фиг.5а или может включать любое другое устройство для того, чтобы проанализировать, является ли сигнал гармоническим сигналом или речевым сигналом. Так как анализатор деформации по времени 516 выполняется, чтобы постоянно искать контур основного тона, и так как присутствие контура основного тона указывает на гармоническую структуру сигнала, анализатор сигнала 600 на фиг.6а может быть выполнен, как следящий фильтр высоты тона или вычислитель контура деформации по времени анализатора деформации по времени.
Кодер дополнительно включает манипулятор уровня шумового наполнения 602, проиллюстрированный на фиг.6а, который производит регулируемую меру шумового наполнения/уровень, которая будет подана на выходной интерфейс 522, обозначенный 530 на фиг.5а. Манипулятор меры шумового наполнения 602 формируется для управления мерой шумового наполнения в зависимости от гармонической или речевой характеристики звукового сигнала. Кодер дополнительно включает выходной интерфейс 522 для генерирования кодированного сигнала для передачи или хранения; кодированный сигнал включает регулируемую меру шумового наполнения, произведенную блоком 602 на линии 530. Это значение соответствует значению, произведенному блоком 562 в выполнении на стороне декодера, проиллюстрированном на фиг.5b.
Как обозначено на фиг.5а и фиг.5b, регулирование уровня шумового наполнения может выполняться или в кодирующем устройстве, или может выполняться в декодере, или может выполняться в обоих устройствах вместе. В выполнении на стороне декодера декодер для декодирования кодированного звукового сигнала включает входной интерфейс 539 для обработки кодированного сигнала на линии 540, чтобы получить меру шумового наполнения, то есть, данные шумового наполнения на линии 543, и кодированные звуковые данные на линии 546. Декодер дополнительно включает декодер 547 и реквантизатор 550 для генерирования повторно квантованных данных.
Дополнительно, декодер включает анализатор сигнала 600 (фиг.6а), который может выполняться в анализаторе шумового наполнения 562 на фиг.5b для нахождения информации о том, имеет ли временной фрейм звуковых данных гармоническую или речевую характеристику.
Дополнительно, шумовой наполнитель 552 предоставляется для генерирования звуковых данных шумового наполнения, где шумовой наполнитель 552 формируется таким образом, чтобы генерировать данные шумового наполнения в ответ на меру шумового наполнения, переданную через кодированный сигнал и генерированную входным интерфейсом на линии 543, и гармоническая или речевая характеристика звуковых данных, как определено анализаторами сигнала 516 и/или 550 на стороне кодирующего устройства или, как определено пунктом 562 на стороне декодера через обработку и интерпретацию информации о деформации по времени 542, указывает, был ли определенный временной фрейм подвергнут обработке с деформацией по времени или нет.
Дополнительно, декодер включает процессор для обработки повторно квантованных данных и звуковых данных шумового наполнения, чтобы получить декодированный звуковой сигнал. Процессор может включать пункты 554, 556, 558, 560 на фиг.5b в зависимости от обстоятельств. Дополнительно, в зависимости от специфического выполнения алгоритма кодирующего устройства/декодера, процессор может включать другие блоки обработки, которые предоставлены, например, в кодирующем устройстве временной области, таком как AMR WB+Кодер или другие речевые кодирующие устройства.
Регулирование шумового наполнения в соответствии с изобретением может, поэтому, осуществляться на стороне кодирующего устройства только посредством вычисления непосредственной меры шума и посредством регулирования этой меры шума, основанной на гармонической/речевой информации, и посредством передачи уже правильно отрегулированной меры шумового наполнения, которая может затем применяться непосредственно декодером. Альтернативно, нерегулированная мера шумового наполнения может передаваться от кодирующего устройства декодеру, и затем декодер проанализирует, был ли, действительно, временной фрейм звукового сигнала подвергнут деформации по времени, то есть, имеет ли он гармоническую или речевую характеристику, так чтобы фактическая регулировка меры шумового наполнения происходила на стороне декодера.
Далее обсуждается фиг.6b, чтобы объяснить предпочтительные осуществления для регулирования оценки уровня шума.
В первом осуществлении применяется нормальный уровень шума, когда сигнал не имеет гармонической или речевой характеристики. Дело обстоит так, когда не применяется никакая деформация по времени. Когда, дополнительно, предоставляется классификатор сигнала, тогда классификатор сигнала, различающий речь и отсутствие речи, будет показывать отсутствие речи для ситуации, где деформация по времени не была активной, то есть, где не был обнаружен никакой контур основного тона.
Однако, когда деформация по времени активна, то есть, когда обнаружен контур основного тона, который указывает на гармонический контекст, тогда уровень шумового наполнения должен регулироваться, чтобы быть ниже, чем в нормальном случае. Когда предоставляется дополнительный классификатор сигнала, и затем этот классификатор сигнала указывает на речь, и когда одновременно информация о деформации по времени указывает на контур основного тона, тогда сообщается о более низком или даже нолевом уровне шумового наполнения. Таким образом, манипулятор уровня шумового наполнения 602 фиг.6а уменьшит регулируемый уровень шума до нуля или, по крайней мере, до значения ниже, чем нижнее значение, обозначенное на фиг.6b. Предпочтительно, чтобы классификатор сигнала дополнительно имел детектор вокализованного/невокализованного сигнала, как обозначено слева на фиг.6b. В случае вокализованной речи сообщается/применяется очень низкий или нулевой уровень шумового наполнения. Однако, в случае невокализованной речи, где признак деформации по времени не указывает на обработку с деформацией по времени вследствие того, что не был обнаружен никакой основной тон, но где классификатор сигналов сообщает о наличии речевого контекста, мера шумового наполнения не регулируется, но применяется нормальный уровень шумового наполнения.
Предпочтительно, чтобы анализатор звукового сигнала включал следящий фильтр высоты тона для генерирования признака основного тона, такого как контур основного тона или абсолютная высота тона временного фрейма звукового сигнала. Тогда, манипулятор формируется таким образом, чтобы уменьшить меру шумового наполнения, когда обнаружен основной тон, и не уменьшать меру шумового наполнения, когда основной тон не обнаружен.
Как обозначено на фиг.6а, анализатор сигнала 600, когда применяется на стороне декодера, не выполняет фактический анализ сигнала как следящий фильтр высоты тона или детектор вокализованного/невокализованного сигнала, но анализатор сигнала разбирает кодированный звуковой сигнал, чтобы извлечь информацию о деформации по времени или информацию о классификации сигнала. Поэтому, анализатор сигнала 600 может выполняться в пределах входного интерфейса 539 декодера фиг.5b.
Дальнейшее осуществление данного изобретения будет впоследствии обсуждено относительно Фиг.7а-7е.
Для начала речи, где вокализованная речевая часть начинается после относительно бесшумной части сигнала, алгоритм коммутации блока может классифицировать ее как атаку, и может выбрать короткие блоки для этого специфического фрейма, с потерей эффективности кодирования на сегменте сигнала, имеющего ясную гармоническую структуру. Поэтому, вокализованная/невокализованная классификация следящего фильтра высоты тона используется, чтобы обнаружить вокализованное начало и препятствовать тому, чтобы алгоритм коммутации блока показывал кратковременную атаку вокруг обнаруженного начала. Эта функциональная возможность может также быть соединена с классификатором сигнала, чтобы предотвратить коммутацию блока на речевые сигналы и позволить ее для всех других сигналов. Кроме того, более тонкий контроль коммутации блока может выполняться не только посредством разрешения или запрещения обнаружения атак, но и посредством использования переменного порога для обнаружения атаки, основанного на вокализованном начале и информации о классификации сигнала. Кроме того, информация может использоваться, чтобы обнаружить атаки, такие как вышеупомянутые вокализованные начала, но вместо переключения на короткие блоки, использовать длинные окна с короткими перекрываниями, которые сохраняют предпочтительное спектральное разрешение, но уменьшают временную зону, где может возникнуть пред- и пост- эхо. Фиг.7d показывает типичное поведение без адаптации, фиг.7е показывает две различных возможности адаптации (предотвращение и низкое перекрывание окон).
Кодер в соответствии с осуществлением данного изобретения реализуется для генерирования звукового сигнала, такого как сигнал, произведенный выходным интерфейсом 522 фиг.5а. Кодер включает анализатор звукового сигнала, такой как анализатор деформации по времени 516 или классификатор сигнала 520 фиг.5а. Обычно, анализатор звукового сигнала анализирует, имеет ли временной фрейм звукового сигнала гармоническую или речевую характеристику. В заключение, классификатор сигнала 520 фиг.5а может включать детектор вокализованного /невокализованного сигнала 520а или детектор наличия речи/отсутствия речи 520b. Хотя он не показан на фиг.7а, анализатор деформации по времени, такой как анализатор деформации по времени 516 фиг.5а, который может включать следящий фильтр высоты тона, может также быть предоставлен вместо пунктов 520а и 520b или в дополнение к этим функциональным возможностям. Дополнительно, кодер включает контроллер функции окна 504 для выбора функции окна в зависимости от гармонической или речевой характеристики звукового сигнала, как определено анализатором звукового сигнала. Устройство организации окна 502 тогда организовывает окно звукового сигнала или, в зависимости от определенного выполнения, звуковой сигнал с деформацией по времени посредством использования выбранной функции окна, чтобы получить фрейм, реализуемый посредством организации окна. Этот фрейм, реализуемый посредством организации окна, тогда, далее обрабатывается процессором, чтобы получить кодированный звуковой сигнал. Процессор может включать пункты 508, 510, 512, проиллюстрированные на фиг.5а или большее или меньшее количество функциональных возможностей известных звуковых кодирующих устройств, таких как звуковые кодирующие устройства, основанные на преобразовании, или звуковые кодирующие устройства, основанные на временной области, которые включают фильтр LPC, такой как речевые декодеры и, в частности, речевые декодеры, осуществленные в соответствии с AMR-WB+стандартом.
В предпочтительном варианте осуществления изобретения контроллер функции окна 504 включает детектор кратковременных помех 700 для обнаружения кратковременных помех в звуковом сигнале, где контроллер функции окна формируется для переключения от функции окна для длинного блока на функцию окна для короткого блока, когда обнаруживается кратковременная помеха, а гармоническая или речевая характеристика не обнаруживается анализатором звукового сигнала. Однако, когда обнаруживается кратковременная помеха и гармоническая или речевая характеристика найдена анализатором звукового сигнала, тогда контроллер функции окна 504 не переключается на функцию окна для короткого блока. Выход функции окна, указывающий на длинное окно, когда не получена никакая кратковременная помеха, и на короткое окно, когда кратковременная помеха обнаружена детектором кратковременных помех, как показано цифрами 701 и 702 на фиг.7а. Эта нормальная процедура, выполненная хорошо известным кодирующим устройством ААС, проиллюстрирована на фиг.Id. В положении голосового начала детектор кратковременных помех 700 обнаруживает увеличение энергии от одного фрейма к следующему фрейму и, поэтому, переключается с длинного окна 710 на короткие окна 712. Чтобы приспособить этот переключатель, используется длинное окно 714 остановки, которое имеет первую часть перекрывания 714а, часть несовмещения имен 714b, вторую более короткую часть перекрывания 714 с и нулевую часть, простирающуюся между пунктом 716 и пунктом на оси времени, обозначенную 2048 образцами. Тогда, выполняется последовательность коротких окон, обозначенная цифрой 712, которая, затем, заканчивается длинным стартовым окном 718, имеющим длинную часть перекрывания 718а, перекрывающуюся со следующим длинным окном, не проиллюстрированным на фиг.7d. Кроме того, это окно имеет часть несовмещения имен 718b, короткую часть перекрывания 718 с и нулевую часть, простирающуюся между пунктом 720 на оси времени и пунктом 2048. Эта часть является нулевой частью.
Обычно, переключение на короткие окна полезно для того, чтобы избежать предэха, которое возникнет во фрейме перед кратковременной помехой в положении голосового начала или, обычно, в начале речи или начале сигнала, имеющего гармонический контекст.
Обычно, сигнал имеет гармонический контекст, когда следящий фильтр высоты тона решает, что сигнал имеет основной тон. Альтернативно, существуют другие меры гармоничности, такие как мера тональности выше определенного минимального уровня, вместе с тем свойством, что заметные пики находятся в гармоническом отношении друг к другу. Существует множество дальнейших способов определения, является ли сигнал гармоническим или нет.
Неудобство коротких окон состоит в том, что частотное разрешение уменьшается, так как возрастает временное разрешение. Для высококачественного кодирования речи и, в частности, вокализованных речевых частей или частей, имеющих сильный гармонический контекст, желательно хорошее частотное разрешение. Поэтому, анализатор звукового сигнала, проиллюстрированный цифрами 516, 520 или 520а, 520b, предназначен для подачи дезактивированного сигнала на детектор кратковременных помех 700 так, чтобы предотвратить переключение на короткие окна, когда обнаружен вокализованный речевой сегмент или сегмент сигнала, имеющий сильную гармоническую характеристику,. Это гарантирует то, что для кодирования таких частей сигнала будет поддерживаться высокочастотное разрешение. Это - компромисс между предэхом с одной стороны и кодированием с высоким качеством и высоким разрешением основного тона для речевого сигнала или основного тона для гармонического неречевого сигнала с другой стороны. Было установлено, что большее беспокойство возникает, когда гармонический спектр не точно кодирован по сравнению с любым предэхом, которое может возникнуть. Чтобы, кроме того, уменьшить предэхо, желательна обработка TNS для такой ситуации, которая будет обсуждена в связи с Фиг.8а и 8b.
В альтернативном осуществлении, проиллюстрированном на фиг.7b, анализатор звукового сигнала включает детектор вокализованного/невокализованного и/или речевого/неречевого сигнала 520а, 520b. Однако, детектор кратковременных помех 700, включенный в контроллер функции окна, не полностью активизирован/дезактивирован, как на фиг.7а, но порог, включенный в детектор кратковременных помех, регулируется посредством использования порогового управляющего сигнала 704. В этом осуществлении детектор кратковременных помех 700 формируется для определения количественной характеристики звукового сигнала и для сравнения количественной характеристики с регулируемым порогом, где обнаружена кратковременная помеха, когда количественная характеристика имеет предварительно определенное отношение к регулируемому порогу.
Количественная характеристика может быть числом, указывающим увеличение энергии от одного блока к следующему блоку, а порог может быть определенным увеличением пороговой энергии. Когда увеличение энергии от одного блока к следующему выше, чем увеличение пороговой энергии, то обнаруживается кратковременная помеха, так, чтобы, в этом случае предварительно определенное отношение было отношением «больше чем». В других осуществлениях предварительно определенное отношение может также быть отношением «ниже, чем», например, когда количественная характеристика инвертированное увеличение энергии. В осуществлении фиг.7b регулируемый порог регулируется так, чтобы вероятность переключения на функцию окна для короткого блока уменьшалась, когда анализатор звукового сигнала обнаружил гармоническую или речевую характеристику. В осуществлении увеличения энергии пороговый управляющий сигнал 704 приводит к увеличению порога таким образом, что переключение на короткие блоки происходит только, когда увеличение энергии от одного блока к следующему является особенно высоким увеличением энергии.
В альтернативном осуществлении выходной сигнал из детектора вокализованного/невокализованного сигнала 520а или детектора речевого/неречевого сигнала 520b может также использоваться, чтобы управлять контроллером функции окна 504 таким образом, что вместо переключения на короткий блок в начале речи, выполнялось переключение на функцию окна, которая длиннее, чем функция окна для короткого блока. Эта функция окна гарантирует более высокое частотное разрешение, чем короткая функция окна, но имеет более короткую длину, чем длинная функция окна так, чтобы получился хороший компромисс между предэхом с одной стороны, и достаточным частотным разрешение с другой стороны. В альтернативном осуществлении переключение на функцию окна, имеющую меньшее перекрывание, может быть выполнено, как обозначено заштрихованной линией 706 на фиг.7е. Функция окна 706 имеет длину 2048 образцов, как длинный блок, но это окно имеет нулевую часть 708 и часть несовмещения имен 710, чтобы была получена короткая длина перекрывания 712 от окна 706 до соответствующего окна 707. Функция окна 707, снова, имеет нулевую часть в зоне слева 712 и часть несовмещения имен в зоне справа 712 по аналогии с функцией окна 710. Это осуществление низкого перекрывания, эффективно приводит к более короткой продолжительности для уменьшения предэха благодаря нулевой части окна 706 и 707, но с другой стороны имеет достаточную длину благодаря части перекрывания 714 и части несовмещения имен 710, чтобы сохранялось достаточно эффективное частотное разрешение.
В предпочтительном выполнении MDCT, осуществленном кодирующим устройством ААС, сохранение определенного перекрывания обеспечивает дополнительное преимущество, состоящее в том, что на стороне декодера может выполняться перекрывающая/добавляющая обработка, что означает, что выполняется своего рода взаимное ослабление между блоками. Это позволяет эффективно избежать блокирующих артефактов. Дополнительно, это свойство перекрывания/добавления обеспечивает характерное взаимное ослабление без увеличения скорости передачи информации (битрейта), то есть, получается критически выбранное взаимное ослабление. В окнах стандартной длины или коротких окнах часть перекрывания является 50%-ым перекрыванием, как обозначено перекрывающейся частью 714. В осуществлении, где функция окна - длиной 2048 образцов, часть перекрывания составляет 50%, то есть, 1024 образца. Функция окна, имеющая более короткое перекрывание, которое должно использоваться для эффективного управления окнами речевого начала или начала гармонического сигнала, - предпочтительно меньше, чем 50% и, на фиг.7е осуществления, только 128 образцов, что составляет 1/16 полной длины окна. Предпочтительно, используются части перекрывания между 1/4 и 1/32 полной длины функции окна.
Фиг.7 с иллюстрирует это осуществление, в котором примерный детектор вокализованного/невокализованного сигнала 520а управляет селектором формы окна, включенным в контроллер функции окна 504, чтобы или выбрать форму окна с коротким перекрыванием, как обозначено цифрой 749, или форму окна с длинным перекрыванием, как обозначено цифрой 750. Выбор одной из двух форм выполняется, когда детектор вокализованного/невокализованного сигнала 500а выпускает обнаруженный вокализованный сигнал 751, где звуковой сигнал, используемый для анализа, может быть звуковым сигналом на входе 500 на фиг.5а, или предварительно обработанным звуковым сигналом, таким как звуковой сигнал с деформацией по времени или звуковой сигнал, который подвергался воздействию любых других функций предварительной обработки. Предпочтительно, селектор формы окна 504 на фиг.7 с, который включен в контроллер функции окна 504 на фиг.5а, использует только сигнал 751, когда детектор кратковременных помех, включенный в контроллер функции окна, обнаружит кратковременную помеху и скомандует переключение от функции длинного окна на функцию короткого окна, как обсуждается в связи с фиг.7а.
Предпочтительно, осуществление переключения функции окна объединяется с осуществлением временного ограничения шума, обсужденного в связи с Фиг.8а и 8b. Однако, TNS (временное ограничение шума) осуществление может также выполняться без осуществления коммутации блока.
Свойство спектрального уплотнения энергии MDCT с деформацией по времени, также влияет на инструмент временного ограничения шума (TNS), так как эффективность TNS имеет тенденцию уменьшаться для фреймов с деформацией по времени, особенно, для некоторых речевых сигналов. Однако желательно активизировать TNS, например, чтобы уменьшить предэхо на голосовом начале или сдвиге (сравни, приспособление коммутации блока), где не желательна никакая коммутация блока, но, тем не менее, временная огибающая речевого сигнала показывает быстрые изменения. Как правило, кодер использует некую меру, чтобы увидеть, продуктивно ли применение TNS для определенного фрейма, например, прогнозируемая эффективность фильтра TNS при применении к спектру. Таким образом, предпочтителен переменный порог усиления TNS, который ниже для сегментов с активным контуром основного тона, что обеспечивает то, чтобы TNS чаще был активным для таких критических частей сигнала, как вокализованное начало. Как и для других инструментов, это может также дополняться при принятии во внимание классификации сигнала.
В соответствии с этим осуществлением кодер для генерирования звукового сигнала включает регулируемое устройство для деформации по времени, такое как устройство для деформации по времени 506 для осуществления деформации по времени звукового сигнала, чтобы получить звуковой сигнал с деформацией по времени. Дополнительно, предоставляется преобразователь времени/частоты 508 для преобразования, по крайней мере, части звукового сигнала с деформацией по времени в спектральное представление. Преобразователь времени/частоты 508 предпочтительно выполняет MDCT преобразование, как известно из кодирующего устройства ААС, но преобразователь времени/частоты может также выполнять любое другое преобразование, такое как DCT, DST, DFT, FFT или MDST преобразование, или может включать гребенку фильтров, такую как гребенка фильтров QMF.
Дополнительно кодер включает стадию временного ограничения шума 510 для выполнения фильтрования с предсказанием по частоте спектрального представления в соответствии с командой управления временным ограничением шума, где фильтрование с предсказанием не выполняется, когда не существует команда управления временным ограничением шума.
Дополнительно кодер включает контроллер временного ограничения шума для генерирования команды управления временным ограничением шума, основанной на спектральном представлении.
В частности, контроллер временного ограничения шума формируется таким образом, чтобы увеличить вероятность выполнения фильтрования с предсказанием по частоте, когда спектральное представление основывается на временном сигнале с деформацией по времени, или чтобы уменьшить вероятность выполнения фильтрования с предсказанием по частоте, когда спектральное представление не основывается на временном сигнале с деформацией по времени. Специфические особенности контроллера временного ограничения шума обсуждаются в связи с фиг.8.
Кодер дополнительно включает процессор для дальнейшей обработки результата фильтрования с предсказанием по частоте, чтобы получить кодированный сигнал. В осуществлении процессор включает стадию квантизатора кодирующего устройства 512, проиллюстрированную на фиг.5а.
Стадия TNS 510, проиллюстрированная на фиг.5а, подробно иллюстрируется на фиг.8. Предпочтительно, чтобы контроллер временного ограничения шума, включенный в стадию 510, включал вычислитель эффективности TNS 800, впоследствии соединенный с решающим блоком TNS 802 и генератором порогового управляющего сигнала 804. В зависимости от сигнала из анализатора деформации по времени 516 или классификатора сигнала 520 или обоих, генератор порогового управляющего сигнала 804 подает пороговый управляющий сигнал 806 решающему блоку TNS. Решающий блок TNS 802 имеет регулируемый порог, который увеличивается или уменьшается в соответствии с пороговым управляющим сигналом 806. В этом осуществлении порог в решающем блоке TNS 802 является порогом эффективности TNS. Когда фактически вычисленная эффективность TNS, предоставленная блоком 800, превышает порог, тогда команда управления TNS требует обработки TNS, в качестве выхода, в то время как в другом случае, когда эффективность TNS ниже порога эффективности TNS, никакая команда TNS не производится, или производится сигнал, который выдает команду о том, что обработка TNS не пригодна и не должна выполняться в этом конкретном временном фрейме.
Вычислитель эффективности TNS 800 получает, в качестве входа, спектральное представление, полученное из сигнала с деформацией по времени. Как правило, сигнал с деформацией по времени будет иметь более низкую эффективность TNS, но с другой стороны, TNS обработка, благодаря свойству временного ограничения шума во временной области, выгодна в определенной ситуации, когда имеется вокализованный/гармонический сигнал, который подвергался процедуре деформации по времени. С другой стороны, обработка TNS не полезна в ситуациях, где эффективность TNS низка, что означает, что остаточный сигнал TNS на линии 510b имеет ту же самую или более высокую энергию, что и сигнал перед TNS стадией 510. В ситуации, когда энергия остаточного сигнала TNS на линии 510d немного ниже, чем энергия перед TNS стадией 510, обработка TNS также может не иметь преимущества, так как сокращение битов из-за несколько меньшей энергии в сигнале, который эффективно используется стадией квантизатора/энтропии кодирующего устройства 512, меньше, чем увеличение битов, введенное посредством необходимой передачи дополнительной информации о TNS, обозначенной цифрой 510а на фиг.5а. Хотя одно осуществление автоматически включает TNS обработку для всех фреймов, в которых сигнал с деформацией по времени вводится обозначенным информацией основного тона из блока 516 или информацией классификатора сигнала из блока 520, предпочтительное осуществление также сохраняет возможность дезактивировать обработку TNS, но только, когда эффективность действительно низка или, по крайней мере, ниже, чем в обычном случае, когда не обрабатывается никакой гармонический/речевой сигнал.
Фиг.8b иллюстрирует выполнение, где три различных установки порога осуществляются генератором порогового управляющего сигнала 804/TNS решающим блоком 802. Когда контур основного тона не существует, и когда классификатор сигнала указывает на невокализованную речь или на отсутствие речи вообще, тогда порог принятия решения TNS устанавливается, чтобы быть в нормальном состоянии, требующем относительно высокой эффективности TNS для активизирования TNS. Однако, когда обнаружен контур основного тона, а классификатор сигнала указывает на отсутствие речи, или детектор вокализованного/невокализованного сигнала обнаруживает невокализованную речь, тогда порог принятия решения TNS устанавливается на более низкий уровень, что означает, что, даже когда сравнительно низкая эффективность TNS вычисляется блоком 800 на фиг.8а, тем не менее обработка TNS активизируется.
В ситуации, когда обнаружен активный контур основного тона, и в котором найдена вокализованная речь, тогда порог принятия решения TNS устанавливается на то же самое низкое значение или устанавливается в еще более низкое положение так, что даже маленькое усиление TNS является достаточным для активизирования обработки TNS.
В осуществлении контроллер эффективности TNS 800 формируется таким образом, чтобы оценить выигрыш в скорости передачи информации (битрейте) или качестве, когда звуковой сигнал подвергается фильтрованию с предсказанием по частоте. Решающий блок TNS 802 сравнивает предполагаемую эффективность с порогом принятия решения, и управляющая информация TNS в пользу фильтрования с предсказанием производится блоком 802, когда предполагаемая эффективность находится в предварительно определенном отношении к порогу принятия решения, где это предварительно определенное отношение может быть отношением «больше чем», но может также быть отношением «ниже чем» для инвертированной эффективности TNS, например. Как уже было обсуждено, контроллер временного ограничения шума, кроме того, формируется для изменения порога принятия решения, предпочтительно используя пороговый управляющий сигнал 806 так, чтобы для той же самой предполагаемой эффективности активизировалось фильтрование с предсказанием, когда спектральное представление основывается на звуковом сигнале с деформацией по времени, и не активизировалось, когда спектральное представление не основывается на звуковом сигнале с деформацией по времени.
Обычно, вокализованная речь покажет контур основного тона, а невокализованная речь, такая как фрикативные звуки или шипящие звуки, не будет показывать контур основного тона. Однако, существуют неречевые сигналы с сильным гармоническим контекстом и, поэтому, имеющие контур основного тона, хотя детектор речи не обнаруживает речь. Дополнительно, существует определенная речь на музыке или музыка на речевых сигналах, которые определяются анализатором звуковых сигналов (516 на фиг.5а, например), как имеющие гармонический контекст, но которые не обнаруживаются классификатором сигналов 520 в качестве речевого сигнала. В такой ситуации могут также применяться все операции по обработке вокализованных речевых сигналов, что также даст эффект.
Впоследствии, описывается дальнейшее предпочтительное осуществление данного изобретения относительно звукового кодирующего устройства для кодирования звукового сигнала. Этот кодер особенно полезен в контексте расширения полосы пропускания, но также полезен при применении в кодирующем устройстве, где кодер устанавливается, чтобы закодировать определенное число линий для выполнения операции ограничения определенной полосы пропускания /низкочастотной фильтрации. В случае применения невременной деформации, это ограничение полосы пропускания посредством выбора некоторого предварительно определенного числа линий приведет к постоянной полосе пропускания, так как частота выборки звукового сигнала является постоянной. Однако, в ситуациях, когда выполняется обработка посредством деформации по времени, такая как обработка блоком 506 на фиг.5а, кодер, основывающийся на фиксированном числе линий, приведет к переменной полосе пропускания, вводящей сильные артефакты, заметные не только для обученных слушателей, но также и для необученных слушателей.
Основной кодер ААС обычно кодирует фиксированное число линий, устанавливая все другие выше максимальной линии на нуль. В случае без деформации это приводит к низкочастотному эффекту с постоянной критической частотой и, поэтому, постоянной полосой пропускания декодированного сигнала ААС. В случае деформации по времени полоса пропускания изменяется из-за изменения локальной частоты выборки, функции локального контура деформации по времени, приводя к слышимым артефактам. Артефакты могут быть уменьшены посредством адаптивного выбора числа линий - как функции локального контура деформации по времени и его полученной средней скорости выборки -подлежащих кодированию в основном кодирующем устройстве в зависимости от локальной частоты выборки, таким образом, что постоянная средняя полоса пропускания получается после повторной деформации по времени в декодере для всех фреймов. Дополнительная выгода - экономия битов в кодирующем устройстве.
Кодер в соответствии с этим осуществлением включает устройство для деформации по времени 506 для деформации по времени звукового сигнала посредством использования переменного свойства деформации по времени. Дополнительно, предоставляется преобразователь времени/частоты 508 для преобразования звукового сигнала с деформацией по времени в спектральное представление, имеющее ряд спектральных коэффициентов. Дополнительно, используется процессор для обработки переменного числа спектральных коэффициентов для генерирования кодированного звукового сигнала, где этот процессор, включающий блок квантизатора/кодирующего устройства 512 на фиг.5а, формируется для установки ряда спектральных коэффициентов для фрейма звукового сигнала, основанного на свойстве деформации по времени для фрейма, так чтобы изменение полосы пропускания, представленное обработанным числом коэффициентов частоты, уменьшалось или устранялось от фрейма к фрейму.
Процессор, осуществленный блоком 512, может включать контроллер 1000 для регулирования числа линий, где результат работы контроллера 1000 состоит в том, что, относительно ряда линий, установленных для случая, когда временной фрейм кодируется без любой деформации по времени, определенное переменное число линий добавляется или отбрасывается в верхнем конце спектра. В зависимости от выполнения, контроллер 1000 может получать информацию о контуре основного тона в определенном фрейме 1001 и/или локальную среднюю частоту выборки в фрейме, обозначенную цифрой 1002.
На Фиг.9 (а) - 9 (е) рисунки справа иллюстрируют определенную ситуацию полосы пропускания для определенных контуров основного тона во фрейме, где контуры основного тона во фрейме проиллюстрированы на соответствующих рисунках слева для деформации по времени и проиллюстрированы на рисунках посередине после деформации по времени, где получается, в основном, постоянная характеристика основного тона. Цель функциональной возможности деформации по времени состоит в том, что после деформации по времени характеристика основного тона является настолько постоянной, насколько возможно.
Полоса пропускания 900 иллюстрирует полосу пропускания, которая получается, когда берется определенное число линий, произведенное преобразователем времени/частоты 508 или, произведенное стадией TNS 510 фиг.5а, и когда операция деформации по времени не выполняется, то есть, когда устройство для деформации по времени 506 было дезактивировано, как обозначено штрихованной линией 507. Однако, когда получен непостоянный контур деформации по времени, и когда этот контур деформации по времени приводится к более высокому основному тону, что вызывает увеличение скорости выборки (фиг.9 (а), (с)), полоса пропускания спектра уменьшается относительно нормальной ситуации с невременной деформацией. Это означает, что число линий, подлежащее передаче для этого фрейма, должно быть увеличено, чтобы уравновесить эту потерю полосы пропускания.
Альтернативно, приведение основного тона к более низкому постоянному основному тону, проиллюстрированное на фиг.9 (b) или фиг.9 (d), приводит к уменьшению скорости выборки. Уменьшение скорости выборки приводит к увеличению полосы пропускания спектра этого фрейма относительно линейного масштаба, и это увеличение полосы пропускания должны быть уравновешено посредством удаления или отбрасывания определенного числа линий относительно числа линий для нормальной ситуации с невременной деформацией.
Фиг.9 (е) иллюстрирует особый случай, в котором контур основного тона приводится к среднему уровню так, чтобы средняя частота выборки в пределах фрейма была, вместо выполнения операции деформации по времени, той же самой, что и частота выборки без любой деформации по времени. Таким образом, полоса пропускания сигнала неповреждена, и может быть непосредственно обработано число линий, которое будет использовано для нормального случая без деформации по времени, хотя операция деформации по времени должна быть выполнена. Из фиг.9 становится ясно, что выполнение операции деформации по времени не обязательно влияет на полосу пропускания, но влияние на полосу пропускания зависит от контура основного тона и способа выполнения деформации по времени в фрейме. Поэтому предпочтительно использовать, в качестве контрольного значения, локальную или среднюю скорость выборки. Определение этой локальной скорости выборки проиллюстрировано на фиг.11. Верхняя часть фиг.11 иллюстрирует временную часть с эквидистантными значениями выборки. Фрейм включает, например, семь значений выборки, обозначенных Tn на верхнем графике. Нижний график показывает результат операции деформации по времени, в которой, в целом, имело место увеличение скорости выборки. Это означает, что продолжительность фрейма с деформацией по времени меньше, чем продолжительность фрейма с невременной деформацией. Однако, так как продолжительность фрейма с деформацией по времени, который будет введен в преобразователь времени/частоты, фиксируется, случай увеличения скорости выборки является причиной того, что дополнительная часть временного сигнала, не принадлежащего фрейму, обозначенному ТП;, вводится в фрейм с деформацией по времени, как обозначено линиями 1100. Таким образом, фрейм с деформацией по времени покрывает временную часть звукового сигнала, обозначенного Tlin, который длиннее, чем время Tn. Ввиду этого, эффективное расстояние между двумя частотными линиями или частотная полоса пропускания одиночной линии в линейной области (которая является обратным значением разрешения) уменьшилась, и число линий Nn, установленное для случая невременной деформации, будучи умноженным на уменьшенное частотное расстояние, приводит к меньшей полосе пропускания, то есть, к уменьшению полосы пропускания.
Другой случай, не проиллюстрированный на фиг.11, где уменьшение скорости выборки выполняется устройством для деформации по времени, эффективная продолжительность фрейма в области с деформацией по времени меньше, чем продолжительность области с невременной деформацией, так что частотная полоса пропускания одиночной линии или расстояние между двумя частотными линиями увеличилось. Теперь, умножение этого увеличенного Δf на число NN линий для нормального случая приведет к увеличенной полосе пропускания из-за уменьшенного частотного разрешения/увеличенного частотного расстояния между двумя смежными частотными коэффициентами.
Фиг.11 дополнительно иллюстрирует, как вычисляется средняя скорость выборки fSR. В заключение, определяется временное расстояние между двумя образцами с деформацией по времени, и берется обратное значение, которое определяется, чтобы быть локальной скоростью выборки между двумя образцами с деформацией по времени. Такое значение может быть вычислено между каждой парой смежных образцов, и может быть вычислено значение среднего арифметического, и это значение, в конечном итоге, приводит к средней локальной скорости выборки, которая предпочтительно используется для введения в контроллер 1000 на фиг.10а.
Фиг.10b иллюстрирует график, показывающий, сколько линий должно быть добавлено или отброшено в зависимости от локальной частоты выборки, где частота выборки для случая без деформации вместе с числом линий NN для случая с невременной деформацией определяет предполагаемую полосу пропускания, которая должна сохраняться постоянной насколько возможно для последовательности фреймов с деформацией по времени или для последовательности фреймов с деформацией по времени и с невременной деформацией.
Фиг.12b иллюстрирует зависимость между различными параметрами, обсужденными в связи с фиг.9, фиг.10b и фиг.11. В основном, когда скорость выборки, то есть, средняя скорость выборки fSR, уменьшается относительно случая с невременной деформацией, линии должны быть удалены, в то время как линии должны быть добавлены, когда скорость выборки увеличивается относительно нормальной скорости выборки fN для случая с невременной деформацией, так что изменения полосы пропускания от фрейма к фрейму уменьшаются или, предпочтительно, даже устраняются насколько возможно.
Полоса пропускания, заканчивающаяся числом линий NN, и скорость выборки fN предпочтительно определяют переходную частоту 1200 для звукового кодирующего устройства, которое, в дополнение к главному звуковому кодирующему устройству источника, имеет кодер расширения полосы пропускания (Кодер BWE). Как известно в этой области, кодер расширения полосы пропускания кодирует только спектр с высокой скоростью передачи информации до переходной частоты и кодирует спектр высокой полосы, то есть, между переходной частотой 1200 и частотой fMAX,с низкой скоростью передачи информации, где эта низкая скорость передачи информации обычно еще ниже, чем 1/10 или меньше скорости передачи информации, требуемой для низкой полосы между частотой 0 и переходной частотой 1200. Фиг.12а, кроме того, иллюстрирует полосу пропускания BWAAC непосредственно звукового кодирующего устройства ААС, которая намного выше, чем переходная частота. Следовательно, линии могут не только отбрасываться, но могут также добавляться. Кроме того, изменение полосы пропускания для постоянного числа линий в зависимости от локальной скорости выборки fSR также проиллюстрировано. Предпочтительно, чтобы число линий, подлежащее добавлению или удалению, относительно числа линий для нормального случая, устанавливалось так, чтобы каждый фрейм кодированных данных ААС имел максимальную частоту, как можно более близкую к переходной частоте 1200. Таким образом, можно избежать любых спектральных дыр благодаря сокращению полосы пропускания с одной стороны, или служебных сигналов посредством передачи информации о частоте выше переходной частоты в нижней полосе кодированного фрейма. Это, с одной стороны, улучшает качество декодированного звукового сигнала и, с другой стороны, уменьшает скорость передачи информации (битрейт).
Фактическое добавление линий относительно установленного числа линий или удаления линий относительно установленного числа линий может выполняться до квантования линий, то есть, на входе блока 512, или может выполняться вслед за квантованием, или может, в зависимости от определенного кода энтропии, также выполняться вслед за энтропийным кодированием.
Кроме того, предпочтительно довести изменения полосы пропускания до минимального уровня и даже устранить изменения полосы пропускания, но, в других осуществлениях, сокращение изменений полосы пропускания посредством определения числа линий в зависимости от характеристики деформации по времени даже улучшает звуковое качество и уменьшает необходимую скорость передачи информации (битрейт) по сравнению с ситуацией, когда применяется постоянное число линий, независимо от конкретной характеристики деформации по времени.
Хотя было описано несколько аспектов в контексте инструментальных средств, ясно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствуют стадии способа или характеристике стадии способа. Аналогично, аспекты, описанные в контексте стадии способа также, представляют описание соответствующего блока или элемента или характеристики соответствующего аппарата.
В зависимости от определенных требований выполнения осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении.
Выполнение может быть осуществлено при использовании цифрового носителя данных, например дискета, DVD, компакт-диск, ROM (постоянное запоминающее устройство, ПЗУ), PROM (программируемое постоянное запоминающее устройство, ППЗУ), EPROM (стираемое программируемое постоянное запоминающее устройство СППЗУ), EEPROM (электрически стираемое программируемое постоянное запоминающее устройство, ЭСППЗУ), или флэш-память, имеющего сохраненные на нем электронно-считываемые управляющие сигналы, которые взаимодействуют (или могут взаимодействовать) с программируемой вычислительной системой таким образом, что реализуется соответствующий способ. Некоторые осуществления согласно изобретению включают носитель информации, имеющий электронно-считываемые управляющие сигналы, которые способны взаимодействовать с программируемой вычислительной системой таким образом, что реализуется один из описанных здесь способов. В общем, осуществления данного изобретения могут быть выполнены как компьютерный программный продукт с управляющей программой; управляющая программа служит для выполнения одного из способов, когда компьютерный программный продукт запущен на компьютере. Управляющая программа может, например, сохраняться на машиночитаемом носителе. Другие осуществления включают компьютерную программу для реализации одного из описанных здесь способов, сохраненную на машиночитаемом носителе. Другими словами, осуществлением изобретательного способа, поэтому, является компьютерная программа, имеющая управляющую программу для реализации одного из описанных здесь способов, когда компьютерная программа запущена на компьютере. Дальнейшим осуществлением заявляемых способов, поэтому, является носитель информации (или цифровой носитель информации, или считываемая компьютером информация), включающий записанную на нем компьютерную программу для реализации одного из описанных здесь способов. Дальнейшим осуществлением заявляемого способа, поэтому, является поток данных или последовательность сигналов, представляющих компьютерную программу для реализации одного из описанных здесь способов. Поток данных или последовательность сигналов могут, например, формироваться, чтобы быть переданными через канал передачи данных, например, через Интернет. Дальнейшее осуществление включает средство обработки, например, компьютер, или программируемое логическое устройство, формируемое для или приспособленное для выполнения одного из описанных здесь способов. Дальнейшее осуществление включает компьютер с установленной на нем компьютерной программой для реализации одного из описанных здесь способов. В некоторых осуществлениях программируемое логическое устройство (например, программируемая логическая матрица) может использоваться для выполнения некоторых или всех функциональных возможностей описанных здесь способов. В некоторых осуществлениях программируемая логическая матрица может взаимодействовать с микропроцессором, чтобы выполнить один из описанных здесь способов.
Изобретение относится к средствам кодирования/декодирования звукового сигнала. Технический результат заключается в повышении эффективности кодирования/декодирования звукового сигнала, имеющего гармоническое или речевое содержание. Кодер включает контроллер функции окна (504), устройство организации окна (502), устройство для деформации по времени (506) с заключительной функциональной возможностью проверки качества, преобразователь времени/частоты (508), стадию TNS (510) или квантизатор кодирующего устройства (512), контроллер функции окна (504), устройство для деформации по времени (506), стадию TNS (510) или дополнительный анализатор шумового наполнения (524) регулируются результатами анализа сигнала, полученными анализатором деформации по времени (516) или классификатором сигнала (520). Декодер применяет операцию шумового наполнения, используя оценку отрегулированного шумового наполнения в зависимости от гармонической или речевой характеристики звукового сигнала. 6 н. и 2 з.п. ф-лы, 37 ил.
1. Кодер для кодирования звукового сигнала, включающий устройство для деформации по времени (506); преобразователь времени/частоты (508) для выполнения преобразования времени/частоты звукового сигнала с деформацией времени в спектральное представление; квантизатор (512) для квантования звуковых значений, вычислитель шумового наполнения (524) для оценки меры энергии звуковых значений, квантованных до нуля, для временного фрейма звукового сигнала для получения меры шумового наполнения; анализатор звукового сигнала (516, 520) для анализа того, имеет ли временной фрейм звукового сигнала гармоническую или речевую характеристику; манипулятор (602) для регулирования меры шумового наполнения в зависимости от гармонической или речевой характеристики звукового сигнала для получения регулируемой меры шумового наполнения; и выходной интерфейс (522) для генерирования кодированного сигнала для передачи или хранения; кодированный сигнал включает регулируемую меру шумового наполнения (530); причем квантизатор сконфигурирован с возможностью квантования до нуля звуковых значений ниже порога квантизации, а манипулятор (602) сконфигурирован с возможностью применения нормального уровня шума, когда сигнал не имеет гармонической или речевой характеристики и когда не применяется деформация времени, и чтобы устанавливать уровень шумового наполнения ниже, чем в нормальном случае, когда обнаружен контур основного тона, который указывает на гармонический контекст, и деформация времени активна.
2. Кодер по п.1, отличающийся тем, что анализатор звукового сигнала (516, 520) включает триггер основного тона для генерирования индикатора основного тона, когда основной тон найден во временном фрейме звукового сигнала, а манипулятор (602) формируется с возможностью уменьшения меры шумового наполнения, когда найден основной тон.
3. Кодер по п.1, отличающийся тем, что анализатор звукового сигнала включает детектор вокализованного/невокализованного сигнала (520) для обнаружения того, является ли по крайней мере часть временного фрейма вокализованной; манипулятор (602) формируется с возможностью уменьшения меры шумового наполнения или для обнуления меры шумового наполнения, когда обнаружено, что часть является вокализованной; манипулятор (602) формируется, чтобы не регулировать или регулировать меру шумового наполнения в меньшей степени, когда обнаружено то, что часть является невокализованной.
4. Декодер для декодирования кодированного звукового сигнала, включающий входной интерфейс (539) для обработки кодированного звукового сигнала для получения меры шумового наполнения (543) и кодированных звуковых данных (546); декодер/реквантизатор (547, 550) для генерирования повторно квантованных данных; анализатор сигнала (600) для извлечения информации о том, имеет ли временной фрейм звуковых данных гармоническую или речевую характеристику; и шумовой наполнитель (552) для генерирования звуковых данных шумового наполнения, процессор (556, 558, 560) для обработки повторно квантованных данных и звуковых данных шумового наполнения для получения декодированного звукового сигнала (564), шумовой наполнитель (552) сконфигурирован с возможностью генерирования данных шумового наполнения в ответ на меру шумового наполнения и гармоническую или речевую характеристику звуковых данных, а кодированный звуковой сигнал включает данные (542, 541), указывающие, имеет ли временной фрейм звуковых данных гармоническую или речевую характеристику; анализатор сигналов (600) формируется для анализа кодированного звукового сигнала для извлечения данных, указывающих, имеет ли временной фрейм звуковых данных гармоническую или речевую характеристику; данные являются признаком того, что временная часть подвергалась обработке деформацией времени; процессор включает устройство для устранения деформации по времени (558) для устранения деформации по времени звукового сигнала, полученного из данных шумового наполнения и повторно квантованных данных.
5. Способ кодирования звукового сигнала, включающий деформацию времени (506) звукового сигнала; выполнение (508) преобразования времени/частоты звукового сигнала с деформацией времени в спектральное представление; квантование (512) звуковых значений, где значения ниже порога квантизации квантуются до нуля; оценку (524) меры энергии звуковых значений, квантованных до нуля, для временного фрейма звукового сигнала; анализ (516, 520) того, имеет ли временной фрейм звукового сигнала гармоническую или речевую характеристику; регулирование (602) меры шумового наполнения в зависимости от гармонической или речевой характеристики звукового сигнала для получения регулированной меры шумового наполнения таким образом, чтобы нормальный уровень шума применялся, когда сигнал не имеет гармонической или речевой характеристики и когда не применяется деформация времени, и таким образом, чтобы уровень шумового наполнения устанавливался ниже, чем в нормальном случае, когда обнаружен контур основного тона, который указывает на гармонический контекст, и деформация времени активна; и генерирование (522) кодированного сигнала для передачи или хранения; кодированный сигнал включает регулированную меру шумового наполнения (530).
6. Способ декодирования кодированного звукового сигнала, где кодированный звуковой сигнал включает данные (542, 541), указывающие, имеет ли временной фрейм звукового сигнала гармоническую или речевую характеристику, включающий обработку (539) кодированного звукового сигнала для получения меры шумового наполнения (543) и кодированных звуковых данных (546); анализ кодированного звукового сигнала для извлечения данных, указывающих, имеет ли временной фрейм звукового сигнала гармоническую или речевую характеристику, где данные являются признаком того, что временная часть подвергалась обработке деформацией времени; генерирование (547, 550) повторно квантованных данных; извлечение (600) информации о том, имеет ли временной фрейм звуковых данных гармоническую или речевую характеристику; и генерирование (552) звуковых данных шумового наполнения в ответ на меру шумового наполнения и гармонической или речевой характеристики звуковых данных; и обработку (556, 558, 560) повторно квантованных данных и звуковых данных шумового наполнения для получения декодированного звукового сигнала (564), где обработка включает деформацию времени звукового сигнала, полученного из данных шумового наполнения и повторно квантованных данных.
7. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу с программным кодом, способным выполнять осуществления способа по п.5, когда компьютерная программа выполняется компьютером или процессором.
8. Машиночитаемый носитель, содержащий сохраненную на нем компьютерную программу с программным кодом, способным выполнять осуществления способа по п.6, когда компьютерная программа выполняется компьютером или процессором.
US 2007100607 A1, 03.05.2007 | |||
WO 2006113921 A1, 26.10.2006 | |||
US 2003233234 A1, 18.12.2003 | |||
СПОСОБ МОДИФИКАЦИИ СИГНАЛА ДЛЯ ЭФФЕКТИВНОГО КОДИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ | 2002 |
|
RU2302665C2 |
RU 2003137216 A, 10.06.2005. |
Авторы
Даты
2017-06-08—Публикация
2009-07-06—Подача