УРОВЕНЬ ТЕХНИКИ
Область техники
Настоящее изобретение имеет отношение к устройству обработки аудиосигналов для эффективного кодирования и декодирования аудиосигналов разных видов и способу для этого.
Описание предшествующего уровня техники
Обычно технологии кодирования традиционно разделяются на два типа, такие как перцепционные звуковые кодеры и кодеры на основе линейного предсказания. Например, перцепционный звуковой кодер, оптимизированный для музыки, применяет схему сокращения размера информации в процессе кодирования с использованием маскирующего принципа, который представляет собой психоакустическую теорию человеческого слуха, на оси частот. Напротив, кодер на основе линейного предсказания, оптимизированный для речи, применяет схему сокращения размера информации посредством моделирования звуков речи на оси времени.
Однако каждая из описанных выше технологий хорошо проявляет себя для каждого оптимизированного аудиосигнала (например, речевого сигнала, музыкального сигнала), но им не удается обеспечивать адекватную работу для аудиосигнала, сформированного из сложного смешения различных типов аудиосигналов или речевого и музыкального сигналов вместе.
Сущность изобретения
В соответствии с этим, настоящее изобретение направлено на устройство и способ обработки аудиосигнала, которые в значительной степени устраняют одну или более проблем вследствие ограничений и недостатков предшествующего уровня техники.
Цель настоящего изобретения состоит в том, чтобы обеспечить устройство и способ обработки аудиосигнала, посредством которых различные типы аудиосигналов могут быть сжаты и/или воссозданы с более высокой эффективностью.
Другая цель настоящего изобретения состоит в том, чтобы обеспечить схему кодирования аудиосигнала, подходящую для характеристик аудиосигнала.
Дополнительные отличительные признаки и преимущества изобретения будут изложены в последующем описании и частично будут понятны из описания или могут быть изучены посредством применения изобретения на практике. Цели и другие преимущества изобретения могут быть осуществлены и достигнуты посредством структуры, подробно показанной в описании и формуле изобретения, а также в приложенных чертежах.
Чтобы достигнуть этих и других преимуществ, и в соответствии с целью настоящего изобретения, воплощенного и подробно описанного здесь, способ обработки аудиосигнала в соответствии с настоящим изобретением включает в себя этапы, на которых идентифицируют, является ли тип кодирования аудиосигнала типом кодирования музыкального сигнала, с использованием первой информации типа, если тип кодирования аудиосигнала не является типом кодирования музыкального сигнала, идентифицируют, является ли тип кодирования аудиосигнала типом кодирования речевого сигнала или типом кодирования смешанного сигнала, с использованием второй информации типа, если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, извлекают спектральные данные и коэффициент линейного предсказания из аудиосигнала, формируют разностный сигнал для линейного предсказания посредством выполнения обратного частотного преобразования над спектральными данными, восстанавливают аудиосигнал посредством выполнения кодирования с линейным предсказанием над коэффициентом линейного предсказания и разностным сигналом и восстанавливают сигнал высокочастотной области с использованием базового сигнала расширения, соответствующего частичной области воссозданного аудиосигнала, и информации расширения диапазона.
Далее, для достижения этих и других преимуществ и в соответствии с целью настоящего изобретения устройство для обработки аудиосигнала включает в себя демультиплексор, извлекающий первую информацию типа и вторую информацию типа из битового потока, блок определения декодера, идентифицирующий, является ли тип кодирования аудиосигнала типом кодирования музыкального сигнала, с использованием первой информации типа, если тип кодирования аудиосигнала не является типом кодирования музыкального сигнала, декодер идентифицирует, является ли тип кодирования аудиосигнала типом кодирования речевого сигнала или типом кодирования смешанного сигнала, с использованием второй информации типа, затем декодер определяет схему декодирования, блок извлечения информации, извлекающий из аудиосигнала спектральные данные и коэффициент линейного предсказания, если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, блок частотного преобразования, формирующий разностный сигнал для линейного предсказания посредством выполнения обратного частотного преобразования над спектральными данными, модуль линейного предсказания, воссоздающий аудиосигнал посредством выполнения кодирования с линейным предсказанием над коэффициентом линейного предсказания и разностным сигналом, и блок декодирования с расширением диапазона частот, воссоздающий сигнал высокочастотной области с использованием базового сигнала расширения, соответствующего частичной области воссозданного аудиосигнала, и информации расширения диапазона.
Предпочтительно аудиосигнал включает в себя множество субкадров, и вторая информация типа существует для каждого субкадра.
Предпочтительно диапазон частот сигнала высокочастотной области не равен диапазону частот базового сигнала расширения. Предпочтительно информация расширения диапазона включает в себя по меньшей мере один элемент множества, состоящего из диапазона фильтра, применяемого к воссозданному аудиосигналу, начальной частоты базового сигнала расширения и конечной частоты базового сигнала расширения.
Предпочтительно, если тип кодирования аудиосигнала является типом кодирования музыкального сигнала, аудиосигнал содержит сигнал частотной области, если тип кодирования аудиосигнала является типом кодирования речевого сигнала, аудиосигнал содержит сигнал временной области, и если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, аудиосигнал содержит сигнал области модифицированного дискретного косинусного преобразования (MDCT).
Предпочтительно извлечение коэффициента линейного предсказания включает в себя извлечение режима коэффициента линейного предсказания и извлечение коэффициента линейного предсказания, имеющего переменный размер в битах, соответствующий извлеченному режиму коэффициента линейного предсказания.
Следует понимать, что как предшествующее общее описание, так и последующее подробное описание являются иллюстративными и разъяснительными и предназначены для обеспечения дополнительного объяснения заявленного изобретения.
Краткое описание чертежей
Сопроводительные чертежи, которые приложены для обеспечения дополнительного понимания изобретения и включены в состав этого описания и являются ее частью, иллюстрируют варианты воплощения изобретения и вместе с описанием служат для разъяснения принципа изобретения.
На чертежах:
Фиг.1 - блок-схема устройства кодирования аудиосигнала в соответствии с одним вариантом воплощения настоящего изобретения;
Фиг.2 - блок-схема устройства кодирования аудиосигнала согласно другому варианту воплощения настоящего изобретения;
Фиг.3 - подробная блок-схема блока 150 предварительной обработки диапазона частот в соответствии с вариантом воплощения настоящего изобретения;
Фиг.4 - блок-схема последовательности операций для способа кодирования аудиосигнала с использованием информации типа аудиосигнала в соответствии с одним вариантом воплощения настоящего изобретения;
Фиг.5 - диаграмма для примера структуры битового потока аудиосигнала, закодированного в соответствии с настоящим изобретением;
Фиг.6 - блок-схема устройства декодирования аудиосигнала в соответствии с одним вариантом воплощения настоящего изобретения;
Фиг.7 - блок-схема устройства декодирования аудиосигнала в соответствии с другим вариантом воплощения настоящего изобретения;
Фиг.8 - подробная блок-схема блока 250 расширения диапазона частот в соответствии с вариантом воплощения настоящего изобретения;
Фиг.9 - диаграмма для конфигурации продукта, реализованного с помощью устройства декодирования аудиосигнала в соответствии с вариантом воплощения настоящего изобретения;
Фиг.10 - диаграмма для примера отношений между продуктами, реализованными с помощью устройства декодирования аудиосигнала в соответствии с вариантом воплощения настоящего изобретения; и
Фиг.11 - блок-схема последовательности операций для способа декодирования аудиосигнала в соответствии с одним вариантом воплощения настоящего изобретения.
Подробное описание изобретения
Теперь будет дано подробное описание предпочтительных вариантов воплощения настоящего изобретения, примеры которых проиллюстрированы на сопроводительных чертежах.
В настоящем изобретении терминология может быть истолкована следующим образом. Прежде всего, "кодирование" может иногда рассматриваться как кодирование или декодирование. "Информация" - термин, который включает в себя значения, параметры, коэффициенты, элементы и т.п.
В настоящем изобретении "аудиосигнал" концептуально отличается от видеосигнала. Аудиосигнал обозначает все сигналы, которые при воспроизведении могут быть идентифицированы на слух. Таким образом, аудиосигналы могут быть подразделены на речевой сигнал, главным образом относящийся к звукам человеческой речи или сигналу, подобному речевому сигналу (в дальнейшем называемый "речевым сигналом"), музыкальный сигнал, главным образом относящийся к механическому шуму и звуку или сигналу, подобному сигналу музыки (в дальнейшем называемый "музыкальным сигналом"), и "смешанный сигнал", сформированный из смешения речевого сигнала и музыкального сигнала. Настоящее изобретение направлено на обеспечение устройства для кодирования/декодирования упомянутых выше трех типов аудиосигналов и способ для этого, чтобы кодировать/декодировать аудиосигналы, подходящие для характеристик аудиосигналов. Однако аудиосигналы классифицированы только для описания настоящего изобретения. И очевидно, что техническая идея настоящего изобретения тождественно применима к случаю классификации аудиосигнала в соответствии с другим способом.
Фиг.1 является блок-схемой устройства кодирования аудиосигнала в соответствии с одним предпочтительным вариантом воплощения настоящего изобретения. В частности, фиг.1 показывает процесс классификации введенного аудиосигнала в соответствии с предварительно заданным эталоном и затем кодирования классифицированного аудиосигнала посредством выбора схемы кодирования аудиосигнала, подходящей для соответствующего аудиосигнала.
Как показано на фиг.1, устройство кодирования аудиосигнала в соответствии с одним предпочтительным вариантом воплощения настоящего изобретения включает в себя блок 100 классификации сигнала (датчик звуковой активности), классифицирующий введенный аудиосигнал по типам речевого сигнала, музыкального сигнала или смешанного музыкально-речевого сигнала, посредством анализа характеристики введенного аудиосигнала, блок 110 моделирования с линейным предсказанием, кодирующий речевой сигнал, определенный модулем 100 классификации сигнала, блок 120 психоакустической модели, кодирующий музыкальный сигнал, и блок 130 моделирования смешанного сигнала, кодирующий смешанный музыкально-речевой сигнал. Устройство кодирования аудиосигнала может дополнительно включать в себя блок 101 переключения, выполненный с возможностью выбирать схему кодирования, подходящую для аудиосигнала, классифицированного блоком 200 классификации сигнала. Блок 101 переключения управляется с использованием информации типа кодирования аудиосигнала (например, первой информации типа и второй информации типа, которые будут подробно описаны со ссылкой на фиг.2 и фиг.3), сформированной блоком 100 классификации сигнала в качестве управляющего сигнала. Кроме того, блок 130 моделирования смешанного сигнала может включать в себя блок 131 линейного предсказания, блок 132 извлечения разностного сигнала и блок 133 частотного преобразования. В последующем описании подробно описываются соответствующие элементы, показанные на фиг.1.
Прежде всего, блок 100 классификации сигнала классифицирует тип введенного аудиосигнала и затем формирует управляющий сигнал для выбора схемы кодирования аудиосигнала, подходящей для классифицированного типа. Например, блок 100 классификации сигнала определяет, является ли введенный аудиосигнал музыкальным сигналом, речевым сигналом или смешанным музыкально-речевым сигналом. Таким образом, тип введенного аудиосигнала определяется для выбора оптимальной схемы кодирования для каждого типа аудиосигнала из схем кодирования аудиосигнала, которые будут описаны позже. Таким образом, блок 100 классификации сигнала выполняет процесс анализа введенного аудиосигнала и затем выбора схемы кодирования аудиосигнала, оптимальной для введенного аудиосигнала. Например, блок 100 классификации сигнала формирует информацию типа кодирования аудиосигнала посредством анализа введенного аудиосигнала. Сформированная информация типа кодирования аудиосигнала используется в качестве основания для выбора схемы кодирования. Сформированная информация типа кодирования аудиосигнала в виде битового потока включается в окончательно закодированный аудиосигнал и затем передается устройству декодирования или приема. Кроме того, способ и устройство декодирования, использующие информацию типа кодирования аудиосигнала, будут подробно описаны со ссылкой на фиг.6-8 и фиг.11. Кроме того, информация типа кодирования аудиосигнала, формированная посредством блока 100 классификации сигнала, может включать в себя, например, первую информацию типа и вторую информацию типа. Это будет описано со ссылкой на фиг.4 и фиг.5.
Блок 100 классификации сигнала определяет тип аудиосигнала в соответствии с характеристикой введенного аудиосигнала. Например, если введенный аудиосигнал представляет собой сигнал, который лучше моделируется с помощью заданного коэффициента и разностного сигнала, блок 100 классификации сигнала определяет введенный аудиосигнал как речевой сигнал. Если введенный аудиосигнал представляет собой сигнал, который плохо моделируется с помощью заданного коэффициента и разностного сигнала, блок 100 классификации сигнала определяет введенный аудиосигнал как музыкальный сигнал. Если трудно определить введенный аудиосигнал как речевой сигнал или музыкальный сигнал, блок 100 классификации сигнала определяет введенный аудиосигнал как смешанный сигнал. Относительно подробного эталона определения, например, когда сигнал моделируется с помощью заданного коэффициента и разностного сигнала, если отношение уровней энергии разностного сигнала к сигналу меньше предварительно заданного эталонного значения, сигнал может быть определен как хороший для моделирования сигнал. Поэтому сигнал может быть определен как речевой сигнал. Если сигнал имеет высокую избыточность по оси времени, сигнал может быть определен как хороший для моделирования посредством линейного предсказания для предсказания текущего сигнала на основе прошедшего сигнала. Поэтому сигнал может быть определен как музыкальный сигнал.
Если введенный сигнал в соответствии с этим эталоном определяется как речевой сигнал, можно закодировать входной сигнал с использованием речевого кодера, оптимизированного для речевого сигнала. В соответствии с настоящим вариантом воплощения блок 110 моделирования с линейным предсказанием используется для схемы кодирования, подходящей для речевого сигнала. Блок 110 моделирования с линейным предсказанием обеспечивается с помощью различных схем. Например, к блоку 110 моделирования с линейным предсказанием применимы схема кодирования ACELP (линейное предсказание с возбуждением по алгебраической кодовой книге), схема кодирования AMR (адаптивная многоскоростная) или схема кодирования AMR-WB (широкополосная адаптивная многоскоростная).
Блок 110 моделирования с линейным предсказанием может выполнять кодирование с линейным предсказанием над введенным аудиосигналом по кадрам. Блок 110 моделирования с линейным предсказанием извлекает коэффициент предсказания для каждого кадра и затем выполняет квантование извлеченного коэффициента предсказания. Обычно широко используется, например, схема извлечения коэффициента предсказания с использованием "алгоритма Левинсона-Дарбина".
В частности, например, если введенный аудиосигнал построен с помощью множества кадров, или имеется множество суперкадров, каждый из которых имеет единичный элемент в виде множества кадров, то возможно определить, следует ли применять схему моделирования с линейным предсказанием для каждого кадра. Можно применять разные схемы моделирования с линейным предсказанием для каждого единичного кадра, имеющегося в одном суперкадре, или для каждого субкадра единичного кадра. Это может повысить эффективность кодирования аудиосигнала.
Между тем, если введенный аудиосигнал классифицирован блоком 100 классификации сигнала как музыкальный сигнал, возможно закодировать входной сигнал с использованием музыкального кодера, оптимизированного для музыкального сигнала. Блок 120 психоакустического моделирования выполнен на основе перцепционного звукового кодера.
Между тем, если введенный аудиосигнал классифицирован блоком 100 классификации сигнала как смешанный сигнал, в котором вместе смешаны речь и музыка, возможно закодировать входной сигнал с использованием кодера, оптимизированного для смешанного сигнала. В соответствии с настоящим вариантом воплощения блок 120 моделирования смешанного сигнала используется для схемы кодирования, подходящей для смешанного сигнала.
Блок 130 моделирования смешанного сигнала может выполнять кодирование в соответствии со смешанной схемой, полученной в результате смешивания вместе упомянутой схемы моделирования с линейным предсказанием и схемы психоакустического моделирования. В частности, блок 130 моделирования смешанного сигнала выполняет кодирование с линейным предсказанием над входным сигналом, получает разностный сигнал, величина которого представляет собой разность между результирующим сигналом линейного предсказания и исходным сигналом, и затем кодирует разностный сигнал посредством схемы кодирования с частотным преобразованием.
Например, фиг.1 показывает пример, в котором блок 130 моделирования смешанного сигнала включает в себя блок 131 линейного предсказания, блок 132 извлечения разностного сигнала и блок 133 частотного преобразования.
Блок 131 линейного предсказания выполняет анализ линейного предсказания над введенным сигналом и затем извлекает коэффициент линейного предсказания, указывающий характеристику сигнала. Блок 132 извлечения разностного сигнала извлекает из введенного сигнала разностный сигнал, из которого удален компонент избыточности с использованием извлеченного коэффициента линейного предсказания. Поскольку из разностного сигнала удалена избыточность, соответствующий разностный сигнал может иметь тип белого шума. Блок 131 линейного предсказания может выполнить кодирование с линейным предсказанием над введенным аудиосигналом по кадрам. Блок 131 линейного предсказания извлекает коэффициент предсказания для каждого кадра и затем выполняет квантование извлеченного коэффициента предсказания. Например, в частности, если введенный аудиосигнал построен с помощью множества кадров, или имеется множество суперкадров, каждый из которых имеет единичный элемент в виде множества кадров, возможно определить, следует ли применять схему моделирования с линейным предсказанием для каждого кадра. Можно применять разные схемы моделирования с линейным предсказанием для каждого единичного кадра, имеющегося в одном суперкадре, или для каждого субкадра единичного кадра. Это может повысить эффективность кодирования аудиосигнала.
Блок 132 извлечения разностного сигнала принимает ввод остающегося сигнала, закодированного блоком 131 линейного предсказания, и ввод первоначального аудиосигнала, прошедшего через блок 100 классификации сигнала, и затем извлекает разностный сигнал, который представляет собой разностный сигнал между двумя введенными сигналами.
Блок 133 частотного преобразования вычисляет маскирующий порог или отношение сигнала к маске (SMR) посредством выполнения преобразования в частотной области над введенным разностным сигналом с помощью преобразования MDCT и т.п. и затем кодирует разностный сигнал. Блок 133 частотного преобразования может закодировать сигнал разностной звуковой тенденции с использованием TCX, а также психоакустического моделирования.
Поскольку блок 110 моделирования с линейным предсказанием и блок 131 линейного предсказания извлекают отраженный коэффициент линейного предсказания звуковой характеристики (LPC) посредством выполнения линейного предсказания и анализа над введенным аудиосигналом, можно рассмотреть схему использования переменных битов для способа передачи данных коэффициента LPC.
Например, режим данных коэффициента LPC определяется посредством рассмотрения схемы кодирования для каждого кадра. Тогда можно назначить коэффициент линейного предсказания, имеющий переменное количество битов для каждого режима данных коэффициента LPC. С помощью этого сокращается общее количество битов аудиосигнала. Поэтому кодирование и декодирование аудиосигнала могут быть выполнены более эффективно.
Между тем, как упомянуто в предшествующем описании, блок 100 классификации сигнала формирует информацию типа кодирования аудиосигнала посредством классификации аудиосигнала на один из двух типов информации типа кодирования, дает возможность включить информацию типа кодирования в битовый поток и затем передает битовый поток устройству декодирования. В последующем описании информация типа кодирования аудиосигнала в соответствии с настоящим изобретением подробно описывается со ссылкой на фиг.4 и фиг.5.
Фиг.4 является блок-схемой последовательности операций для способа кодирования аудиосигнала с использованием информации типа аудиосигнала в соответствии с одним предпочтительным вариантом воплощения настоящего изобретения.
Прежде всего, настоящее изобретение предлагает способ представления типа аудиосигнала посредством использования первой информации типа и второй информации типа для классификации. Например, если введенный аудиосигнал определяется как музыкальный сигнал [этап S100], блок 100 классификации сигнала заставляет блок 101 переключения выбрать схему кодирования (например, схему психоакустического моделирования, показанную на фиг.2), подходящую для музыкального сигнала, и затем дает возможность выполнить кодирование в соответствии с выбранной схемой кодирования [этап S110]. После этого соответствующая управляющая информация формируется как первая информация типа и затем передается включенной в закодированный битовый поток аудиосигнала. Таким образом, первая информация типа играет роль идентифицирующей информации кодирования, указывающей, что тип кодирования аудиосигнала представляет собой тип кодирования музыкального сигнала. Первая информация типа используется при декодировании аудиосигнала в соответствии со способом и устройством декодирования.
Кроме того, если введенный сигнал определяется как речевой сигнал [этап S120], блок 100 классификации сигнала заставляет блок 101 переключения выбрать схему кодирования (например, моделирование с линейным предсказанием, показанное на фиг.1), подходящую для речевого сигнала, и затем дает возможность выполнить кодирование в соответствии с выбранной схемой кодирования [этап S130]. Если введенный сигнал определяется как смешанный сигнал [этап S120], блок 100 классификации сигнала заставляет блок 101 переключения выбрать схему кодирования (например, моделирование смешанного сигнала, показанное на фиг.2), подходящую для смешанного сигнала, и затем дает возможность выполнить кодирование в соответствии с выбранной схемой кодирования [этап S140]. Затем управляющая информация, указывающая либо тип кодирования речевого сигнала, либо тип кодирования смешанного сигнала, формируется во вторую информацию типа. Вторая информация типа затем передается включенной в закодированный битовый поток аудиосигнала вместе с первой информацией типа. Таким образом, вторая информация типа играет роль идентифицирующей информации кодирования, указывающей, что тип кодирования аудиосигнала представляет собой либо тип кодирования речевого сигнала, либо тип кодирования смешанного сигнала. Вторая информация типа используется вместе с упомянутой выше первой информацией типа при декодировании аудиосигнала в соответствии со способом и устройством декодирования.
Что касается первой информации типа и второй информации типа, имеется два случая в соответствии с характеристиками введенных аудиосигналов. А именно, должна быть передана либо только первая информация типа, либо и первая информация типа, и вторая информация типа. Например, если тип введенного аудиосигнала представляет собой тип кодирования музыкального сигнала, передается только первая информация типа, включенная в битовый поток, а вторая информация типа не может быть включена в битовый поток [фиг.5(a)]. Вторая информация типа включается в битовый поток, только если тип кодирования введенного аудиосигнала представляет собой тип кодирования речевого сигнала или тип кодирования смешанного сигнала. Таким образом, можно предотвратить излишнее количество битов для представления типа кодирования аудиосигнала.
Хотя пример настоящего изобретения показывает, что первая информация типа указывает наличие или отсутствие музыкального сигнала, он является лишь иллюстративным. Очевидно, что первая информация типа пригодна для использования в качестве информации, указывающей тип кодирования речевого сигнала или тип кодирования смешанного сигнала. Таким образом, при использовании типа кодирования аудиосигнала, имеющего более высокую вероятность появления в соответствии со средой кодирования, к которой применяется настоящее изобретение, возможно сократить общее количество битов в битовом потоке.
Фиг.5 является схемой для примера структуры битового потока аудиосигнала, закодированного в соответствии с настоящим изобретением.
На фиг.5(a) введенный аудиосигнал соответствует музыкальному сигналу. В битовый поток включена только первая информация 301 типа, а вторая информация типа в него не включена. В битовый поток включены звуковые данные, закодированные посредством типа кодирования, соответствующего первой информации 301 типа (например, битовый поток 302 AAC).
На фиг.5(b) введенный аудиосигнал соответствует речевому сигналу. В битовый поток включена и первая информация 311 типа, и вторая информация 312 типа. В битовый поток включены звуковые данные, закодированные посредством типа кодирования, соответствующего второй информации 312 типа (например, битовый поток 313 AMR).
На фиг.5(c) введенный аудиосигнал соответствует смешанному сигналу. В битовый поток включена и первая информация 321 типа, и вторая информация 322 типа. В битовый поток включены звуковые данные, закодированные посредством типа кодирования, соответствующего второй информации 322 типа (например, битовый поток 323 TCX AAC).
Что касается этого описания, информация, включенная в битовый поток аудиосигнала, закодированный в соответствии с настоящим изобретением, иллюстративно показана на фиг.5(a)-(c). Очевидно, что в пределах объема настоящего изобретения возможны различные применения. Например, в настоящем изобретении примеры AMR и AAC взяты в качестве примеров схем кодирования посредством добавления информации для идентификации соответствующей схемы кодирования. Кроме того, могут применяться различные схемы кодирования, и информация для идентификации различных схем кодирования также доступна разным образом. Кроме того, настоящее изобретение, показанное на фиг.5(a)-(c), может быть применено к одному суперкадру, единичному кадру и субкадру. А именно, настоящее изобретение может обеспечить информацию типа кодирования аудиосигнала для каждого предварительно заданного кадра.
В последующем описании со ссылкой на фиг.2 и фиг.3 описываются способ кодирования аудиосигнала и устройство, в которые включен процесс кодирования в соответствии с другим вариантом воплощения настоящего изобретения.
Прежде всего, в качестве процесса предварительной обработки входного сигнала с использованием блока 110 моделирования с линейным предсказанием, блока 120 психоакустического моделирования и блока 130 моделирования смешанного сигнала могут быть выполнены процесс расширения диапазона частот и процесс изменения количества каналов.
Например, в качестве одного варианта воплощения процесса расширения диапазона частот блок (150 на фиг.2) предварительной обработки диапазона частот может формировать высокочастотный компонент с использованием низкочастотного компонента. В качестве примера блока обработки диапазона частот можно использовать SBR (репликацию спектрального диапазона) и HBE (расширение высокочастотного диапазона), которые модифицированы и улучшены.
Кроме того, процесс изменения количества каналов уменьшает размер распределяемых битов посредством кодирования информации канала аудиосигнала во вспомогательную информацию. В качестве одного варианта воплощения процесса изменения количества каналов можно использовать блок (140 на фиг.2) формирования канала с низведением. Блок 140 формирования канала с низведением может применять систему параметрического стерео (PS). В этом случае система PS представляет собой схему кодирования стереосигнала и низводит стереосигнал в моносигнал. Блок 140 формирования канала с низведением формирует низведенный сигнал и пространственную информацию, относящуюся к воссозданию низведенного сигнала.
В соответствии с одним вариантом воплощения, если стереосигнал с частотой дискретизации 48 кГц передается с использованием SBR и PS (параметрического стерео), после SBR/PS остается моносигнал с частотой дискретизации 24 кГц. Этот моносигнал может быть закодирован кодером. Таким образом, выходной сигнал кодера имеет частоту дискретизации 24 кГц. Это справедливо потому, что высокочастотный компонент кодируется посредством SBR и субдискретизируется на половину от предыдущей частоты. Таким образом, входной сигнал становится моносигналом. Это справедливо потому, что стереоаудиосигнал извлекается как параметр через PS (параметрическое стерео) для замены на сумму моносигнала и дополнительного аудиосигнала.
Фиг.2 имеет отношение к процессу предварительной обработки кодирования и показывает устройство кодирования, включающее в себя описанный выше блок 140 формирования канала с низведением и описанный выше блок 150 предварительной обработки диапазона частот.
Операции блока 110 моделирования с линейным предсказанием, блока 120 психоакустического моделирования, блока 130 моделирования смешанного сигнала и блока 101 переключения, которые описаны со ссылкой на фиг.1, тождественно применяются к операциям соответствующих элементов, показанных на фиг.2. Кроме того, блок 100 классификации сигнала формирует управляющий сигнал для управления активацией блока 140 формирования канала с низведением и блока 150 предварительной обработки диапазона частот.
Другими словами, блок 100 классификации сигнала дополнительно формирует управляющий сигнал 100a для управления наличием или отсутствием активации блока 140 формирования канала с низведением и рабочим диапазоном блока 140 формирования канала с низведением и управляющий сигнал 100b для управления наличием или отсутствием активации блока 150 предварительной обработки диапазона частот и рабочим диапазоном блока 150 предварительной обработки диапазона частот.
Фиг.3 является подробной блок-схемой блока 150 предварительной обработки диапазона частот в соответствии с вариантом воплощения настоящего изобретения.
На фиг.3 блок 150 предварительной обработки диапазона частот для расширения диапазона включает в себя блок 151 удаления высокочастотной области, блок 152 формирования информации расширения и блок 153 вставки пространственной информации. Блок 151 удаления высокочастотной области принимает низведенный сигнал и пространственную информацию от блока 140 формирования канала с низведением. Блок 151 удаления высокочастотной области формирует низкочастотный низведенный сигнал, который получается в результате удаления высокочастотного сигнала, соответствующего высокочастотной области, из частотного сигнала низведенного сигнала, и информацию воссоздания, включающую в себя начальную частоту и конечную частоту базового сигнала расширения (описан позже).
В этом случае возможно определить информацию воссоздания на основе характеристики входного сигнала. Обычно начальная частота высокочастотного сигнала представляет собой частоту, составляющую половину всего диапазона частот. Напротив, в соответствии с характеристикой входного сигнала, информация воссоздания может определить начальную частоту как частоту выше или ниже половины всего диапазона частот. Например, если использование всего диапазона частот низведенного сигнала является более эффективным, чем кодирование низведенного сигнала посредством удаления высокочастотной области с использованием методики расширения диапазона частот, информация воссоздания может представлять начальную частоту как частоту, расположенную в конце диапазона частот. Возможно определить информацию воссоздания с использованием по меньшей мере одного элемента множества, состоящего из размера сигнала, длины сегмента, используемого для кодирования, и типа источника, чем настоящее изобретение не ограничивается.
Блок 152 формирования информации расширения формирует информацию расширения для определения базового сигнала расширения, который будет использоваться для декодирования, с использованием низведенного сигнала и пространственной информации, сформированных блоком 140 формирования канала с низведением. Базовый сигнал расширения представляет собой частотный сигнал низведенного сигнала, который используется для воссоздания высокочастотного сигнала низведенного сигнала, удаленного блоком 151 удаления высокочастотной области, при декодировании. Базовый сигнал расширения может являться низкочастотным сигналом или частичным сигналом низкочастотного сигнала. Например, можно разделить низкочастотный сигнал на область низкочастотного диапазона и область среднечастотного диапазона вновь посредством выполнения полосной фильтрации над низведенным сигналом. Посредством этого можно сформировать информацию расширения с использованием только области низкочастотного диапазона. Граничная частота для различения области низкочастотного диапазона и области среднечастотного диапазона может быть установлена равной случайному фиксированному значению. В качестве альтернативы, граничная частота может устанавливаться как переменная для каждого кадра в соответствии с информацией для анализа отношения речи и музыки для смешанного сигнала.
Информация расширения может соответствовать информации относительно низведенного сигнала, не удаленной блоком 151 удаления высокочастотной области, чем настоящее изобретение не ограничивается. Информация расширения может представлять собой информацию относительно частичного сигнала низведенного сигнала. Если информация расширения представляет собой информацию относительно частичного сигнала низведенного сигнала, она может включать в себя начальную частоту и конечную частоту базового сигнала расширения, и также может включать в себя диапазон фильтра, примененного к частотному сигналу низведенного сигнала.
Блок 153 вставки пространственной информации формирует новую пространственную информацию, полученную в результате вставки информации воссоздания, сформированной блоком 121 удаления высокочастотной области, и информации расширения, сформированной блоком 122 формирования информации расширения, в пространственную информацию, сформированную блоком 140 формирования канала с низведением.
Фиг.6 является блок-схемой устройства декодирования аудиосигнала в соответствии с одним вариантом воплощения настоящего изобретения.
На фиг.6 устройство декодирования может воссоздать сигнал из введенного битового потока посредством выполнения процесса, обратного по отношению к процессу кодирования, выполненному устройством кодирования, описанным со ссылкой на фиг.1. В частности, устройство декодирования может включать в себя демультиплексор 210, блок 220 определения декодера, блок 230 декодирования и блок 240 синтеза. Блок 230 декодирования может включать в себя множество блоков 231, 232 и 233 декодирования для выполнения декодирования в соответствии с разными схемами. Они находятся под управлением блока 220 определения декодера. В частности, блок 230 декодирования может включать в себя блок 231 декодирования с линейным предсказанием, блок 232 психоакустического декодирования и блок 233 декодирования смешанного сигнала. Кроме того, блок 233 декодирования смешанного сигнала может включать в себя блок 234 извлечения информации, блок 235 частотного преобразования и блок 236 линейного предсказания.
Демультиплексор 210 извлекает множество закодированных сигналов и вспомогательную информацию из введенного битового потока. В этом случае вспомогательная информация извлекается для воссоздания сигналов. Демультиплексор 210 извлекает вспомогательную информацию, которая включена в битовый поток, например первую информацию типа и вторую информацию типа (включенную только в случае необходимости), и затем передает извлеченную вспомогательную информацию блоку 220 определения декодера.
Блок 220 определения декодера определяет одну из схем декодирования в пределах блоков 231, 232 и 233 декодирования на основе принятой первой информации типа и принятой второй информации типа (включенной только в случае необходимости). Хотя блок 220 определения декодера может определить схему декодирования с использованием вспомогательной информации, извлеченной из битового потока, если вспомогательная информация не существует в битовом потоке, блок 220 определения декодера может определить схему посредством независимого способа определения. Этот способ определения может быть выполнен посредством использования отличительных признаков упомянутого выше блока (100 на фиг.1) классификации сигнала.
Декодер 231 с линейным предсказанием в блоке 230 декодирования может декодировать аудиосигнал речевого типа. Психоакустический декодер 233 декодирует аудиосигнал музыкального типа. И декодер 233 смешанного сигнала декодирует аудиосигнал смешанного музыкально-речевого типа. В частности, декодер 233 смешанного сигнала включает в себя блок 234 извлечения информации, извлекающий спектральные данные и коэффициент линейного предсказания из аудиосигнала, блок 235 частотного преобразования, формирующий разностный сигнал для линейного предсказания посредством обратного преобразования спектральных данных, и блок 236 линейного предсказания, формирующий выходной сигнал посредством выполнения кодирования с линейным предсказанием над коэффициентом линейного предсказания и разностным сигналом. Декодированные сигналы воссоздаются в аудиосигнал до кодирования посредством синтеза с помощью блока 240 синтеза.
Фиг.7 показывает устройство декодирования в соответствии с одним вариантом воплощения настоящего изобретения, которое имеет отношение к процессу постобработки закодированного аудиосигнала. Процесс постобработки обозначает процесс выполнения расширения диапазона частот и изменения количества каналов для декодированного аудиосигнала с использованием одного блока из множества, состоящего из блока 231 декодирования с линейным предсказанием, блока 232 психоакустического декодирования и блока 233 декодирования смешанного сигнала. Процесс постобработки может включать в себя блок 250 декодирования с расширением диапазона частот и блок 260 формирования многоканального сигнала, соответствующие описанному выше блоку 140 формирования канала с низведением и описанному выше блоку 150 предварительной обработки диапазона частот, показанным на фиг.2.
Фиг.8 показывает подробную конфигурацию блока 250 декодирования с расширением диапазона частот.
В процессе расширения диапазона частот демультиплексор 210 извлекает информацию расширения, сформированную блоком 150 предварительной обработки диапазона частот, из битового потока, и извлеченная информация расширения используется. Спектральные данные другого диапазона (например, высокочастотного диапазона) формируются из части спектральных данных или всех спектральных данных с использованием информации расширения, включенной в битовый поток аудиосигнала. В этом случае элементы, имеющие сходные характеристики, могут быть сгруппированы в блок при расширении диапазона частот. Это то же, что способ формирования области огибающей посредством группирования слотов (или отсчетов), имеющих общую огибающую (или характеристику огибающей).
На фиг.8 блок 250 декодирования с расширением диапазона частот включает в себя блок 251 определения базовой области расширения, блок 252 воссоздания высокочастотной области и блок 253 расширения диапазона частот.
Блок 251 определения области расширения определяет базовую область расширения в принятом низведенном сигнале на основе принятой информации расширения и затем в результате определения формирует базовый сигнал расширения. Низведенный сигнал может являться сигналом в частотной области, и базовый сигнал расширения обозначает частичную частотную область в низведенном сигнале частотной области. Таким образом, информация расширения используется для определения базового сигнала расширения и может включать в себя начальную и конечную частоты базового сигнала расширения или диапазон фильтра для фильтрации части низведенного сигнала.
Блок 252 воссоздания высокочастотной области принимает низведенный сигнал и информацию расширения, а также принимает базовый сигнал расширения. Затем блок 252 воссоздания высокочастотной области может воссоздать сигнал высокочастотной области низведенного сигнала, который был удален стороной кодирования, с использованием базового сигнала расширения и информации расширения. Сигнал высокочастотной области может быть не включен в низведенный сигнал, но может быть включен в исходный сигнал. Сигнал высокочастотной области может не являться целочисленным кратным низведенного сигнала, и диапазон частот сигнала высокочастотной области может не быть равным диапазону частот базового сигнала расширения.
В устройстве и способе расширения диапазона частот в соответствии с одним вариантом воплощения настоящего изобретения, даже если воссозданная высокочастотная область не является целочисленным кратным низведенного сигнала, возможно использовать методику расширения диапазона частот посредством использования сигнала, соответствующего частичной частотной области в низведенном сигнале в качестве базового сигнала расширения, вместо того, чтобы использовать весь низведенный сигнал, высокочастотная область которого была удалена стороной кодирования.
Блок 252 воссоздания высокочастотной области может дополнительно включать в себя блок формирования временного расширения низведенного сигнала (не показан) и блок частотного расширения сигнала (не показан). Блок формирования временного расширения низведенного сигнала может расширить низведенный сигнал во временной области посредством применения информации расширения к базовому сигналу расширения. Блок частотного расширения сигнала может расширить сигнал в частотной области низведенного сигнала посредством сокращения количества отсчетов временного расширения низведенного сигнала (увеличение шага дискретизации; прореживание).
Если блок 252 воссоздания высокочастотной области включает в себя только воссозданный сигнал высокочастотный области, но не включает в себя сигнал низкочастотной области, блок 253 расширения диапазона частот формирует расширенный низведенный сигнал, диапазон частот которого расширен, посредством объединения низведенного сигнала и сигнала высокочастотной области. Сигнал высокочастотной области может не являться целочисленным кратным низведенного сигнала. Таким образом, методика расширения диапазона частот в соответствии с одним вариантом воплощения настоящего изобретения пригодна для использования для увеличения дискретизации сигнала без кратного соотношения.
Расширенный низведенный сигнал, который наконец сформирован блоком 253 расширения диапазона частот, вводится в блок 260 формирования многоканального сигнала для преобразования в многоканальный сигнал.
В последующем описании со ссылкой на блок-схему последовательности операций, показанную на фиг.11, подробно описывается способ декодирования в соответствии с настоящим изобретением.
Прежде всего, демультиплексор 210 извлекает первую информацию типа и вторую информацию типа (в случае необходимости) из введенного битового потока. Кроме того, демультиплексор 210 извлекает информацию (например, информацию расширения диапазона, информацию воссоздания и т.д.) для процесса постобработки. Блок 220 определения декодера определяет тип кодирования принятого аудиосигнала с использованием первой информации типа извлеченной информации в первом месте [этап S1000]. Если тип кодирования принятого аудиосигнала является типом кодирования музыкального сигнала, используется блок 232 психоакустического декодирования в блоке 230 декодирования. Схема кодирования, примененная для каждого кадра или субкадра, определяется в соответствии с первой информацией типа. Затем выполняется декодирование посредством применения подходящей схемы кодирования [этап S1100].
Если определено, что тип кодирования принятого аудиосигнала не является типом кодирования музыкального сигнала, с использованием первой информации типа, блок 220 определения декодера определяет, является ли тип кодирования принятого аудиосигнала типом кодирования речевого сигнала или типом кодирования смешанного сигнала, с использованием второй информации типа [этап S1200].
Если вторая информация типа обозначает тип кодирования речевого сигнала, схема кодирования, примененная для каждого кадра или субкадра, определяется посредством использования идентифицирующей информации кодирования, извлеченной из битового потока с использованием блока 231 декодирования с линейным предсказанием в блоке 230 декодирования. Затем выполняется декодирование посредством применения подходящей схемы кодирования [этап S1300].
Если вторая информация типа обозначает тип кодирования смешанного сигнала, схема кодирования, примененная для каждого кадра или субкадра, определяется посредством использования идентифицирующей информации кодирования, извлеченной из битового потока с использованием блока 233 декодирования смешанного сигнала в блоке 230 декодирования. Затем выполняется декодирование посредством применения подходящей схемы кодирования [этап S1400].
Кроме того, в качестве постобработки процесса декодирования аудиосигнала с использованием блока 231 декодирования с линейным предсказанием, блока 232 психоакустического декодирования и блока 233 декодирования смешанного сигнала блок 250 декодирования с расширением диапазона частот может выполнить процесс расширения диапазона частот [этап S1500]. Процесс расширения диапазона частот выполняется таким образом, что блок 250 декодирования с расширением диапазона частот формирует спектральные данные другого диапазона (например, высокочастотного диапазона) из части спектральных данных или всех спектральных данных посредством декодирования информации расширения диапазона частот, извлеченной из битового потока аудиосигнала.
Затем блок 260 формирования многоканального сигнала может выполнить процесс формирования нескольких каналов для аудиосигнала с расширенным диапазоном частот, сформированного после процесса расширения диапазона [этап S1600].
Фиг.9 является схемой конфигурации продукта, реализованного с помощью устройства декодирования аудиосигнала в соответствии с вариантом воплощения настоящего изобретения. Фиг.10 является схемой для примера отношений между продуктами, реализованными с помощью устройства декодирования аудиосигнала в соответствии с вариантом воплощения настоящего изобретения.
На фиг.9 блок 910 проводной/беспроводной связи принимает битовый поток через систему проводной/беспроводной связи. В частности, блок 910 проводной/беспроводной связи может включать в себя по меньшей мере один элемент множества, состоящего из блока 910A проводной связи, блока 910B связи с помощью ИК (инфракрасного излучения), блока 910С связи с помощью технологии Bluetooth и блока 910D связи по беспроводной локальной сети (LAN).
Блок 920 аутентификации пользователя принимает ввод пользовательской информации и затем выполняет аутентификацию пользователя. Блок 920 аутентификации пользователя может включать в себя по меньшей мере один элемент множества, состоящего из блока 920A распознавания отпечатков пальцев, блока 920B распознавания радужной оболочки, блока 920С распознавания лица и блока 920D распознавания речи. Блок 920 аутентификации пользователя может выполнить аутентификацию пользователя посредством ввода информации отпечатков пальцев, или радужной оболочки, или контуров лица, или речи в блок 920A/920B/920C/920D распознавания, преобразования введенной информации в информацию пользователя и последующего определения, соответствует ли информация пользователя данным ранее зарегистрированного пользователя.
Блок 930 ввода является устройством ввода для предоставления пользователю возможности вводить различные виды команд. Блок 930 ввода может включать в себя по меньшей мере один элемент множества, состоящего из блока 930A клавиатуры, блока 930B сенсорной панели и блока 930C дистанционного управления, которыми настоящее изобретение не ограничивается. Блок 940 декодирования сигнала анализирует характеристики сигнала с использованием принятого битового потока и информации типа кадра.
Блок 940 декодирования сигнала может включать в себя устройство 945 декодирования аудиосигнала, которое может являться устройством декодирования аудиосигнала, описанным со ссылкой на фиг.6. Устройство 945 декодирования аудиосигнала определяет по меньшей мере одну из разных схем и выполняет декодирование с использованием по меньшей мере одного элемента множества, состоящего из блока декодирования с линейным предсказанием, блока психоакустического декодирования и блока декодирования смешанного сигнала. Блок 940 декодирования сигнала выдает выходной сигнал посредством декодирования сигнала с использованием блока декодирования, соответствующего характеристике сигнала.
Блок 950 управления принимает входные сигналы от устройств ввода и управляет всеми процессами блока 940 декодирования сигнала и блока 960 вывода. Блок 960 вывода представляет собой элемент для вывода выходного сигнала, сформированного блоком 940 декодирования сигнала, и т.п. Блок 960 вывода может включать в себя динамик 960A и дисплей 960B. Если выходной сигнал представляет собой аудиосигнал, он выдается на динамик. Если выходной сигнал представляет собой видеосигнал, он выдается на дисплей.
Фиг.10 показывает отношения между терминалом и сервером, которые соответствуют продуктам, показанным на фиг.9. На фиг.10(A) можно видеть, что первый терминал 1001 и второй терминал 1002 могут двунаправлено взаимодействовать друг с другом через блок проводной/беспроводной связи для обмена данными и/или битовыми потоками. На фиг.10(B) можно видеть, что сервер 1003 и первый терминал 1001 могут выполнять проводное/беспроводное взаимодействие.
Способ обработки аудиосигнала в соответствии с настоящим изобретением может быть реализован в программе, которая выполняется на компьютере и может быть сохранена на машиночитаемом носителе. Данные мультимедиа, имеющие структуру данных в соответствии с настоящим изобретением, также могут быть сохранены на машиночитаемом носителе. Машиночитаемые носители включают в себя все виды записывающих устройств, в которых хранятся данные, которые могут быть прочитаны компьютерной системой. Машиночитаемые носители включают в себя, например, постоянное запоминающее устройство (ПЗУ; ROM), оперативное запоминающее устройство (ОЗУ; RAM), компакт-диск, предназначенный только для чтения (CD-ROM), магнитные ленты, гибкие диски, оптические запоминающие устройства и т.п., а также включают в себя реализации в виде несущей (например, передачу через Интернет). Кроме того, битовый поток, сформированный посредством способа кодирования, хранится на машиночитаемом носителе или может быть передан через сеть проводной/беспроводной связи.
В соответствии с этим, настоящее изобретение обеспечивает следующие эффекты или преимущества.
Прежде всего, настоящее изобретение классифицирует аудиосигналы на разные типы и обеспечивает схему кодирования аудиосигнала, подходящую для характеристик классифицированных аудиосигналов, тем самым предоставляя возможность более эффективного сжатия и воссоздания аудиосигнала.
Хотя настоящее изобретение было описано и проиллюстрировано здесь со ссылкой на его предпочтительные варианты воплощения, специалисты в области техники поймут, что в него могут быть внесены различные модификации и изменения без отступления от сущности и объема изобретения. Таким образом, предполагается, что настоящее изобретение охватывает модификации и изменения этого изобретения, которые входят в объем приложенной формулы изобретения и ее эквивалентов.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБРАБОТКИ АУДИОСИГНАЛА | 2009 |
|
RU2455709C2 |
СПОСОБ И УСТРОЙСТВО ДЛЯ ОПРЕДЕЛЕНИЯ РЕЖИМА КОДИРОВАНИЯ, СПОСОБ И УСТРОЙСТВО ДЛЯ КОДИРОВАНИЯ АУДИОСИГНАЛОВ И СПОСОБ И УСТРОЙСТВО ДЛЯ ДЕКОДИРОВАНИЯ АУДИОСИГНАЛОВ | 2013 |
|
RU2630889C2 |
СПОСОБ И УСТРОЙСТВО ДЛЯ ОПРЕДЕЛЕНИЯ РЕЖИМА КОДИРОВАНИЯ, СПОСОБ И УСТРОЙСТВО ДЛЯ КОДИРОВАНИЯ АУДИОСИГНАЛОВ И СПОСОБ И УСТРОЙСТВО ДЛЯ ДЕКОДИРОВАНИЯ АУДИОСИГНАЛОВ | 2018 |
|
RU2680352C1 |
СПОСОБ И УСТРОЙСТВО ДЛЯ ОПРЕДЕЛЕНИЯ РЕЖИМА КОДИРОВАНИЯ, СПОСОБ И УСТРОЙСТВО ДЛЯ КОДИРОВАНИЯ АУДИОСИГНАЛОВ И СПОСОБ, И УСТРОЙСТВО ДЛЯ ДЕКОДИРОВАНИЯ АУДИОСИГНАЛОВ | 2013 |
|
RU2656681C1 |
АУДИОКОДЕР ДЛЯ КОДИРОВАНИЯ АУДИОСИГНАЛА, ИМЕЮЩЕГО ИМПУЛЬСОПОДОБНУЮ И СТАЦИОНАРНУЮ СОСТАВЛЯЮЩИЕ, СПОСОБЫ КОДИРОВАНИЯ, ДЕКОДЕР, СПОСОБ ДЕКОДИРОВАНИЯ И КОДИРОВАННЫЙ АУДИОСИГНАЛ | 2008 |
|
RU2439721C2 |
СПОСОБ И ДИСКРИМИНАТОР ДЛЯ КЛАССИФИКАЦИИ РАЗЛИЧНЫХ СЕГМЕНТОВ СИГНАЛА | 2009 |
|
RU2507609C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ СИГНАЛА | 2007 |
|
RU2414009C2 |
УСТРОЙСТВО И СПОСОБ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО ЗВУКОВОГО СИГНАЛА | 2009 |
|
RU2483366C2 |
СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ АУДИОСИГНАЛОВ НА ОСНОВЕ ОБЪЕКТОВ | 2007 |
|
RU2420026C2 |
СПОСОБ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ АУДИОСИГНАЛА И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2006 |
|
RU2376656C1 |
Изобретение относится к устройству обработки аудиосигналов для эффективного кодирования и декодирования аудиосигналов разных видов и способу для этого. Техническим результатом является повышение эффективности кодирования/декодирования аудиосигналов. Указанный результат достигается тем, что способ обработки аудиосигнала содержит этапы, на которых идентифицируют, является ли тип кодирования аудиосигнала типом кодирования музыкального сигнала, с использованием первой информации типа. Если тип кодирования аудиосигнала не является типом кодирования музыкального сигнала, идентифицируют, является ли тип кодирования аудиосигнала типом кодирования речевого сигнала или типом кодирования смешанного сигнала, с использованием второй информации типа. Если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, извлекают спектральные данные и коэффициент линейного предсказания из аудиосигнала, формируют разностный сигнал для линейного предсказания посредством выполнения обратного частотного преобразования над спектральными данными, восстанавливают аудиосигнал посредством выполнения кодирования с линейным предсказанием над коэффициентом линейного предсказания и разностным сигналом и восстанавливают сигнал высокочастотной области с использованием базового сигнала расширения, соответствующего частичной области воссозданного аудиосигнала, и информации расширения диапазона. 4 н. и 11 з.п. ф-лы, 11 ил.
1. В устройстве обработки аудиосигнала, включающем в себя декодер аудиосигнала, способ обработки аудиосигнала, содержащий этапы, на которых:
идентифицируют, является ли тип кодирования аудиосигнала типом кодирования музыкального сигнала, с использованием первой информации типа;
если тип кодирования аудиосигнала не является типом кодирования музыкального сигнала, идентифицируют, является ли тип кодирования аудиосигнала типом кодирования речевого сигнала или типом кодирования смешанного сигнала, с использованием второй информации типа;
если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, извлекают спектральные данные и коэффициент линейного предсказания из аудиосигнала;
формируют разностный сигнал для линейного предсказания посредством выполнения обратного частотного преобразования над спектральными данными;
восстанавливают аудиосигнал посредством выполнения кодирования с линейным предсказанием над коэффициентом линейного предсказания и разностным сигналом; и
восстанавливают высокочастотную область сигнала с использованием базового сигнала расширения, соответствующего частичной области воссозданного аудиосигнала, и информации расширения диапазона.
2. Способ по п.1, в котором аудиосигнал включает в себя множество субкадров, и в котором вторая информация типа существует для каждого субкадра.
3. Способ по п.1, в котором диапазон частот сигнала высокочастотной области не равен диапазону частот базового сигнала расширения.
4. Способ по п.1, в котором информация расширения диапазона включает в себя по меньшей мере один элемент множества, состоящего из диапазона фильтра, применяемого к воссозданному аудиосигналу, начальной частоты базового сигнала расширения и конечной частоты базового сигнала расширения.
5. Способ по п.1, в котором, если тип кодирования аудиосигнала является типом кодирования музыкального сигнала, аудиосигнал содержит сигнал частотной области, если тип кодирования аудиосигнала является типом кодирования речевого сигнала, аудиосигнал содержит сигнал временной области, и, если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, аудиосигнал содержит сигнал области модифицированного дискретного косинусного преобразования (MDCT).
6. Способ по п.1, в котором этап извлечения коэффициента линейного предсказания содержит этапы, на которых:
извлекают режим коэффициента линейного предсказания; и
извлекают коэффициент линейного предсказания, имеющий переменный размер в битах, соответствующий извлеченному режиму коэффициента линейного предсказания.
7. Устройство для обработки аудиосигнала, содержащее:
демультиплексор, извлекающий первую информацию типа и вторую информацию типа из битового потока;
блок определения декодера, идентифицирующий, является ли тип кодирования аудиосигнала типом кодирования музыкального сигнала, с использованием первой информации типа, если тип кодирования аудиосигнала не является типом кодирования музыкального сигнала, декодер идентифицирует, является ли тип кодирования аудиосигнала типом кодирования речевого сигнала или типом кодирования смешанного сигнала, с использованием второй информации типа, затем декодер определяет схему декодирования;
блок извлечения информации, извлекающий из аудиосигнала спектральные данные и коэффициент линейного предсказания, если тип кодирования аудиосигнала является типом кодирования смешанного сигнала;
блок частотного преобразования, формирующий разностный сигнал для линейного предсказания посредством выполнения обратного частотного преобразования над спектральными данными;
модуль линейного предсказания, воссоздающий аудиосигнал посредством выполнения кодирования с линейным предсказанием над коэффициентом линейного предсказания и разностным сигналом; и
блок декодирования с расширением диапазона частот, воссоздающий сигнал высокочастотной области с использованием базового сигнала расширения, соответствующего частичной области воссозданного аудиосигнала, и информации расширения диапазона.
8. Устройство по п.7, в котором аудиосигнал включает в себя множество субкадров, и в котором вторая информация типа существует для каждого субкадра.
9. Устройство по п.7, в котором диапазон частот сигнала высокочастотной области не равен диапазону частот базового сигнала расширения.
10. Устройство по п.7, в котором информация расширения диапазона включает в себя по меньшей мере один элемент множества, состоящего из диапазона фильтра, применяемого к воссозданному аудиосигналу, начальной частоты базового сигнала расширения и конечной частоты базового сигнала расширения.
11. Устройство по п.7, в котором, если тип кодирования аудиосигнала является типом кодирования музыкального сигнала, аудиосигнал содержит сигнал частотной области, если тип кодирования аудиосигнала является типом кодирования речевого сигнала, аудиосигнал содержит сигнал временной области, и, если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, аудиосигнал содержит сигнал области модифицированного дискретного косинусного преобразования (MDCT).
12. Устройство по п.7, в котором извлечение коэффициента линейного предсказания содержит:
извлечение режима коэффициента линейного предсказания; и
извлечение коэффициента линейного предсказания, имеющего переменный размер в битах, соответствующий извлеченному режиму коэффициента линейного предсказания.
13. В устройстве обработки аудиосигнала, включающем в себя кодер аудиосигнала для обработки аудиосигнала, способ обработки аудиосигнала содержит этапы, на которых:
удаляют сигнал высокочастотного диапазона и формируют информацию расширения диапазона для воссоздания сигнала высокочастотного диапазона;
определяют тип кодирования аудиосигнала;
если аудиосигнал является музыкальным сигналом, формируют первую информацию типа, указывающую, что аудиосигнал кодируется по типу кодирования музыкального сигнала;
если аудиосигнал не является музыкальным сигналом, формируют вторую информацию типа, указывающую, что аудиосигнал кодируется либо по типу кодирования речевого сигнала, либо по типу кодирования смешанного сигнала;
если тип кодирования аудиосигнала является типом кодирования смешанного сигнала, формируют коэффициент линейного предсказания посредством выполнения кодирования с линейным предсказанием над аудиосигналом;
формируют разностный сигнал для кодирования с линейным предсказанием;
формируют спектральный коэффициент посредством частотного преобразования разностного сигнала; и
формируют битовый поток аудиосигнала, включающий в себя первую информацию типа, вторую информацию типа, коэффициент линейного предсказания и разностный сигнал.
14. Устройство для обработки аудиосигнала, содержащее:
блок предварительной обработки диапазона частот, удаляющий сигнал высокочастотного диапазона, блок предварительной обработки диапазона частот, формирующий информацию расширения диапазона для воссоздания сигнала высокочастотного диапазона;
блок классификации сигнала, определяющий тип кодирования аудиосигнала, если аудиосигнал является музыкальным сигналом, блок классификации сигнала формирует первую информацию типа, указывающую, что аудиосигнал кодируется по типу кодирования музыкального сигнала, если аудиосигнал не является музыкальным сигналом, блок классификации сигнала формирует вторую информацию типа, указывающую, что аудиосигнал кодируется либо по типу кодирования речевого сигнала, либо по типу кодирования смешанного сигнала;
блок моделирования с линейным предсказанием, формирующий коэффициент линейного предсказания посредством выполнения кодирования с линейным предсказанием над аудиосигналом, если тип кодирования аудиосигнала является типом кодирования смешанного сигнала;
блок извлечения разностного сигнала, формирующий разностный сигнал для кодирования с линейным предсказанием; и
блок частотного преобразования, формирующий спектральный коэффициент посредством частотного преобразования разностного сигнала.
15. Устройство по п.14, в котором аудиосигнал включает в себя множество субкадров, и в котором вторая информация типа формируется для каждого субкадра.
Устройство для заточки сверл | 1985 |
|
SU1278184A1 |
US 6208962 B1, 27.03.2001 | |||
US 5778335 A, 07.07.1998 | |||
Аппарат для очищения воды при помощи химических реактивов | 1917 |
|
SU2A1 |
Струйная мельница | 1989 |
|
SU1688917A1 |
DE 69926821 T2, 06.12.2007 | |||
Способ очистки сточных вод целлюлозных производств от алюминия | 1980 |
|
SU939394A1 |
ОБНАРУЖЕНИЕ АКТИВНОСТИ СЛОЖНОГО СИГНАЛА ДЛЯ УСОВЕРШЕНСТВОВАННОЙ КЛАССИФИКАЦИИ РЕЧИ/ШУМА В АУДИОСИГНАЛЕ | 1999 |
|
RU2251750C2 |
Авторы
Даты
2012-05-27—Публикация
2009-03-04—Подача