ДЕКОДИРОВАНИЕ БИНАУРАЛЬНЫХ АУДИОСИГНАЛОВ Российский патент 2011 года по МПК H04S1/00 G10L19/00 

Описание патента на изобретение RU2409912C9

РОДСТВЕННЫЕ ЗАЯВКИ

Эта заявка ссылается на приоритет международной заявки PCT/FI 2006/050014, поданной 9.01.2006, заявки на патент США 11/334,041, поданной 17.01.2006, и заявки на патент США 11/354,211, поданной 13.02.2006.

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к пространственному аудиокодированию, более конкретно - к декодированию бинауральных аудиосигналов.

УРОВЕНЬ ТЕХНИКИ

При пространственном аудиокодировании двухканальный или мультиканальный аудиосигнал обрабатывается так, что аудиосигналы, воспроизводимые в разных аудиоканалах, отличаются один от другого, обеспечивая таким образом слушателям ощущение пространственного эффекта вокруг аудиоисточника. Пространственный эффект может быть создан прямой записью аудиосигнала в подходящие форматы для мультиканального или бинаурального воспроизведения, либо пространственный эффект может быть создан искусственно в любом двух- или мультиканальном аудиосигнале, что известно как создание пространственного эффекта.

Широко известно, что для наушников воспроизведение искусственного пространственного эффекта может быть выполнено с помощью фильтрации с использованием функции HRTF (Head Related Transfer Function, Передаточная Функция Головы), которая производит бинауральные сигналы для правого и левого уха слушателя. Сигналы источника звука фильтруются фильтрами, полученными из функций HRTF, соответствующих их направлению от источника. HRTF - это передаточная функция, измеренная от источника звука в свободном пространстве до уха человека или искусственной головы, деленная на передаточную функцию до микрофона, замещающего голову и помещенного в середине головы. К сигналу с созданным пространственным эффектом может быть добавлен эффект искусственного помещения (например, ранние отражения и/или поздняя реверберация) для улучшения экстернирования источника и естественности.

Поскольку число различных устройств для прослушивания аудиосигнала и интерактивных устройств увеличивается, становится более важной совместимость. Среди пространственных аудиоформатов обеспечиваются сквозные техники повышающего микширования (увеличение числа каналов сигнала) и понижающего микширования (уменьшение числа каналов сигнала). Широко известно, что есть алгоритмы для преобразования мультиканального аудиосигнала в стереоформат, такие как DolbyDigital® и Dolby Surround®, и для дальнейшего преобразования стереосигнала в бинауральный сигнал. Однако при таком типе обработки пространственный эффект исходного мультиканального аудиосигнала не может быть воспроизведен полностью. Лучший путь преобразования мультиканального аудиосигнала для прослушивания в наушниках - заменить исходные громкоговорители на виртуальные громкоговорители путем применения фильтрации HRTF и проигрывать сигналы каналов громкоговорителей через них (например, Dolby Headphone®). Однако этот процесс имеет недостаток, заключающийся в том, что для генерации бинаурального сигнала сначала всегда необходимо мультиканальное микширование. То есть, мультиканальные (например 5+1 каналов) сигналы сначала декодируются и синтезируются, затем для формирования бинаурального сигнала к каждому сигналу применяется HRTF. Этот подход требует интенсивных вычислений по сравнению с декодированием напрямую из компрессированного мультиканального формата в бинауральный формат.

Бинауральное Кодирование с Метками (Binaural Cue Coding, BCC) - это хорошо разработанный параметрический способ пространственного аудиокодирования. BCC представляет пространственный мультиканальный сигнал как один (или несколько) аудиоканалов понижающего микширования и набор релевантных к восприятию межканальных различий, оцененных из исходного сигнала как функция частоты и времени. Этот способ позволяет преобразовать пространственный аудиосигнал, микшированный для произвольного расположения громкоговорителей, в сигнал с любым другим расположением громкоговорителей, содержащим либо такое же, либо другое число громкоговорителей.

Таким образом, ВСС разработано для мультиканальных систем громкоговорителей. Однако генерация бинаурального сигнала из моносигнала и его дополнительной информации, обработанных с помощью ВСС, требует, чтобы сначала на базе монофонического сигнала и дополнительной информации было синтезировано мультиканальное представление, и только тогда становится возможным генерировать бинауральный сигнал из мультиканального представления для пространственного проигрывания в наушниках. Ясно, что такой подход также не оптимизирован с точки зрения генерации бинаурального сигнала.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Предлагается улучшенный способ, а также техническое оборудование, реализующее этот способ, в котором генерирование бинаурального сигнала возможно прямо из параметрически кодированного аудиосигнала. Различные аспекты данного изобретения включают способ декодирования, декодер, устройство и компьютерное программы, особенности которых описаны далее. Также раскрыты различные варианты осуществления данного изобретения.

В соответствии с первым аспектом, способ, согласно данному изобретению, основывается на идее синтеза бинаурального аудиосигнала, при котором сначала вводится параметрически кодированный аудиосигнал, содержащий по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающих мультиканальный звуковой образ. По меньшей мере один комбинированный сигнал разделяется на множество подполос, и определяются значения параметров для подполос из указанного набора дополнительной информации. Затем заранее заданный набор фильтров с передаточными функциями головы применяется по меньшей мере к одному комбинированному сигналу в пропорции, определяемой указанными значениями параметров, для синтеза бинаурального аудиосигнала.

В соответствии с изобретением, указанные значения параметров определяются путем интерполирования значения параметра, соответствующего конкретной подполосе, из следующего и предыдущего значений параметров, предоставляемых указанным набором дополнительной информации.

В соответствии с вариантом осуществления изобретения, из заранее заданного набора фильтров с передаточными функциями головы для применения выбирается пара левого-правого фильтров с передаточными функциями головы, соответствующая каждому направлению громкоговорителя исходного мультиканального расположения громкоговорителей.

В соответствии с вариантом осуществления изобретения, указанный набор дополнительной информации включает набор оценок усиления для канальных сигналов мультиканального аудиосигнала, описывающих исходный звуковой образ.

В соответствии с вариантом осуществления изобретения, оценки усиления исходного мультиканального аудиосигнала определяются как функция времени и частоты; и значения усиления для каждого канала громкоговорителя регулируются так, что сумма квадратов каждой величины усиления равна единице.

В соответствии с изобретением, по меньшей мере один комбинированный сигнал разделяют на один из следующих типов подполос: множество подполос QMF, множество подполос Эквивалентной Прямоугольной Полосы (Equivalent Rectangular Bandwidth, ERB); или множество психоакустически мотивированных частотных полос.

В соответствии с изобретением, указанные значения параметров являются величинами усиления по меньшей мере для одной подполосы.

В соответствии с изобретением, этап определения величин усиления для подполос также включает: определение величин усиления для каждого канального сигнала мультиканального аудиосигнала, описывающего исходный звуковой образ; и интерполирование единой величины усиления для подполос из указанных величин усиления для каждого канального сигнала.

В соответствии с изобретением, представление бинаурального сигнала в частотной области для подполос определяется перемножением по меньшей мере одного указанного комбинированного сигнала с по меньшей мере одной величиной усиления и заранее заданным фильтром с передаточной функцией головы.

Данное изобретение обеспечивает существенные преимущества. Главное преимущество - это простота и небольшая вычислительная сложность процесса декодирования. Декодер также является гибким в том смысле, что он обеспечивает бинауральный синтез полностью на базе пространственных параметров и параметров кодирования, предоставляемых кодером. Более того, при преобразовании поддерживаются одинаковые по отношению к исходному сигналу пространственные характеристики. Что касается дополнительной информации, то достаточно набора оценок усиления исходного микширования. Наиболее существенно то, что изобретение обеспечивает усовершенствованное использование компрессированного промежуточного состояния, обеспечиваемого в параметрическом аудиокодировании, улучшая эффективность при передаче, а также хранении аудиосигнала.

Другие аспекты изобретения включают различные устройства, предназначенные для выполнения этапов вышеуказанных способов, реализующих изобретение. Так, согласно изобретению, предлагается параметрический аудиодекодер, содержащий:

параметрический кодовый процессор для обработки параметрически кодированного аудиосигнала, содержащего по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал;

средство для разделения по меньшей мере одного комбинированного сигнала на множество подполос;

средство для определения значений набора оценок усиления для подполос из указанного набора дополнительной информации; и

синтезатор для применения заранее заданного набора фильтров с передаточными функциями головы по меньшей мере к одному комбинированному сигналу в пропорции, определяемой указанными значениями набора оценок усиления, для синтеза бинаурального аудиосигнала.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Далее различные варианты осуществления данного изобретения будут описаны более подробно, со ссылками на сопроводительные чертежи, где:

Фиг.1 - общая схема кодирования ВСС в соответствии с уровнем техники;

Фиг.2 - общая структура схемы синтеза ВСС в соответствии с уровнем техники;

Фиг.3 - блок-схема бинаурального декодера в соответствии с вариантом осуществления данного изобретения; и

Фиг.4 - электронное устройство в соответствии с вариантом осуществления данного изобретения в виде упрощенной блок-схемы.

ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ

В дальнейшем изобретение будет иллюстрировано со ссылкой на кодирование ВСС (Бинауральное Кодирование с Метками), как например платформы для реализации схемы декодирования в соответствии с вариантами осуществления изобретения. Нужно отметить, однако, что данное изобретение не ограничено исключительно способами пространственного кодирования аудиосигнала ВСС-типа, а может быть реализовано в любой схеме кодирования аудиосигнала, обеспечивающей по меньшей мере один аудиосигнал, комбинированный из исходного набора с одним или более аудиоканалом, и соответствующую дополнительную пространственную информацию.

Бинауральное Кодирование с Метками - это общая концепция параметрического представления пространственного аудиосигнала, обеспечивающая мультиканальный выход с произвольным числом каналов из единственного аудиоканала и некоторой дополнительной информации. Фиг.1 показывает эту концепцию. Несколько (М) входных аудиоканалов комбинируются в единственный выходной (S, «сумма») сигнал путем процесса понижающего микширования. Одновременно из входных каналов выделяют наиболее выраженные межканальные сигналы, описывающие мультиканальный звуковой образ, и компактно кодируют их как дополнительную информацию ВСС. Суммарный сигнал и дополнительная информация передаются затем на сторону приемника, возможно, с использованием соответствующей схемы низкоскоростного кодирования аудиосигнала для кодирования суммарного сигнала. Окончательно декодер ВСС генерирует мультиканальный (N) выходной сигнал для громкоговорителей из переданного суммарного сигнала и пространственной дополнительной информации путем повторного синтеза канальных выходных сигналов, которые несут существенные межканальные метки, такие как Межканальная Разница Времени (Inter-channel Time Difference, ICTD), Межканальная Разница Уровней (Inter-channel Level Difference, ICLD) и Межканальная Когерентность (Inter-channel Coherence, ICC). Соответственно, дополнительная информация ВСС, т.е. межканальные метки, выбирается исходя из оптимизации реконструкции мультиканального аудиосигнала, в частности, для проигрывания через громкоговорители.

Есть две схемы ВСС, а именно: ВСС для Гибкого Рендеринга (ВСС типа 1), которая предназначена для передачи некоторого числа раздельных источников сигналов с целью рендеринга в приемнике, и ВСС для Естественного Рендеринга (ВСС тип 2), которое предназначено для передачи некоторого числа раздельных аудиоканалов стереосигнала или сигнала объемного звучания. ВСС для Гибкого Рендеринга принимает в качестве входных данных раздельные источники аудиосигналов (например, речевые сигналы, раздельно записанные инструменты, мультитрековая запись). ВСС для Естественного Рендеринга, в свою очередь, принимает в качестве входных данных «финальный микс» - стерео- или мультиканальный сигнал (например, CD-аудио, объемный звук DVD). Если эти процессы выполняются посредством стандартных техник кодирования, скорость битового потока пропорциональна или по меньшей мере почти пропорциональна количеству аудиоканалов; например, передача шести аудиоканалов мультиканальной системы 5.1 требует примерно в 6 раз большей скорости битового потока, чем для одного аудиоканала. Однако обе схемы ВСС приводят к скорости битового потока, которая только чуть больше, чем требуется для передачи одного аудиоканала, поскольку дополнительная информация ВСС требует очень низкой скорости битового потока (например, 2 кб/с).

Фиг.2 демонстрирует основную структуру схемы синтеза ВСС. Переданный моносигнал («сумма») сначала кадрируется во временной области, а затем отображается в спектральное представление соответствующих подполос путем Быстрого Преобразования Фурье (БПФ) и Банка Фильтров (БФ). Вместо обработки с помощью БПФ и БФ для выполнения декомпозиции сигнала может быть использован банк Квадратурных Зеркальных Фильтров (Quadrature Mirror Filter, QMF). В общем случае проигрывания каналов метки ICLD и ICTD учитываются в каждой подполосе между парами каналов, т.е. для каждого канала по отношению к эталонному каналу. Подполосы выбираются такими, чтобы достигалось достаточное высокое частотное разрешение; например, ширина подполосы, равная удвоенному размеру ERB (Equivalent Rectangular Bandwidth, Эквивалентная Прямоугольная Полоса), обычно считается подходящей. Для каждого генерируемого выходного канала индивидуальные задержки времени ICTD и разницы уровней ICLD накладываются на спектральные коэффициенты, за этим следует процесс когерентного синтеза, который восстанавливает наиболее существенные аспекты когерентности и/или корреляции (IСС) между синтезированными аудиоканалами. Окончательно, все синтезированные выходные каналы конвертируются обратно во временное представление путем процесса обратного БПФ (ОБПФ), с результатом в виде мультиканального выхода. Для более подробного описания подхода ВСС сделаем ссылку на: F. Baumgarte and С.Fallen "Binaural Cue Coding - Part I: Psychoacoustic Fundamentals and Design Principles", IEEE Transactions on Speech and Audio Processing, Vol.11, No. 6, Ноябрь 2003, и на: С.Faller and F. Baumgarte: "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, Vol.11, No.6, Ноябрь 2003.

ВСС - это пример схемы кодирования, который обеспечивает подходящую платформу для реализации схемы декодирования в соответствии с вариантами осуществления изобретения. Бинауральный декодер, в соответствии с вариантом осуществления изобретения, принимает монофонизированный сигнал и дополнительную информацию как входные данные. Идея заключается в замене каждого громкоговорителя в оригинальном смешивании парой фильтров HRTF, соответствующих направлению громкоговорителя по отношению к позиции прослушивания. Каждый частотный канал монофонизированного сигнала пропускается через каждую пару фильтров, реализующих HRTF, в пропорции, определяемой набором величин усиления, которые могут быть вычислены на базе дополнительной информации. В результате этот процесс может считаться реализацией набора виртуальных громкоговорителей, соответствующих исходным, в бинауральной аудиосцене. Соответственно, изобретение добавляет значение к ВСС, позволяя, кроме мультиканальных аудиосигналов для различных расположений громкоговорителя, получить бинауральный аудиосигнал прямо из кодированного параметрически аудиосигнала, без какого-либо промежуточного процесса синтеза ВСС.

Некоторые варианты осуществления данного изобретения проиллюстрированы в дальнейшем со ссылкой на фиг.3, которая показывает блок-схему бинаурального декодера в соответствии с аспектом изобретения. Декодер 300 включает первый вход 302 для монофонизированного сигнала и второй вход 304 для дополнительной информации. Входы 302, 304 показаны как отдельные входы с целью иллюстрации вариантов осуществления изобретения, однако специалисту будет понятно, что в практических реализациях монофонизированный сигнал и дополнительная информация могут поступать через один вход.

В соответствии с вариантом осуществления изобретения, дополнительная информация не обязательно должна включать такие же межканальные метки, как и в схеме ВСС, т.е. Межканальную Разницу Времени (Inter-channel Time Difference, ICTD), Межканальную Разницу Уровней (Inter-channel Level Difference, ICLD) и Межканальную Когерентность (Inter-channel Coherence, ICC), достаточным будет только набор оценок усиления, определяющих распределение звукового давления между каналами исходного смешивания на каждой частотной полосе. В дополнение к оценкам усиления, дополнительная информация предпочтительно включает число и расположение громкоговорителей исходного смешивания относительно позиции прослушивания, а также применяемую длину кадра. В соответствии с вариантом осуществления изобретения, вместо передачи оценок усиления как части дополнительной информации, полученных из кодера, оценки усиления вычисляются в декодере из межканальных сигналов схемы ВСС, например, из ICLD.

Декодер 300 также содержит оконное устройство 306, где монофонизированный сигнал сначала разделяется на временные кадры применяемой длины, а затем к кадрам применяется подходящая оконная функция, например, синус-окно. Подходящая длина кадра должна быть подобрана так, чтобы кадры были достаточной длинными для Дискретного Преобразования Фурье (ДПФ), и в то же время достаточно короткими для обработки быстрых вариаций в сигнале. Эксперименты показали, что подходящая длина кадра - примерно 50 мс. Соответственно, если используется частота дискретизации 44.1 кГц (обычно применяемая в различных схемах аудиокодирования), то кадр может содержать, например, 2048 выборок, что приводит к длине кадра 46.3 мс. Применение оконной функции предпочтительно выполнено так, чтобы соседние окна перекрывались на 50 процентов для сглаживания переходов, вызванных спектральными изменениями (уровень и задержка).

Далее монофонизированный сигнал, обработанный оконной функцией, преобразуется в частотную область в устройстве БПФ 308. Обработка выполняется в частотной области для эффективности вычислений. Специалисту ясно, что предыдущие этапы обработки сигнала могут быть выполнены вне декодера 300, т.е. оконное устройство 306 и устройство БПФ 308 могут быть реализованы в устройстве, включающем декодер, и монофонизированный сигнал может быть уже обработан оконной функцией и преобразован в частотную область перед поступлением в декодер.

Для эффективности выполнения вычислений над сигналом в частотной области он пропускается через банк фильтров 310, который разделяет сигнал на психоакустически мотивированные частотные полосы. В соответствии с вариантом осуществления изобретения, банк фильтров 310 разработан таким образом, чтобы разделить сигнал на 32 частотные полосы, соответствующие общеизвестной шкале Эквивалентных Прямоугольных Полос (Equivalent Rectangular Bandwidth, ERB), с результатом в виде компонент сигнала Х0, …, Х31 на указанных 32-х частотных полосах.

Декодер 300 включает набор фильтров HRTF 312, 314 в виде заранее заданной информации, из которого выбирается пара левого-правого фильтров HRTF, соответствующая каждому направлению громкоговорителя. С иллюстративной целью на фиг.3 показано два набора фильтров HRTF 312, 314, один для левостороннего сигнала, и один для правостороннего сигнала, однако понятно, что в практической реализации достаточно одного набора фильтров HRTF. Для регулирования выбранной пары левого-правого фильтров HRTF, в соответствии с уровнем звука каждого канала громкоговорителя, предпочтительно оценивается величина усиления G. Как указано выше, оценки усиления могут быть включены в дополнительную информацию, принимаемую из кодера, или могут быть вычислены в декодере на базе дополнительной информации ВСС. Соответственно, усиление оценивается для каждого канала громкоговорителя как функция времени и частоты, и для сохранения уровня усиления исходного смешивания величина усиления для каждого канала громкоговорителя предпочтительно регулируется так, что сумма квадратов каждой величины усиления равна единице. Это дает преимущество, заключающееся в том, что если число виртуально генерированных каналов равно N, то передавать из кодера нужно только N-1 оценок усиления, а оставшаяся величина усиления может быть вычислена на базе N-1 величин усиления. Специалисту, однако, ясно, что функционирование изобретения не делает необходимым приведение суммы квадратов каждой величины усиления к единице, а декодер может масштабировать квадраты величин усиления так, чтобы эта сумма равнялась единице.

Затем каждая пара левого-правого фильтров HRTF 312, 314 регулируется в пропорции, определяемой набором усилений G, с результатом в виде скорректированных фильтров HRTF 312', 314'. Снова отметим, что на практике исходные значения фильтров HRTF 312, 314 масштабируют в соответствии с величинами усиления, однако для иллюстративных целей на фиг.3 показаны «дополнительные» наборы фильтров HRTF 312', 314'.

Для каждой частотной полосы компоненты моносигнала Х0, …, Х31 подаются на каждую пару левого-правого скорректированных фильтров HRTF 312', 314'. Выходы фильтров для левостороннего сигнала и правостороннего сигнала затем суммируются в устройстве суммирования 316, 318 для обоих бинауральных каналов. Суммированные бинауральные каналы снова обрабатываются синус-окном и преобразуются обратно во временную область обратным БПФ, выполняемым в устройствах ОБПФ 320, 322. В случае, если анализирующие фильтры не нормализованы, либо их фазовая характеристика нелинейна, предпочтительно используется подходящий синтезирующий банк фильтров для устранения искажений в финальных бинауральных сигналах bR и bL.

В соответствии с вариантом осуществления изобретения, для улучшения экстернирования (т.е. локализации вне головы) бинаурального сигнала к нему может быть добавлено небольшое количество характеристик помещения. Для этих целей декодер может включать устройство реверберации, предпочтительно расположенное между устройствами суммирования 316, 318 и устройствами ОБПФ 320, 322. Добавляемые характеристики помещения имитируют свойства помещения в ситуации прослушивания через громкоговорители. Время реверберации, однако, необходимо довольно короткое, для того чтобы вычислительная сложность заметно не увеличивалась.

Бинауральный декодер 300, показанный на фиг.3, также позволяет получить особый вариант стереодекодирования с понижающим микшированием, при котором пространственный образ сужен. В функционирование декодера 300 внесены изменения так, что каждый регулируемый фильтр HRTF 312, 314, который в вышеуказанных вариантах осуществления изобретения был масштабирован в соответствии с величинами усилений, заменен заранее заданным усилением. Соответственно, монофонизированный сигнал обрабатывается постоянными фильтрами HRTF, состоящими из единственного усиления, умноженного на набор величин усилений, вычисленных на базе дополнительной информации. Как результат, пространственный аудиосигнал преобразуется понижающим микшированием в стереосигнал. Этот особый вариант обеспечивает то преимущество, что стереосигнал может быть создан из комбинированного сигнала с использованием дополнительной пространственной информации без необходимости декодирования пространственного аудиосигнала, вследствие чего процедура стереодекодирования проще, чем обычный синтез ВСС. Структура бинаурального декодера 300 остается, тем не менее, такой же, как на фиг.3, только регулируемые фильтры HRTF 312, 314 заменяются фильтрами понижающего микширования, имеющими заранее заданные усиления для стереопонижающего микширования.

Если бинауральный декодер включает фильтры HRTF, например, для конфигурации объемного звука 5.1, тогда для особого варианта стереодекодирования с понижающим микшированием постоянные усиления для фильтров HRTF могут быть, например, такими, как в Таблице.

HRTF Левый Правый Фронтальный левый 1.0 0.0 Фронтальный правый 0.0 1.0 Центр Sqrt (0.5) Sqrt (0.5) Левый, тыл Sqrt (0.5) 0.0 Правый, тыл 0.0 Sqrt (0.5) LFE Sqrt (0.5) Sqrt (0.5)

Данное изобретение обеспечивает существенные преимущества. Главное преимущество - это простота и небольшая вычислительная сложность процесса декодирования. Декодер также является гибким в том смысле, что он обеспечивает бинауральное повышающее микширование полностью на базе пространственных параметров и параметров кодирования, предоставляемых кодером. Более того, при преобразовании поддерживаются одинаковые по отношению к исходному сигналу пространственные характеристики. Что касается дополнительной информации, то достаточно набора оценок усиления исходного смешивания. С точки зрения передачи или хранения аудиосигнала, наиболее существенны преимуществом является то, что изобретение обеспечивает улучшенную эффективность при использовании компрессированного промежуточного состояния, обеспечиваемого при параметрическом аудиокодировании.

Специалисту понятно, что, поскольку фильтры HRTF весьма индивидуальны и усреднение невозможно, наилучшая передача пространственного образа может быть достигнута только измерением уникального собственного набора фильтров HRTF слушателя. Соответственно, использование фильтров HRTF неизбежно ведет к окрашиванию сигнала так, что качество обработанного аудиосигнала не эквивалентно исходному. Однако, поскольку измерение фильтров HRTF для каждого слушателя является нереалистичным, наилучший возможный результат достигается тогда, когда используется либо моделированный набор, либо набор, измеренный с помощью искусственной головы или человека с головой средних размеров и высокой симметрией.

Как указано ранее, в соответствии с вариантом осуществления изобретения, оценки усиления могут быть включены в дополнительную информацию, принимаемую из кодера. В результате аспект изобретения относится к кодеру для мультиканального пространственного аудиосигнала, который оценивает усиление для каждого канала громкоговорителя как функцию частоты и времени, и включает оценки усиления в дополнительную информацию, передаваемую с одним (или более) комбинированным каналом. Кодер может быть, например, тем же кодером ВСС с добавлением вычисления оценок усиления, либо в дополнение, либо вместо межканальных сигналов ICTD, ICLD и IСС, описывающих мультиканальный звуковой образ. Затем суммарный сигнал и дополнительная информация, включающая по меньшей мере оценки усиления, передаются на сторону приемника, предпочтительно с использованием соответствующей схемы низкоскоростного аудиокодирования для кодирования суммарного сигнала.

В соответствии с вариантом осуществления изобретения, если оценки усиления вычисляются в кодере, вычисления выполняются сравнением уровня усиления каждого индивидуального канала с кумулятивным уровнем усиления комбинированного канала. То есть, если мы обозначим уровни усиления как X, индивидуальные каналы исходного расположения громкоговорителей как «m», и выборки как «k», то для каждого канала оценка усиления вычисляется как |Xm(k)|/|Xsum(k)|. Соответственно, оценки усиления определяют пропорциональные величины усиления каждого индивидуального канала в сравнении с общей величиной усиления всех каналов.

В соответствии с вариантом осуществления изобретения, если оценки усиления вычисляются в декодере на базе дополнительной информации ВСС, вычисление может быть выполнено, например, на базе значений Межканальной Разницы Уровней (ICLD). В результате, если N - число виртуально генерированных «громкоговорителей», то сначала на базе значений ICLD составляется N-1 уравнений, содержащих N-1 неизвестных переменных. Затем сумма квадратов каждого уравнения громкоговорителей устанавливается равной единице, посредством чего может быть найдена оценка усиления одного индивидуального канала, и на базе найденной оценки усиления из N-1 уравнений могут быть найдены остальные оценки усиления.

Например, если число виртуально генерируемых каналов равно пяти (N=5), N-1 уравнений могут быть сформированы так: L2=L1+ICLD1, L3=L1+ICLD2, L4=L1+ICLD3 и L5=L1+ICLD4. Затем сумма их квадратов устанавливается равной единице: L12+(L1+ICLD1)2+(L1+ICLD2)2+(L1+ICLD3)2+(L1+ICLD4)2=1. Затем может быть найдено значение L1, и на базе L1 могут быть найдены остальные значения уровня усиления L2-L5.

В соответствии со следующим вариантом осуществления, основная идея данного изобретения, т.е. генерация бинаурального сигнала напрямую из параметрически кодированного аудиосигнала без необходимости декодирования этого сигнала сначала в мультиканальный формат, может быть также реализована так, что для создания бинаурального сигнала будет использована только информация уровней каналов (ICLD) битового потока дополнительной информации вместе с суммарным сигналом (сигналами), вместо использования набора оценок усиления и применения их к каждой частотной подполосе.

Соответственно, вместо определения набора оценок усиления в декодере или включения оценок усиления в дополнительную информацию ВСС в кодере, в декодере происходит обработка (как функции времени и частоты) информации уровней каналов (ICLD) обычной дополнительной информации ВСС каждого исходного канала. Исходный суммарный сигнал (сигналы) разделяется на соответствующие частотные бины, и усиления для частотных бинов получаются из информации уровней каналов. Этот процесс позволяет получить дальнейшее улучшение качества бинаурального выходного сигнала путем введения более плавных изменений величин усиления от одной частотной полосы к другой.

В данном варианте осуществления изобретения предварительные этапы обработки такие же, как описанные выше: суммарный сигнал (моно или стерео) и дополнительная информация подаются на декодер, суммарный сигнал разделяется на временные кадры применяемой длины, а затем к кадрам применяется подходящая оконная функция, например, синус-окно. Снова при анализе используются синус-окна, перекрывающиеся на 50 процентов, и для эффективного преобразования сигнала из временной области в частотную область применяется БПФ (Быстрое Преобразование Фурье). Тогда, если длина окна анализа равна N выборкам, и окна имеют перекрытие 50%, получаем N/2 частотных бина в частотной области. В этом варианте осуществления, вместо разделения сигнала на психоакустически мотивированные частотные полосы, такие как подполосы, соответствующие шкале ERB, обработка применяется к указанным частотным бинам.

Как описано выше, дополнительная информация кодера ВСС обеспечивает информацию о том, как суммарный сигнал (сигналы) должен быть отмасштабирован для получения каждого индивидуального канала. Информация усиления в основном предоставляется только для ограниченных позиций времени и частоты. На временной шкале величины усиления даются, например, один раз на кадр из 2048 выборок. Для реализации настоящего изобретения необходимы величины усиления в середине каждого синус-окна и для каждого частотного бина (т.е. N/2 величин усиления в середине каждого синус-окна). Это эффективно достигается посредством интерполяции. Альтернативно, информация усиления может быть обеспечена в моменты времени, определяемые в дополнительной информации, и число моментов времени в кадре также может предоставляться в дополнительной информации. В этой альтернативном варианте осуществления величины усилений интерполируются на основе знания моментов времени и количества моментов времени, в которые обновляются величины усилений.

Предположим, что мультиканальный кодер ВСС обеспечивает Ng величин усиления в моменты времени tm, m=0, 1, 2, … По отношению к текущему моменту времени tw (центр текущего синус-окна), найденные следующий и предыдущий набор величин усиления, обеспеченные мультиканальным кодером ВСС, обозначим как tprev и tnext. Используя, например, линейную интерполяцию, Ng величин усиления интерполируются для момента времени tw так, что расстояние от tw до tprev и tnext используется в интерполяции как масштабирующий коэффициент. В соответствии с другим вариантом осуществления, просто выбирается величина усиления (tprev или tnext), которая ближе к моменту времени tw, что обеспечивает более прямолинейное решение для определения хорошо аппроксимированной величины усиления.

После того как определен набор Ng величин усиления для текущего момента, они требуют интерполяции на частотной шкале для получения индивидуальной величины усиления для каждого N/2 частотного бина. Для решения этой задачи может быть использована простая линейная интерполяция, однако, например, может быть использована и синус-интерполяция. Обычно Ng величин усиления получаются с большим разрешением на низких частотах (разрешение может следовать, например, шкале ERB), что должно быть учтено при интерполяции. Интерполяция может быть выполнена в линейном или логарифмическом масштабе. Общее число интерполированных наборов усиления равно числу выходных каналов мультиканального декодера, умноженному на число суммарных сигналов.

Кроме того, для создания бинаурального сигнала необходимы функции HRTF исходных положений громкоговорителей. Также функции HRTF преобразуются в частотную область. Для обеспечения простоты процесса в частотной области при преобразовании используется такая же длина кадра (N выборок), как и при преобразовании суммарного сигнала (сигналов) из временной в частотную область (N/2 бин).

Предположим, что Y1(n) и Y2(n) являются соответственно представлением левого и правого бинауральных сигналов в частотной области. В случае одного суммарного сигнала (т.е. монофонизированного суммарного сигнала Xsum1 (n)) бинауральный выходной сигнал получается следующим образом:

где 0=n<N/2. С - общее число каналов в мультиканальном кодере ВСС (например, аудиосигнал 5.1 включает 6 каналов), и g1c(n) - интерполированная величина усиления для монофонического суммарного сигнала для получения канала с в текущий момент времени tw. H1c(n) и H2c(n) - ДПФ-представление HRTF (ДПФ - Дискретное Преобразование Фурье) для левого и правого ушей для выходного канала с мультиканального кодера, т.е. направление каждого исходного канала должно быть известно.

В случае двух суммарных сигналов (стереофонического суммарного сигнала), обеспеченных мультиканальным кодером ВСС, оба суммарных сигнала (Xsum1 (n) и Xsum2 (n)) взаимосвязаны с обоими бинауральными выходами следующим образом:

где 0=n<N/2. Здесь g1c(n) и g2c(n) представляют усиления, используемые для левого и правого суммарных сигналов в мультиканальном кодере для получения выходного канала с как суммы этих сигналов.

Снова последние этапы процесса такие же, как описанные выше: Y1(n) и Y2(n) преобразуются обратно во временную область с помощью процесса ОБПФ (Обратное Быстрое Преобразование Фурье), сигналы еще раз обрабатываются синус-окном, и перекрывающиеся окна объединяются вместе.

Основное преимущество вышеописанного варианта осуществления заключается в том, что усиления не изменяются быстро от одного частотного бина к другому, что может происходить в случае использования подполос ERB (или других). Таким образом, качество бинаурального выходного сигнала обычно будет лучше.

Кроме того, использование просуммированных ДПФ-представлений HRTF для левого и правого ушей (H1c(n) и H2c(n)) вместо отдельной пары левого-правого фильтров HRTF для каждого канала мультиканального аудиосигнала может существенно упростить фильтрацию.

В вышеописанном варианте осуществления бинауральный сигнал создавался в ДПФ-представлении, и разделение сигнала на подполосы в соответствии со шкалой ERB с помощью банка фильтров может быть исключено. Однако несмотря на то, что данный вариант осуществления преимущественно не нуждается в банке фильтров, специалисту понятно, что могут быть применены также другие преобразования, подобные ДПФ, либо подходящие структуры банка фильтров с высоким частотным разрешением. В этих случаях вышеуказанные уравнения для Y1(n) и Y2(n) должны быть модифицированы так, чтобы фильтрация HRTF выполнялась на основе набора свойств данного преобразования или банка фильтров.

Соответственно, если, например, применяется банк фильтров QMF, то частотное разрешение определяется подполосами QMF. Если набор Ng величин усиления меньше, чем число подполос QMF, то величины усиления интерполируются для получения индивидуального усиления для каждой подполосы. Например, 28 величин усиления (соответствующих 28-и частотным полосам для данного момента времени), имеющихся в дополнительной информации, могут быть отображены на 105 подполос QMF путем линейной или нелинейной интерполяции для предотвращения непредсказуемых вариаций в соседних узких подполосах. Соответственно, вышеописанные уравнения для частотного представления бинаурального левого и правого сигналов (Y1(n) и Y2(n)) будут такими же, за исключением того, что H1c(n) и H2c(n) - фильтры HRTF в QMF-представлении в матричном формате, и Xsum1 (n) - блок монофонизированного сигнала. В случае стереофонического суммарного сигнала фильтры HRTF будут в сверточной матричной форме, a Xsum1 (n) и Xsum2 (n) будут блоками двух суммарных сигналов соответственно. Пример реальной реализации фильтрации в QMF-представлении описан в документе IEEE 0-7803-5041-3/99, Lanciani С.A. et al.: "Subband domain filtering of MPEG audio signals".

Для простоты изложения предыдущие примеры описаны так, что в кодере входные каналы (М) микшируются с понижением для формирования одного комбинированного (например, моно) канала. Однако этот вариант осуществления изобретения в равной степени пригоден в альтернативных реализациях, где множество входных каналов (М) микшируется с понижением для формирования двух или более раздельных комбинированных каналов (S), в зависимости от конкретного приложения аудиообработки. Если процесс понижающего микширования генерирует множество комбинированных каналов, комбинированные канальные данные могут быть переданы с использованием обычной техники аудиопередачи. Например, если генерируются два комбинированных канала, может быть применена обычная техника передачи стереосигнала. В этом случае декодер ВСС может извлекать и использовать коды ВСС для синтеза бинаурального сигнала из двух комбинированных каналов, что показано выше в последнем варианте осуществления изобретения.

В соответствии с вариантом осуществления изобретения число (N) виртуально генерируемых «громкоговорителей» в синтезированном бинауральном сигнале может отличаться (быть больше или меньше) от числа входных каналов (М), в зависимости от конкретного приложения. Например, входной аудиосигнал может соответствовать системе 7.1, а бинауральный выходной аудиосигнал может быть синтезирован соответствующим системе 5.1, или наоборот.

Вышеуказанные варианты осуществления изобретения могут быть обобщены так, что они будут обеспечивать преобразование М входных аудиоканалов в S комбинированных аудиоканалов и один или более соответствующих наборов дополнительной информации (где М>S), и для генерирования N выходных аудиоканалов из S комбинированных аудиоканалов и соответствующих наборов дополнительной информации (где N>S, и N может быть равно или отличаться от М).

Поскольку скорость битового потока, требуемая для передачи одного комбинированного канала и необходимой дополнительной информации, очень мала, изобретение особенно хорошо применимо в таких системах, где доступная полоса пропускания является дефицитным ресурсом, например в беспроводных телекоммуникационных системах. Соответственно, варианты осуществления изобретения особенно применимы в мобильных терминалах или в других портативных устройствах, обычно не имеющих высококачественных громкоговорителей, где возможности мультиканального объемного звука могут быть получены через наушники при прослушивании бинаурального аудиосигнала в соответствии с вариантами осуществления изобретения. Дальнейшие варианты пригодных применений включают услуги телеконференций, где участники телеконференции могут быть легко разделены путем предоставления слушателю впечатления, что участники конференции выступает с разных мест помещения.

Фиг.4 иллюстрирует упрощенную структуру устройства обработки данных (ТЕ, data processing device), где может быть реализована бинауральная декодирующая система в соответствии с изобретением. Устройство обработки данных (ТЕ) может быть, например, мобильным терминалом, карманным персональным компьютером (КПК) или персональным компьютером (ПК). Устройство обработки данных (ТЕ) содержит средство ввода-вывода (I/O), центральное процессорное устройство (CPU) и память (MEM). Память (MEM) содержит память только для чтения (ROM) и перезаписываемую память, например память с произвольным доступом (RAM) и память FLASH. Информация, используемая для связи с различными внешними частями, например, с CD-ROM, другими устройствами или пользователем, передается посредством средства ввода-вывода (I/O) в/из центрального процессорного устройства (CPU). Если устройство обработки данных реализовано как мобильная станция, оно обычно содержит приемопередатчик Tx/Rx, который взаимодействует с беспроводной сетью, обычно с базовой передающей станцией (BTS), посредством антенны. Оборудование интерфейса пользователя (UI) обычно включает дисплей, клавиатуру, микрофон и средство для подключения наушников. Устройство обработки данных может содержать также средство подключения ММС, например, слот стандартной формы для различных аппаратных модулей, или интегральные схемы IC, которые могут обеспечивать запуск различных приложений в устройстве обработки данных.

Соответственно, бинауральная декодирующая система в соответствии с изобретением может реализовываться в центральном процессорном устройстве (CPU) или в специализированном цифровом процессоре сигналов DSP (параметрический кодовый процессор) устройства обработки данных. Устройство обработки данных принимает параметрически кодированный аудиосигнал, содержащий по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающих мультиканальный звуковой образ. Параметрически кодированный аудиосигнал может быть принят из средства памяти, например, CD-ROM, или из беспроводной сети посредством антенны и приемопередатчика Tx/Rx. Устройство обработки данных содержит также подходящий банк фильтров и заранее заданный набор фильтров с передаточной функцией головы. Устройство обработки данных преобразует комбинированный сигнал в частотную область и применяет подходящие пары левого-правого фильтров с передаточной функцией головы к комбинированному сигналу в пропорции, определяемой соответствующим набором дополнительной информации, для синтеза бинаурального аудиосигнала, который затем воспроизводится через наушники.

Подобным образом кодирующая система, в соответствии с изобретением, может также реализовываться в центральном процессорном устройстве CPU или в специализированном цифровом процессоре сигналов DSP устройства обработки данных. Устройство обработки данных генерирует параметрически кодированный аудиосигнал, содержащий по меньшей мере один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, включающих оценки усиления для канальных сигналов мультиканального аудиосигнала.

Функциональность изобретения может быть реализована в терминальном устройстве, например мобильной станции, а также как компьютерная программа, которая при исполнении в центральном процессорном устройстве CPU или в специализированном цифровом процессоре сигналов DSP позволяет терминальному устройству выполнять процедуры согласно изобретению. Функции компьютерной программы SW могут быть распределены на несколько отдельных программных компонентов, взаимодействующих один с другим. Компьютерное программное обеспечение может храниться в любом средстве хранения информации, например жестком диске ПК или диске CD-ROM, из которого это программное обеспечение может быть загружено в память мобильного терминала. Компьютерное программное обеспечение может быть также загружено посредством сети, например, с использованием стека протоколов TCP/IP.

Также возможно использование аппаратных решений или комбинации аппаратных и программных решений для реализации предложенных средств. Соответственно, вышеуказанный компьютерный программный продукт может быть по меньшей мере частично реализован как аппаратное решение, например, как схемы ASIC или FPGA, в аппаратном модуле, содержащем средство подключения для подключения модуля к электронному устройству, или как одна или более интегральных схем IC, аппаратный модуль или схемы IC, также включающие различные средства для выполнения указанных задач программного кода, с реализацией указанных средств аппаратно и/или программно.

Очевидно, что настоящее изобретение не ограничено только представленными выше вариантами его осуществления, а может быть модифицировано в рамках прилагаемой формулы изобретения.

Похожие патенты RU2409912C9

название год авторы номер документа
ДЕКОДИРОВАНИЕ БИНАУРАЛЬНЫХ АУДИОСИГНАЛОВ 2007
  • Ойяла Паси
  • Турку Юлия
  • Вяянянен Маури
RU2409911C2
ОБОРУДОВАНИЕ И СПОСОБ ДЛЯ СИНТЕЗИРОВАНИЯ ПРОСТРАНСТВЕННО ПРОТЯЖЕННОГО ИСТОЧНИКА ЗВУКА С ИСПОЛЬЗОВАНИЕМ ИНФОРМАЦИОННЫХ ЭЛЕМЕНТОВ СИГНАЛЬНЫХ МЕТОК 2021
  • Херре, Юрген
  • Адами, Александер
  • Анемюллер, Карлотта
RU2808102C1
ГЕНЕРАЦИЯ ПРОСТРАНСТВЕННЫХ СИГНАЛОВ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ ИЗ ПАРАМЕТРИЧЕСКИХ ПРЕДСТАВЛЕНИЙ МУЛЬТИКАНАЛЬНЫХ СИГНАЛОВ 2006
  • Виллемос Ларс
  • Черлинг Кристофер
  • Бребарт Ерун
RU2407226C2
ИНДИВИДУАЛЬНОЕ ФОРМИРОВАНИЕ КАНАЛОВ ДЛЯ СХЕМ ВСС И Т.П. 2005
  • Алламанхе Эрик
  • Диш Саша
  • Фаллер Кристоф
  • Херре Юрген
RU2339088C1
МНОГОКАНАЛЬНЫЙ СИНТЕЗАТОР И СПОСОБ ДЛЯ ФОРМИРОВАНИЯ МНОГОКАНАЛЬНОГО ВЫХОДНОГО СИГНАЛА 2005
  • Херре Юрген
  • Диш Саша
  • Хильперт Йоханнес
  • Эртель Христиан
  • Хельцер Андреас
  • Шпенгер Клаус-Христиан
RU2345506C2
ФОРМИРОВАНИЕ РАССЕЯННОГО ЗВУКА ДЛЯ СХЕМ БИНАУРАЛЬНОГО КОДИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ КЛЮЧЕВОЙ ИНФОРМАЦИИ (ВСС) 2005
  • Алламанхе Эрик
  • Диш Саша
  • Фаллер Кристоф
  • Херре Юрген
RU2384014C2
УСТРОЙСТВО И СПОСОБ ДЛЯ ФОРМИРОВАНИЯ ЗАКОДИРОВАННОГО СТЕРЕОСИГНАЛА АУДИОЧАСТИ ИЛИ ПОТОКА ДАННЫХ АУДИО 2006
  • Плогстис Ян
  • Мундт Харальд
  • Попп Харальд
RU2376726C2
СИСТЕМА И СПОСОБ СЛЕЖЕНИЯ ЗА ДВИЖЕНИЕМ ГОЛОВЫ ДЛЯ ПОЛУЧЕНИЯ ПАРАМЕТРИЧЕСКОГО БИНАУРАЛЬНОГО ВЫХОДНОГО СИГНАЛА 2016
  • Бребарт Дирк Ерун
  • Купер Дэвид Мэттью
  • Дэвис Марк Ф.
  • Макграт Дэвид С.
  • Черлинг Кристофер
  • Мундт Харальд
  • Уилсон Ронда Дж.
RU2722391C2
СИСТЕМА И СПОСОБ СЛЕЖЕНИЯ ЗА ДВИЖЕНИЕМ ГОЛОВЫ ДЛЯ ПОЛУЧЕНИЯ ПАРАМЕТРИЧЕСКОГО БИНАУРАЛЬНОГО ВЫХОДНОГО СИГНАЛА 2016
  • Бребарт, Дирк Ерун
  • Купер, Дэвид Мэттью
  • Дэвис, Марк Ф.
  • Макграт, Дэвид С.
  • Черлинг, Кристофер
  • Мундт, Харальд
  • Уилсон, Ронда Дж.
RU2818687C2
КОМПАКТНАЯ ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ ДЛЯ ПАРАМЕТРИЧЕСКОГО КОДИРОВАНИЯ ПРОСТРАНСТВЕННОГО ЗВУКА 2005
  • Херре Юрген
  • Фаллер Кристоф
RU2383939C2

Иллюстрации к изобретению RU 2 409 912 C9

Реферат патента 2011 года ДЕКОДИРОВАНИЕ БИНАУРАЛЬНЫХ АУДИОСИГНАЛОВ

Способ синтеза бинаурального аудиосигнала включает ввод параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал; и применение заранее заданного набора фильтров с передаточными функциями головы, по меньшей мер, к одному комбинированному сигналу в пропорции, определяемой указанным соответствующим набором значений оценок усиления, для синтеза бинаурального аудиосигнала. Технический результат - обеспечивание усовершенствованного использования компрессированного промежуточного состояния, обеспечиваемого в параметрическом аудиокодировании, улучшение эффективности при передаче, а также хранении аудиосигнала. 4 н. и 29 з.п. ф-лы, 4 ил., 1 табл.

Формула изобретения RU 2 409 912 C9

1. Способ синтеза бинаурального аудиосигнала, включающий:
ввод параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал;
разделение, по меньшей мере, одного комбинированного сигнала на множество подполос;
определение набора значений оценок усиления для подполос из указанного набора дополнительной информации и
применение заранее заданного набора фильтров с передаточными функциями головы, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанными набором значений оценок усиления, для синтеза бинаурального аудиосигнала.

2. Способ по п.1, где указанные набор значений оценок усиления определяют путем интерполирования значения оценки усиления, соответствующего конкретной подполосе, из следующего и предыдущего значений оценок усиления, предоставляемых указанным набором дополнительной информации.

3. Способ по п.1 или 2, также содержащий
применение из заранее заданного набора фильтров с передаточными функциями головы пары левого-правого фильтров с передаточными функциями головы, соответствующих каждому направлению громкоговорителя исходного мультиканального аудиосигнала.

4. Способ по п.1 или 2, где указанный набор дополнительной информации содержит набор оценок усиления для канальных сигналов исходного мультиканального аудиосигнала.

5. Способ по п.4, где указанный набор дополнительной информации также содержит число и расположение громкоговорителей исходного мультиканального аудиосигнала относительно позиции прослушивания, а также применяемую длину кадра.

6. Способ по п.3, где
указанный набор дополнительной информации содержит межканальные метки, используемые в схеме Бинаурального Кодирования с Метками (ВСС), такие как Межканальная Разница Времени (ICTD), Межканальная Разница Уровней (ICLD) и Межканальная Когерентность (ICC), при этом данный способ также содержит:
вычисление набора оценок усиления исходного мультиканального аудиосигнала на основе, по меньшей мере, одной из указанных межканальных меток схемы ВСС.

7. Способ по п.4, также содержащий:
определение набора оценок усиления исходного мультиканального аудиосигнала как функции времени и частоты; и
регулирование усилений для каждого канала громкоговорителя так, что сумма квадратов каждой величины усиления равна единице.

8. Способ по п.1, также содержащий:
разделение, по меньшей мере, одного комбинированного сигнала на один из следующих типов подполос:
множество подполос Квадратурных Зеркальных Фильтров (QMF); множество подполос Эквивалентных Прямоугольных Полос (ERB) или
множество психоакустически мотивированных частотных полос.

9. Способ по п.8, также содержащий:
разделение, по меньшей мере, одного комбинированного сигнала в частотной области на 32 частотных полосы, соответствующих шкале Эквивалентных Прямоугольных Полос (ERB).

10. Способ по п.9, также содержащий:
суммирование выходных сигналов фильтров с передаточными функциями головы для каждой указанной частотной полосы раздельно для левостороннего и правостороннего сигнала; и
преобразование просуммированного левостороннего и просуммированного правостороннего сигнала во временную область для создания левосторонней и правосторонней компонент бинаурального аудиосигнала.

11. Способ по п.1, где указанный набор значений оценок усиления является величинами усиления, по меньшей мере, для одной подполосы.

12. Способ по п.11, где указанные величины усиления определяют путем выбора ближайшей величины усиления, предоставляемой указанным набором дополнительной информации.

13. Способ по п.11 или 12, где этап разделения, по меньшей мере, одного комбинированного сигнала на множество подполос также содержит:
разделение, по меньшей мере, одного комбинированного сигнала на временные кадры, включающие заранее заданное число выборок, и затем применение к этим кадрам оконной функции; и
преобразование, по меньшей мере, одного комбинированного сигнала в частотную область для создания множества частотных подполос.

14. Способ по п.11 или 12, где этап определения величин усиления для подполос также содержит:
определение величин усиления для каждого канального сигнала исходного мультиканального аудиосигнала и
интерполирование единой величины усиления для подполос из указанных величин усиления каждого канального сигнала.

15. Способ по п.11 или 12, также содержащий
определение представления бинаурального сигнала в частотной области для подполос перемножением, по меньшей мере, одного указанного комбинированного сигнала с, по меньшей мере, одной величиной усиления и заранее заданным фильтром передаточной функции головы.

16. Способ по п.15, где представления бинауральных сигналов в частотной области для каждого частотного бина определяют из монофонического суммарного сигнала Xsuml(n) следующим образом:


где Y1(n) и Y2(n) - представления левого и правого бинауральных сигналов в частотной области, с - число каналов в кодере, g1c(n) - интерполированная величина усиления для монофонизированного суммарного сигнала для получения канала с в момент времени tw, a H1c(n) и H2c(n) - подполосные представления фильтров с передаточными функциями головы для левого и правого уха для выходного канала с кодера.

17. Способ по п.15, где представления бинауральных сигналов в частотной области для каждого частотного бина определяют из суммарных стереосигналов Xsum1(n) и Xsum2(n) следующим образом:


где Y1(n) и Y2(n) - представления левого и правого бинауральных сигналов в частотной области, с - число каналов в кодере, g1c(n) - интерполированная величина усиления для монофонического суммарного сигнала для получения канала с в момент времени tw, a H1c(n) и H2c(n) - подполосные представления фильтров с передаточными функциями головы для левого и правого уха для выходного канала с кодера.

18. Способ по п.11, где указанные значения параметров определяют путем интерполирования каждой величины усиления, соответствующей конкретной частотной подполосе, из величин усиления соседних частотных подполос, предоставляемых указанным набором дополнительной информации.

19. Параметрический аудиодекодер, содержащий:
параметрический кодовый процессор для обработки параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал;
средство для разделения, по меньшей мере, одного комбинированного сигнала на множество подполос;
средство для определения набора значений оценок усиления для подполос из указанного набора дополнительной информации и
синтезатор для применения заранее заданного набора фильтров с передаточными функциями головы, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанным набором значений оценок усиления, для синтеза бинаурального аудиосигнала.

20. Декодер по п.19, где
указанные набор значений оценок усиления определяют путем интерполирования каждого значения оценки усиления, соответствующего конкретной подполосе, из следующего и предыдущего значений усиления, предоставляемых указанным набором дополнительной информации.

21. Декодер по п.19 или 20, где
указанный синтезатор выполнен с возможностью применения из заранее заданного набора фильтров с передаточными функциями головы пары левого-правого фильтров с передаточными функциями головы, соответствующей каждому направлению громкоговорителя исходного мультиканального аудиосигнала.

22. Декодер по п.19 или 20, где
указанный набор дополнительной информации содержит набор оценок усиления для канальных сигналов мультиканального аудиосигнала.

23. Декодер по п.21, где
указанный набор дополнительной информации содержит межканальные метки, используемые в схеме Бинаурального Кодирования с Метками (ВСС), такие как Межканальная Разница Времени (ICTD), Межканальная Разница Уровней (ICLD) и Межканальная Когерентность (ICC), при этом декодер выполнен с возможностью
вычисления набора оценок усиления исходного мультиканального аудиосигнала на основе, по меньшей мере, одной из указанных межканальных меток схемы ВСС.

24. Декодер по п.19, также содержащий:
средство для разделения, по меньшей мере, одного комбинированного сигнала на один из следующих типов подполос:
множество подполос QMF;
множество подполос Эквивалентной Прямоугольной Полосы (ERB);
или множество психоакустически мотивированных частотных полос.

25. Декодер по п.24, где:
указанное средство для разделения, по меньшей мере, одного комбинированного сигнала в частотной области содержит банк фильтров, выполненных с возможностью разделения, по меньшей мере, одного комбинированного сигнала на 32 частотных полосы, соответствующих шкале Эквивалентных Прямоугольных Полос (ERB).

26. Декодер по п.25, также содержащий:
суммирующее устройство для суммирования выходных сигналов фильтров с передаточными функциями головы для каждой указанной частотной полосы раздельно для левостороннего и правостороннего сигнала; и
устройство преобразования для преобразования просуммированного левостороннего и просуммированного правостороннего сигнала во временную область для создания левосторонней и правосторонней компонент бинаурального аудиосигнала.

27. Декодер по п.19, где
указанный набор значений оценок усиления является величинами усиления, по меньшей мере, для одной подполосы.

28. Декодер по п.27, где указанные величины усиления определяются путем выбора ближайшей величины усиления, предоставляемой указанным набором дополнительной информации.

29. Декодер по п.27 или 28, где указанное средство для определения величин усиления, по меньшей мере, для одной подполосы выполнено с возможностью:
определения величин усиления для каждого канального сигнала исходного мультиканального аудиосигнала и
интерполирования единой величины усиления, по меньшей мере, для одной подполосы из указанных величин усиления для каждого канального сигнала.

30. Декодер по п.27 или 28, выполненный с возможностью
определения представления бинаурального сигнала в частотной области, по меньшей мере, для одной подполосы путем перемножения указанного, по меньшей мере, одного комбинированного сигнала с, по меньшей мере, одной величиной усиления и заранее заданным фильтром передаточной функции головы.

31. Носитель, хранящий программный код, при исполнении которого цифровым процессором сигналов в устройстве обработки данных устройство обработки данных выполняет:
разделение, по меньшей мере, одного комбинированного сигнала на множество подполос;
определение набора значений оценок усиления, по меньшей мере, для одной подполосы из указанного набора дополнительной информации и
применение заранее заданного набора фильтров с передаточными функциями головы, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанным набором значений оценок усиления, для синтеза бинаурального аудиосигнала.

32. Устройство для синтеза бинаурального аудиосигнала, содержащее:
средство для ввода параметрически кодированного аудиосигнала, содержащего, по меньшей мере, один комбинированный сигнал множества аудиоканалов и один или более соответствующих наборов дополнительной информации, описывающей мультиканальный аудиосигнал;
средство для разделения, по меньшей мере, одного комбинированного сигнала на множество подполос;
средство для определения набора значений оценок усиления, по меньшей мере, для одной подполосы из указанного набора дополнительной информации;
средство для применения заранее заданного набора фильтров с передаточными функциями головы, по меньшей мере, к одному комбинированному сигналу в пропорции, определяемой указанным набором значений оценок усиления, для синтеза бинаурального аудиосигнала; и
средство для подачи бинаурального аудиосигнала в средство аудиовоспроизведения.

33. Устройство по п.32, которое представляет собой мобильный терминал, КПК или персональный компьютер.

Документы, цитированные в отчете о поиске Патент 2011 года RU2409912C9

Способ и приспособление для нагревания хлебопекарных камер 1923
  • Иссерлис И.Л.
SU2003A1
Способ и приспособление для нагревания хлебопекарных камер 1923
  • Иссерлис И.Л.
SU2003A1
RU 2005104123 A, 10.07.2005
EP 1565036 A2, 17.08.2005
Способ приготовления мыла 1923
  • Петров Г.С.
  • Таланцев З.М.
SU2004A1
СПОСОБ СЖАТИЯ ЗВУКОВОЙ ИНФОРМАЦИИ И СИСТЕМА ДЛЯ ЕГО РЕАЛИЗАЦИИ 1998
  • Гусихин А.В.
  • Гилязов М.А.
  • Дубинский Ю.В.
  • Насыров Р.М.
  • Федоров А.В.
RU2144222C1

RU 2 409 912 C9

Авторы

Ояла Паси

Турку Юлия

Вяянянен Маури

Тамми Микко

Даты

2011-01-20Публикация

2007-01-04Подача