Область техники, к которой относится изобретение
Изобретение относится к аудиосистеме и способу оперирования ею и, в частности, к виртуальному пространственному воспроизведению аудиосигналов.
Уровень техники
Воспроизведение пространственного звука за рамками простого стерео стало распространенным благодаря таким применениям, как системы домашнего кинотеатра. Как правило, такие системы используют громкоговорители, расположенные в конкретных пространственных позициях. Кроме того, были разработаны системы, которые обеспечивают восприятие пространственного звука через головные наушники. Стандартное стереовоспроизведение, как правило, обеспечивает звуки, которые воспринимаются как возникающие внутри головы пользователя. Однако были разработаны системы, которые обеспечивают полное восприятие пространственного звука на основе бинауральных сигналов, обеспечиваемых непосредственно в уши пользователя посредством внутриушных наушников/головных наушников. Такие системы часто называются системами виртуального звука, поскольку они обеспечивают восприятие виртуальных звуковых источников в позициях, где нет настоящих звуковых источников.
Виртуальный объемный звук является технологией, которая осуществляет попытку создать впечатление, что слушателя окружают звуковые источники, которые физически отсутствуют. В таких системах не кажется, что звук возникает внутри головы пользователя, как известно из стандартных систем воспроизведения с головными наушниками. Вместо этого звук может восприниматься как возникающий вне головы пользователя, как в случае естественного прослушивания без головных наушников. Вдобавок к более реалистичным впечатлениям, виртуальное объемное аудио также, как правило, оказывает положительное воздействие на утомление слушателя и разборчивость речи.
Для того чтобы достичь этого восприятия, необходимо задействовать некое средство обмана слуховой системы человека, чтобы ей казалось, будто звук идет от желаемых позиций. Широко известным подходом для обеспечения восприятия виртуального объемного звука является использование бинауральной записи. В таких подходах запись звука использует специализированное расположение микрофонов и предназначена для воспроизведения с использованием головных наушников. Запись делается путем размещения микрофонов в ушном канале либо объекта опыта, либо муляжа головы, то есть бюста, который включает в себя ушные раковины (наружные уши). Использование такого муляжа головы, включающего в себя ушные раковины, обеспечивает очень схожее пространственное впечатление с впечатлением, которое человек, прослушивающий записи, получал бы, если бы присутствовал во время записи. Однако поскольку ушные раковины каждого человека уникальны, и фильтрация, налагаемая ими на звук, зависит от направленной инцидентности поступающей звуковой волны и, соответственно, также уникальна, локализация источников является зависимой от объекта. Действительно, конкретные особенности, используемые для локализации источников, осваиваются каждым человеком с раннего детства. Следовательно, любое несоответствие между ушными раковинами, используемыми во время записи, и ушными раковинами слушателя может приводить к ухудшенному восприятию и неправильным пространственным впечатлениям.
Путем измерения импульсных откликов от звукового источника в конкретном местоположении в трехмерном пространстве к микрофонам в ушах муляжа головы для каждого индивида так называемые зависящие от головы импульсные отклики (HRIR) могут быть определены. HRIR могут использоваться для создания бинауральной записи, имитирующей множество источников в различных местах. Это может быть осуществлено путем выполнения свертки каждого звукового источника с парой HRIR, которая соответствует позиции звукового источника. HRIR также может называться зависящей от головы функцией передачи (HRTF). Таким образом, HRTF и HRIR эквиваленты. В случае, когда HRIR также включает в себя эффект помещения, они называются бинауральными импульсными откликами помещения (BRIR). BRIR состоят из части звукопоглощения, которая зависит только от антропометрических характеристик объекта (таких как размер головы, форма уха и т. д.), за которой следует часть реверберации, которая характеризует комбинацию помещения и антропометрических свойств.
Часть реверберации содержит две временные области, как правило частично совпадающие. Первая область содержит так называемые ранние отражения, которые являются изолированными отражениями звукового источника от стен или препятствий внутри помещения перед достижением барабанной перепонки (или измеряющего микрофона). По мере увеличения запаздывания количество отражений, присутствующих в фиксированном временном интервале, увеличивается, к этому моменту вдобавок содержащее отражения более высшего порядка.
Вторая область в части реверберации является частью, где эти отражения уже не изолированы. Эта область называется диффузным или поздним реверберационным хвостом. Часть реверберации содержит ориентиры, которые дают слуховой системе информацию о расстоянии до источника и о размере и акустических свойствах помещения. Кроме того, она является зависимой от объекта ввиду фильтрации отражений посредством HRIR. Энергия части реверберации по отношению к энергии части звукопоглощения в значительной степени определяет воспринимаемое расстояние до звукового источника. Плотность (ранних) отражений участвует в воспринимаемом размере помещения. Время реверберации T6o определяется как время, которое требуется, чтобы отражения потеряли 60 дБ по энергетическому уровню. Время реверберации дает информацию об акустических свойствах помещения, являются ли его стены очень отражающими (например, ванная комната) или присутствует ли сильное поглощение звука (например, спальня с мебелью, ковром и занавесками), а также объем (размер) помещения.
Помимо использования измеренных импульсных откликов, использующих некоторую акустическую среду, алгоритмы искусственной реверберации часто задействуются ввиду способности модификации определенных свойств акустической имитации и ввиду их относительно низкой вычислительной сложности.
Примером системы, которая использует методики виртуального объемного звучания, является MPEG Surround, которая является одним из главных достижений в кодировании многоканального аудио, недавно стандартизованным MPEG (ISO/IEC 23003-1:2007, MPEG Surround).
MPEG Surround является инструментом кодирования многоканального аудио, который обеспечивает возможность расширения существующих кодеров на основе моно или стерео на многоканальное аудио. Фиг. 1 изображает структурную схему базового стереокодера, расширенного посредством MPEG Surround. Прежде всего, кодер MPEG Surround создает стереосигнал понижающего микширования из многоканального входного сигнала. Стереосигнал понижающего микширования кодируется в битовый поток с использованием ядерного кодера, например HE-AAC. Затем пространственные параметры оцениваются из многоканального входного сигнала. Эти параметры кодируются в пространственный битовый поток. Получающийся в результате битовый поток базового кодера и пространственный битовый поток совмещаются для создания общего битового потока MPEG Surround. Как правило, пространственный битовый поток содержится в части вспомогательных данных битового потока базового кодера. На стороне декодера базовый и пространственный битовые потоки сначала разделяются. Базовый битовый поток стерео декодируется, чтобы воспроизвести стереосигнал понижающего микширования. Этот сигнал понижающего микширования вместе с пространственным битовым потоком являются входными данными для декодера MPEG Surround. Пространственный битовый поток декодируется, в результате чего получаются пространственные параметры. Пространственные параметры затем используются для получения сигнала повышающего микширования стереосигнала понижающего микширования, чтобы получить многоканальный выходной сигнал, который является приближением исходного многоканального входного сигнала.
Поскольку пространственное отображение многоканального входного сигнала является параметризованным, MPEG Surround также обеспечивает возможность декодирования того же многоканального битового потока на устройстве представления, отличном от многоканальной установки динамиков. Примером является виртуальное воспроизведение в головных наушниках, что называется процессом бинаурального декодирования MPEG Surround. В этом режиме реалистичное впечатление объема может обеспечиваться посредством обычных головных наушников.
Фиг. 2 изображает структурную схему базового стереокодека, расширенного посредством MPEG Surround, где выходные данные декодируются в бинауральные данные. Процесс кодера идентичен процессу с фиг. 1. После декодирования битового стереопотока пространственные параметры объединяются с HRTF/HRIR-данными для создания так называемого бинаурального выхода.
На основе концепции MPEG Surround MPEG стандартизовали "Кодирование пространственного аудиообъекта" (SAOC) (ISO/IEC 23003-2:2010, Кодирование пространственного аудиообъекта).
С точки зрения высокого уровня в SAOC вместо каналов эффективно кодируются звуковые объекты. В то время как в MPEG Surround канал каждого динамика может рассматриваться как исходящий от различной смеси звуковых объектов, в SAOC эти отдельные звуковые объекты являются в некоторой степени доступными в декодере для интерактивного манипулирования. Аналогично MPEG Surround, моно- или стереосигнал понижающего микширования также создается в SAOC, где сигнал понижающего микширования кодируется с использованием стандартного кодера сигнала понижающего микширования, такого как HE-AAC. Параметры объекта кодируются и встраиваются в часть вспомогательных данных кодированного битового потока сигнала понижающего микширования. На стороне декодера путем воздействия на эти параметры пользователь может управлять различными признаками отдельных объектов, такими как позиция, усиление/ослабление, выравнивание, и даже применять эффекты, такие как искажение и искусственное эхо.
Качество виртуального объемного представления стерео- или многоканального содержимого может быть существенным образом улучшено путем так называемой фантомной материализации, описанной в работе Дж. Брибаарт (Breebaart, J.), Е. Шуерс (Schuijers, E.) (2008), "Фантомная материализация: Новаторский способ улучшения воспроизведения стереозвука в головных наушниках", Журнал "IEEE Transactions on Audio Speech and Language Processing" 16, 1503-1511.
Вместо построения виртуального стереосигнала на основе предположения о двух звуковых источниках, исходящих от позиций виртуальных громкоговорителей, подход фантомной материализации разбивает звуковой сигнал на направленный сигнальный компонент и непрямой/декоррелированный сигнальный компонент. Прямой компонент синтезируется путем имитации виртуального репродуктора в фантомной позиции. Опосредованный компонент синтезируется путем имитации виртуальных громкоговорителей в виртуальном направлении(ях) диффузного звукового поля. Процесс фантомной материализации имеет преимущество в том, что он не накладывает ограничений установки динамиков на сцену виртуального представления.
Было обнаружено, что воспроизведение виртуального пространственного звука обеспечивает очень эффектные пространственные впечатления во многих сценариях. Однако также было обнаружено, что этот подход может в некоторых сценариях давать впечатления, которые не полностью соответствуют пространственному впечатлению, которое было бы получено в сценарии реального мира с настоящими звуковыми источниками в имитированных позициях в трехмерном пространстве.
Было предложено, что на пространственное восприятие виртуального аудиопредставления может оказывать воздействие конфликт в мозгу между позиционными ориентирами, обеспечиваемыми аудио, и позиционными ориентирами, обеспечиваемыми зрением пользователя.
В повседневной жизни визуальные ориентиры (как правило, подсознательно) объединяются со слуховыми ориентирами для улучшения пространственного восприятия. Одним примером является то, что разборчивость речи человека увеличивается, когда движения его губ также могут наблюдаться. В другом примере было обнаружено, что человека можно обмануть, обеспечив визуальный ориентир в поддержку виртуального звукового источника, например, путем размещения муляжа динамика в местоположении, где генерируется виртуальный звуковой источник. Визуальный ориентир, таким образом, улучшит или модифицирует виртуализацию. Визуальный ориентир может в некоторой степени даже менять воспринимаемое местоположение звукового источника, как в случае чревовещателя. И, наоборот, человеческому мозгу сложно определить местоположение звуковых источников, которые не поддерживаются визуальным ориентиром (к примеру, в синтезе волновых полей), что в действительности противоречит человеческой природе.
Другим примером является вторжение внешних звуковых источников из окружения слушателя, которые смешиваются с виртуальными звуковыми источниками, генерируемыми аудиосистемой на основе головных наушников. В зависимости от аудиосодержимого и местоположения пользователя акустические свойства физических и виртуальных сред могут существенно отличаться, в результате чего возникает двойственность по отношению к среде прослушивания. Такое смешение акустических сред может вызывать противоестественное и нереалистичное воспроизведение звука.
Есть еще множество аспектов, относящихся к взаимодействию с визуальными ориентирами, которые до сих пор до конца не изучены, и в действительности эффект, оказываемый визуальными ориентирами на воспроизведение виртуального пространственного звука, не полностью изучен.
Таким образом, улучшенная аудиосистема будет иметь преимущества и, в частности, подход, обеспечивающий возможность увеличенной гибкости, облегченного осуществления, облегченного оперирования, улучшенного пространственного впечатления пользователя, улучшенного генерирования виртуального пространственного звука и/или улучшенной производительности, будет иметь преимущества.
Сущность изобретения
Соответственно, изобретение стремится предпочтительно смягчить, облегчить или устранить один или несколько из вышеупомянутых недостатков по отдельности или в любой комбинации.
Согласно одному аспекту изобретения обеспечивается аудиосистема по п. 1 формулы изобретения.
Изобретение может обеспечивать улучшенное пространственное впечатление. Во многих вариантах осуществления может восприниматься более естественное пространственное впечатление, и воспроизведение звука может казаться менее искусственным. Действительно, характеристики виртуального звука могут быть адаптированы для большего согласования с другими позиционными ориентирами, такими как визуальные ориентиры. Более реалистичное восприятие пространственного звука, таким образом, может быть достигнуто посредством обеспечения пользователя воспроизведением виртуального звука, который кажется более естественным и с улучшенным овеществлением (экстернализацией).
Аудиосигнал может соответствовать одному звуковому источнику, и обработка аудиосигнала может быть такой, чтобы аудио, представленное аудиосигналом, представлялось из желаемой виртуальной позиции для звукового источника. Аудиосигнал может, к примеру, соответствовать одному аудиоканалу (такому как звуковой канал системы объемного звука) или может, например, соответствовать одному аудиообъекту. Аудиосигнал, в частности, может быть одним одноканальным аудиосигналом из пространственного многоканального сигнала. Каждый пространственной сигнал может обрабатываться для представления так, чтобы он воспринимался как исходящий из заданной виртуальной позиции.
Аудиосигнал может быть представлен сигналом временной области, сигналом частотной области и/или параметризованным сигналом (таким как закодированный сигнал). В качестве конкретного примера аудиосигнал может быть представлен значениями данных в формате временно-частотного сегмента. В некоторых вариантах осуществления аудиосигнал может иметь ассоциированную информацию о положении. К примеру, аудиообъект может обеспечиваться позиционной информацией, указывающей позицию предполагаемого звукового источника для аудиосигнала. В некоторых сценариях информация о положении может обеспечиваться в виде параметров пространственного сигнала повышающего микширования. Система может конфигурироваться для дополнительной адаптации бинауральной функции передачи на основе информации о положении для аудиосигнала. К примеру, система может выбирать бинауральную функцию передачи для обеспечения позиционного ориентира звука, соответствующего указанной позиции.
Бинауральный выходной сигнал может содержать сигнальные компоненты от множества аудиосигналов, каждый из которых мог быть обработан в соответствии с бинауральной функцией передачи, где бинауральная функция передачи для каждого аудиосигнала может соответствовать желаемой позиции для этого аудиосигнала. Каждая из бинауральных функций передачи может во многих вариантах осуществления адаптироваться на основе параметра акустической среды.
Обработка, в частности, может применять бинауральную функцию передачи к аудиосигналу или сигналу, получаемому из него (например, путем усиления, обработки и т. д.). Взаимосвязь между бинауральным выходным сигналом и аудиосигналом зависит от/выражается в бинауральной функции передачи. Аудиосигнал, в частности, может генерировать сигнальный компонент для бинаурального выходного сигнала, который соответствует применению бинауральной функции передачи к аудиосигналу. Бинауральная функция передачи, таким образом, может соответствовать функции передачи, приложенной к аудиосигналу, для генерирования бинаурального выходного сигнала, который обеспечивает восприятие аудиоисточника как находящегося в желаемой позиции. Бинауральная функция передачи может включать в себя вклад от HRTF, HRIR или BRIR или соответствовать им.
Бинауральная функция передачи может применяться к аудиосигналу (или к сигналу, полученному из него) путем применения бинауральной функции передачи во временной области, в частотной области или в их комбинации. К примеру, бинауральная функция передачи может применяться к временно-частотным сегментам, например, путем применения комплексного значения бинауральной функции передачи к каждому временно-частотному сегменту. Согласно другим примерам, аудиосигнал может фильтроваться фильтром, осуществляющим бинауральную функцию передачи.
В соответствии с опциональным признаком изобретения, параметр акустической среды содержит параметр реверберации для акустической среды.
Это может обеспечить возможность в особенности выгодной адаптации виртуального звука для обеспечения улучшенного и, как правило, более естественного впечатления пользователя от звуковой системы, использующей позиционирование виртуальных звуковых источников.
В соответствии с опциональным признаком изобретения, параметр акустической среды содержит по меньшей мере одно из: времени реверберации; энергии реверберации по отношению к энергии прямого пути; частотного спектра по меньшей мере части импульсного отклика помещения; модальной плотности по меньшей мере части импульсного отклика помещения; плотности эха по меньшей мере части импульсного отклика помещения; межауральной когерентности или корреляции; уровня ранних отражений и оценки размера помещения.
Эти параметры могут обеспечивать возможность в особенности выгодной адаптации виртуального звука для обеспечения улучшенного и, как правило, более естественного впечатления пользователя от звуковой системы, использующей позиционирование виртуальных звуковых источников. Кроме того, параметры могут облегчать осуществление и/или оперирование.
В соответствии с опциональным признаком изобретения, цепь адаптации конфигурируется для адаптации характеристики реверберации бинауральной функции передачи.
Это может обеспечить возможность в особенности выгодной адаптации виртуального звука для обеспечения улучшенного и, как правило, более естественного впечатления пользователя от звуковой системы, использующей позиционирование виртуальных звуковых источников. Этот подход может обеспечить возможность облегченного оперирования и/или осуществления, поскольку характеристики реверберации в особенности подходят для адаптации. Модификация может осуществляться так, чтобы обработка модифицировалась для соответствия бинауральной функции передачи с различными характеристиками реверберации.
В соответствии с опциональным признаком изобретения, цепь адаптации сконфигурирована для адаптации по меньшей мере одной из следующих характеристик бинауральной функции передачи: время реверберации; энергия реверберации по отношению к энергии прямого звука; частотный спектр по меньшей мере части бинауральной функции передачи; модальная плотность по меньшей мере части бинауральной функции передачи; плотность эха по меньшей мере части бинауральной функции передачи; межауральная когерентность или корреляция и уровень ранних отражений по меньшей мере части бинауральной функции передачи.
Эти параметры могут обеспечить возможность в особенности выгодной адаптации виртуального звука для обеспечения улучшенного и, как правило, более естественного впечатления пользователя от звуковой системы, использующей позиционирование виртуальных звуковых источников. Кроме того, параметры могут облегчить осуществление и/или оперирование.
В соответствии с опциональным признаком изобретения, обработка содержит комбинацию заранее определенной бинауральной функции передачи и переменной бинауральной функции передачи, адаптируемой на основе параметра акустической среды.
Это может во многих сценариях обеспечивать облегченное и/или улучшенное осуществление и/или оперирование. Заранее определенная бинауральная функция передачи и переменная бинауральная функция передачи могут объединяться. К примеру, функции передачи могут применяться к аудиосигналу последовательно или могут применяться к аудиосигналу параллельно, после чего получающиеся в результате сигналы объединяются.
Заранее определенная бинауральная функция передачи может быть фиксированной, а может быть независимой от параметра акустической среды. Переменная бинауральная функция передачи может быть функцией передачи имитации акустической среды.
В соответствии с опциональным признаком изобретения, цепь адаптации сконфигурирована для динамического обновления бинауральной функции передачи.
Динамическое обновление может производиться в реальном времени. Изобретение может обеспечивать возможность системы, которая автоматически и непрерывно адаптирует обеспечение звука к среде, в которой она используется. К примеру, когда пользователь, переносящий аудиосистему, перемещается, звук может автоматически адаптировать представляемое аудио для соответствия конкретной акустической среде, например, для соответствия конкретному помещению. Цепь измерения может непрерывно измерять характеристику среды, и обработка может непрерывно обновляться на ее основе.
В соответствии с опциональным признаком изобретения, цепь адаптации сконфигурирована для модификации бинауральной функции передачи, только когда характеристика среды удовлетворяет некоторому критерию.
Это может обеспечивать улучшенное впечатление пользователя во многих сценариях. В частности, это может во многих вариантах осуществления обеспечивать более стабильное впечатление. Цепь адаптации может, к примеру, модифицировать характеристику бинауральной функции передачи, только когда параметр аудиосреды удовлетворяет некоторому критерию. Критерий может, к примеру, заключаться в том, что разница между значением параметра акустической среды и предыдущим значением, используемым для адаптации бинауральной функции передачи, превосходит некоторый порог.
В соответствии с опциональным признаком изобретения, цепь адаптации сконфигурирована для ограничения скорости перехода для бинауральной функции передачи.
Это может обеспечивать улучшенное впечатление пользователя и может делать адаптацию к особым условиям среды менее заметной. Модификации бинауральной функции передачи могут быть подвергнуты эффекту низкочастотной фильтрации с ослаблением изменений выше 1 Гц, что часто имеет преимущества. К примеру, пошаговые изменения бинауральной функции передачи могут быть ограничены постепенными переходами с продолжительностями приблизительно 1-5 секунд.
В соответствии с опциональным признаком изобретения, аудиосистема дополнительно содержит: хранилище данных для хранения данных бинауральной функции передачи; цепь для извлечения данных бинауральной функции передачи из хранилища данных на основе параметра акустической среды, и причем цепь адаптации сконфигурирована для адаптации бинауральной функции передачи на основе извлеченных данных бинауральной функции передачи.
Это может обеспечивать в особенности эффективное осуществление во многих сценариях. Подход, в частности, может уменьшить требования на вычислительные ресурсы.
В некоторых вариантах осуществления аудиосистема может дополнительно содержать цепь для обнаружения, что никакие данные бинауральной функции передачи, сохраненные в хранилище данных, не ассоциируются с характеристиками акустической среды, соответствующими параметру акустической среды, и в ответ сгенерировать и сохранить данные бинауральной функции передачи в хранилище данных вместе с ассоциированными данными, характеризующими акустическую среду.
В соответствии с опциональным признаком изобретения, аудиосистема дополнительно содержит: цепь тестового сигнала, сконфигурированную для испускания звукового тестового сигнала в акустическую среду, и причем цепь измерения сконфигурирована для захвата принятого звукового сигнала в среде, причем принятый аудиосигнал содержит сигнальный компонент, возникающий из испускаемого звукового тестового сигнала; и цепь определения сконфигурирована для определения параметра акустической среды на основе звукового тестового сигнала.
Это может обеспечивать низкую сложность и при этом точный и удобный способ определения параметра акустической среды. Определение параметра акустической среды, в частности, может выполняться на основе корреляции между принятым тестовым сигналом и тестовым аудиосигналом. К примеру, частотные или временные характеристики могут сравниваться и использоваться для определения параметра акустической среды.
В соответствии с опциональным признаком изобретения, цепь определения сконфигурирована для определения импульсного отклика среды на основе принятого звукового сигнала и для определения параметра акустической среды на основе импульсного отклика среды.
Это может обеспечивать в особенности устойчивый, низкий по сложности и/или точный подход для определения параметра акустической среды.
В соответствии с опциональным признаком изобретения, цепь адаптации дополнительно сконфигурирована для обновления бинауральной функции передачи на основе позиции пользователя.
Это может обеспечивать в особенности положительное впечатление пользователя. К примеру, представление виртуального звука может непрерывно обновляться при перемещении пользователя, благодаря чему обеспечивается непрерывная адаптация не только к, например, помещению, но также к позиции пользователя в помещении.
В некоторых вариантах осуществления параметр акустической среды зависит от позиции пользователя.
Это может обеспечивать особенно положительное впечатление пользователя. К примеру, представление виртуального звука может непрерывно обновляться при перемещении пользователя, благодаря чему обеспечивается непрерывная адаптация не только, например, к помещению, но также к позиции пользователя в помещении. В качестве примера параметр акустической среды может быть определен из измеренного импульсного отклика, который может динамически меняться при перемещении пользователя внутри среды. Позицией пользователя может являться направление взгляда или местоположение пользователя.
В соответствии с опциональным признаком изобретения, бинауральная цепь содержит ревербератор, и цепь адаптации сконфигурирована для адаптации обработки реверберации ревербератора на основе параметра акустической среды.
Это может обеспечивать особенно удобный подход для модификации обработки для отражения модифицированных бинауральных функций передачи. Ревербератор может обеспечивать особенно эффективный подход для адаптации характеристик, при этом являющийся достаточно простым в управлении. Ревербератор может, к примеру, быть ревербератором Жота, описанным, например, в работе Ж.-М. Жота (J.-M. Jot) и А. Шэня (A. Chaigne) "Цепи цифровой задержки для осуществления искусственных ревербераторов", съезд Общества инженеров по звуковой технике, февраль 1991 г.
Согласно одному аспекту изобретения обеспечивается способ оперирования для аудиосистемы по п. 14 формулы изобретения.
Эти и другие аспекты, признаки и преимущества изобретения станут очевидными и будут разъяснены со ссылками на варианты осуществления, описанные далее.
Краткое описание чертежей
Варианты осуществления настоящего изобретения будут описаны исключительно в качестве примера со ссылками на чертежи, где
фиг. 1 изображает структурную схему базового стереокодека, расширенного посредством MPEG Surround;
фиг. 2 изображает структурную схему базового стереокодека, расширенного посредством MPEG Surround и обеспечивающего бинауральный выходной сигнал;
фиг. 3 иллюстрирует пример элементов аудиосистемы в соответствии с некоторыми вариантами осуществления настоящего изобретения;
фиг. 4 иллюстрирует пример элементов бинаурального процессора в соответствии с некоторыми вариантами осуществления настоящего изобретения;
фиг. 5 иллюстрирует пример элементов процессора бинауральных сигналов в соответствии с некоторыми вариантами осуществления настоящего изобретения;
фиг. 6 иллюстрирует пример элементов процессора бинауральных сигналов в соответствии с некоторыми вариантами осуществления настоящего изобретения; и
фиг. 7 иллюстрирует пример элементов ревербератора Жота.
Подробное описание некоторых вариантов осуществления изобретения
Фиг. 3 иллюстрирует пример аудиосистемы в соответствии с некоторыми вариантами осуществления настоящего изобретения. Аудиосистема является виртуальной звуковой системой, которая имитирует позиции пространственно звуковых источников путем генерирования бинаурального сигнала, который содержит сигнал для каждого уха пользователя. Как правило, бинауральное аудио обеспечивается пользователю через пару головных наушников, внутриушных наушников или подобного.
Аудиосистема содержит приемник 301, который принимает аудиосигнал, который должен быть представлен аудиосистемой. Аудиосигнал предназначен для представления в качестве звукового источника с желаемой виртуальной позицией. Таким образом, аудиосистема представляет аудиосигнал так, чтобы пользователь (по меньшей мере приблизительно) воспринимал сигнал как исходящий от желаемой позиции или по меньшей мере направления.
В этом примере аудиосигнал, таким образом, рассматривается как соответствующий одному аудиоисточнику. Как таковой, аудиосигнал ассоциируется с одной желаемой позицией. Аудиосигнал может соответствовать, например, сигналу пространственного канала и, в частности, аудиосигнал может являться одним сигналом пространственного многоканального сигнала. Такой сигнал может неявно иметь желаемую ассоциированную позицию. К примеру, сигнал центрального канала ассоциируется с позицией прямо перед слушателем, передний левый канал ассоциируется с позицией спереди и слева от слушателя, задний левый сигнал ассоциируется с позицией сзади и слева от слушателя и т. д. Аудиосистема, таким образом, может представлять этот сигнал как производящий впечатление, будто он исходит от этой позиции.
В качестве другого примера аудиосигнал может быть аудиообъектом и может, к примеру, быть аудиообъектом, который пользователь может свободно расположить в (виртуальном) пространстве. Таким образом, в некоторых примерах желаемая позиция может локально генерироваться или выбираться, например, пользователем.
Аудиосигнал может, к примеру, представляться, обеспечиваться и/или обрабатываться как сигнал временной области. Альтернативно или дополнительно аудиосигнал может обеспечиваться и/или обрабатываться как сигнал частотной области. Действительно, во многих системах аудиосистема может иметь возможность переключения между такими представлениями и применять обработку в той области, которая наиболее эффективна для конкретной операции.
В некоторых вариантах осуществления аудиосигнал может быть представлен как сигнал временно-частотного сегмента. Таким образом, сигнал может разбиваться на сегменты, где каждый сегмент соответствует временному интервалу и частотному интервалу. Для каждого из этих сегментов сигнал может быть представлен набором значений. Как правило, одно комплексное значение сигнала обеспечивается для каждого временно-частотного сегмента.
В описании один аудиосигнал описывается и обрабатывается для представления из виртуальной позиции. Однако следует понимать, что в большинстве примеров звук, представляемый слушателю, содержит звуки от многих различных звуковых источников. Таким образом, в типичных вариантах осуществления множество аудиосигналов принимаются и представляются, как правило, от различных виртуальных позиций. К примеру, для системы виртуального объемного звука, как правило, принимается пространственный многоканальный сигнал. В таких сценариях каждый сигнал обычно обрабатывается отдельно, как описано далее для одного аудиосигнала, и затем они объединяются. Разумеется, различные сигналы, как правило, представляются от различных позиций, и, таким образом, различные позиции бинауральной передачи могут применяться.
Аналогично во многих вариантах осуществления большое количество аудиообъектов может быть принято, и каждый из них (или их комбинация) может отдельно обрабатываться, как было описано.
К примеру, существует возможность представить комбинацию объектов или сигналов посредством комбинации бинауральных функций передачи так, чтобы каждый объект в комбинации объектов представлялся различным образом, например, в различных местах. В некоторых сценариях комбинация аудиообъектов или сигналов может обрабатываться как объединенная сущность. Например, сигнал понижающего микширования переднего и бокового левого каналов может быть представлен посредством бинауральной функции передачи, которая состоит из взвешенного смешанного сигнала двух соответствующих бинауральных функций передачи.
Выходные сигналы затем могут просто генерироваться путем комбинации (например, добавления) бинауральных сигналов, генерируемых для каждого из различных аудиосигналов.
Таким образом, в то время как следующее описание фокусируется на одном аудиосигнале, это может рассматриваться как всего лишь сигнальный компонент аудиосигнала, который соответствует одному звуковому источнику из множества аудиосигналов.
Приемник 301 соединяется с бинауральным процессором 303, который принимает аудиосигнал и который генерирует бинауральный выходной сигнал путем обработки аудиосигнала. Бинауральный процессор 303 соединяется с парой головных наушников 305, которым подается бинауральный сигнал. Таким образом, бинауральный сигнал содержит сигнал для левого уха и сигнал для правого уха.
Следует понимать, что, хотя использование головных наушников может быть обычным для многих применений, описанное изобретение и принципы не ограничиваются этим. К примеру, в некоторых ситуациях звук может представляться через громкоговорители спереди от пользователя или со стороны от пользователя (например, с использованием устройства с установкой на плечах). В некоторых сценариях бинауральная обработка может в таких случаях быть улучшена посредством дополнительной обработки, которая погашает перекрестные помехи между двумя репродукторами (например, она может возмещать для сигнала правого репродуктора звуковые компоненты левого динамика, которые также слышны правому уху).
Бинауральный процессор 303 выполнен с возможностью выполнять обработку аудиосигналов так, чтобы обработка представляла бинауральную функцию передачи, которая обеспечивает позицию виртуального звукового источника для аудиосигнала в бинауральном выходном сигнале. В системе с фиг. 3 бинауральная функция передачи является функцией передачи, приложенной к аудиосигналу для генерирования бинаурального выходного сигнала. Это, таким образом, отражает объединенный эффект обработки бинаурального процессора 303 и может в некоторых вариантах осуществления включать в себя нелинейные эффекты, эффекты обратной связи и т. д.
В рамках обработки бинауральный процессор 303 может применять бинауральную функцию передачи виртуального позиционирования к обрабатываемому сигналу. В частности, в рамках пути сигнала из аудиосигнала к бинауральному выходному сигналу бинауральная функция передачи виртуального позиционирования применяется к сигналу.
Бинауральная функция передачи, в частности, включает в себя зависящую от головы функцию передачи (HRTF), зависящий от головы импульсный отклик (HRIR) и/или бинауральные импульсные отклики помещения (BRIR). Термины "импульсный отклик" и "функция передачи" считаются эквивалентными. Таким образом, бинауральный выходной сигнал генерируется для отражения аудиоусловий, создаваемых головой слушателя и, как правило, помещением так, чтобы аудиосигнал казался возникающим в желаемой позиции.
Фиг. 4 иллюстрирует пример бинаурального процессора 303 более подробно. В этом конкретном примере аудиосигнал подается процессору 401 бинауральных сигналов, который переходит к фильтрации аудиосигнала в соответствии с бинауральной функцией передачи. Процессор 401 бинауральных сигналов содержит два подфильтра, а именно один для генерирования сигнала для канала левого уха и один для генерирования сигнала для канала правого уха. В примере с фиг. 4 генерируемый бинауральный сигнал подается усилителю 403, который усиливает левый и правый сигналы независимо и затем подает их левому и правому динамикам головных наушников 305 соответственно.
Характеристики фильтра для процессора 401 бинауральных сигналов зависят от желаемой виртуальной позиции для аудиосигнала. В примере бинауральный процессор 303 содержит процессор 405 коэффициентов, который определяет характеристики фильтра и подает их процессору 401 бинауральных сигналов. Процессор 405 коэффициентов, в частности, может принимать указание позиции и выбирать подходящие фильтровые компоненты соответственным образом.
В некоторых вариантах осуществления аудиосигнал может, например, являться сигналом временной области, и процессор 401 бинауральных сигналов может являться фильтром временной области, таким как фильтр IIR или FIR. В таком сценарии процессор 405 коэффициентов может, например, обеспечивать коэффициенты фильтра. В качестве другого примера аудиосигнал может конвертироваться в частотную область, и фильтрация может применяться в частотной области, например, путем умножения каждого частотного компонента на комплексное значение, соответствующее частотной функции передачи фильтра. В некоторых вариантах осуществления обработка может всецело выполняться на временно-частотных сегментах.
Следует понимать, что в некоторых вариантах осуществления другая обработка также может применяться к аудиосигналу, к примеру, может применяться высокочастотная фильтрация или низкочастотная фильтрация. Также следует понимать, что бинауральная обработка позиционирования виртуального звука может объединяться с другой обработкой. К примеру, операция сигнала повышающего микширования аудиосигнала на основе пространственных параметров может объединяться с бинауральной обработкой. К примеру, для сигнала MPEG Surround входной сигнал, представляемый временно-частотными сегментами, может конвертироваться с повышением частоты в различные пространственные сигналы путем применения различных пространственных параметров. Таким образом, для заданного сигнала, прошедшего повышающее микширование, каждый временно-частотный сегмент может подвергаться умножению на комплексное значение, соответствующее пространственному параметру/сигналу повышающего микширования. Получающийся в результате сигнал затем может подвергаться бинауральной обработке путем умножения каждого временно-частотного сегмента на комплексное значение, соответствующее бинауральной функции передачи. Разумеется, в некоторых вариантах осуществления эти операции могут объединяться так, чтобы каждый временно-частотный сегмент мог быть умножен на одно комплексное значение, которое представляет как сигнал повышающего микширования, так и бинауральную обработку (в частности, оно может соответствовать умножению двух раздельных комплексных значений).
В обычном бинауральном виртуальном пространственном аудио бинауральная обработка основывается на заранее определенных функциях бинауральной передачи, которые были получены путем измерений, как правило, с использованием микрофонов, расположенных в ушах манекена. Для HRTF и HRIR только влияние пользователя, а не среды, принимается во внимание. Однако когда используются BRIR, характеристики помещения, в котором производилось измерение, также включаются. Это может обеспечивать улучшенное впечатление пользователя во многих сценариях. Действительно, было обнаружено, что когда виртуальное объемное аудио через головные наушники воспроизводится в помещении, где измерения были сделаны, убедительное овеществление может быть получено. Однако в других средах и, в частности, в средах, где акустические характеристики сильно отличаются (т. е. присутствует явное несоответствие между помещениями воспроизведения и измерения), воспринимаемое овеществление может ухудшаться существенным образом.
В системе с фиг. 3 такое ухудшение существенным образом смягчается и уменьшается путем адаптации бинауральной обработки.
В частности, аудиосистема с фиг. 3 дополнительно содержит цепь 307 измерения, которая выполняет объективное измерение, которое зависит от или отражает акустическую среду, в которой система используется. Таким образом, цепь 307 измерения генерирует данные измерения, которые указывают на характеристику акустической среды.
В примере система соединяется с микрофоном 309, который захватывает аудиосигналы, но следует понимать, что в других вариантах осуществления другие датчики и другие методики могут использоваться дополнительно или альтернативно.
Цепь 307 измерения соединяется с процессором 311 параметров, который принимает данные измерения и который переходит к генерированию параметра акустической среды на их основе. Таким образом генерируется параметр, который указывает на конкретную акустическую среду, в которой виртуальный звук представляется. К примеру, параметр может указывать, насколько помещение подвержено эху и реверберации.
Процессор 311 параметров соединяется с процессором 313 адаптации, который сконфигурирован для адаптации бинауральной функции передачи, используемой бинауральным процессором 303 в зависимости от определенного параметра акустической среды. К примеру, если параметр указывает на сильно подверженное реверберации помещение, бинауральная функция передачи может быть модифицирована для отражения более высоких степеней реверберации, чем измеренная посредством BRIR.
Таким образом, система с фиг. 3 имеет возможность адаптировать представляемый виртуальный звук для более близкого отражения аудиосреды, в которой она используется. Это может обеспечивать более устойчивое и реалистичное обеспечение виртуального звука. В частности, это может обеспечивать возможность визуальным позиционным ориентирам лучше соответствовать обеспеченным звуковым позиционным ориентирам.
Система может динамически обновлять бинауральную функцию передачи, и это динамическое обновление может в некоторых вариантах осуществления выполняться в реальном времени. К примеру, процессор 307 измерений может непрерывно выполнять измерения и генерировать текущие данные измерения. Это может отражаться в непрерывно обновляемом параметре акустической среды и непрерывно обновляемой адаптации бинауральной функции передачи. Таким образом, бинауральная функция передачи может непрерывно модифицироваться для отражения текущей аудиосреды.
Это может обеспечивать очень эффектное впечатление пользователя. В качестве конкретного примера в ванной комнате, как правило, преобладают очень твердые и акустически очень отражающие поверхности с небольшим коэффициентом ослабления. В отличие от этого в спальне, как правило, преобладают мягкие и ослабляющие поверхности, в частности, для более высоких частот. Таким образом, человек, надевший пару головных наушников, обеспечивающих виртуальный объемный звук, будет посредством системы с фиг. 3 иметь возможность получить виртуальный звук, который автоматически регулируется, когда пользователь переходит из ванной комнаты в спальню или наоборот. Таким образом, когда пользователь выходит из ванной комнаты и входит в спальню, звук может автоматически становиться менее реверберирующим и подверженным эху для отражения новой акустической среды.
Следует понимать, что точный используемый параметр акустической среды может зависеть от предпочтений и требований конкретного варианта осуществления. Однако во многих вариантах осуществления может быть особенно выгодно, если параметр акустической среды будет содержать параметр реверберации для акустической среды.
Действительно, реверберация является не только характеристикой, которая может быть относительно точно измерена с использованием подходов относительно низкой сложности, но также является характеристикой, которая оказывает особенно существенное воздействие на пользовательское восприятие аудио и, в частности, на пространственное восприятие пользователя. Таким образом, в некоторых вариантах осуществления бинауральная функция передачи адаптируется на основе параметра реверберации для аудиосреды.
Следует понимать, что конкретное измерение и измеренные параметры также будут зависеть от конкретных требований и предпочтений отдельного варианта осуществления. Далее различные имеющие преимущества примеры параметра акустической среды и способы его генерирования будут описаны.
В некоторых вариантах осуществления параметр акустической среды может содержать параметр, указывающий на время реверберации для акустической среды. Время реверберации может определяться как время, за которое отражение уменьшается до конкретного уровня. К примеру, время реверберации может быть определено как время, за которое энергетический уровень отражений уменьшается на 60 дБ. Это значение, как правило, обозначается как T60.
Время реверберации T60 может, например, определяться следующим образом:
где V - это объем помещения, a - оценка площади эквивалентного поглощения.
В некоторых вариантах осуществления заранее определенные характеристики помещения (такие как V и a) могут быть известны для некоторого количества различных помещений. Аудиосистема может иметь в сохраненном виде различные такие параметры (например, после того как пользователь вручную ввел эти значения). Система затем может переходить к выполнению измерений, которые просто определят, в каком помещении пользователь в настоящее время находится. Соответствующие данные затем могут извлекаться и использоваться для вычисления времени реверберации. Определение помещения может производиться путем сравнения аудиохарактеристик с измеренными и сохранения аудиохарактеристик в каждом помещении. В качестве другого примера камера может захватывать изображение помещения и использовать его для выбора, какие из данных должны быть извлечены. Согласно другому примеру, измерение может включать в себя оценку позиции, и подходящие данные для помещения, соответствующие этой позиции, могут извлекаться. В еще одном примере предпочитаемые пользователем параметры акустического представления ассоциированы с информацией о местоположении, полученной из GPS-сот, близости конкретных точек доступа Wi-Fi или светового датчика, который различает искусственное и естественное освещение для определения, внутри или вне здания находится пользователь.
В качестве другого примера время реверберации может быть определено конкретной обработкой двух микрофонных сигналов, как описано более подробно в работе С. Веса (Vesa, S.), А. Харма (Harma, A.) (2005) "Автоматическая оценка времени реверберации от бинауральных сигналов", ICASSP 2005, стр. iii/281-iii/284, 18-23 марта.
В некоторых вариантах осуществления система может определять импульсный отклик для акустической среды. Импульсный отклик затем может использоваться для определения параметра акустической среды. К примеру, импульс может вычисляться для определения продолжительности перед тем, как уровень импульсного отклика уменьшился до некоторого уровня, например, значение T60 определяется как продолжительность импульсного отклика до тех пор, пока импульс не уменьшился на 60 дБ.
Следует понимать, что любой подходящий подход для определения импульсного отклика может использоваться.
К примеру, система может включать в себя цепь, которая генерирует звуковой тестовый сигнал, который испускается в акустическую среду. Например, головные наушники могут содержать внешний динамик, или другой блок динамика может, например, использоваться.
Микрофон 309 затем может наблюдать за аудиосредой, и импульсный отклик генерируется из захваченного микрофоном сигнала. К примеру, очень короткий импульс может быть испущен. Этот сигнал будет отражен для генерирования эха и реверберации. Таким образом, тестовый сигнал может быть приближением импульса Дирака, и сигнал, захваченный микрофоном, может соответственным образом в некоторых сценариях непосредственно отражать импульсный отклик. Такой подход может особенно подходить для очень тихих сред, где отсутствуют любые помехи от других аудиоисточников. В других сценариях тестовый сигнал может являться известным сигналом (таким как сигнал псевдошумов), а микрофонный сигнал может коррелировать с тестовым сигналом для генерирования импульсного отклика.
В некоторых вариантах осуществления параметр акустической среды может содержать указание энергии реверберации по отношению к энергии прямого пути. К примеру, для измеренного (дискретно-сэмплированного) BRIR h[n] отношение R энергии прямого звука к энергии реверберации может быть определено следующим образом:
где T - это подходящий порог для различения между прямым и реверберационным звуком (как правило, 5-50 мс).
В некоторых вариантах осуществления параметр акустической среды может отражать частотный спектр по меньшей мере части импульсного отклика помещения. К примеру, импульсный отклик может преобразовываться в частотную область, например, с использованием FFT, и получающийся в результате частотный спектр может анализироваться.
К примеру, может быть определена модальная плотность. Некоторая мода соответствует резонансу или эффекту стоячей волны для аудио в помещении. Модальные плотности могут соответственным образом быть обнаружены с помощью пиков в частотной области. Наличие таких модальных плотностей может воздействовать на звуки в помещении, и, таким образом, обнаружение модальной плотности может использоваться для обеспечения соответствующего воздействия на представляемый виртуальный звук.
Следует понимать, что в других сценариях модальная плотность может, например, вычисляться через характеристики помещения и с использованием широко известных формул. К примеру, модальные плотности могут быть вычислены с помощью информации о размере помещения. В частности, модальная плотность может быть вычислена следующим образом:
где c - это скорость звука, а f - частота.
В некоторых вариантах осуществления может быть вычислена плотность эха. Плотность эха отражает, сколько и насколько близки друг к другу элементы эха в помещении. К примеру, в небольшой ванной комнате, как правило, относительно большое количество относительно близких элементов эха, в то время как в большой спальне, как правило, меньшее количество элементов эха, которые не так близки друг к другу (и не настолько сильны). Такие параметры плотности эха могут, таким образом, выгодно использоваться для адаптации представления виртуального звука и могут быть вычислены с помощью измеренного импульсного отклика.
Плотность эха может быть определена с помощью импульсного отклика или может, например, быть вычислена из характеристик помещения с использованием широко известных формул. К примеру, временная плотность эха может быть вычислена следующим образом:
где t - время запаздывания.
В некоторых вариантах осуществления может быть выгодным просто оценить уровень ранних отражений. К примеру, короткоимпульсный тестовый сигнал может быть испущен, и система может определить объединенный уровень сигнала микрофонного сигнала в заданном временном интервале, таком как, например, 50 миллисекунд после передачи импульса. Энергия, принятая за этот временной интервал, обеспечивает низкую сложность и при этом является очень полезной мерой значимости элементов раннего эха.
В некоторых вариантах осуществления параметр акустической среды может быть определен для отражения межауральной когерентности/корреляции. Корреляция/когерентность между двумя ушами может, например, определяться через сигналы от двух микрофонов, расположенных в левом и правом наушнике соответственно. Корреляция между ушами может отражать диффузность и может обеспечивать особенно выгодную основу для видоизменения представляемого виртуального звука, поскольку диффузность дает указание того, насколько помещение подвержено реверберации. Подверженное реверберации помещение будет более диффузным, чем помещение с малой реверберацией или без нее.
В некоторых вариантах осуществления параметр акустической среды может просто являться, или содержать, оценку размера помещения. Действительно, как можно четко видеть из предыдущих примеров, размер помещения оказывает существенный эффект на звуковые характеристики помещения. В частности, элементы эха и реверберация сильно от него зависят. Следовательно, в некоторых сценариях адаптация представляемого звука может попросту основываться на определении размера помещения на основе измерения.
Следует понимать, что другие подходы, кроме определения импульсного отклика помещения, могут использоваться. К примеру, измерительная система может альтернативно или дополнительно использовать другие модальности, такие как зрение, свет, радиолокация, ультразвук, лазер, камера или другие сенсорные измерения. Такие модальности могут особенно подходить для оценки размера помещения, через который характеристики реверберации могут быть определены. В качестве другого примера они могут подходить для оценки характеристик отражения (например, частотный отклик отражений от стен). К примеру, камера может определять, что помещение соответствует ванной комнате, и может соответственным образом предполагать характеристики отражения, соответствующие типичным плитчатым поверхностям. В качестве другого примера абсолютная или относительная информация о местоположении может использоваться.
В качестве еще одного примера определение ультразвукового диапазона на основе ультразвуковых датчиков и испускания ультразвукового тестового сигнала может использоваться для оценки размера помещения. В других вариантах осуществления световые датчики могут использоваться для получения оценки на основе оптического спектра (например, вычисление, обнаруживает он естественное или искусственное освещение, благодаря чему обеспечивается возможность различить среды внутри и вне помещения). Также информация о местоположении может быть полезной на основе GPS. В качестве другого примера обнаружение и распознавание конкретных точек доступа Wi-Fi или идентификаторов сот GSM могут использоваться для определения, какую из бинауральных функций передачи использовать.
Также следует понимать, что хотя аудиоизмерения могут во многих вариантах осуществления выгодно основываться на испускании тестового аудиосигнала, некоторые варианты осуществления могут не задействовать тестовый сигнал. К примеру, в некоторых вариантах осуществления определение аудиохарактеристик, таких как реверберация, частотный отклик или импульсный отклик, может выполняться пассивно путем анализа звуков, которые производятся другими источниками в текущем физическом помещении (например, звуки шагов, радио и т. д.).
В системе с фиг. 3 обработка бинаурального процессора 303 затем модифицируется на основе параметра акустической среды. В частности, процессор 401 бинауральных сигналов обрабатывает аудиосигнал в соответствии с бинауральной функцией передачи, где бинауральная функция передачи зависит от параметра акустической среды.
В некоторых вариантах осуществления, процессор 401 бинауральных сигналов может содержать хранилище данных, которое хранит данные бинауральной функции передачи, соответствующие множеству различных акустических сред. К примеру, один или несколько BRIR могут сохраняться для некоторого количества различных типов помещений, таких как типичная ванная комната, спальня, гостиная, кухня, коридор, автомобиль, поезд и т. д. Для каждого типа может сохраняться множество BRIR, соответствующих различным размерам помещений. Характеристики помещения, в котором BRIR был измерен, дополнительно сохраняются для каждого BRIR.
Процессор 401 бинауральных сигналов может дополнительно содержать процессор, который выполняется с возможностью приема параметра акустической среды и на его основе извлечения подходящих данных бинауральной функции передачи из хранилища. К примеру, параметр акустической среды может являться составным параметром, содержащим указание размера помещения, указание соотношения между ранней и поздней энергией и время реверберации. Процессор затем может осуществлять поиск по сохраненным данным с целью найти BRIR, для которого сохраненные характеристики помещения наиболее близко соответствуют измеренным характеристикам помещения.
Процессор затем извлекает BRIR с наибольшим соответствием и применяет его к аудиосигналу для генерирования бинаурального сигнала, который после усиления подается к головным наушникам.
В некоторых вариантах осуществления хранилище данных может динамически обновляться и/или разрабатываться. К примеру, когда пользователь находится в новом помещении, параметр акустической среды может определяться и использоваться для генерирования BRIR, который соответствует этому помещению. BRIR затем может использоваться для генерирования бинаурального выходного сигнала. Однако дополнительно BRIR может сохраняться в хранилище данных вместе с подходящими определенными характеристиками помещения, такими как параметр акустической среды, возможно, позиция и т. д. Таким образом, хранилище данных может динамически строиться и улучшаться новыми данными по мере их генерирования. BRIR затем может использоваться впоследствии без необходимости определения его через первые принципы. К примеру, когда пользователь возвращается в помещение, в котором он ранее использовал устройство, это автоматически будет обнаружено, и сохраненный BRIR извлекается и используется для генерирования бинаурального выходного сигнала. Только если никакой подходящий BRIR не доступен, будет необходимо сгенерировать новый (который затем может быть сохранен). Такой подход может уменьшить сложность и обрабатывающие ресурсы.
В некоторых вариантах осуществления процессор 401 бинауральных сигналов содержит два блока обработки сигналов. Первый блок может выполнять обработку, соответствующую заранее определенной/фиксированной бинауральной функции передачи виртуальной позиции. Таким образом, этот блок может обрабатывать входной сигнал в соответствии с опорным BRIR, HRIR или HRTF, которые могут генерироваться на основе опорных измерений, например, во время проектирования системы. Второй блок обработки сигналов может быть выполнен с возможностью выполнения имитации помещения на основе параметра акустической среды. Таким образом, в этом примере общая бинауральная функция передачи включает в себя вклад от фиксированного и заранее определенного BRIR, HRIR или HRTF и для адаптивного процесса имитации помещения. Этот подход может уменьшить сложность и упростить проектирование. К примеру, во многих вариантах осуществления есть возможность генерирования точной адаптации помещения без обработки имитации помещения с учетом конкретного желаемого виртуального позиционирования. Таким образом, виртуальное определение положения и адаптация помещения могут быть разделены, когда каждый отдельный блок обработки сигналов должен учитывать только один из этих аспектов.
К примеру, BRIR, HRIR или HRTF может выбираться так, чтобы соответствовать желаемой виртуальной позиции. Получающийся в результате бинауральный сигнал затем может быть модифицирован так, чтобы иметь характеристику реверберации, которая соответствует характеристике помещения. Однако эта модификация может считаться независимой от конкретной позиции аудиоисточников так, чтобы только параметр акустической среды необходимо было учитывать. Этот подход может существенным образом облегчать имитацию помещения и адаптацию.
Отдельная обработка может выполняться параллельно или последовательно. Фиг. 5 иллюстрирует пример, в котором фиксированная обработка 501 HRTF и переменная адаптивная обработка 503 имитации помещения применяются к аудиосигналу параллельно. Получающиеся в результате сигналы затем объединяются путем простого суммирования 505. Фиг. 6 иллюстрирует пример, где фиксированная обработка 601 HRTF и переменная адаптивная обработка 603 имитации помещения выполняются последовательно так, чтобы адаптивная обработка имитации помещения применялась к бинауральному сигналу, генерируемому обработкой HRTF. Следует понимать, что в других вариантах осуществления порядок обработки может меняться на противоположный.
В некоторых вариантах осуществления может быть выгодным применять фиксированную обработку HRTF отдельно для каждого канала и применять переменную адаптивную обработку имитации помещения однократно к миксу всех каналов параллельно.
Процессор 401 бинауральных сигналов, в частности, может пытаться модифицировать бинауральную функцию передачи так, чтобы выходной бинауральный сигнал из аудиосистемы имел характеристики, которые более близко походят на характеристику(и), отраженную параметром акустической среды. К примеру, для параметра акустической среды, указывающего высокое время реверберации, время реверберации генерируемого выходного бинаурального сигнала увеличивается. В большинстве вариантов осуществления характеристика реверберации является особенно подходящим параметром для адаптации для обеспечения более близкой корреляции между генерируемым виртуальным звуком и акустической средой.
Это может быть достигнуто путем модификации обработки 503, 603 сигналов имитации помещения процессора 401 бинауральных сигналов.
В частности, обработка 503, 603 сигналов имитации помещения может во многих вариантах осуществления содержать ревербератор, который адаптируется на основе параметра акустической среды.
Управление уровнем ранних отражений может выполняться путем регулирования уровня по меньшей мере части импульсного отклика реверберационной части, включая ранние отражения, относящиеся к уровню HRIR, HRTF или BRIR.
Таким образом, управление алгоритмом синтетической реверберации может выполняться на основе оцененных параметров помещения.
Известны различные синтетические ревербераторы, и следует понимать, что любой подходящий такой ревербератор может использоваться.
Фиг. 7 изображает конкретный пример блока обработки сигналов имитации помещения, осуществляемого в виде единого ревербератора цепи обратной связи и, в частности, в виде ревербератора Жота.
Обработка 503, 603 сигналов имитации помещения может продолжаться адаптацией параметров ревербератора Жота для модификации характеристик бинаурального выходного сигнала. В частности, она может модифицировать одну или несколько из характеристик, описанных ранее, для параметра акустической среды.
Действительно, в примере ревербератора Жота с фиг. 7 модальная плотность и плотность эха могут быть модифицированы путем изменения относительного и абсолютного значений задержек (mi). Путем адаптации значения усилений в контурах обратной связи может выполняться управление временем реверберации. Дополнительно управление зависящим от частоты T60 может выполняться путем замены усилений подходящими фильтрами (hi(z)).
Для бинауральных ревербераций выходные данные из N ветвей могут объединяться различными способами (αi, βi), обеспечивая возможность генерирования двух реверберационных хвостов с корреляцией 0. Пара совместно спроектированных фильтров (c1(z), c2(z)) может вследствие этого задействоваться для управления ICC двух реверберационных выходов.
Другой фильтр (tL(z), tR(z)) в цепи может использоваться для управления спектрального выравнивания реверберации. Также общее усиление реверберации может быть встроено в этот фильтр, благодаря чему обеспечивается возможность управления над соотношением между прямой частью и реверберационной частью, т. е. энергией реверберации по отношению к энергии прямого звука.
Дополнительные подробности об использовании ревербератора Жота, в частности, об отношении между временной и частотной плотностью и параметрами ревербератора и переводе желаемого, зависящего от частоты T60 в параметры ревербератора, могут быть найдены в работе Жан-Марка Жота (Jean-Marc Jot) и Антуана Щэня (Antoine Chaigne) (1991) "Цепи цифровой задержки для осуществления искусственных ревербераций", материалы 90-го съезда AES.
Дополнительные подробности об использовании бинаурального ревербератора Жота и, в частности, о том, как перевести желаемую межауральную когерентность/корреляцию и окрашивание в параметры ревербератора, могут быть найдены в работе Фрица Мензера (Fritz Menzer) и Кристофа Фаллера (Christof Faller) (2009) "Бинауральная реверберация с использованием модифицированного ревербератора Жота с поиском соответствия зависящей от частоты межауральной когерентности", материалы 126-го съезда AES.
В некоторых вариантах осуществления параметр акустической среды и бинауральная функция передачи могут динамически модифицироваться для непрерывной адаптации представляемого звука к акустической среде. Однако в других вариантах осуществления бинауральная функция передачи может модифицироваться, только когда параметр акустической среды удовлетворяет некоторому критерию. В частности, требование может заключаться в том, что параметр акустической среды должен отличаться на величину больше заданного порога от параметра акустической среды, который использовался для установки текущих параметров обработки. Таким образом, в некоторых вариантах осуществления бинауральная функция передачи обновляется, только если изменение в характеристике(ах) помещения превосходит некоторый уровень. Это может во многих сценариях обеспечивать улучшенное впечатление прослушивающего с более постоянным представлением звука.
В некоторых вариантах осуществления модификация бинауральной функции передачи может быть мгновенной. К примеру, если другое время реверберации вдруг измерено (например, ввиду того, что пользователь переместился в другое помещение), система может мгновенно изменить время реверберации для представления звука для соответствия ему. Однако в других вариантах осуществления система может быть выполнена с возможностью ограничения скорости изменения и, таким образом, для постепенной модификации бинауральной функции передачи. К примеру, переход может постепенно осуществляться в течение временного интервала, например 1-5 секунд. Переход может, к примеру, быть достигнут путем интерполяции требуемых значений для бинауральной функции передачи или может, например, быть достигнут путем постепенного перехода значения параметра акустической среды, используемого для адаптации обработки.
В некоторых вариантах осуществления измеренный параметр акустической среды и/или соответствующий параметр обработки может сохраняться пользователем для последующего использования. Например, пользователь может впоследствии выбирать из ранее определенных значений. Такой выбор может также выполняться автоматически, например, системой обнаружения, что характеристики текущей среды близко отражают ранее измеренные характеристики. Такой подход может быть целесообразным для сценариев, в которых пользователь часто входит и выходит из помещения.
В некоторых вариантах осуществления бинауральная функция передачи адаптируется из расчета на помещение. Действительно, параметр акустической среды может отражать характеристики помещения в совокупности. Бинауральная функция передачи, таким образом, обновляется для имитации помещения и обеспечивает виртуальное пространственное представление, когда принимает в расчет характеристики помещения.
В некоторых вариантах осуществления параметр акустической среды может, однако, не только отражать акустические характеристики для помещения, но также может отражать позицию пользователя внутри помещения. К примеру, если пользователь находится близко к стене, соотношение между ранними отражениями и поздней реверберацией может меняться, и параметр акустической среды может отражать это. Это может вызывать модификацию бинауральной функции передачи для обеспечения подобного соотношения между ранними отражениями и поздней реверберацией. Таким образом, при перемещении пользователя к стене прямые ранние элементы эха становятся более существенными в представляемом звуке, и реверберационный хвост уменьшается. Когда пользователь перемещается от стены, происходит противоположное.
В некоторых вариантах осуществления система может быть сконфигурирована для обновления бинауральной функции передачи на основе позиции пользователя. Это может выполняться опосредованно, как описано в вышеприведенном примере. В частности, адаптация может происходить опосредованно путем определения параметра акустической среды, который зависит от позиции пользователя и, в частности, который зависит от позиции пользователя внутри помещения.
В некоторых вариантах осуществления параметр позиции, указывающий на позицию пользователя, может генерироваться и использоваться для адаптации бинауральной функции передачи. К примеру, камера может устанавливаться и использовать методики визуального обнаружения для обнаружения местоположения пользователя в помещении. Соответствующая оценка позиции затем может быть передана аудиосистеме (например, с использованием беспроводной связи) и может использоваться для адаптации бинауральной функции передачи.
Следует понимать, что в вышеприведенном описании для ясности были описаны варианты осуществления настоящего изобретения со ссылкой на различные функциональные цепи, блоки и процессоры. Однако должно быть очевидным, что любое подходящее распределение функциональных возможностей между различными функциональными цепями, блоками или процессорами может использоваться без выхода за пределы объема изобретения. К примеру, иллюстрируемые функциональные возможности, которые должны выполняться раздельными процессорами или управляющими средствами, могут выполняться одним процессором или управляющим средством. Следовательно, ссылки на конкретные функциональные блоки или цепи должны рассматриваться только как ссылки на подходящее средство для обеспечения описанных функциональных возможностей, а не указание на строгую логическую или физическую структуру или организацию.
Изобретение может осуществляться в любой подходящей форме, включая аппаратные средства, программные средства, программно-аппаратные средства или любую комбинацию перечисленного. Изобретение может опционально осуществляться по меньшей мере частично в виде компьютерно-программного средства, запущенного на одном или нескольких процессорах данных и/или процессорах цифровых сигналов. Элементы и компоненты варианта осуществления настоящего изобретения могут физически, функционально и логически осуществляться любым подходящим образом. Действительно, функциональные возможности могут осуществляться в одном блоке, во множестве блоков или в составе других функциональных блоков. Таким образом, изобретение может осуществляться в одном блоке или может быть физически и функционально распределено между различными блоками, цепями и процессорами.
Хотя настоящее изобретение было описано в связи с некоторыми вариантами осуществления, оно не предполагает ограничения конкретной формой, изложенной здесь. Наоборот, объем настоящего изобретения ограничивается только сопроводительной формулой изобретения. Дополнительно, хотя некоторый признак может фигурировать как описанный в связи с конкретными вариантами осуществления, специалист в данной области техники поймет, что различные признаки описанных вариантов осуществления могут объединяться в соответствии с изобретением. В формуле изобретения термин "содержащий" не исключает возможности наличия других элементов или этапов.
Кроме того, несмотря на перечисление по отдельности, множество средств, элементов, цепей или этапов способов может осуществляться, например, единственной цепью, блоком или процессором. Дополнительно, хотя отдельные признаки могут включаться в различные пункты формулы, они вполне могут выгодно объединяться, и включение в различные пункты формулы не подразумевает, что комбинация признаков невозможна и/или не имеет преимуществ. Также включение признака в одну категорию пунктов формулы не подразумевает ограничения этой категорией, а указывает на то, что признак эквивалентно применим к другим категориям пунктов формулы в соответствующих случаях. Кроме того, порядок признаков в формуле изобретения не подразумевает какого-либо конкретного порядка, в котором признаки должны осуществляться и, в частности, порядок отдельных этапов в пунктах на способы не подразумевает, что этапы должны выполняться в этом порядке. Наоборот, этапы могут выполняться в любом подходящем порядке. Дополнительно, упоминания элементов в единственном числе не исключают возможности множественности. Таким образом, ссылка на "один", "первый", "второй" и т. д. не исключают возможности множества. Позиционные обозначения в формуле изобретения обеспечиваются исключительно для прояснения примера и не должны толковаться как ограничивающие объем, определяемый формулой изобретения, каким-либо образом.
название | год | авторы | номер документа |
---|---|---|---|
БИНАУРАЛЬНАЯ АУДИООБРАБОТКА | 2014 |
|
RU2656717C2 |
СТЕРЕОФОНИЧЕСКАЯ ОБРАБОТКА АУДИОСИГНАЛОВ | 2013 |
|
RU2660611C2 |
СПОСОБ ДЛЯ ОБРАБОТКИ АУДИОСИГНАЛА В СООТВЕТСТВИИ С ИМПУЛЬСНОЙ ХАРАКТЕРИСТИКОЙ ПОМЕЩЕНИЯ, БЛОК ОБРАБОТКИ СИГНАЛОВ, АУДИОКОДЕР, АУДИОДЕКОДЕР И УСТРОЙСТВО БИНАУРАЛЬНОГО РЕНДЕРИНГА | 2014 |
|
RU2643867C2 |
Аудиоустройство и способ обработки аудио | 2019 |
|
RU2823573C1 |
УСТРОЙСТВО И СПОСОБ ДЛЯ ФОРМИРОВАНИЯ ОТФИЛЬТРОВАННОГО ЗВУКОВОГО СИГНАЛА, РЕАЛИЗУЮЩЕГО РЕНДЕРИЗАЦИЮ УГЛА МЕСТА | 2016 |
|
RU2717895C2 |
Аудиоустройство и способ обработки аудио | 2019 |
|
RU2798414C2 |
Аудиоустройство и способ обработки аудио | 2019 |
|
RU2815366C2 |
Аудиоустройство и способ обработки аудио | 2019 |
|
RU2815621C1 |
СПОСОБ ОБРАБОТКИ АУДИОСИГНАЛА, БЛОК ОБРАБОТКИ СИГНАЛОВ, СТЕРЕОФОНИЧЕСКИЙ РЕНДЕРЕР, АУДИОКОДЕР И АУДИОДЕКОДЕР | 2014 |
|
RU2642376C2 |
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ АУДИО | 2007 |
|
RU2427978C2 |
Изобретение относится к аудиосистеме, в частности к виртуальному пространственному воспроизведению аудиосигналов. Технический результат - обеспечение полного восприятия пространственного звука на основе бинауральных сигналов. Аудиосистема содержит приемник для приема аудиосигнала, такого как аудиообъект или сигнал канала пространственного многоканального сигнала. Бинауральная цепь генерирует бинауральный выходной сигнал путем обработки аудиосигнала. Обработка представляет бинауральную функцию передачи, обеспечивающую позицию виртуального звукового источника для аудиосигнала. Цепь измерения генерирует данные измерения, указывающие на характеристику акустической среды, и цепь определения определяет параметр акустической среды на основе данных измерения. Параметр акустической среды может, как правило, являться параметром реверберации, таким как время реверберации. Цепь адаптации адаптирует бинауральную функцию передачи динамически на основе параметра акустической среды. К примеру, адаптация может модифицировать параметр реверберации для большего совпадения с характеристиками реверберации акустической среды. 2 н. и 12 з.п. ф-лы, 7 ил.
1. Аудиосистема, содержащая:
приемник (301) для приема аудиосигнала;
бинауральную цепь (303) для генерирования бинаурального выходного сигнала путем обработки аудиосигнала, причем обработка представляет бинауральную функцию передачи, обеспечивающую позицию виртуального звукового источника для аудиосигнала;
цепь (307) измерения для генерирования данных измерения, указывающих на характеристику акустической среды;
цепь (311) определения для определения параметра акустической среды на основе данных измерения; и
цепь (313) адаптации для адаптации бинауральной функции передачи на основе параметра акустической среды, причем цепь (313) адаптации сконфигурирована для динамического обновления бинауральной функции передачи, во время обработки аудиосигнала, для соответствия акустической среде.
2. Аудиосистема по п. 1, в которой параметр акустической среды содержит параметр реверберации для акустической среды.
3. Аудиосистема по п. 1, в которой параметр акустической среды содержит по меньшей мере одно из:
- времени реверберации;
- энергии реверберации по отношению к энергии прямого пути;
- частотного спектра по меньшей мере части импульсного отклика помещения;
- модальной плотности по меньшей мере части импульсного отклика помещения;
- плотности эха по меньшей мере части импульсного отклика помещения;
- межауральной когерентности или корреляции;
- уровня ранних отражений; и
- оценки размера помещения.
4. Аудиосистема по п. 1, в которой цепь (313) адаптации сконфигурирована для адаптации характеристики реверберации бинауральной функции передачи.
5. Аудиосистема по п. 1, в которой цепь (313) адаптации сконфигурирована для адаптации по меньшей мере одной из следующих характеристик бинауральной функции передачи:
- времени реверберации;
- энергии реверберации по отношению к энергии прямого звука;
- частотного спектра по меньшей мере части бинауральной функции передачи;
- модальной плотности по меньшей мере части бинауральной функции передачи;
- плотности эха по меньшей мере части бинауральной функции передачи;
- межауральной когерентности или корреляции; и
- уровня ранних отражений по меньшей мере части бинауральной функции передачи.
6. Аудиосистема по п. 1, в которой обработка содержит комбинацию заранее определенной бинауральной функции передачи и переменной бинауральной функции передачи, адаптируемой на основе параметра акустической среды.
7. Аудиосистема по п. 1, в которой цепь (313) адаптации сконфигурирована для модификации бинауральной функции передачи, только когда характеристика среды удовлетворяет некоторому критерию.
8. Аудиосистема по п. 1, в которой цепь адаптации сконфигурирована для постепенной модификации в течение некоторого временного интервала для бинауральной функции передачи.
9. Аудиосистема по п. 1, дополнительно содержащая:
хранилище данных для хранения данных бинауральной функции передачи;
цепь для извлечения данных бинауральной функции передачи из хранилища данных на основе параметра акустической среды; и
причем цепь адаптации сконфигурирована для адаптации бинауральной функции передачи на основе извлеченных данных бинауральной функции передачи.
10. Аудиосистема по п. 1, дополнительно содержащая:
цепь тестового сигнала, сконфигурированную для испускания звукового тестового сигнала в акустическую среду, и причем
цепь (307) измерения сконфигурирована для захвата принятого звукового сигнала в среде, причем принятый аудиосигнал содержит сигнальный компонент, возникающий из испускаемого звукового тестового сигнала; и
цепь (311) определения сконфигурирована для определения параметра акустической среды на основе звукового тестового сигнала.
11. Аудиосистема по п. 10, в которой цепь (311) определения сконфигурирована для определения импульсного отклика среды на основе принятого звукового сигнала и для определения параметра акустической среды на основе импульсного отклика среды.
12. Аудиосистема по п. 1, в которой цепь (313) адаптации дополнительно сконфигурирована для обновления бинауральной функции передачи на основе позиции пользователя.
13. Аудиосистема по п. 1, в которой бинауральная цепь (303) содержит ревербератор, и цепь (313) адаптации сконфигурирована для адаптации обработки реверберации ревербератора на основе параметра акустической среды.
14. Способ оперирования для аудиосистемы, причем способ содержит этапы, на которых:
принимают аудиосигнал;
генерируют бинауральный выходной сигнал путем обработки аудиосигнала, причем обработка представляет бинауральную функцию передачи, обеспечивающую позицию виртуального звукового источника для аудиосигнала;
генерируют данные измерения, указывающие на характеристику акустической среды;
определяют параметр акустической среды на основе данных измерения; и
адаптируют бинауральную функцию передачи на основе параметра акустической среды, причем упомянутая адаптация выполняется с возможностью динамического обновления бинауральной функции передачи, во время обработки аудиосигнала, для соответствия акустической среде.
Binaural reverberation using a modified Jot reverberator with frequency-dependent interaural coherence matching, Fritz Menzer, Christof Faller, AES Convention 126; 7-10 may 2009, Munich, Germany (D1 6 стр., найдено http://infoscience.epfl.ch/record/140947/files/paper126.pdf), разделы 1-6, фиг.3 | |||
JOT J-M ED -; Institute of electrical and electronics |
Авторы
Даты
2016-08-27—Публикация
2012-01-03—Подача