ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Варианты осуществления настоящего изобретения относятся к оцениванию пространственной характеристики, связанной с аудиопотоком, а именно, мере пространственности.
УРОВЕНЬ ТЕХНИКИ
Оценивание 3D–аудио–контента с акцентом на его трехмерность является трудоемкой работой, требующей специальной комнаты для прослушивания и опытного звукорежиссера, который прослушивает весь контент.
При профессиональной работе со звуком, каждый этап продюсирования является специфичным и требует экспертов в этой конкретной области. Один принимает контент от предыдущих этапов продюсирования для его редактирования. Наконец, он поступает на следующий блок продюсирования или распространения. При приеме контента обычно осуществляется проверка качества, чтобы гарантировать, что материал пригоден для работы и удовлетворяет заданным стандартам. Например, широковещательные станции осуществляют проверку на всем входящем материале, чтобы проверить, находится ли общий уровень или динамический диапазон в желаемом диапазоне [1, 2, 3]. Следовательно, желательно по мере возможности автоматизировать описанные процессы для снижения потребностей в ресурсах.
При работе с 3D–аудио к существующей ситуации добавляются новые аспекты. Помимо наличия дополнительных каналов для наблюдения за оцениванием громкости и возможностям понижающего микширования также необходимо установить, в каких временных позициях 3D–эффекты возникают и насколько они сильны. Последнее представляет интерес по следующей причине. До сих пор 5.1 был стандартным форматом звука для кинофильмов и художественных фильмов на внутреннем рынке. Все последовательности операций и сегменты цепочки продюсирования и распространения (например, микширование, оборудование для мастеринга, платформа доставки потокового контента, вещатели, A/V приемники, …) способны пропускать 5.1 звук, чего нельзя сказать про 3D–аудио, поскольку этот способ воспроизведения был предложен в последние пять лет. Создатели контента начали пользоваться этим форматом совсем недавно.
В случае 3D–аудио–контента нужно обеспечивать больше ресурсов во всех точках цепочки продюсирования по сравнению с традиционным контентом. Самое большее, студии звукового монтажа, студии микширования и студии мастеринга являются значительными стоимостными факторами, поскольку для работы с 3D–аудио–контентом требуется существенно обновить их условия работы, предоставляя им помещения большей площади с улучшенной акустикой, больше громкоговорителей и расширенные потоки сигнала. По этой причине принимаются взвешенные решения, какому продюсированию выделить больше средств и по дополнительной работе, выполняемой в интересах заказчика в рамках 3D–аудио.
До сих пор оценивание 3D–аудио–контента и вынесение суждения о выразительности эффектов 3D–аудио осуществлялось только путем его прослушивания. Этим обычно занимается опытный звукооператор или тонмейстер, по меньшей мере, в течение времени всей программы, а то и больше. Ввиду высоких дополнительных затрат на установки для прослушивания 3D–аудио прослушивание и оценивание должны быть эффективными.
Обычным способом анализа многоканальных аудиосигналов является мониторинг уровня и громкости [4, 5, 6]. Уровень сигнала измеряется с использованием измерителя пика или измерителя истинного пика с указателем перегрузки. Мера, которая ближе к человеческому восприятию, называется громкостью. Интегральная громкость (BS.1770–3), диапазон громкости (EBU R 128 LRA), громкость после ATSC A/85 (акта CALM), кратковременная и мгновенная громкость, изменчивость громкости или история громкости являются наиболее распространенными мерами громкости. Все эти меры широко используются для стереосигналов и сигналов 5.1. Громкость для 3D–аудио в настоящее время находится на рассмотрении ITU.
Для сравнения фазового соотношения двух (стерео) или пяти (5.1) сигналов применяются гониометры, вектороскопы и измерители корреляции. Спектральное распределение энергии можно анализировать с использованием анализатора в реальном времени (RTA) или спектрографа. Также применяется анализатор окружающего звука для измерения баланса в сигнале 5.1.
Способом визуализации по времени 3D–эффекта для стереоскопического видео является сценарий глубины, карта глубин или график глубины [7, 8].
Все эти способы имеют два общих отличия. Они непригодны для анализа 3D–аудио, поскольку они разработаны для стереосигналов и сигналов 5.1. Кроме того, они не способны дать информацию о трехмерности 3D–аудио–сигнала.
Следовательно, желательно усовершенствовать принцип получения меры пространственности для аудиопотоков.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Варианты осуществления изобретения предусматривают устройство для оценивания аудиопотока, причем аудиопоток содержит аудиоканалы, подлежащие воспроизведению в по меньшей мере двух разных пространственных слоях. Два пространственных слоя скомпонованы на расстоянии вдоль пространственной оси. Устройство дополнительно выполнено с возможностью оценивания аудиоканалов аудиопотока для обеспечения меры пространственности, связанной с аудиопотоком.
Описанный вариант осуществления призван обеспечивать принцип оценивания пространственности, связанной с аудиопотоком, т.е. меры пространственности аудио–сцены, описанной аудиоканалами, содержащимися в аудиопотоке. Такой принцип повышает экономичность оценивания по времени и затратам по сравнению с оцениванием звукооператором. В частности, оценивание аудиопотоков, содержащих аудиоканалы, которые можно назначать громкоговорителям в разных пространственных слоях, требует дорогостоящего оборудования комнаты для прослушивания при оценивании аудиопотока вручную. Аудиоканалы аудиопотоков можно назначать громкоговорителям, скомпонованным в пространственных слоях, причем пространственные слои могут быть сформированы громкоговорителями, скомпонованными перед слушателем и/или позади него, т.е. они могут быть передним и/или задним слоем, и/или пространственные слои также могут быть горизонтальными слоями, такими как слой, в котором расположена голова слушателя, и/или слой, расположенный выше или ниже головы слушателя, , которые все являются типичными установками для 3D–аудио. Следовательно, этот принцип обеспечивает преимущество оценивания упомянутых аудиопотоков без необходимости в установке воспроизведения. Кроме того, можно сэкономить время, необходимое звукооператору для оценивания аудиопотока путем его прослушивания. Описанный вариант осуществления может, например, указывать звукооператору или другому специалисту в данной области техники, какие интервалы времени представляют особый интерес в аудиопотоке. Таким образом, звукооператору может требоваться прослушивать только эти указанные интервалы времени аудиопотока для подтверждения результата оценивания устройства, что приводит к значительному снижению трудозатрат.
В некоторых вариантах осуществления пространственная ось ориентирована горизонтально, или пространственная ось ориентирована вертикально. Когда пространственная ось ориентирована горизонтально, первый слой может располагаться перед слушателем, и второй слой может располагаться позади слушателя. Для вертикально ориентированной пространственной оси первый слой может располагаться над слушателем, и второй слой может располагаться в одном слое со слушателем или под слушателем.
В некоторых вариантах осуществления устройство выполнено с возможностью получения информации первого уровня на основании первого набора аудиоканалов аудиопотока, и получения информации второго уровня на основании второго набора аудиоканалов аудиопотока. Дополнительно, устройство выполнено с возможностью определения пространственного уровня информации на основании первого уровня информации и второго уровня информации и определения уровня пространственности на основании информации пространственного уровня. Для группирования каналы, подлежащие воспроизведению на громкоговорителях, находящихся вблизи друг друга, могут использоваться для формирования группы. Кроме того, для оценивания пространственности или получения информации пространственного уровня предпочтительно использовать группы, назначаемые громкоговорителям, причем громкоговорители из одной группы располагаются на расстоянии от громкоговорителей другой группы. Таким образом, когда звук воспроизводится, возможно, только по одну сторону от слушателя, например, от группы громкоговорителей над слушателем, и с другой стороны, например, от группы громкоговорителей под слушателем, звук не воспроизводится или воспроизводится только с малой громкостью, может наблюдаться и определяться сильный пространственный эффект.
В некоторых вариантах осуществления первый набор аудиоканалов аудиопотока разъединен со вторым набором аудиоканалов аудиопотока. Использование разъединенных наборов позволяет определять более значимую информацию пространственного уровня, например, при использовании каналов громкоговорителей, скомпонованных напротив друг друга. Поскольку разъединенные наборы предпочтительно воспроизводить на громкоговорителях, ориентированных в разных направлениях от слушателя, можно получать повышенную меру пространственности на основании полученной от них информации пространственного уровня.
В некоторых вариантах осуществления первый набор аудиоканалов аудиопотока подлежит воспроизведению на громкоговорителях в одном или более первых пространственных слоев, и второй набор аудиоканалов аудиопотока подлежит воспроизведению на громкоговорителях в одном или более вторых пространственных слоев. Один или более первых слоев и один или более вторых слоев пространственно дистанцированы, например, таким образом, что они являются разъединенными наборами. При использовании, например, первого слоя над слушателем и второго слоя под слушателем, можно вывести (получить) особый слой информации, когда источник звука заметнее от верхних громкоговорителей, и громкоговорители в нижнем или среднем слое обеспечивают внешний или фоновый звук, который имеет более низкий уровень.
В некоторых вариантах осуществления устройство выполнено с возможностью определения порога маскирования на основании информации уровня первого набора аудиоканалов и сравнения порога маскирования с информацией уровня второго набора аудиоканалов. Дополнительно, устройство выполнено с возможностью увеличения информации пространственного уровня, когда сравнение указывает превышение порога маскирования информацией уровня второго набора аудиоканалов. Информация уровня может быть уровнем звука, который можно получать на основании мгновенной или усредненной оценки уровня звука аудиоканала. Информация уровня также может, например, описывать энергию, которая может оцениваться по возведенным в квадрат значениям (например, усредненным) сигнала аудиоканала. Альтернативно, информацию уровня также можно получать с использованием абсолютных значений или максимальных значений временного кадра аудиосигнала. Описанный вариант осуществления, может использовать, например, порог психоакустического восприятия для задания порога маскирования. На основании порога маскирования может приниматься решение, воспринимается ли сигнал или источник звука происходящим только из набора аудиоканалов, например, второго набора аудиоканалов.
В некоторых вариантах осуществления устройство выполнено с возможностью определения меры сходства между первым набором аудиоканалов аудиопотока, подлежащего воспроизведению в одном или более первых пространственных слоев, и вторым набором аудиоканалов аудиопотока, подлежащего воспроизведению в одном или более вторых пространственных слоев. Дополнительно, устройство выполнено с возможностью определения меры пространственности на основании меры сходства. Когда компоненты сигнала, подлежащие воспроизведению в первом наборе аудиоканалов, не коррелируют с компонентами сигнала, подлежащими воспроизведению во втором наборе аудиоканалов, можно предположить, что два разных аудио–объекта воспроизводятся в каждом наборе аудиоканалов, причем каналы назначены разным громкоговорителям. Другими словами, некоррелированные сигналы указывают несхожий аудиоконтент, подлежащий воспроизведению на разных каналах. Таким образом, поскольку из изменяющихся наборов каналов могут восприниматься разные объекты, можно получать сильное пространственное впечатление. Кроме того, взаимную корреляцию можно получать, используя отдельные сигналы из группы каналов или взаимно коррелируя суммарные сигналы. Суммарные сигналы можно получать, суммируя отдельные сигналы из группы каналов или пар каналов. Таким образом, оценивание сходства может базироваться на средней взаимной корреляции между группами каналов или парами каналов.
В некоторых вариантах осуществления устройство выполнено с возможностью определения меры пространственности таким образом, что, чем меньше мера сходства, тем больше мера пространственности. Использование описанного простого соотношения (например, обратной пропорциональности) между мерой сходства и мерой пространственности позволяет упростить определение меры пространственности на основании меры сходства.
В некоторых вариантах осуществления устройство выполнено с возможностью определения порога маскирования на основании информации уровня первого набора аудиоканалов и сравнения порога маскирования с информацией уровня второго набора аудиоканалов. Дополнительно, устройство выполнено с возможностью увеличения меры пространственности, когда сравнение указывает превышение порога маскирования (например, только небольшое превышение) информацией уровня второго набора аудиоканалов, и мера сходства указывает низкое сходство между первым набором аудиоканалов и вторым набором аудиоканалов. Совместное использование информации пространственного уровня и меры сходства позволяет точнее и надежнее определять меру пространственности. Кроме того, когда один указатель (например, информация пространственного уровня или мера сходства) указывает нейтральную пространственность, другой указатель может использоваться для перехода к принятию решения относительно высокой или низкой пространственности аудиопотока.
В некоторых вариантах осуществления устройство выполнено с возможностью анализа аудиоканалов аудиопотока в отношении временного изменения панорамирования источника звука на аудиоканалы. Анализ аудиоканалов в отношении изменения панорамирования упрощает отслеживание аудио–объектов по аудиоканалам. Перемещение аудио–объектов между аудиоканалами с течением времени производит усиленное воспринимаемое пространственное впечатление, и, следовательно, анализ упомянутого панорамирования полезен для значимой меры пространственности.
В некоторых вариантах осуществления устройство выполнено с возможностью получения оценки источника повышающего микширования на основании меры сходства между первым набором аудиоканалов аудиопотока и вторым набором аудиоканалов аудиопотока. Дополнительно, устройство выполнено с возможностью определения меры пространственности на основании оценки источника повышающего микширования. Оценка источника повышающего микширования может указывать, получен ли аудиопоток из аудиопотока, имеющего меньше аудиоканалов (например, повышающее микширование стерео до 5.1 или 7.1, или аудиопотока для 22.2 на основании аудиопотока 5.1). Таким образом, когда аудиопоток базируется на повышающем микшировании, компоненты сигнала аудиоканалов будут иметь более высокое сходство, поскольку они, в общем случае, выведены из меньшего количества исходных сигналов. Альтернативно, повышающее микширование можно обнаружить, когда, например, установлено, что в первом слое воспроизводится, в основном, прямой звук от источника звука (например, без или с небольшой реверберацией), и во втором слое воспроизводится диффузная компонента источника звука (например, поздняя реверберация). Аудиопоток, который базируется на повышающем микшировании, оказывает влияние на качество пространственного впечатления и, следовательно, полезен для определения меры пространственности.
В некоторых вариантах осуществления устройство выполнено с возможностью уменьшения меры пространственности на основании оценки источника повышающего микширования, когда оценка источника повышающего микширования указывает, что аудиоканалы аудиопотока выводятся из аудиопотока с меньшим количеством аудиоканалов. В общем случае, аудиопоток, полученный из аудиопотока с меньшим количеством аудиоканалов, будет восприниматься как имеющий более низкое качество в отношении пространственного впечатления. Следовательно, он пригоден для уменьшения меры пространственности, если установлено, что аудиопоток базируется на аудиопотоке с меньшим количеством каналов.
В некоторых вариантах осуществления устройство выполнено с возможностью вывода меры пространственности наряду с оценкой источника повышающего микширования. Раздельный вывод оценки источника повышающего микширования может быть полезен, поскольку звукооператор может использовать ее в качестве важной вспомогательной информации. Звукооператор может использовать оценку источника повышающего микширования в качестве значимой информации, например, для оценивания пространственности аудиопотока.
В некоторых вариантах осуществления устройство выполнено с возможностью обеспечения меры пространственности на основании взвешивания по меньшей мере двух из следующих параметров: информации пространственного уровня аудиопотока, и/или меры сходства аудиопотока, и/или информации панорамирования аудиопотока и/или оценки источника повышающего микширования аудиопотока. Описанное устройство может с пользой взвешивать отдельные факторы согласно важности для получения меры пространственности. Мера пространственности, полученная из этого взвешивания, может быть более высокой, т.е. более значимой, чем мера пространственности, полученная только из одного из описанных указателей.
В некоторых вариантах осуществления устройство выполнено с возможностью визуального вывода меры пространственности. Используя визуальный вывод, звукооператор может принимать решение о пространственности аудиопотока на основании визуального контроля визуального вывода.
В некоторых вариантах осуществления устройство выполнено с возможностью обеспечения меры пространственности в виде графика, причем график выполнен с возможностью обеспечения информации меры пространственности с течением времени. Ось времени графика предпочтительно выровнена с осью времени аудиопотока. Предоставление информации о мере пространственности с течением времени может быть полезно для звукооператоров, поскольку звукооператор может контролировать (например, прослушивать) секции аудиопотока, указанные графиком меры пространственности как содержащие пространственно выразительный контент. Таким образом, звукооператор может быстро извлекать пространственно выразительную аудио–сцену из аудиопотока или проверять определенную меру пространственности.
В некоторых вариантах осуществления устройство выполнено с возможностью обеспечения меры пространственности как численного значения, причем численное значение представляет весь аудиопоток. Простое численное значение можно использовать, например, для быстрой классификации и ранжирования разных аудиопотоков.
В некоторых вариантах осуществления устройство выполнено с возможностью записи меры пространственности в файл журнала. Использование файлов журнала может быть особенно полезно для автоматизированного оценивания.
Варианты осуществления изобретения предусматривают способ оценивания аудиопотока. Способ содержит оценивание аудиоканалов аудиопотока для обеспечения меры пространственности, связанной с аудиопотоком. Дополнительно, аудиопоток содержит аудиоканалы, подлежащие воспроизведению в по меньшей мере двух разных пространственных слоях, причем два пространственных слоя скомпонованы на расстоянии вдоль пространственной оси.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
В дальнейшем, предпочтительные варианты осуществления настоящего изобретения будут объяснены со ссылкой на прилагаемые чертежи, в которых:
фиг. 1 – блок–схема устройства согласно вариантам осуществления изобретения;
фиг. 2 – блок–схема устройства согласно вариантам осуществления изобретения;
фиг. 3 – блок–схема устройства согласно вариантам осуществления изобретения;
фиг. 4 – установка громкоговорителей 3D–аудио;
фиг. 5 – блок–схема операций способа согласно вариантам осуществления изобретения.
ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
На фиг. 1 показана блок–схема устройства 100 согласно вариантам осуществления изобретения. Устройство 100 содержит оцениватель 110.
Устройство 100 берет в качестве ввода аудиопоток 105 на основании которого аудиоканалы 106 предоставляются на оцениватель 110. Оцениватель 110 оценивает аудиоканалы 106 и на основании оценки устройства 100 обеспечивает меру пространственности 115.
Мера пространственности 115 описывает субъективное пространственное впечатление аудиопотока 105. Традиционно, человеку, предпочтительно, звукооператору, требуется прослушивать аудиопоток для обеспечения меры пространственности, связанной с аудиопотоком. Таким образом, устройство 100 преимущественно избегает необходимости специалисту в данной области техники в прослушивании аудиопотока для оценивания. Кроме того, для надежности звукооператор может прослушивать для проверки только конкретные части аудиопотока, в отношении которых может быть указано устройством 100, что они обладают высокой мерой пространственности. Таким образом, можно сэкономить время, поскольку звукорежиссеру может требоваться прослушивать только указанные секции или интервалы времени. Например, мера пространственности 115 может использоваться звукооператором, чтобы инспектировать только интервалы времени или секции аудиопотока, которые указаны мерой пространственности 115, как имеющие выразительный эффект 3D–аудио, т.е. субъективно пространственно выразительный. На основании этого указания звукооператора или опытного слушателя может потребоваться только прослушивать указанные секции для нахождения или проверки подходящих секций аудиопотока. Кроме того, устройство 100 может избегать получения дорогостоящего оборудования или сокращать время использования дорогостоящего оборудования. Например, (например, дорогостоящая) студия звукозаписи, которая является необходимым окружением воспроизведения для прослушивания аудиоканалов 106, может использоваться только для проверки полученной меры пространственности. Таким образом, студия звукозаписи может использоваться более эффективно или может даже не требоваться, когда оценивание полностью базируется на устройстве 100.
На фиг. 2 показана блок–схема устройства 200 согласно вариантам осуществления изобретения. Другими словами, фиг. 2 можно интерпретировать как поток сигналов с разными блоками (например, блоками анализа). Сплошные линии указывают аудиосигналы; (жирные) пунктирные линии представляют значения, используемые для оценивания трехмерности (например, меры пространственности) и малые (или тонкие) пунктирные линии могут указывать обмен информацией между разными блоками. Устройство 200 содержит признаки и функциональные возможности, которые могут быть включены либо по отдельности, либо совместно в устройство 100. Устройство 200 содержит необязательный выравниватель/группирователь 210 сигналов или каналов, необязательный анализатор 220a уровня, необязательный анализатор 220b корреляции, необязательный анализатор 220c динамического панорамирования и необязательный оцениватель 220d повышающего микширования. Дополнительно, устройство 200 содержит необязательный взвешиватель 230. Отдельные компоненты 210, 220a–d и 230 могут по отдельности или совместно содержаться в оценивателе 110, и аудиоканалы 206 можно получать из аудиопотока 105, аналогично аудиоканалам 106.
Устройство 200 берет в качестве ввода аудиосигнал многоканального аудиосигнала 206, на основании которого оно обеспечивает меру пространственности 235 по мере вывода. Устройство 200 содержит оцениватель 204 согласно оценивателю 110, который будет более подробно описан в дальнейшем. В выравнивателе/группирователе 210, сигналы или каналы выравниваются (например, по времени) и группируются в каналы, которые могут, например, воспроизводиться в разных пространственных слоях (например, пространственно группироваться). Таким образом, получаются пары или группы, которые затем предоставляются на блоки 220a–d анализа и оценивания. Группирование может различаться для блока 220a–d, и связанные с этим детали рассмотрены ниже. Например, группы могут базироваться на слоях, как изображено на фиг. 4, где показана установка громкоговорителей с двумя слоями. Первая группа может базироваться на аудиоканалах, связанных со слоем 410, и вторая группа может базироваться на аудиоканалах, связанных со слоем 420. Альтернативно, первая группа может базироваться на каналах, назначенных громкоговорителям слева, и вторая группа может базироваться на каналах, назначенных громкоговорителям справа. Дополнительно, возможные группировки более подробно рассмотрены ниже.
На блоке 220a анализа уровня сравнивается уровень звука разных групп, где группа может состоять из одного или более каналов. Уровень звука может, например, оцениваться на основании спонтанного значения сигнала, усредненного значения сигнала, максимального значения сигнала или значения энергии сигнала. Среднее значение, максимальное значение или значение энергии можно получать из временных кадров аудиосигналов каналов 206 или можно получать с использованием рекурсивного оценивания. Если определено, что первая группа имеет более высокий уровень (например, средний уровень или максимальный уровень), чем вторая группа, причем первая группа пространственно отделена от второй группы, получается информация 220a′ пространственного уровня, указывающая высокую пространственность аудиоканалов 206. Затем эта информация 220a′ пространственного уровня предоставляется на блок 230 взвешивания. Информация 220a′ пространственного уровня используется для вычисления окончательной меры пространственности, подробно изложенного ниже. Кроме того, блок 220a анализа уровня может определять порог маскирования на основании первой группы аудиоканалов, и получать информацию 220a′ высокого пространственного уровня, когда вторая группа каналов имеет более высокий уровень, чем определенный порог маскирования.
Дополнительно, группы или пары каналов по мере вывода группирователем/выравнивателем 210 предоставляются на блок 220b корреляционного анализа, который может вычислять корреляции (например, взаимные корреляции) между отдельными сигналами, т.е. сигналами каналов, разных групп или пар для оценивания сходства. Альтернативно, блок корреляционного анализа может определять взаимную корреляцию между суммарными сигналами. Суммарные сигналы можно получать из разных групп суммированием отдельных сигналов в каждой группе, таким образом, можно получать среднюю взаимную корреляцию между группами, характеризующую среднее сходство между группами. Если блок 220b корреляционного анализа определяет высокое сходство между группами или парами, значение 220b′ сходства подается на блок 230 взвешивания, указывающий низкую пространственность аудиоканалов 206. Корреляцию можно оценивать на блоке 220b корреляционного анализа для каждой выборки или путем коррелирования временных кадров сигналов каналов, групп каналов или пар каналов. Кроме того, блок 220b корреляционного анализа может использовать информацию 220a″ уровня для осуществления корреляционного анализа на основании информации, обеспеченной блоком 220a анализа уровня. Например, огибающие сигнала разных каналов, групп каналов или пар каналов, полученных из блока 220a анализа уровня, могут содержаться в информации 220a″ уровня. На основании огибающих, корреляция может осуществляться для получения информации о сходстве между отдельными каналами, группами каналов или парами каналов. Дополнительно, блок 220b корреляционного анализа может использовать то же группирование каналов, которое обеспечено блоку 220a анализа уровня или может использовать совершенно другое группирование.
Кроме того, устройство 200 может осуществлять анализ/обнаружение 220c динамического панорамирования на основании пар или групп. Обнаружение 220c динамического панорамирования может обнаруживать звуковые объекты, перемещающиеся от одной пары или группы каналов к другой паре или группе каналов, например, развитие уровня от первой группы каналов ко второй группе каналов. Наличие звуковых объектов, перемещающихся между разными парами или группами, обеспечивает высокое пространственное впечатление. Таким образом, информация 220c′ динамического панорамирования подается на блок 230 взвешивания, указывающий высокую пространственность, если движущиеся источники обнаруживаются блоком 220c анализа панорамирования. Дополнительно, информация 220c′ динамического панорамирования может указывать низкую пространственность, если не обнаружено никакого перемещения (или обнаружены только малые перемещения, например, только внутри группы каналов) источников звука между парами или группами каналов. Блок 220c обнаружения панорамирования может осуществлять анализ панорамирования для каждой выборки или для каждого кадра. Кроме того, блок 220c обнаружения динамического панорамирования может использовать информацию 220a‴ уровня, полученную из блока 220a анализа уровня, для обнаружения панорамирования. Альтернативно, блок 220с обнаружения панорамирования может самостоятельно оценивать информацию уровня для осуществления обнаружения панорамирования. Блок 220c обнаружения динамического панорамирования может использовать те же группы, что и блоки 220a анализа уровня или блок 220b корреляционного анализа или разные группы, обеспеченные группирователем/выравнивателем 210.
Кроме того, блок 220d оценивания повышающего микширования может использовать корреляционную информацию 220b″ от блока 220b корреляционного анализа или осуществлять дополнительный корреляционный анализ для обнаружения, сформированы ли каналы 206 с использованием аудиопотока с меньшим количеством аудиоканалов. Например, блок 220d оценивания повышающего микширования может оценивать, базируются ли каналы 206 на повышающем микшировании непосредственно из корреляционной информации 220b″. Альтернативно, взаимная корреляция между отдельными каналами может осуществляться на блоке 220d оценивания повышающего микширования, например, на основании высокой корреляции, указанной корреляционной информацией 220b″, для оценивания, происходят ли каналы 206 из повышающего микширования. Корреляционный анализ, осуществляемый либо блоком 220b корреляционного анализа, либо блоком 220d оценивания повышающего микширования, является полезной информацией для обнаружения источника повышающего микширования, поскольку повышающее микширование обычно создается декорреляторами сигнала. Оценка 220d′ источника повышающего микширования предоставляется блоком 220d оценивания повышающего микширования на блок 230 взвешивания. Если оценка 220d′ источника повышающего микширования указывает, что каналы 206 выводятся из аудиопотока с меньшим количеством каналов, оценка 220d′ источника повышающего микширования может обеспечивать отрицательный или малый вклад во взвешиватель 235. Блок 220d оценивания повышающего микширования может использовать те же группы, что и блоки 220a анализа уровня, блок 220b корреляционного анализа или блок 220c обнаружения динамического панорамирования или разные группы, обеспеченные группирователем/выравнивателем 210.
Блок 235 взвешивания, например, может усреднять вклады в меру пространственности для получения меры пространственности. Вклады могут базироваться на комбинации факторов 220a′, 220b′, 220c′ и/или 220d′. Усреднение может быть однородным или взвешенным, причем взвешивание может осуществляться на основании значимости фактора.
В некоторых вариантах осуществления меру пространственности можно получать на основании только одного или более из блоков 220a–c анализа. Дополнительно, группирователь/выравниватель может интегрироваться в любой из блоков 220a–c анализа, например, таким образом, что каждый блок анализа осуществляет группирование самостоятельно.
На фиг. 3 показана блок–схема устройства 300 согласно вариантам осуществления изобретения. Другими словами, на фиг. 3 показан общий поток сигналов для измерителя 304 трехмерности. Устройство 300 сравнимо с устройствами 100 и 200 и берет в качестве ввода многоканальный аудиосигнал 305, который оно также может выводить без изменения. Измеритель 304 трехмерности является оценивателем согласно оценивателю 110 и оценивателем 204. На основании многоканального аудиосигнала 305, мера пространственности может выводиться графически с использованием графического вывода или дисплея 310 (например, графика), с использованием числового вывода или дисплея 320 (например, с использованием одного скалярного числового значения для всего аудиопотока) и/или с использованием файла 330 журнала, в котором может записываться, например, график или скаляр. Дополнительно, устройство 300 может обеспечивать дополнительные метаданные 340, которые могут быть включены в аудиосигналы 305 или аудиопоток, включающий в себя аудиосигналы 305, причем метаданные могут содержать меру пространственности. Кроме того, дополнительные метаданные могут содержать оценку источника повышающего микширования или любой из выходных сигналов блоков анализа в устройстве 200.
На фиг. 4 показана установка 400 громкоговорителей 3D–аудио. Другими словами, фиг. 4 иллюстрирует схему воспроизведения 3D–аудио в конфигурации 5+4. Средний слой громкоговорителей обозначен буквой M, и верхний слой громкоговорителей обозначен буквой U. Число означает азимут громкоговорителя относительно слушателя (например, M30 обозначает громкоговоритель, находящийся в среднем слое с азимутом 30°). Установка 400 громкоговорителей может использоваться путем назначения аудиоканалов из аудиопотока (например, поток 105, аудиоканалы 106, 206 или 305) для воспроизведения аудиопотока. Установка громкоговорителей содержит первый слой громкоговорителей 410 и второй слой громкоговорителей 420, который скомпонован на расстоянии по вертикали от первого слоя громкоговорителей 410. Первый слой громкоговорителей содержит пять громкоговорителей, а именно, центральный M0, передний правый M–30, передний левый M30, окружающий правый M–110 и окружающий левый M110. Дополнительно, второй слой громкоговорителей 420 содержит четыре громкоговорителя, а именно, верхний левый U30, верхний правый U–30, верхний задний правый U–110 и верхний задний левый U110. Для анализа с использованием устройств 100, 200 или 300, группировки могут обеспечиваться на основании слоев, т.е. слоя 410 и слоя 420. Кроме того, группы могут формироваться между слоями, например, с использованием громкоговорителей слева от слушателя для формирования первой группы и громкоговорителей справа от слушателя для получения второй группы. Альтернативно, первая группа может базироваться на громкоговорителях, находящихся перед слушателем, и вторая группа может базироваться на громкоговорителе, находящемся позади слушателя, где первая группа или вторая группа содержат громкоговорители, дистанцированные по вертикали, т.е. могут формироваться группы, имеющие вертикальные слои. Кроме того, можно задавать дополнительные произвольные группировки, и можно рассматривать установки громкоговорителей.
На фиг. 5 показана блок–схема операций способа 500 согласно вариантам осуществления изобретения. Способ содержит оценивание 510 аудиоканалов аудиопотока для обеспечения меры пространственности, связанной с аудиопотоком. Дополнительно, аудиопоток содержит аудиоканалы, подлежащие воспроизведению в по меньшей мере двух разных пространственных слоях, причем два пространственных слоя скомпонованы на расстоянии вдоль пространственной оси.
Далее предоставлены дополнительные детали со ссылкой на фиг. 2:
Варианты осуществления описывают способ измерения мощности (или интенсивности) эффекта 3D–аудио для заданного 3D–аудио–сигнала. Было установлено, что просмотр 3D–аудио–контента, отыскание в материале секций, которые напоминают 3D–эффекты, и оценивание их силы было субъективной задачей, которую нужно выполнять вручную. Варианты осуществления описывают измеритель трехмерности, который может использоваться для поддержки этого процесса и может ускорять его путем указания, в какой временной позиции возникают 3D–эффекты, и путем оценивания силы 3D–эффектов.
Термин "трехмерность" ранее не использовался для силы эффектов 3D–аудио в академической области, поскольку он охватывает очень широкий диапазон значений. Следовательно, были сформулированы более точные термины и определения [9,10]. Эти термины применяются только к одному конкретному аспекту воспроизводимого аудиосигнала, а не ко всему впечатлению. Для общего впечатления, были введены термины "общее восприятие прослушивания" (OLE) или "качество восприятия" (QoE) [11]. Последние термины не ограничиваются 3D–аудио. Для отделения силы эффекта 3D–аудио от таких терминов, как OLE и QoE, в этом документе иногда используется термин "трехмерность".
В общем случае, система воспроизведения может называться 3D–аудио или "иммерсивной", если она способна создавать источники звука в по меньшей мере двух разных вертикальных слоях (см. фиг. 4). Типичными схемами воспроизведения 3D–аудио являются 5.1+4, 7.1+4 или 22.2 [12].
Для 3D–аудио характерны следующие эффекты:
восприятие приподнятых источников звука
точность определения местоположения (азимут, возвышение, расстояние) [9]
точность динамического определения местоположения (для движущихся объектов) [9]
поглощение (чувство охвата звуком) [13,14,15]
пространственная четкость (насколько отчетливо Вы способны воспринимать пространственную сцену) [14,15]
Эти эффекты именуются признаками качества [9] или категориями для атрибутов [10,16] для 3D–аудио. Заметим, что сила эффектов 3D–аудио непосредственно не коррелирует с OLE или QoE.
Рассмотрим некоторые сценарии, служащие практическими примерами трехмерности:
источник звука перемещается между разными вертикальными слоями, например, звуковой эффект свиста перемещается из среднего (или горизонтального) слоя в верхний слой.
источники звука воспроизводятся средним и верхним слоями, например, основной звук воспринимается в среднем слое, и голосовые наборы при разговоре сверху или прямой звук воспроизводится средним слоем, и внешний звук воспроизводится верхним слоем.
Кроме того, на стороне продюсирования потребность в измерении трехмерности наблюдается в установках микширования звука фильма с финализированной звуковой дорожкой. При подготовке контента к распространению на дисках Blu–ray или службах потоковой передачи, мониторинг трехмерности также представляет интерес. Распространители контента, например, широковещательные станции, службы потоковой передачи и загрузки через приставку (OTT) [17], должны измерять трехмерность чтобы иметь возможность принимать решение, какой контент продвигать в качестве избранной программы 3D–аудио. Исследовательские, образовательные учреждения и кинокритики также проявляют интерес к измерению трехмерности по разным причинам.
Традиционные способы не подходят для измерения трехмерности 3D–аудио–сигнала. Таким образом, здесь предложен измеритель трехмерности. В общем случае, многоканальный аудиосигнал поступает на измеритель, где происходит анализ аудиосигнала (см. фиг. 3). Выводиться может необработанный и неизменный аудиоконтент совместно с мерами трехмерности в различных представлениях. Измеритель трехмерности может графически отображать трехмерность как функцию времени. Альтернативно, он может выражать свои измерения численно и вычислять статистику для сравнения разных материалов. Все результаты также можно экспортировать в файл журнала или можно добавлять к исходному аудио (потоку) в подходящем формате метаданных. Для аудио в представлении на основе объекта или на основе сцены, например, амбиофонии первого порядка (FOA) или амбиофонии более высокого порядка (HOA), аудиоканалы можно оценить, обратившись сначала к эталонной схеме громкоговорителей.
Согласно вариантам осуществления режим работы измерителя трехмерности распределяется между разными, параллельно работающими, блоками анализа. Каждый блок может обнаруживать характеристики аудиосигнала, специфичные для некоторых эффектов 3D–аудио (см. фиг. 2). Результаты блоков анализа можно взвешивать, суммировать и отображать. Наконец, на дисплее звукооператор может получать указатель полной трехмерности (например, меру пространственности) и некоторые из наиболее значимых промежуточных результатов (например, результатов отдельных блоков анализа). Таким образом, звукооператор располагает различными данными, которые могут помогать ему отыскивать секции, представляющие интерес, или принимать решения о трехмерности. Указатель полной трехмерности может откладываться на линейной шкале, имеющей диапазон от нуля до двух (0…2), где трехмерность=0 означает, что в оцениваемом аудиопотоке эффект 3D–аудио полностью отсутствует или присутствует в незначительной степени. Максимальное значение трехмерности=2 может указывать возникновение очень сильных эффектов 3D–аудио в аудиопотоке. Диапазон, а также единицы шкалы указателя полной трехмерности, могут быть заранее определенными и могут использовать другие значения, единицы или диапазоны (например, –1…1, 0…10 и т.д.).
На некотором этапе, входные каналы можно назначать конкретным парам каналов или группам каналов. Возможны следующие пары каналов:
средний слой левый и верхний слой левый
средний слой левый окружающий и верхний слой левый окружающий
средний слой центральный и верхний слой левый
…
Возможны следующие группы каналов:
средний слой и верхний слой
средний слой левый и правый и верхний слой левый и правый
…
Далее описаны параметры, которые могут использоваться и/или определяться согласно вариантам осуществления. Кроме того, в дальнейшем в основном рассматривается группирование каналов по слоям, однако в других вариантах осуществления могут использоваться другие способы группирования.
Блок анализа уровня
Блок 220a анализа уровня может контролировать, существует вообще ли уровень в верхнем слое и, если да, насколько он высок относительно среднего слоя. Важной мерой может быть порог маскирования для вертикальных источников звука [18, 19]. Этот блок анализа может только обнаруживать трехмерность, когда верхний слой значительно превышает порог маскирования сигнала среднего слоя или наоборот. В отсутствие сигнала (или уровня), измеренного в верхнем слое или когда уровень слишком низок относительно соответствующего сигнала среднего слоя в это время, измеритель трехмерности может сообщать низкое значение трехмерности (например, на основании информации, полученной из блока анализа уровня).
Согласно вариантам осуществления измеритель трехмерности может устанавливаться (i) для сравнения уровня верхнего слоя с порогом маскирования среднего слоя, (ii) для сравнения уровня среднего слоя с порогом маскирования верхнего слоя или (iii) для сравнения всего заданного слоя и для проверки уровня слоя более низкого уровня (например, слоя, имеющего самый низкий уровень) относительно соответствующих других слоев.
Блок корреляции
Согласно вариантам осуществления блок 220b корреляции используется для анализа пар каналов или групп каналов в отношении их нормализованной кратковременной взаимной корреляции. Эта мера выражает, насколько схожи два сигнала, и может выводиться из разности энергий с течением времени. Очень высокое сходство сигнала верхнего слоя указывает, что наиболее вероятные элементы сигнала среднего слоя, или весь сигнал среднего слоя, также подаются в верхний слой. Это может создавать некоторый воспринимаемый охват или немного смещенную вверх звуковую сцену.
Низкая корреляция указывает, что сигналы в среднем и верхнем слое не схожи, что будет приводить к более сильным эффектам 3D–аудио. Блок корреляции и блок анализа уровня могут обмениваться информацией (см. пунктирные линии на фиг. 2). Когда уровень верхнего слоя, например, только близок к порогу маскирования или немного выше него, указанная трехмерность может быть низкой, когда блок корреляции сигнализирует высокую степень корреляции. Однако, если для одного и того же соотношения уровней, корреляция, напротив, низка, указанная трехмерность может быть выше.
Обнаружение динамического панорамирования
Согласно вариантам осуществления блок 220c обнаружения панорамирования ищет звуковые элементы, которые возникают в разные моменты времени в разных позициях. Динамическое панорамирование характеризуется сигналом, который может перемещаться в пространстве, например, вертолета, летящего из передней левой позиции среднего слоя в заднюю правую позицию верхнего слоя. Панорамирующее перемещение на уровне сигналов приводит к переходным замираниям от одного канала или группы каналов к другому/ой. Если такие переходные замирания обнаруживаются в сигналах, эффект панорамирования, вероятно, создает эффект 3D–аудио (например, высокую воспринимаемую пространственность). Информация уровня от блока анализа уровня может обрабатываться более детально и с другими постоянными времени (например, приводящими к удлинению интервалов усреднения).
Оценивание повышающего микширования
Алгоритмы повышающего микширования широко используются в обработке звука. Обычно, они могут использовать декорреляцию и разделение сигналов для увеличения количества используемых каналов для более широкого, более охватывающего и более волнующего звуковоспроизведения.
Блок 220d оценивания повышающего микширования проверяет, может ли заданная декорреляция быть результатом ранее примененного автоматического повышающего микширования. Следовательно, используются данные блока корреляции (например, 220a). Кроме того, сигналы могут анализироваться для нахождения артефактов и результатов, которые могут происходить из наиболее распространенных способов повышающего микширования.
Можно ли найти подсказки для автоматического повышающего микширования, может быть важной информацией, поскольку возможные последующие операции понижающего микширования могут приводить к окрашиванию звука. Кроме того, автоматическое повышающее микширование может считаться менее ценным по сравнению с художественно созданной композицией 3D–аудио. Таким образом, низкая пространственность может быть указана из полученной меры пространственности, если было оценено, что аудиопоток базируется на повышающем микшировании.
Дополнительные применения
Для иллюстрации полезности вариантов осуществления изобретения представлены некоторые практические случаи использования измерителя трехмерности.
Сценарий 1:
Звукооператора спрашивают, содержит ли заданная композиция кинофильма 3D–аудио. В отсутствие измерителя трехмерности, звукооператору нужно прослушивать всю звуковую дорожку для определения, возникают ли какие–либо релевантные 3D–эффекты. При наличии измерителя трехмерности, аудио можно анализировать оффлайн – то есть гораздо быстрее, чем в реальном времени – и отмечаются секции, в которых возникают 3D–эффекты. При просмотре результатов, звукооператор может сказать, содержит ли материал эффекты 3D–аудио.
Сценарий 2:
Звукооператора просят найти наиболее впечатляющие 3D–аудио–секции звуковой дорожки кинофильма. При просмотре результатов измерителя трехмерности гораздо быстрее идентифицировать пятна с 3D–эффектами. Необходимо прослушивать только секции, отмеченные измерителем трехмерности.
Сценарий 3:
Продюсерской компании необходимо принимать решение, какой из двух возможных заголовков следует выпускать для Blu–ray с дополнительной дорожкой 3D–аудио. Результаты измерителя трехмерности указывают, какой заголовок чаще использует эффекты 3D–аудио и может быть основой для экономических решений.
Сценарий 4:
Продюсирование 3D–аудио заключается в микшировании. Измеритель трехмерности может отслеживать сигнал и указывать звукооператору, выполняющему микширование, когда желаемый 3D–эффект является очень сильным и, таким образом, может быть отвлекающим. Или звукооператор хочет создать 3D–эффект, и измеритель трехмерности указывает, что эффект недостаточно силен, чтобы легко восприниматься.
Сценарий 5:
Композиция 3D–аудио была доставлена, и клиент хочет проверить, была ли композиция создана звукооператором с художественным замыслом, или является ли она только автоматическим повышающим микшированием. Измеритель трехмерности может давать указания, применялось ли автоматическое повышающее микширование.
Согласно вариантам осуществления, принцип измерителя трехмерности включает в себя не только графическое или числовое представление измеренных параметров, но весь процесс определения существования и величины звуковых 3D–эффектов в 3D аудиосигналах.
Кроме того, способ измерителя трехмерности также можно использовать для контента не–3D–аудио или 2D многоканального окружающего контента для указания, насколько ожидаемыми являются эффекты окружения, и в какое время программы они располагаются. Для этого, вместо сравнения двух вертикально разнесенных каналов или групп каналов, можно сравнивать горизонтально разнесенные каналы или группы каналов, например, передние каналы и каналы окружения.
Хотя некоторые аспекты были описаны в отношении устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в отношении этапа способа, также представляют описание соответствующего блока или элемента или признака соответствующего устройства. Некоторые или все из этапов способа могут выполняться (или использоваться) аппаратным устройством, например, микропроцессором, программируемым компьютером или электронной схемой. В некоторых вариантах осуществления, один или более из наиболее важных этапов способа могут выполняться таким устройством.
В зависимости от некоторых требований реализации, варианты осуществления изобретения могут быть реализованы аппаратными средствами или программными средствами. Реализация может осуществляться с использованием цифрового носителя данных, например, флоппи–диска, DVD, Blu–Ray, CD, ROM, PROM, EPROM, EEPROM или флеш–памяти, на котором хранятся электронно считываемые сигналы управления, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой для осуществления соответствующего способа. Следовательно, цифровой носитель данных может быть компьютерно–считываемым.
Некоторые варианты осуществления согласно изобретению, содержат носитель данных, имеющий электронно считываемые сигналы управления, которые способны взаимодействовать с программируемой компьютерной системой, для осуществления одного из описанных здесь способов.
В общем случае, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код предназначен для осуществления одного из способов при выполнении на компьютере. Программный код может храниться, например, на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из описанных здесь способов, хранящуюся на машиночитаемом носителе.
Другими словами, вариант осуществления способа согласно изобретению, таким образом, является компьютерной программной, имеющей программный код для осуществления одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.
Дополнительный вариант осуществления способов согласно изобретению, следовательно, является носителем данных (или цифровым носителем данных или компьютерно–считываемым носителем), на котором записана компьютерная программа для осуществления одного из описанных здесь способов. Носитель данных, цифровой носитель данных или носитель записи обычно является материальным и/или невременным.
Дополнительный вариант осуществления способа, отвечающего изобретению, следовательно, является потоком данных или последовательностью сигналов, представляющим/ей компьютерную программу для осуществления одного из описанных здесь способов. Поток данных или последовательность сигналов могут, например, переноситься через соединение с возможностью передачи данных, например, через интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью или приспособленное для осуществления одного из описанных здесь способов.
Дополнительный вариант осуществления содержит компьютер с установленной на нем компьютерной программой для осуществления одного из описанных здесь способов.
Дополнительный вариант осуществления согласно изобретению, содержит устройство или систему, выполненное/ую с возможностью переноса (например, электронными или оптическими средствами) компьютерной программы для осуществления одного из описанных здесь способов на приемник. Приемником, например, может быть компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система может содержать, например, файловый сервер для переноса компьютерной программы на приемник.
В некоторых вариантах осуществления, программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) может использоваться для осуществления некоторых или всех функций описанных здесь способов. В некоторых вариантах осуществления вентильная матрица, программируемая пользователем, может взаимодействовать с микропроцессором для осуществления одного из описанных здесь способов. В общем случае способы предпочтительно осуществляются любым аппаратным устройством.
Описанное здесь устройство может быть реализовано с использованием аппаратного устройства или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.
Описанное здесь устройство, или любые компоненты описанного здесь устройства, могут быть реализованы, по меньшей мере, частично аппаратными средствами и/или программными средствами.
Описанные здесь способы могут осуществляться с использованием аппаратного устройства или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.
Описанные здесь способы, или любые компоненты описанного здесь устройства, могут осуществляться, по меньшей мере, частично аппаратными средствами и/или программными средствами.
Вышеописанные варианты осуществления призваны лишь иллюстрировать принципы настоящего изобретения. Следует понимать, что специалисты в данной области техники могут предложить модификации и вариации описанных здесь компоновок и деталей. Следовательно, они подлежат ограничению только объемом нижеследующей формулы изобретения, а не конкретными деталями, представленными здесь посредством описания и объяснения вариантов осуществления.
Ссылки:
[1] EBU. EBU TECH 3344: Practical guidelines for distribution systems in accordance with EBU R 128. Geneva, 2011.
[2] IRT. Technische Richtlinien – HDTV. Zur Herstellung von Fernsehproduktionen für ARD, ZDF und ORF. Frankfurt a.M., 2011.
[3] ARTE. Allgemeine technische Richtlinien. ARTE, Kehl, 2013.
[4] Gerhard Spikofski and Siegfried Klar. Levelling and Loudness in Radio and Television Broadcasting. European Broadcast Union, Geneva, 2004.
[5] ITU. ITU–R BS.2054–2: Audio Levels and Loudness, volume 2. International Telecommunication Union, Geneva, 2011.
[6] Robin Gareus and Chris Goddard. Audio Signal Visualisation and Measurement. In International Computer Music and Sound & Music Computing Conference, Athens, 2014.
[7] B Mendiburu. 3D Movie Making – Stereoscopic Digital Cinema from Script to Screen. Focal Press, 2009.
[8] B. Mendiburu. 3D TV and 3D Cinema. Tools and Processes for Creative Stereoscopy. Focal Press, 2011.
[9] Andreas Silzle. 3D Audio Quality Evaluation: Theory and Practice. In International Conference on Spatial Audio, Erlangen, 2014. VDT.
[10] Nick Zacharov and Torben Holm Pedersen. Spatial sound attributes – development of a common lexicon. In AES 139th Convention, New York, 2015. Audio Engineering Society.
[11] Michael Schoeffler, Sarah Conrad, and Jürgen Herre. The Inuence of the Single/Multi–Channel–System on the Overall Listening Experience. In AES 55th Conference, Helsinki, 2014.
[12] Ulli Scuda. Comparison of Multichannel Surround Speaker Setups in 2D and 3D. In Malte Kob, editor, International Conference on Spatial Audio, Erlangen, 2014. VDT.
[13] R Sazdov, G Paine, and K Stevens. Perceptual Investigation into Envelopment, Spatial Clarity and Engulfment in Reproduced Multi–Channel Audio. In AES 31st Conference, London, 2007. Audio Engineering Society.
[14] R Sazdov. The effect of elevated loudspeakers on the perception of engulfment, and the effect of horizontal loudspeakers on the perception of envelopment. In ICSA 2011. VDT.
[15] Robert Sazdov. Envelopment vs. Engulfment: Multidimensional scaling on the effect of spectral content and spatial dimension within a three–dimensional loudspeaker setup. In International Conference on Spatial Audio, Graz, 2015. VdT.
[16] Torben Holm Pedersen and Nick Zacharov. The development of a Sound Wheel for Reproduced Sound. In AES 138th Convention, Warsaw, 2015. AES.
[17] AES. Technical Document AESTD1005.1.16–09: Audio Guidelines for Over the Top Television and Video Streaming. AES, New York, 2016.
[18] Hyunkook Lee. The Relationship between Interchannel Time and Level Differences in Vertical Sound Localisation and Masking. In AES 131st Convention, number Icld, pages 1–13, 2011.
[19] Hanne Stenzel, Ulli Scuda, and Hyunkook Lee. Localization and Masking Thresholds of Diagonally Positioned Sound Sources and Their Relationship to Interchannel Time and Level Differences. In International Conference on Spatial Audio, Erlangen, 2014. VDT.
название | год | авторы | номер документа |
---|---|---|---|
РЕНДЕРИНГ ОТРАЖЕННОГО ЗВУКА ДЛЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОЙ АУДИОИНФОРМАЦИИ | 2013 |
|
RU2602346C2 |
УСТРОЙСТВО АУДИООБРАБОТКИ И СПОСОБ ДЛЯ ЭТОГО | 2014 |
|
RU2667630C2 |
ПАРАМЕТРИЧЕСКОЕ СОВМЕСТНОЕ КОДИРОВАНИЕ АУДИОИСТОЧНИКОВ | 2006 |
|
RU2376654C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ ОСУЩЕСТВЛЕНИЯ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ SAOC ОБЪЕМНОГО (3D) АУДИОКОНТЕНТА | 2014 |
|
RU2666239C2 |
КОНЦЕПЦИЯ ДЛЯ ОБЪЕДИНЕНИЯ МНОЖЕСТВА ПАРАМЕТРИЧЕСКИ КОДИРОВАННЫХ АУДИОИСТОЧНИКОВ | 2007 |
|
RU2407227C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ УЛУЧШЕННОГО ПРОСТРАНСТВЕННОГО КОДИРОВАНИЯ АУДИООБЪЕКТОВ | 2014 |
|
RU2660638C2 |
СИСТЕМА И СПОСОБ ДЛЯ ГЕНЕРИРОВАНИЯ, КОДИРОВАНИЯ И ПРЕДСТАВЛЕНИЯ ДАННЫХ АДАПТИВНОГО ЗВУКОВОГО СИГНАЛА | 2012 |
|
RU2617553C2 |
СИСТЕМА И СПОСОБ ДЛЯ ГЕНЕРИРОВАНИЯ, КОДИРОВАНИЯ И ПРЕДСТАВЛЕНИЯ ДАННЫХ АДАПТИВНОГО ЗВУКОВОГО СИГНАЛА | 2012 |
|
RU2731025C2 |
СИСТЕМА, СПОСОБ И ПОСТОЯННЫЙ МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДАННЫХ ДЛЯ ГЕНЕРИРОВАНИЯ, КОДИРОВАНИЯ И ПРЕДСТАВЛЕНИЯ ДАННЫХ АДАПТИВНОГО ЗВУКОВОГО СИГНАЛА | 2020 |
|
RU2741738C1 |
СПОСОБ И УСТРОЙСТВО ДЛЯ РЕНДЕРИНГА ЗВУКОВОГО СИГНАЛА И КОМПЬЮТЕРНО-ЧИТАЕМЫЙ НОСИТЕЛЬ ИНФОРМАЦИИ | 2015 |
|
RU2646320C1 |
Изобретение относится к средствам для обеспечения меры пространственности, связанной с аудиопотоком. Технический результат заключается в повышении эффективности оценивания меры пространственности для аудиопотоков. Оценивают аудиоканалы аудиопотока для обеспечения меры пространственности, связанной с аудиопотоком следующим образом. Определяют меру сходства между первым набором аудиоканалов аудиопотока, подлежащего воспроизведению в одном или более первых пространственных слоях, и вторым набором аудиоканалов аудиопотока, подлежащего воспроизведению в одном или более вторых пространственных слоях. Определяют меру пространственности на основании меры сходства. Определяют порог маскирования на основании информации уровня первого набора аудиоканалов и сравнения порога маскирования с информацией уровня второго набора аудиоканалов. Увеличивают меру пространственности, когда сравнение указывает, что порог маскирования превышен информацией уровня второго набора аудиоканалов, и мера сходства указывает низкое сходство между первым набором и вторым набором. 7 н. и 13 з.п. ф-лы, 5 ил.
1. Устройство (100; 200; 304) для оценивания аудиопотока,
в котором аудиопоток (105) содержит аудиоканалы (106; 206; 305), подлежащие воспроизведению в по меньшей мере двух разных пространственных слоях (420, 410), причем эти два пространственных слоя скомпонованы на расстоянии вдоль пространственной оси,
причем устройство выполнено с возможностью оценивания аудиоканалов аудиопотока для обеспечения меры пространственности (115; 235), связанной с аудиопотоком поредством получения оценки (220d′) источника повышающего микширования на основании меры сходства между первым набором аудиоканалов аудиопотока и вторым набором аудиоканалов аудиопотока, и определения меры пространственности на основании оценки источника повышающего микширования.
2. Устройство по п. 1, в котором пространственная ось ориентирована горизонтально, или в котором пространственная ось ориентирована вертикально.
3. Устройство по п. 1, причем устройство выполнено с возможностью получения информации первого уровня на основании первого набора аудиоканалов аудиопотока и получения информации второго уровня на основании второго набора аудиоканалов аудиопотока, и
при этом устройство выполнено с возможностью определения меры пространственности на основании информации первого уровня и информации второго уровня.
4. Устройство по п. 3, в котором первый набор аудиоканалов аудиопотока разъединен со вторым набором аудиоканалов аудиопотока.
5. Устройство по п. 3, в котором первый набор аудиоканалов аудиопотока подлежит воспроизведению на громкоговорителях в одном или более первых пространственных слоях, и при этом второй набор аудиоканалов аудиопотока подлежит воспроизведению на громкоговорителях в одном или более вторых пространственных слоях,
причем один или более первых слоев и один или более вторых слоев пространственно дистанцированы.
6. Устройство по п. 5, причем устройство выполнено с возможностью определения порога маскирования на основании информации уровня первого набора аудиоканалов и сравнения порога маскирования с информацией уровня второго набора аудиоканалов, и
причем устройство выполнено с возможностью увеличения информации пространственного уровня, когда сравнение указывает, что порог маскирования превышен информацией уровня второго набора аудиоканалов.
7. Устройство по п. 6, причем устройство выполнено с возможностью определения меры (220b′) сходства между первым набором аудиоканалов аудиопотока, подлежащего воспроизведению в одном или более первых пространственных слоях, и вторым набором аудиоканалов аудиопотока, подлежащего воспроизведению в одном или более вторых пространственных слоях, и определения меры пространственности на основании меры сходства.
8. Устройство по п. 1, причем устройство выполнено с возможностью уменьшения меры пространственности на основании оценки источника повышающего микширования, когда оценка источника повышающего микширования указывает, что аудиоканалы аудиопотока выводятся из аудиопотока с меньшим количеством аудиоканалов.
9. Устройство по п. 1, причем устройство выполнено с возможностью вывода меры пространственности совместно с оценкой источника повышающего микширования.
10. Устройство по п. 1, причем устройство выполнено с возможностью визуального вывода (320) меры пространственности.
11. Устройство по п. 10, причем устройство выполнено с возможностью обеспечения меры пространственности в виде графика (310), причем график выполнен с возможностью обеспечения информации о мере пространственности с течением времени, где ось времени графика выровнена с аудиопотоком.
12. Устройство по п. 1, причем устройство выполнено с возможностью обеспечения меры пространственности как численного значения (320), причем численное значение представляет весь аудиопоток.
13. Устройство по п. 1, причем устройство выполнено с возможностью записи меры пространственности в файл (330) журнала.
14. Устройство (100; 200; 304) для оценивания аудиопотока,
в котором аудиопоток (105) содержит аудиоканалы (106; 206; 305), подлежащие воспроизведению в по меньшей мере двух разных пространственных слоях (420, 410), причем эти два пространственных слоя скомпонованы на расстоянии вдоль пространственной оси,
причем устройство выполнено с возможностью оценивания аудиоканалов аудиопотока для обеспечения меры пространственности (115; 235), связанной с аудиопотоком посредством определения меры (220b′) сходства между первым набором аудиоканалов аудиопотока, подлежащего воспроизведению в одном или более первых пространственных слоях, и вторым набором аудиоканалов аудиопотока, подлежащего воспроизведению в одном или более вторых пространственных слоях, и определения меры пространственности на основании меры сходства,
определения порога маскирования на основании информации уровня первого набора аудиоканалов и сравнения порога маскирования с информацией уровня второго набора аудиоканалов, и
увеличения меры пространственности, когда сравнение указывает, что порог маскирования превышен информацией уровня второго набора аудиоканалов, и мера сходства указывает низкое сходство между первым набором и вторым набором.
15. Устройство по п. 14, причем устройство выполнено с возможностью определения меры пространственности таким образом, что, чем меньше мера сходства, тем больше мера пространственности.
16. Устройство (100; 200; 304) для оценивания аудиопотока,
в котором аудиопоток (105) содержит аудиоканалы (106; 206; 305), подлежащие воспроизведению в по меньшей мере двух разных пространственных слоях (420, 410), причем эти два пространственных слоя скомпонованы на расстоянии вдоль пространственной оси,
причем устройство выполнено с возможностью оценивания аудиоканалов аудиопотока для обеспечения меры пространственности (115; 235), связанной с аудиопотоком,
причем устройство выполнено с возможностью анализа аудиоканалов аудиопотока в отношении временного изменения панорамирования источника звука на аудиоканалы.
17. Устройство (100; 200; 304) для оценивания аудиопотока,
в котором аудиопоток (105) содержит аудиоканалы (106; 206; 305), подлежащие воспроизведению в по меньшей мере двух разных пространственных слоях (420, 410), причем эти два пространственных слоя скомпонованы на расстоянии вдоль пространственной оси,
причем устройство выполнено с возможностью оценивания аудиоканалов аудиопотока для обеспечения меры пространственности (115; 235), связанной с аудиопотоком,
причем устройство выполнено с возможностью обеспечения меры пространственности на основании взвешивания (230) по меньшей мере двух из следующих параметров:
информации пространственного уровня аудиопотока, и/или
меры сходства аудиопотока, и/или
информации панорамирования аудиопотока, и/или
оценки источника повышающего микширования аудиопотока.
18. Способ (500) оценивания аудиопотока, причем аудиопоток содержит аудиоканалы, подлежащие воспроизведению в по меньшей мере двух разных пространственных слоях, причем два пространственных слоя скомпонованы на расстоянии вдоль пространственной оси, причем способ содержит этапы, на которых:
оценивают (510) аудиоканалы аудиопотока для обеспечения меры пространственности, связанной с аудиопотоком посредством
получения оценки (220d′) источника повышающего микширования на основании меры сходства между первым набором аудиоканалов аудиопотока и вторым набором аудиоканалов аудиопотока, и
определения меры пространственности на основании оценки источника повышающего микширования.
19. Способ оценивания аудиопотока, причем аудиопоток содержит аудиоканалы, подлежащие воспроизведению в по меньшей мере двух разных пространственных слоях, причем два пространственных слоя скомпонованы на расстоянии вдоль пространственной оси, причем способ содержит этапы, на которых:
оценивают аудиоканалы аудиопотока для обеспечения меры пространственности, связанной с аудиопотоком посредством
определения меры сходства между первым набором аудиоканалов аудиопотока, подлежащего воспроизведению в одном или более первых пространственных слоях, и вторым набором аудиоканалов аудиопотока, подлежащего воспроизведению в одном или более вторых пространственных слоях, и
определения меры пространственности на основании меры сходства, и
определения порога маскирования на основании информации уровня первого набора аудиоканалов и сравнения порога маскирования с информацией уровня второго набора аудиоканалов, и
увеличения меры пространственности, когда сравнение указывает, что порог маскирования превышен информацией уровня второго набора аудиоканалов, и мера сходства указывает низкое сходство между первым набором и вторым набором.
20. Машиночитаемый носитель, хранящий компьютерную программу с программным кодом для осуществления способа по п. 18 или 19, когда компьютерная программа выполняется на компьютере или микроконтроллере.
US 20070041592 A1, 22.02.2007 | |||
WO 2016169608 A1, 27.10.2016 | |||
WO 2016091332 A1, 16.06.2016 | |||
WO 2016156091 A1, 06.10.2016 | |||
US 20160080886 A1, 17.03.2016. |
Авторы
Даты
2021-12-16—Публикация
2018-03-06—Подача