Показать метаданные Скрыть метаданные

(19)

(11)

2 810 920

(13)

(51)

МПК

H04R3/00(2006-01-01)

(21) (22)

Заявка

2021113309, 2019-11-12

(24)

Дата начала отсчета патента

2019-11-12

(22)

дата подачи заявки

2019-11-12

(45)

опубликовано

2023-12-29

(72)

авторы

Брун, СтефанТоррес, Хуан ФеликсМакграт, Дэвид С.Ли, Брайан

(73)

патентообладатели

Долби Лабораторис Лайсэнзин КорпорейшнДолби Интернешнл Аб

(56)

Документы, цитированные в отчете о поиске

US 20160345092 A1, 24.11.2016WO 2017182714 A1, 26.10.2017US 20140226838 A1, 14.08.2014.

ОБРАБОТКА ЗВУКА В ЗВУКОВЫХ УСЛУГАХ С ЭФФЕКТОМ ПРИСУТСТВИЯ Российский патент 2023 года по МПК H04R3/00

Описание патента на изобретение RU2810920C2

P16835370RU

ОБРАБОТКА ЗВУКА В ЗВУКОВЫХ УСЛУГАХ С ЭФФЕКТОМ ПРИСУТСТВИЯ

Область техники

Раскрытое в этом документе изобретение в целом относится к захвату, звуковой предварительной обработке, кодированию, декодированию и воспроизведению направленного звука звуковой сцены. В частности, оно относится к устройству, выполненному с возможностью модификации направленности захваченного направленного звука на основании пространственных данных микрофонной системы, захватывающей направленный звук. Изобретение также относится к воспроизводящему устройству, выполненному с возможностью модификации направленности принятого направленного звука на основании принятых пространственных данных.

Предпосылки изобретения

Внедрение высокоскоростного беспроводного доступа 4G/5G в телекоммуникационные сети вместе с доступностью аппаратных платформ, которые становятся все более мощными, обеспечило основание для более быстрого и простого внедрения усовершенствованных коммуникационных и мультимедийных услуг, чем когда-либо прежде.

Кодек улучшенных голосовых услуг (EVS) проекта партнерства третьего поколения (3GPP) обеспечил в высшей степени значительное улучшение в отношении впечатлений пользователя с внедрением сверхширокополосного (SWB) и полнодиапазонного (FB) кодирования речи и звука, наряду с улучшенной устойчивостью к потере пакетов. Тем не менее, расширенная полоса пропускания звуковых частот является всего лишь одной из характеристик, необходимых для настоящего эффекта присутствия. Для эффективного относительно ресурсов погружения пользователя в правдоподобный виртуальный мир теоретически требуется поддержка за пределами одноканальной и многоканальной записи, обеспечиваемая на текущий момент посредством EVS.

Кроме того, утвержденные сегодня аудиокодеки в 3GPP обеспечивают подходящее качество и сжатие в отношении стереофонического содержимого, но в них нет речевых элементов (например достаточно малой временной задержки), необходимых для передачи голоса при разговоре и проведения телеконференций. В этих кодеках также отсутствуют многоканальные функциональные возможности, которые необходимы для услуг с эффектом присутствия, таких как потоковая передача содержимого в реальном времени или инициируемая пользователем, виртуальная реальность (VR) и телеконференции с эффектом присутствия.

Разработка расширения для кодека EVS была предложена для голосовых и звуковых услуг с эффектом присутствия (IVAS), чтобы заполнить этот технологический разрыв и удовлетворить увеличивающийся спрос на мультимедийные услуги с широкими функциональными возможностями. Кроме того, кодек IVAS, используемый как улучшенный речевой кодек, поддерживающий многопотоковое кодирование (например, основанный на канале, объекте и сцене звук), будет предпочтительным для применений в телеконференциях посредством 4G/5G. Случаи применения этого кодека следующего поколения включают, но этим не ограничиваются, передачу голоса при разговоре, многопотоковые телеконференции, потоковую передачу содержимого при разговоре в VR и инициируемую пользователем в реальном времени и не в реальном времени.

Таким образом, ожидается, что IVAS обеспечит пользователям впечатления VR, AR и/или XR с эффектом присутствия. Во многих из этих применений устройство (например мобильный телефон), захватывающее направленный (с эффектом присутствия) звук, может во многих случаях перемещаться во время сеанса относительно акустической сцены, что вызывает поворот и/или поступательное перемещение в пространстве захваченной звуковой сцены. Такое поведение может требоваться или быть нежелательным в зависимости от типа обеспечиваемого впечатления, например с эффектом присутствия, VR, AR или XR, и в зависимости от конкретного случая применения. Например, слушатель может чувствовать себя некомфортно, если воспроизводимая сцена поворачивается всякий раз, когда поворачивается захватывающее устройство. В худшем случае может быть вызван эффект укачивания.

Таким образом, в пределах этого контекста существует необходимость в улучшениях.

Краткое описание графических материалов

Далее приводится описание представленных в качестве примера вариантов осуществления со ссылками на прилагаемые графические материалы, на которых:

на фиг. 1 представлен способ кодирования направленного звука согласно вариантам осуществления;

на фиг. 2 представлен способ воспроизведения направленного звука согласно вариантам осуществления;

на фиг. 3 представлено кодирующее устройство, выполненное с возможностью осуществления способа по фиг. 1, согласно вариантам осуществления;

на фиг. 4 представлено воспроизводящее устройство, выполненное с возможностью осуществления способа по фиг. 2, согласно вариантам осуществления;

на фиг. 5 представлена система, содержащая устройства по фиг. 3 и фиг. 4, согласно вариантам осуществления;

на фиг. 6 представлен сценарий физической конференции VR согласно вариантам осуществления;

на фиг. 7 представлено пространство для виртуальной конференции согласно вариантам осуществления.

Все фигуры являются схематическими и, как правило, показывают лишь те части, которые необходимы для объяснения изобретения, тогда как другие части могут быть опущены или просто подразумеваться. Если не указано иное, то на разных фигурах подобные части обозначены подобными ссылочными позициями.

Подробное описание

Таким образом, с учетом вышеприведенного целью является предоставление устройств и связанных с ними способов захвата, звуковой предварительной обработки и/или кодирования для компенсации нежелательных перемещений сцены пространственного звучания, которые могут быть вызваны непреднамеренными перемещениями микрофонной системы, захватывающей направленный звук. Еще одной целью является предоставление соответствующего декодера и/или воспроизводящего устройства и связанных с ними способов декодирования и воспроизведения направленного звука. Также предусмотрены системы, содержащие, например, кодирующее устройство и воспроизводящее устройство.

I. Обзор – сторона отправки

Согласно первому аспекту предложено устройство, содержащее микрофонную систему, содержащую один или более микрофонов для захвата звука, или соединенное с ней. Устройство (также называемое в данном документе стороной отправки или захватывающим устройством) содержит блок приема, выполненный с возможностью:

приема направленного звука, захваченного микрофонной системой;

приема метаданных, связанных с микрофонной системой, при этом метаданные содержат пространственные данные микрофонной системы, при этом пространственные данные характеризуют пространственную ориентацию и/или пространственное положение микрофонной системы и содержат по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты микрофонной системы.

В данном документе термин «направленное аудио» (направленный звук) в целом относится к звуку с эффектом присутствия, то есть к звуку, захваченному направленными микрофонными системами, которые могут захватывать звуки, в том числе направления, откуда они исходят. Проигрывание направленного звука обеспечивает естественное трехмерное восприятие звука (бинауральное воспроизведение). Звук, который может содержать звуковые объекты и/или каналы (например представляющий основанный на сцене звук в формате «Ambisonics B» или основанный на каналах звук), таким образом, связан с направлениями, откуда он принимается. Другими словами, направленный звук исходит из направленных источников и падает из направления прихода (DOA), представленного, например, углами азимута и подъема. В то же время предполагается, что рассеянный окружающий звук является всенаправленным, то есть пространственно постоянным или пространственно однородным. Другие выражения, которые могут быть использованы в отношении такого признака, как «направленный звук», включают «пространственное аудио», «пространственный звук», «аудио с эффектом присутствия», «звук с эффектом присутствия», «стерео» и «объемный звук».

В данном документе термин «пространственные координаты» в целом относится к пространственному положению микрофонной системы или захватывающего устройства в пространстве. Декартовы координаты представляют собой одну реализацию пространственных координат. К другим примерам относятся цилиндрические или сферические координаты. Следует отметить, что положение в пространстве может быть относительным (например, координаты в помещении или относительно другого устройства/блока и т. п.) или абсолютным (например, координаты GPS или тому подобное).

В данном документе термин «пространственные данные» в целом характеризует либо текущие угловую ориентацию и/или пространственное положение микрофонной системы, либо изменение угловой ориентации и/или пространственного положения по сравнению с предыдущими ориентацией/положением микрофонной системы.

Таким образом, устройство принимает метаданные, содержащие пространственные данные, характеризующие пространственную ориентацию и/или пространственное положение микрофонной системы, захватывающей направленный звук.

Устройство дополнительно содержит вычислительный блок, выполненный с возможностью модификации по меньшей мере некоторой части направленного звука для получения модифицированного направленного звука, при этом направленность звука модифицируется на основании пространственной ориентации и/или пространственного положения микрофонной системы.

Модификация может быть выполнена с помощью любых подходящих средств, например путем определения матрицы поворота/перехода, основанной на пространственных данных, и умножения направленного звука на эту матрицу для получения модифицированного направленного звука. Матричное умножение подходит для непараметрического пространственного звука. Параметрический пространственный звук может быть модифицирован путем корректировки пространственных метаданных, как, например, параметров направления звукового объекта (звуковых объектов).

Модифицированный направленный звук тогда кодируется в цифровые аудиоданные, и эти данные передаются посредством блока передачи устройства.

Авторы пришли к заключению о том, что поворотные/поступательные перемещения захватывающего звук устройства (микрофонной системы) лучше всего компенсируются на конце отправки, то есть на конце, захватывающем звук. Можно ожидать, что это обеспечит наилучшую из возможных стабилизацию захваченной звуковой сцены в отношении, например, случайных перемещений. Такая компенсация может быть частью процесса захвата, то есть происходить во время звуковой предварительной обработки, или частью этапа кодирования IVAS. Более того, благодаря выполнению компенсации на конце отправки уменьшается необходимость в передаче пространственных данных с конца отправки на принимающий конец. В случае, если компенсацию поворотных/поступательных перемещений захватывающего звук устройства необходимо было выполнить в приемнике звука, то все пространственные данные должны были быть переданы на принимающий конец. Если предположить, что все координаты поворота на всех трех осях представлены 8 битами, а также оценены и переданы с частотой 50 Гц, то полученная битовая скорость составит 1,2 кбит/с. Аналогичное предположение может быть сделано для пространственных координат микрофонной системы.

Согласно некоторым вариантам осуществления пространственная ориентация микрофонной системы представлена параметрами, описывающими поворотное движение/ориентацию с помощью одной степени свободы, DoF, в пространственных данных. Например, может быть достаточно рассматривать лишь угол азимута для телефонной конференции.

Согласно некоторым вариантам осуществления пространственная ориентация микрофонной системы представлена параметрами, описывающими угловую ориентацию/движение с помощью трех степеней свободы, DoF, в пространственных данных.

Согласно некоторым вариантам осуществления пространственные данные микрофонной системы представлены в шести DoF. В этом варианте осуществления пространственные данные микрофонной системы захватывают измененное положение (в данном документе называемое пространственными координатами) микрофонной системы как поступательное перемещение по трем перпендикулярным осям вперед/назад (продольное), вверх/вниз (вертикальное), влево/вправо (поперечное) вместе с изменениями ориентации (или текущей угловой ориентации) микрофонной системы за счет поворота относительно трех перпендикулярных осей, часто называемого рысканием или азимутом (нормальная/вертикальная ось), тангажем (поперечная ось) и креном (продольная ось).

Согласно некоторым вариантам осуществления принятый направленный звук содержит звук, содержащий направленные метаданные. Например, такой звук может содержать звуковые объекты, то есть основанный на объекте звук (OBA). OBA представляет собой параметрическую форму пространственного/направленного звука с пространственными метаданными. Особой формой параметрического пространственного звука является сопровождаемый метаданными пространственный звук (MASA).

Согласно некоторым вариантам осуществления вычислительный блок дополнительно выполнен с возможностью кодирования по меньшей мере частей метаданных, содержащих пространственные данные микрофонной системы, в указанные цифровые аудиоданные. Предпочтительно это обеспечивает возможность компенсации корректировки направления, выполненной в отношении захваченного звука на принимающем конце. В соответствии с определением подходящей поворотной системы координат, например, у которой ось z соответствует вертикальному направлению, во многих случаях может быть необходимо передать только угол азимута (на скорости, например, 400 бит/с). Углы тангажа и крена захватывающего устройства в поворотной системе координат могут быть необходимы только в определенных случаях применения VR. Благодаря компенсации пространственных данных микрофонной системы на стороне отправки и включению при определенных условиях по меньшей мере частей пространственных данных в кодированные цифровые аудиоданные предпочтительно поддерживаются случай, в котором воспроизведенная звуковая сцена не должна изменяться из-за положения захватывающего устройства, и остальные случаи, в которых воспроизведенная звуковая сцена должна поворачиваться при соответствующих перемещениях захватывающего устройства.

Согласно некоторым вариантам осуществления блок приема дополнительно выполнен с возможностью приема первых команд, указывающих вычислительному блоку, включать ли по меньшей мере части метаданных, содержащих пространственные данные микрофонной системы, в указанные цифровые аудиоданные, за счет чего вычислительный блок действует соответственно. Следовательно, сторона отправки при определенных условиях включает части пространственных данных в цифровые аудиоданные, чтобы по возможности сохранялась битовая скорость. Команда может быть принята больше одного раза во время сеанса, так что то, следует включать пространственные данные (их части) в цифровые аудиоданные или нет, изменяется со временем. Другими словами, могут быть предусмотрены адаптации во время сеанса, когда первые команды могут приниматься устройством как постоянно, так и периодически. Постоянно означает, например, один раз на каждый кадр. Периодически может быть только один раз, когда необходимо дать новую команду. Также является возможным прием первой команды только один раз при установлении сеанса.

Согласно некоторым вариантам осуществления блок приема дополнительно выполнен с возможностью приема вторых команд, указывающих вычислительному блоку, какой параметр или параметры пространственных данных микрофонной системы включать в цифровые аудиоданные, за счет чего вычислительный блок действует соответственно. Как и в приведенном выше примере, стороне отправки может быть отправлена команда включать только азимут или включать все данные, определяющие пространственную ориентацию микрофонной системы. Команда может быть принята больше одного раза во время сеанса, так что число параметров, включенных в цифровые аудиоданные, изменяется со временем. Другими словами, могут быть предусмотрены адаптации во время сеанса, когда вторые команды могут приниматься устройством как постоянно, так и периодически. Постоянно означает, например, один раз на каждый кадр. Периодически может быть только один раз, когда необходимо дать новую команду. Также является возможным прием второй команды только один раз при установлении сеанса.

Согласно некоторым вариантам осуществления блок передачи выполнен с возможностью передачи цифровых аудиоданных в дополнительное устройство, при этом указания относительно первых и/или вторых команд принимаются с указанного дополнительного устройства. Другими словами, сторона приема (содержащая устройство воспроизведения для воспроизведения принятого декодированного звука), в зависимости от контекста, может отправлять команды стороне отправки о том, включать часть пространственных данных в цифровые аудиоданные или нет и/или какие параметры включать. В других вариантах осуществления указания относительно первых и/или вторых команд могут быть приняты, например, от координирующего блока (сервера вызовов) для многопользовательской аудио-/видеоконференции с эффектом погружения или любого другого блока, который непосредственно не задействован в воспроизведении направленного звука.

Согласно некоторым вариантам осуществления блок приема дополнительно выполнен с возможностью приема метаданных, содержащих временную отметку, указывающую время захвата направленного звука, при этом вычислительный блок выполнен с возможностью кодирования указанной временной отметки в указанные цифровые аудиоданные. Предпочтительно эта временная отметка может быть использована для синхронизации на стороне приема, например для синхронизации устройства воспроизведения звука с устройством воспроизведения видео или для синхронизации множества цифровых аудиоданных, принятых от разных захватывающих устройств.

Согласно некоторым вариантам осуществления кодирование модифицированных звуковых сигналов включает понижающее микширование модифицированного направленного звука, при этом понижающее микширование выполняется с учетом пространственной ориентации микрофонной системы, и кодирование результата понижающего микширования и матрицы понижающего микширования, использованной в понижающем микшировании, в указанные цифровые аудиоданные. Например, формирование звукового луча в направлении конкретного направленного источника направленного звука предпочтительно применяется на основании направленной модификации, выполненной по отношению к направленному звуку.

Согласно некоторым вариантам осуществления устройство реализовано в оборудовании виртуальной реальности, VR, или оборудовании дополненной реальности, AR, содержащем микрофонную систему и устройство отслеживания положения головы, выполненное с возможностью определения пространственных данных устройства в 3–6 DoF. В других вариантах осуществления устройство реализовано в мобильном телефоне, содержащем микрофонную систему.

II. Обзор – сторона приема

Согласно второму аспекту предложено устройство для воспроизведения звуковых сигналов. Устройство (также называемое в данном документе стороной приема или воспроизводящим устройством) содержит блок приема, выполненный с возможностью приема цифровых аудиоданных. Устройство дополнительно содержит блок декодирования, выполненный с возможностью декодирования принятых цифровых аудиоданных в направленный звук и в метаданные, при этом метаданные содержат пространственные данные, содержащие по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты. Пространственные данные могут быть приняты, например, в виде параметров, например углов 3 DoF. В других вариантах осуществления пространственные данные могут быть приняты в виде матрицы поворота/перехода.

Устройство дополнительно содержит блок воспроизведения, выполненный с возможностью:

модификации направленности направленного звука с применением пространственных данных поворота; и

воспроизведения модифицированного направленного звука.

Предпочтительно устройство согласно этому аспекту может модифицировать направленный звук, как указано в метаданных. Например, при воспроизведении могут учитываться перемещения устройства, захватывающего звук.

Согласно некоторым вариантам осуществления пространственные данные указывают пространственную ориентацию и/или пространственное положение микрофонной системы, содержащей один или более микрофонов, захватывающих направленный звук, при этом блок воспроизведения модифицирует направленность направленного звука с по меньшей мере частичным воспроизведением звуковой среды микрофонной системы. В этом варианте осуществления в устройстве применяется поворот звуковой сцены путем повторного применения по меньшей мере частей поворота звуковой сцены (относительного, то есть поворот сцены происходит относительно перемещения микрофонной системы), который был компенсирован в захватывающем устройстве.

Согласно некоторым вариантам осуществления пространственные данные содержат параметры, описывающие поворотное движение/ориентацию с помощью одной степени свободы, DoF.

Согласно некоторым вариантам осуществления пространственные данные содержат параметры, описывающие поворотное движение/ориентацию с помощью трех степеней свободы, DoF.

Согласно некоторым вариантам осуществления декодированный направленный звук содержит звук, содержащий направленные метаданные. Например, декодированный направленный звук может содержать звуковые объекты, то есть основанный на объекте звук (OBA). В других вариантах осуществления декодированный направленный звук может быть основанным на каналах и представлять собой, например, основанный на сцене звук в формате «Ambisonics B» или основанный на каналах звук.

Согласно некоторым вариантам осуществления устройство содержит блок передачи, выполненный с возможностью передачи команд в дополнительное устройство, с которого принимают оцифрованный звук, при этом команды указывают дополнительному устройству, какой (если какой-либо вообще) параметр или параметры данные поворота должны содержать. Следовательно, воспроизводящее устройство может отправлять захватывающему устройству команды на передачу, например, только параметров поворота, только параметра азимута или всех параметров 6 DoF, в зависимости от случая применения и/или доступной полосы пропускания. Более того, воспроизводящее устройство может принимать такое решение на основании доступных вычислительных ресурсов в устройстве воспроизведения для применения поворота звуковой сцены или уровня сложности блока воспроизведения. Команды могут быть переданы больше одного раза во время сеанса, и, таким образом, они изменяются со временем, то есть на основании вышеизложенного. Другими словами, могут быть предусмотрены адаптации во время сеанса, когда устройство может передавать команды как постоянно, так и периодически. Постоянно означает, например, один раз на каждый кадр. Периодически может быть только один раз, когда необходимо дать новую команду. Также является возможной передача команды только один раз при установлении сеанса.

Согласно некоторым вариантам осуществления блок декодирования дополнительно выполнен с возможностью извлечения временной отметки, указывающей время захвата направленного звука, из цифровых аудиоданных. Эта временная отметка может быть использована для целей синхронизации, как было рассмотрено выше.

Согласно некоторым вариантам осуществления декодирование принятых цифровых аудиоданных в направленный звук блоком декодирования включает:

декодирование принятых цифровых аудиоданных в подвергнутый понижающему микшированию звук;

повышающее микширование посредством блока декодирования подвергнутого понижающему микшированию звука в направленный звук с применением матрицы понижающего микширования, включенной в принятые цифровые аудиоданные.

Согласно некоторым вариантам осуществления пространственные данные содержат пространственные координаты, и при этом блок воспроизведения дополнительно выполнен с возможностью регулирования громкости воспроизведенного звука на основании пространственных координат. В этом варианте осуществления громкость звука, принятого «издалека», может быть уменьшена по сравнению с громкостью звука, принятого из места, расположенного ближе. Следует отметить, что относительная близость принятого звука может быть определена на основании виртуального пространства, при этом положение захватывающего устройства в этом пространстве относительно принимающего устройства определено на основании пространственных координат устройств с применением подходящей метрики расстояния, например евклидовой метрики. Еще один этап может включать применение некоторой произвольной схемы отображения для определения на основании метрики расстояния параметров воспроизведения звука, например уровня звука. Предпочтительно в этом варианте осуществления может быть улучшен эффект присутствия от воспроизведенного звука.

Согласно некоторым вариантам осуществления устройство реализовано в оборудовании виртуальной реальности, VR, или оборудовании дополненной реальности, AR, содержащих устройство отслеживания положения головы, выполненное с возможностью измерения пространственной ориентации и пространственного положения устройства в шести DoF. В этом варианте осуществления также пространственные данные воспроизводящего устройства могут быть использованы при модификации направленности направленного звука. Например, принятая матрица поворота/перехода может быть умножена на подобную матрицу, определяющую, например, состояние поворота воспроизводящего устройства, и затем полученная матрица может быть использована для модификации направленности направленного звука. Предпочтительно в этом варианте осуществления может быть улучшен эффект присутствия от воспроизведенного звука. В других вариантах осуществления устройство реализовано в устройстве для телефонных конференций или т. п., которое, как предполагается, должно быть стационарным, и при этом любым состоянием поворота устройства пренебрегают.

Согласно некоторым вариантам осуществления блок воспроизведения выполнен для бинаурального воспроизведения звука.

III. Обзор – система

Согласно третьему аспекту предложена система, содержащая:

первое устройство согласно первому аспекту, выполненное с возможностью передачи цифровых аудиоданных во второе устройство согласно второму аспекту, при этом система выполнена с возможностью проведения аудио- и/или видеоконференций.

Согласно некоторым вариантам осуществления первое устройство дополнительно содержит блок записи видео, при этом оно выполнено с возможностью кодирования записанного видео в цифровые видеоданные и передачи цифровых видеоданных во второе устройство, при этом второе устройство дополнительно содержит дисплей для отображения декодированных цифровых видеоданных.

Согласно четвертому аспекту предложена система, содержащая:

первое устройство согласно первому аспекту, выполненное с возможностью передачи цифровых аудиоданных во второе устройство, при этом второе устройство содержит:

блок приема, выполненный с возможностью приема цифровых аудиоданных,

блок декодирования, выполненный с возможностью:

декодирования принятых цифровых аудиоданных в направленный звук и в метаданные, при этом метаданные содержат пространственные данные, содержащие по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты;

блок воспроизведения для воспроизведения звука;

при этом блок воспроизведения выполнен с возможностью при последующем получении вторым устройством кодированных видеоданных от первого устройства:

модификации направленности направленного звука с применением пространственных данных, и

воспроизведения модифицированного направленного звука;

при этом блок воспроизведения выполнен с возможностью при неполучении вторым устройством кодированных видеоданных от первого устройства:

воспроизведения направленного звука.

Предпочтительно решение, воспроизводить ли звуковую среду микрофонной системы путем компенсации пространственной ориентации и/или пространственного положения микрофонной системы, принимается на основании того, передано видео или нет. В этом варианте осуществления отправляющему устройству может не всегда быть известно, когда необходима или требуется компенсация ее перемещения. Рассмотрим, например, ситуацию, когда звук воспроизводится вместе с видео. В этом случае, по меньшей мере когда захват видео выполняется тем же устройством, что захватывает звук, предпочтительно может быть возможным либо поворот звуковой сцены вместе с движущейся визуальной сценой, либо сохранение звуковой сцены неподвижной. Сохранение звуковой сцены неподвижной путем компенсации перемещений захватывающего устройства может быть предпочтительным выбором, если не использовано видео.

Согласно пятому аспекту предложен постоянный машиночитаемый носитель, на котором сохранены команды, которые при выполнении одним или более процессорами приводят к выполнению одним или более процессорами операций согласно любому из аспектов с первого по четвертый.

IV. Обзор в целом

Аспекты со второго по пятый могут в целом характеризоваться такими же или соответствующими признаками и преимуществами, что и в первом аспекте.

Другие цели, признаки и преимущества настоящего изобретения станут понятны из следующего подробного описания, из зависимых пунктов прилагаемой формулы изобретения, а также из графических материалов.

Этапы любого способа или устройство, реализующее ряд этапов, которые раскрыты в данном документе, не обязательно должны быть выполнены точно в приведенном порядке, если явным образом не указано иное.

V. Приведенные в качестве примера варианты осуществления

Ожидается, что голосовые и звуковые услуги с эффектом присутствия предложат пользователям впечатления виртуальной реальности (VR) с эффектом присутствия. Также могут быть предложены впечатления дополненной реальности (AR) и расширенной реальности (XR). Это изобретение касается того, что мобильные устройства, такие как портативное UE, которые захватывают сцену с эффектом присутствия или сцену AR/VR/XR, во многих случаях могут перемещаться во время сеанса относительно звуковой сцены. Здесь выделяются случаи, когда необходимо избегать воспроизведения поворотных движений захватывающего устройства как соответствующего поворота воспроизводимой сцены посредством принимающего устройства. Это изобретение направлено на то, как можно эффективно решить указанные выше проблемы с обеспечением соответствия требованиям пользователя к звуку с эффектом присутствия в зависимости от контекста.

Следует отметить, что, несмотря на то, что некоторые примеры в данном документе будут описаны в контексте кодера, декодера и/или устройства воспроизведения IVAS, следует понимать, что это только один тип кодера/декодера/устройства воспроизведения, в котором могут быть применены общие принципы изобретения, и что может быть много других типов кодеров, декодеров и устройств воспроизведения, которые могут быть использованы в сочетании с различными вариантами осуществления, описанными в данном документе.

Также следует отметить, что, хотя термины «повышающее микширование» и «понижающее микширование» встречаются по всему этому документу, они не обязательно могут подразумевать соответственно увеличение и уменьшение числа каналов. Хотя это часто может соответствовать действительности, следует понимать, что любой из терминов может относиться либо к уменьшению, либо к увеличению числа каналов. Таким образом, оба термина входят в более общее понятие «микширование».

Далее со ссылкой на фиг. 1 описан способ 1 кодирования и передачи представления направленного звука согласно одному варианту осуществления. Устройство 300, выполненное с возможностью осуществления способа 1, показано на фиг. 3.

Устройство 300 в целом может быть мобильным телефоном (смартфоном), тем не менее, устройство может также быть частью оборудования VR/AR/XR или устройством любого другого типа, содержащим микрофонную систему 302, содержащую один или более микрофонов для захвата направленного звука, или соединенным с ней. Таким образом, устройство 300 может содержать микрофонную систему 302 или быть соединено (с помощью проводного или беспроводного соединения) с микрофонной системой 302, расположенной на расстоянии от него. В некоторых вариантах осуществления устройство 300 реализовано в оборудовании VR или оборудовании AR, содержащем микрофонную систему 302 и устройство отслеживания положения головы, выполненное с возможностью определения пространственных данных устройства в 1–6 DoF.

В некоторых сценариях захвата звука положение и/или пространственная ориентация микрофонной системы 302 могут изменяться во время захвата направленного звука.

Далее будут описаны два сценария, представленные в качестве примера.

Изменение положения и/или пространственной ориентации микрофонной системы 302 во время захвата звука может вызывать поворот/переход в пространстве воспроизводимой сцены в принимающем устройстве. Такое поведение может требоваться или быть нежелательным в зависимости от типа обеспечиваемого впечатления, например с эффектом присутствия, VR, AR или XR, и в зависимости от конкретного случая применения. Одним примером того, когда это может требоваться, является ситуация, в которой услуга дополнительно обеспечивает визуальный компонент и в которой захватывающая камера (например с захватом видео в 360 градусов, на фиг. 1 не показана) и микрофоны 302 интегрированы в одно и то же устройство. В этом случае следует ожидать, что поворот захватывающего устройства должен привести к соответствующему повороту воспроизведенной аудиовизуальной сцены.

С другой стороны, если захват звука и видео не выполняется одним и тем же физическим устройством или если нет видеокомпонента, слушатель может чувствовать себя некомфортно, если воспроизводимая сцена будет поворачиваться всякий раз, когда поворачивается захватывающее устройство. В худшем случае может быть вызван эффект укачивания. Таким образом, необходимо компенсировать изменения положения (перехода и/или поворота) захватывающего устройства. К примерам относятся применения для телефонной связи с эффектом присутствия и проведения конференций с эффектом присутствия с помощью смартфона в качестве захватывающего устройства (то есть содержащего комплект микрофонов 302). В этих случаях применения часто может случаться так, что комплект микрофонов непреднамеренно перемещается либо потому, что он является портативным, либо потому, что пользователь прикасается к нему во время работы. Пользователь захватывающего устройства может не знать о том, что перемещение устройства может вызывать нестабильность воспроизведенного пространственного звука в принимающих устройствах. В целом, нельзя ожидать того, что во время разговора пользователь будет держать телефон неподвижно.

Способы и устройство, описанные ниже, определены некоторыми или всеми из вышеописанных сценариев.

Таким образом, устройство 300 содержит микрофонную систему 302, содержащую один или более микрофонов для захвата звука, или соединено с ней. Таким образом, микрофонная система может содержать 1, 2, 3, 5, 10 и т. д. микрофонов. В некоторых вариантах осуществления микрофонная система содержит множество микрофонов. Устройство 300 содержит множество функциональных блоков. Блоки могут быть реализованы в аппаратном обеспечении и/или программном обеспечении и могут содержать один или более процессоров для выполнения функций блоков.

Устройство 300 содержит блок 304 приема, который выполнен с возможностью приема S13 направленного звука 320, захваченного микрофонной системой 302. Направленный звук 320 предпочтительно представляет собой представление звука, которое легко обеспечивает возможность поворота и/или перехода звуковой сцены. Направленный звук 320 может содержать, например, звуковые объекты и/или каналы, которые обеспечивают возможность поворота и/или перехода звуковой сцены. Направленный звук может содержать:

- основанный на каналах звук (CBA), такой как стереозвук, многоканальный/объемный звук, 5.1, 7.1 и т. п.;

- основанный на сцене звук (SBA), такой как амбиофония первого порядка и высшего порядка;

- основанный на объекте звук (OBA).

CBA и SBA являются непараметрическими формами пространственного/направленного звука, тогда как OBA является параметрическим с пространственными метаданными. Особой формой параметрического пространственного звука является сопровождаемый метаданными пространственный звук (MASA).

Блок 304 приема дополнительно выполнен с возможностью приема S14 метаданных 322, связанных с микрофонной системой 302. Метаданные 322 содержат пространственные данные микрофонной системы 302. Пространственные данные характеризуют пространственную ориентацию и/или пространственное положение микрофонной системы 302. Пространственные данные микрофонной системы содержат по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты микрофонной системы. Пространственные данные могут быть представлены одной степенью свободы, DoF (например, только угол азимута микрофонной системы), тремя DoF (например, пространственная ориентация микрофонной системы в 3 DoF) или шестью DoF (как пространственная ориентация в 3 DoF, так и пространственное положение в 3 DoF). Разумеется, пространственные данные могут быть представлены любым количеством DoF от одной до шести.

Устройство 300 дополнительно содержит вычислительный блок 306, который принимает направленный звук 320 и метаданные 322 из блока 304 приема и модифицирует S15 по меньшей мере некоторую часть направленного звука 320 (например, по меньшей мере несколько из звуковых объектов направленного звука) для получения модифицированного направленного звука. Такая модификация приводит к тому, что направленность звука модифицируется на основании пространственной ориентации и/или пространственного положения микрофонной системы.

Затем вычислительный блок 306 кодирует S16 цифровые данные путем кодирования S17 модифицированного направленного звука в цифровые аудиоданные 328. Устройство 300 дополнительно содержит блок 310 передачи, выполненный с возможностью передачи (с помощью проводного или беспроводного соединения) цифровых аудиоданных 328, например как битовый поток.

Благодаря компенсации поворотных и/или поступательных перемещений микрофонной системы 302 еще в кодирующем устройстве 300 (также может быть отнесено к отправляющему устройству, захватывающему устройству, передающему устройству, стороне отправки), требования относительно передачи пространственных данных микрофонной системы 302 становятся менее строгими. Если бы такая компенсация должна была быть выполнена устройством, принимающим кодированный направленный звук (например, устройством воспроизведения звука с эффектом присутствия), то в цифровые аудиоданные 328 было бы необходимо всегда включать все требуемые метаданные. Если предположить, что все координаты поворота микрофонной системы 302 на всех трех осях представлены 8 битами, а также оценены и переданы с частотой 50 Гц, то возникающее при этом увеличение битовой скорости сигнала 332 составляет 1,2 кбит/с. Кроме того, вполне вероятно, что вариации слуховой сцены в случае отсутствия компенсации движения на стороне захвата могут сделать кодирование пространственного звука более сложным и, возможно, менее эффективным.

Более того, поскольку информация, на которой основано решение о модификации, в устройстве 300 легкодоступна, она уже подходит для компенсации поворотных/поступательных перемещений микрофонной системы 302, которая, таким образом, может быть выполнена эффективно. Таким образом, максимальная алгоритмическая задержка для этой операции может быть сокращена.

Еще одно преимущество заключается в том, что при постоянной компенсации (а не при определенных условиях, при запросе) поворотных/поступательных перемещений в захватывающем устройстве 300 и при условии обеспечения принимающих концов данными о пространственной ориентации системы захвата исключаются возможные конфликты при обслуживании нескольких оконечных устройств с разными требованиями к воспроизведению, как, например, в случаях применения в многосторонних конференциях.

Вышеприведенное охватывает все случаи, в которых воспроизведенная звуковая сцена не должна изменяться в зависимости от положения и поворота микрофонной системы 302, захватывающей направленный звук. Что касается остальных случаев, в которых воспроизведенная звуковая сцена должна поворачиваться при соответствующих перемещениях микрофонной системы 302, то вычислительный блок 306 может необязательно быть выполнен с возможностью кодирования S18 по меньшей мере частей метаданных 322, содержащих пространственные данные микрофонной системы, в указанные цифровые аудиоданные 328. Например, в соответствии с определением подходящей поворотной системы координат, например у которой ось z соответствует вертикальному направлению, во многих случаях может быть необходимо передать только угол азимута (на скорости, например, 400 бит/с). Углы тангажа и крена микрофонной системы 302 в поворотной системе координат могут быть необходимы только в определенных случаях применения VR.

Предоставляемые при определенных условиях параметры поворота/перехода обычно могут быть переданы как один условный элемент формата полезной нагрузки RTP IVAS. Таким образом, для этих параметров понадобится небольшая часть выделенной полосы пропускания.

Для обеспечения соответствия разным сценариям блок 304 приема может необязательно быть выполнен с возможностью приема S10 команд относительно того, как работать с метаданными 322, когда вычислительный блок 306 кодирует цифровые аудиоданные 328. Команды могут быть приняты S10 от воспроизводящего устройства (например другая сторона в аудиоконференции) или от координирующего устройства, такого как сервер вызовов или тому подобное.

В некоторых вариантах осуществления блок 304 приема дополнительно выполнен с возможностью приема S11 первых команд, указывающих вычислительному блоку 306, включать ли по меньшей мере части метаданных 322, содержащих пространственные данные микрофонной системы, в указанные цифровые аудиоданные. Другими словами, первые команды сообщают устройству 300 о том, необходимо ли включать какие-либо метаданные в цифровые аудиоданные 328 или не включать их вовсе. Например, если устройство 300 передает цифровые аудиоданные 328 как часть аудиоконференции, то первые команды могут определять, что не нужно включать никакую часть метаданных 322.

В качестве альтернативы или в дополнение, в некоторых вариантах осуществления блок 304 приема дополнительно выполнен с возможностью приема вторых команд, указывающих вычислительному блоку, какой параметр или параметры пространственных данных микрофонной системы включать в цифровые аудиоданные, за счет чего вычислительный блок действует соответственно. Например, из-за полосы пропускания или по другим причинам вторые команды могут указывать вычислительному блоку 306 на то, чтобы включать в цифровые аудиоданные 328 только угол азимута.

Первые и/или вторые команды обычно могут подлежать согласованию при установлении сеанса. Таким образом, ни одна из этих команд не требует передач во время сеанса и не будет требовать какой-либо выделенной полосы пропускания, например, для аудио-/видеоконференции с эффектом присутствия.

Как было указано выше, устройство 300 может быть частью видеоконференции. Поэтому блок 304 приема также может быть выполнен с возможностью приема метаданных (на фиг. 1 не показано), содержащих временную отметку, указывающую время захвата направленного звука, при этом вычислительный блок 306 выполнен с возможностью кодирования указанной временной отметки в указанные цифровые аудиоданные. Предпочтительно модифицированный направленный звук затем может быть синхронизирован с захваченным видео на стороне воспроизведения.

В некоторых вариантах осуществления кодирование S17 модифицированного направленного звука включает понижающее микширование модифицированного направленного звука, при этом понижающее микширование выполняют с учетом пространственной ориентации микрофонной системы 302, и кодирование результата понижающего микширования и матрицы понижающего микширования, использованной в понижающем микшировании, в указанные цифровые аудиоданные 328. Понижающее микширование может, например, включать регулирование операции формирования луча направленного звука 320 на основании пространственных данных микрофонной системы 302.

Таким образом, цифровые аудиоданные передают S19 от устройства 300 как часть передачи, например, сценария аудио-/видеоконференции с эффектом присутствия. Затем цифровые аудиоданные принимаются устройством с воспроизведением звуковых сигналов, например части приема сценария аудио-/видеоконференции с эффектом присутствия. Воспроизводящее устройство 400 далее будет описано со ссылкой на фиг. 2 и 4.

Устройство 400, воспроизводящее звуковые сигналы, содержит блок 402 приема, выполненный с возможностью приема S21 (с помощью проводного или беспроводного соединения) цифровых аудиоданных 328.

Устройство 400 дополнительно содержит блок 404 декодирования, выполненный с возможностью декодирования S22 принятых цифровых аудиоданных 328 в направленный звук 420 и в метаданные 422, при этом метаданные 422 содержат пространственные данные, содержащие по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты.

В некоторых вариантах осуществления блок 404 декодирования выполняет повышающее микширование. В этих вариантах осуществления декодирование принятых цифровых аудиоданных 328 в направленный звук 420 блоком 404 декодирования включает: декодирование принятых цифровых аудиоданных 328 в подвергнутый понижающему микшированию звук и повышающее микширование блоком 404 декодирования подвергнутого понижающему микшированию звука в направленный звук 420 с применением матрицы понижающего микширования, включенной в принятые цифровые аудиоданные 328.

Устройство дополнительно содержит блок 406 воспроизведения, выполненный с возможностью модификации S23 направленности направленного звука с применением пространственных данных; и воспроизведения S24 модифицированного направленного звука 424 посредством динамиков или наушников.

Таким образом, устройство 400 (его блок 406 воспроизведения) выполнено с возможностью применения поворота/перехода звуковой сцены на основании принятых пространственных данных.

В некоторых вариантах осуществления пространственные данные указывают пространственную ориентацию и/или пространственное положение микрофонной системы, содержащей один или более микрофонов, захватывающих направленный звук, при этом блок воспроизведения модифицирует S23 направленность направленного звука с по меньшей мере частичным воспроизведением звуковой среды микрофонной системы. В этом варианте осуществления устройство 400 повторно применяет по меньшей мере части поворота звуковой сцены, который был компенсирован на захватывающем конце устройством 300 по фиг. 3.

Пространственные данные могут содержать пространственные данные, содержащие данные поворота, представляющие движение с тремя степенями свободы, DoF. В качестве альтернативы или в дополнение, пространственные данные могут содержать пространственные координаты.

Декодированный направленный звук может в некоторых вариантах осуществления содержать звуковые объекты или, в общем случае, звук, связанный с пространственными метаданными, как описано выше.

Декодирование S22 принятых цифровых аудиоданных в направленный звук блоком 404 декодирования может в некоторых вариантах осуществления включать декодирование принятых цифровых аудиоданных в подвергнутый понижающему микшированию звук и повышающее микширование блоком 404 декодирования подвергнутого понижающему микшированию звука в направленный звук с применением матрицы понижающего микширования, включенной в принятые цифровые аудиоданные 328.

Для обеспечения увеличенной гибкости и/или соответствия требованиям относительно полосы пропускания устройство 400 может содержать блок 306 передачи, выполненный с возможностью передачи S20 команд в дополнительное устройство, с которого принимают цифровые аудиоданные 328, при этом команды указывают дополнительному устройству, какой (если какой-либо вообще) параметр или параметры данные поворота или перехода должны содержать. Таким образом, этот признак может способствовать удовлетворению возможных пользовательских предпочтений или предпочтений, связанных с воспроизведением и/или типом использованной услуги.

В некоторых вариантах осуществления устройство 400 может также быть выполнено с возможностью передачи команд, указывающих дополнительному устройству, включать метаданные, содержащие пространственные данные, в цифровые аудиоданные 328 или нет. В этих вариантах осуществления, если принятые S21 цифровые аудиоданные 328 не содержат каких-либо подобных метаданных, то блок воспроизведения будет воспроизводить декодированный направленный звук как он был принят (возможно подвергнутый повышающему микшированию, как описано выше) без какой-либо модификации направленности направленного звука ввиду компенсаций, выполненных в захватывающем устройстве 300. Тем не менее, в некоторых вариантах осуществления принятый направленный звук модифицирован на основании информации об отслеживании положения головы от устройства воспроизведения (как дополнительно описано ниже).

Устройство 400 в некоторых вариантах осуществления может быть реализовано в оборудовании VR или оборудовании AR, содержащем устройство отслеживания положения головы, выполненное с возможностью измерения пространственной ориентации устройства в шести DoF. Блок 406 воспроизведения может быть выполнен для бинаурального воспроизведения звука.

В некоторых вариантах осуществления блок 406 воспроизведения выполнен с возможностью регулирования S25 громкости воспроизведенного звука на основании пространственных координат, принятых в метаданных. Этот признак будет дополнительно описан ниже со ссылкой на фиг. 6–7.

На фиг. 5 показана система, содержащая захватывающее устройство 300 (описанное со ссылкой на фиг. 3) и воспроизводящее устройство 400 (описанное со ссылкой на фиг. 4). Захватывающее устройство 300 может в некоторых вариантах осуществления принимать S10 команды 334, переданные S20 от воспроизводящего устройства 400 и указывающие, должно ли захватывающее устройство 300 включать пространственные данные микрофонной системы захватывающего устройства в цифровые аудиоданные 328 и в какой степени.

В некоторых вариантах осуществления захватывающее устройство 300 дополнительно содержит блок записи видео и выполнено с возможностью кодирования записанного видео в цифровые видеоданные 502 и передачи цифровых видеоданных в воспроизводящее устройство 400, при этом воспроизводящее устройство 400 дополнительно содержит дисплей для отображения декодированных цифровых видеоданных.

Как описано выше, изменение положения и/или пространственной ориентации микрофонной системы захватывающего устройства 300 во время захвата звука может вызывать поворот/переход в пространстве воспроизводимой сцены в воспроизводящем устройстве 400. Такое поведение может требоваться или быть нежелательным в зависимости от типа обеспечиваемого впечатления, например с эффектом присутствия, VR, AR или XR, и в зависимости от конкретного случая применения. Одним примером того, когда это может требоваться, является ситуация, в которой услуга дополнительно обеспечивает визуальный компонент 502 и в которой захватывающая камера и один или более микрофонов 302 интегрированы в одно и то же устройство. В этом случае следует ожидать, что поворот захватывающего устройства 300 должен привести к соответствующему повороту воспроизведенной аудиовизуальной сцены в воспроизводящем устройстве 400.

Поэтому согласно некоторым вариантам осуществления блок воспроизведения воспроизводящего устройства 400 может быть выполнен с возможностью, при последующем получении воспроизводящим устройством 400 кодированных видеоданных 502 от захватывающего устройства 300, модификации направленности направленного звука (принятого в цифровых аудиоданных 328) с применением пространственных данных и воспроизведения модифицированного направленного звука.

Тем не менее, при неполучении воспроизводящим устройством 400 кодированных видеоданных от захватывающего устройства 300 блок воспроизведения воспроизводящего устройства 400 может быть выполнен с возможностью воспроизведения направленного звука без какой-либо направленной модификации.

В других вариантах осуществления воспроизводящее устройство 400 перед конференцией получает информацию о том, что в данные, принятые от захватывающего устройства 300, не будет включен видеокомпонент. В этом случае воспроизводящее устройство 400 может указывать в командах 334 о том, что в цифровые аудиоданные 328 вообще не должны быть включены какие-либо пространственные данные микрофонной системы захватывающего устройства 300, при этом блок воспроизведения воспроизводящего устройства 400 выполнен с возможностью воспроизведения направленного звука, принятого в цифровых аудиоданных 328, без какой-либо направленной модификации.

Выше было кратко описано понижающее микширование и/или кодирование направленного звука в захватывающем устройстве. Далее это будет дополнительно рассмотрено подробно.

Во многих случаях захватывающее устройство 300 не содержит информации о том, будет декодированное представление (в воспроизводящем устройстве) выведено в один монофонический динамик, стереофонические динамики или наушники. Фактический сценарий воспроизведения может также изменяться во время сеанса обслуживания, например вместе с подключенным проигрывающим оборудованием, которое может меняться, как в случае подсоединения наушников к мобильному телефону или их отсоединения от него. Еще одним сценарием, в котором возможности воспроизводящего устройства не известны, является ситуация, когда одно захватывающее устройство 300 должно поддерживать несколько оконечных устройств (воспроизводящих устройств 400). Например, в случае применения в конференции IVAS или при распределении содержимого VR одно оконечное устройство может использовать гарнитуру, а другое может осуществлять воспроизведение посредством стереофонических динамиков, однако было бы предпочтительно, если бы можно было отправлять один результат кодирования в оба оконечных устройства, поскольку это снизило бы сложность на стороне кодирования и также могло бы уменьшить требуемую суммарную пропускную способность сети.

Наиболее простой, но менее желательный способ обеспечения поддержки в этих случаях заключается в том, чтобы всегда исходить из наименьшей возможности приемного устройства, то есть моно, и выбирать соответствующий режим работы со звуком. Тем не менее, более целесообразной является необходимость, чтобы применяемый кодек (например кодек IVAS), даже при использовании в режиме представления, поддерживающем пространственный, бинауральный или стереофонический звук, всегда мог генерировать декодированный звуковой сигнал, который может быть представлен на устройстве 400 с относительно более низкой возможностью воспроизведения звука. В некоторых вариантах осуществления сигнал, кодированный как пространственный звуковой сигнал, может также быть декодируемым для бинаурального, стереофонического и/или монофонического воспроизведения. Аналогично сигнал, кодированный как бинауральный, может быть декодируемым как стереофонический и/или монофонический, и сигнал, кодированный как стереофонический, может быть декодируемым для монофонического представления. В качестве иллюстрации, захватывающее устройство 300 должно быть способно предоставить только один результат кодирования (цифровые аудиоданные 328) и отправить этот же результат кодирования в несколько оконечных устройств 400, некоторые из которых могут поддерживать бинауральное представление, а некоторые из которых могут поддерживать только стереофоническое представление.

Следует отметить, что кодек, рассмотренный выше, может быть реализован в захватывающем устройстве или в сервере вызовов. В случае сервера вызовов, сервер вызовов будет получать цифровые аудиоданные 328 от захватывающего устройства и выполнять транскодирование цифровых аудиоданных для приведения их в соответствие с вышеуказанными требованиями перед отправкой транскодированных цифровых аудиоданных в одно или более воспроизводящих устройств 400. Такой сценарий будет рассмотрен в качестве примера ниже со ссылкой на фиг. 6.

Физический сценарий 600 конференции VR представлен на фиг. 6. Пять пользователей 602a–e конференции VR/AR из разных мест виртуально проводят собрание. Пользователям 602a–e конференции VR/AR может быть обеспечена возможность использования IVAS. Каждый из них использует оборудование VR/AR, в котором предусмотрено, например, бинауральное проигрывание и проигрывание видео посредством наголовного дисплея (HMD). У всех пользователей оборудование поддерживает перемещения в 6DOF с соответствующим отслеживанием положения головы. Пользовательское оборудование, UE, 602 пользователей обменивается кодированным звуком выше и ниже по потоку с сервером 604 конференц-вызовов. Визуально пользователи могут быть представлены посредством соответствующих аватаров, которые могут быть воспроизведены на основании информации, связанной с параметрами относительного положения и их угловой ориентацией.

Чтобы еще больше улучшить эффект присутствия пользователя, при воспроизведении аудиоданных, принятых от другого участника (других участников) в сценарии конференции, также учитывается поворот и/или поступательное головы слушателя. Следовательно, отслеживание положения головы предоставляет в блок воспроизведения воспроизводящего устройства пользователя (номер ссылочной позиции 400 на фиг. 4–5) информацию о текущих пространственных данных (6DOF) оборудования VR/AR пользователя. Эти пространственные данные комбинируются (например путем матричного умножения или модификации метаданных, связанных с направленным звуком) с пространственными данными, принятыми в цифровых аудиоданных, принятых от другого пользователя 602, при этом блок воспроизведения модифицирует направленность направленного звука, принятого от указанного другого пользователя 602, на основании комбинации пространственных данных. Затем модифицированный направленный звук воспроизводится пользователю.

Кроме того, громкость воспроизведенного звука, принятого от конкретного пользователя, может регулироваться на основании пространственных координат, принятых в цифровых аудиоданных. Громкость может быть увеличена или уменьшена на основании виртуального (или реального) расстояния между двумя пользователями (рассчитанного воспроизводящим устройством или сервером 604 вызовов), чтобы еще больше улучшить эффект присутствия пользователя.

На фиг. 7 в качестве примера представлено пространство 700 для виртуальной конференции, созданное посредством сервера конференц-вызовов. Сначала сервер размещает пользователей Ui, i=1…5 конференции (также обозначенных как 702a–e) на основании координат Ki = (xi, yi, zi) виртуального положения. Пространство для виртуальной конференции используется пользователями совместно. Соответственно, в таком пространстве для каждого пользователя осуществляется воспроизведение аудио- и видеоданных. Например, по отношению к пользователю U5 (соответствующему пользователю 602d на фиг. 6) при воспроизведении другие участники конференции будут виртуально размещены в относительных положениях Ki – K5, i≠5. Например, пользователь U5 будет воспринимать пользователя U2 на расстоянии |Ki – K5| и в направлении вектора (Ki – K5)/|Ki – K5|, при этом направленное воспроизведение выполняется относительно углового положения пользователя U5. На фиг. 2 также показано перемещение пользователя U5 в направлении пользователя U4. Это перемещение повлияет на положение пользователя U5 относительно других пользователей, что будет учтено при воспроизведении. В то же время UE пользователя U5 отправляет данные об изменении своего положения на сервер 604 конференций, который обновляет пространство для виртуальной конференции с новыми координатами пользователя U5. Поскольку пространство для виртуальной конференции совместно используется пользователями U1–U4, им становится известно о перемещении пользователя U5 и они могут соответственно настроить свои соответствующие устройства воспроизведения. Одновременное перемещение пользователя U2 основано на соответствующих принципах. Сервер 604 вызовов выполнен с возможностью сохранения данных о положении участников 702a–e в совместно используемом пространстве для проведения встреч.

В сценарии по фиг. 6–7 в отношении звука к среде кодирования может применяться одно или более из следующих требований 6DOF.

предоставление среды метаданных для представления и передачи в восходящем направлении информации о положении приемного оконечного устройства, в том числе пространственных координат и/или координат поворота (как описано выше со ссылкой на фиг. 1–4);

возможность связывать входные звуковые элементы (например объекты) с атрибутами 6DOF, включая пространственные координаты, координаты поворота, направленность;

возможность одновременного пространственного воспроизведения нескольких принятых звуковых элементов в соответствии со связанными с ними атрибутами 6DOF;

соответствующие корректировки воспроизводимой сцены при поворотах и/или поступательных движениях головы слушателя.

Следует отметить, что представленное выше также применимо к встречам в XR, которые представляют собой сочетание физической и виртуальной встречи. Физические участники видят и слышат аватары, представляющие удаленных участников, посредством своих очков дополненной реальности и наушников. Они взаимодействуют с аватарами при обсуждении, как если бы это были физически присутствующие участники. Для них взаимодействия с другими физическими и виртуальными участниками происходят в смешанной реальности. Положения реальных и виртуальных участников сливаются в комбинированное, совместно используемое виртуальное пространство для проведения встреч (например посредством сервера 604 вызовов), которое соответствует положениями реальных участников в пространстве для проведения физических встреч и отображается в пространстве для проведения виртуальных встреч с применением данных об абсолютных и относительных физических/реальных положениях.

В сценарии VR/AR/XR могут быть созданы подгруппы виртуальной конференции. Эти подгруппы могут быть использованы для информирования сервера 604 вызовов о том, для каких пользователей, например, качество услуги, QoS, должно быть высоким, а для каких пользователей QoS может быть ниже. В некоторых вариантах осуществления только участники в одной и той же подгруппе включены в виртуальную среду, предоставленную для этих подгрупп посредством оборудования VR/AR/XR. Например, сценарий, в котором могут быть созданы подгруппы, представляет собой заседание со стендовым докладом, в котором предлагается удаленно принять виртуальное участие. Удаленные участники снабжены HMD и наушниками. Они виртуально присутствуют и могут ходить от стенда к стенду. Они могут слушать текущие представления стендов и подходить ближе к представлению, если они считают тему или происходящее обсуждение интересным. Для улучшения возможности взаимодействий с эффектом присутствия между виртуальными и физическими участниками могут быть созданы подгруппы на основании, например, того стенда из множества стендов, в котором участники заинтересованы на текущий момент.

Варианты осуществления этого сценария включают:

прием посредством системы для телеконференций тем от участников виртуальной конференции;

группирование посредством системы для телеконференций участников в подгруппы виртуальной конференции на основании тем;

прием посредством системы для телеконференций запроса от устройства нового участника на присоединение к виртуальной конференции, при этом запрос связан с указателем, которым указана предпочтительная тема;

выбор посредством системы для телеконференций подгруппы из подгрупп на основании предпочтительной темы и тем подгрупп;

предоставление посредством системы для телеконференций на устройство нового участника виртуальной среды для виртуальной конференции, при этом виртуальная среда указывает по меньшей мере одно из визуальной виртуальной близости или звуковой виртуальной близости нового участника относительно одного или более участников выбранной подгруппы.

В некоторых вариантах осуществления виртуальная среда указывает визуальную виртуальную близость или звуковую виртуальную близость по меньшей мере путем обеспечения визуального отображения виртуальной реальности или звукового поля виртуальной реальности, где аватар нового участника и один или более аватаров участников выбранной подгруппы находятся рядом друг с другом.

В некоторых вариантах осуществления каждый участник подключен посредством открытых наушников и очков дополненной реальности.

VI. Эквиваленты, дополнения, альтернативы и прочее

Дополнительные варианты осуществления настоящего изобретения будут очевидны специалисту в данной области техники после изучения описания, приведенного выше. Несмотря на то, что настоящее описание и графические материалы раскрывают варианты осуществления и примеры, изобретение не ограничивается этими конкретными примерами. В пределах объема настоящего изобретения, определенного прилагаемой формулой изобретения, возможны многочисленные модификации и изменения. Любые ссылочные позиции, встречающиеся в пунктах формулы изобретения, не должны рассматриваться как ограничивающие ее объем.

Кроме того, после изучения графических материалов, описания и прилагаемой формулы изобретения специалисту могут быть очевидны изменения раскрытых вариантов осуществления, которые могут быть использованы им при практической реализации изобретения. В формуле изобретения слово «содержащий» не исключает другие элементы или этапы, и единственное число не исключает множественное. Сам факт того, что некоторые признаки упоминаются во взаимно отличных зависимых пунктах формулы изобретения, не говорит о том, что комбинация этих признаков не может быть использована с выгодой.

Системы и способы, раскрытые выше, могут быть реализованы в программном обеспечении, программно-аппаратном обеспечении, аппаратном обеспечении или их комбинации. При реализации в аппаратном обеспечении разделение задач между функциональными блоками, о которых говорилось в вышеприведенном описании, не обязательно соответствует разделению на физические блоки; наоборот, один физический компонент может выполнять несколько функций и одно задание может быть выполнено несколькими физическими компонентами во взаимодействии. Некоторые компоненты или все компоненты могут быть реализованы как программное обеспечение, выполняемое процессором цифровой обработки сигналов или микропроцессором, либо быть реализованы как аппаратное обеспечение или как специализированная интегральная схема. Такое программное обеспечение может распространяться на машиночитаемых носителях, которые могут содержать компьютерные носители информации (или постоянные носители) и средства коммуникации (или временные носители). Как хорошо известно специалисту в данной области техники, термин «компьютерные носители информации» включает энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или технологией для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители информации включают, но не ограничиваются этим, RAM, ROM, EEPROM, флеш-память или другую технологию памяти, CD-ROM, универсальные цифровые диски (DVD) или другие оптические диски для хранения информации, магнитные кассеты, магнитную ленту, магнитный диск для хранения информации или другие магнитные устройства для хранения информации, или любой другой носитель, который может быть использован для хранения желаемой информации и который может быть доступным с помощью компьютера. Как также хорошо известно специалистам в данной области, средства связи, как правило, включают машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой механизм передачи, и включают любые средства доставки информации.

Иллюстрации к изобретению RU 2 810 920 C2

Реферат патента 2023 года ОБРАБОТКА ЗВУКА В ЗВУКОВЫХ УСЛУГАХ С ЭФФЕКТОМ ПРИСУТСТВИЯ

Изобретение относится к акустике. Устройство для обработки звука с эффектом присутствия, содержащее микрофонную систему (302), содержащую один или более микрофонов для захвата звука, или соединенное с ней, при этом устройство содержит: блок (304) приема, выполненный с возможностью: приема (S13) направленного звука (320), захваченного микрофонной системой; приема (S14) метаданных (322), связанных с микрофонной системой, при этом метаданные содержат пространственные данные микрофонной системы, при этом пространственные данные характеризуют пространственную ориентацию и/или пространственное положение микрофонной системы и содержат по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты микрофонной системы; вычислительный блок (306), выполненный с возможностью: модификации по меньшей мере некоторой части направленного звука для получения модифицированного направленного звука, при этом направленность звука модифицирована на основании пространственной ориентации и/или пространственного положения микрофонной системы; понижения микширования модифицированного направленного звука на основании пространственной ориентации микрофонной системы с применением матрицы понижающего микширования; кодирования модифицированного направленного звука и матрицы понижающего микширования в цифровые аудиоданные (328); блок (308) передачи, выполненный с возможностью передачи цифровых аудиоданных. Технический результат – получение хвуковых сигналов с эффектом присутствия. 5 н. и 23 з.п. ф-лы, 7 ил.

Формула изобретения RU 2 810 920 C2

1. Устройство для обработки звука с эффектом присутствия, содержащее микрофонную систему (302), содержащую один или более микрофонов для захвата звука, или соединенное с ней, при этом устройство содержит:

блок (304) приема, выполненный с возможностью:

приема (S13) направленного звука (320), захваченного микрофонной системой;

приема (S14) метаданных (322), связанных с микрофонной системой, при этом метаданные содержат пространственные данные микрофонной системы, при этом пространственные данные характеризуют пространственную ориентацию и/или пространственное положение микрофонной системы и содержат по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты микрофонной системы;

вычислительный блок (306), выполненный с возможностью:

модификации по меньшей мере некоторой части направленного звука для получения модифицированного направленного звука, при этом направленность звука модифицирована на основании пространственной ориентации и/или пространственного положения микрофонной системы;

понижения микширования модифицированного направленного звука на основании пространственной ориентации микрофонной системы с применением матрицы понижающего микширования;

кодирования модифицированного направленного звука и матрицы понижающего микширования в цифровые аудиоданные (328);

блок (308) передачи, выполненный с возможностью передачи цифровых аудиоданных.

2. Устройство по п. 1, отличающееся тем, что пространственная ориентация микрофонной системы представлена параметрами, описывающими поворотное движение/ориентацию с помощью одной степени свободы, DoF, в пространственных данных.

3. Устройство по п. 1, отличающееся тем, что пространственная ориентация микрофонной системы представлена параметрами, описывающими поворотное движение/ориентацию с помощью трех DoF, в пространственных данных.

4. Устройство по любому из п. 1 или п. 3, отличающееся тем, что пространственные данные микрофонной системы представлены в шести DoF.

5. Устройство по любому из пп. 1-4, отличающееся тем, что принятый направленный звук содержит звук, содержащий направленные метаданные.

6. Устройство по любому из пп. 1-5, отличающееся тем, что вычислительный блок дополнительно выполнен с возможностью кодирования по меньшей мере частей метаданных, содержащих пространственные данные микрофонной системы, в указанные цифровые аудиоданные.

7. Устройство по п. 6, отличающееся тем, что блок приема дополнительно выполнен с возможностью приема (S11) первых команд (334), указывающих вычислительному блоку, включать ли по меньшей мере части метаданных, содержащих пространственные данные микрофонной системы, в указанные цифровые аудиоданные, за счет чего вычислительный блок действует соответственно.

8. Устройство по любому из пп. 6-7, отличающееся тем, что блок приема дополнительно выполнен с возможностью приема (S12) вторых команд (334), указывающих вычислительному блоку, какой параметр или параметры пространственных данных микрофонной системы включать в цифровые аудиоданные, за счет чего вычислительный блок действует соответственно.

9. Устройство по любому из пп. 7-8, отличающееся тем, что блок передачи выполнен с возможностью передачи цифровых аудиоданных в дополнительное устройство (400), при этом указания относительно первых и/или вторых команд приняты от указанного дополнительного устройства.

10. Устройство по любому из пп. 1-9, отличающееся тем, что блок приема дополнительно выполнен с возможностью приема метаданных, содержащих временную отметку, указывающую время захвата направленного звука, при этом вычислительный блок выполнен с возможностью кодирования указанной временной отметки в указанные цифровые аудиоданные.

11. Устройство по п. 1, отличающееся тем, что понижающее микширование включает формирование луча.

12. Устройство по любому из пп. 1-11, отличающееся тем, что реализовано в оборудовании (602а-е) виртуальной реальности, VR, или оборудовании (602 а-е) дополненной реальности, AR, содержащем микрофонную систему и устройство отслеживания положения головы, выполненное с возможностью определения пространственных данных устройства в 3-6 DoF.

13. Устройство (400) для воспроизведения звуковых сигналов, при этом устройство содержит:

блок (402) приема, выполненный с возможностью приема (S21) цифровых аудиоданных (328);

блок (404) декодирования, выполненный с возможностью:

декодирования (S22) принятых цифровых аудиоданных в подвергнутый понижающему микшированию звук, матрицу понижающего микширования и метаданные (422), связанные с микрофонной системой, при этом метаданные содержат пространственные данные микрофонной системы, при этом пространственные данные характеризуют пространственную ориентацию и/или пространственное положение микрофонной системы, и содержат по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты микрофонной системы; и

повышение микширования подвергнутого понижающему микшированию звука в направленный звук (420) с применением матрицы понижающего микширования;

блок (406) воспроизведения, выполненный с возможностью:

модификации (S23) направленности направленного звука с применением пространственных данных; и

воспроизведения (S24) модифицированного направленного звука (424).

14. Устройство по п. 13, отличающееся тем, что пространственные данные указывают пространственную ориентацию и/или пространственное положение микрофонной системы (302), содержащей один или более микрофонов, захватывающих направленный звук, при этом блок воспроизведения модифицирует направленность направленного звука с по меньшей мере частичным воспроизведением звуковой среды микрофонной системы.

15. Устройство по любому из пп. 13-14, отличающееся тем, что пространственные данные содержат параметры, описывающие поворотное движение/ориентацию с помощью одной степени свободы, DoF.

16. Устройство по любому из пп. 13-14, отличающееся тем, что пространственные данные содержат параметры, описывающие поворотное движение/ориентацию с помощью трех DoF.

17. Устройство по любому из пп. 13-16, отличающееся тем, что декодированный направленный звук содержит звук, содержащий направленные метаданные.

18. Устройство по любому из пп. 13-17, отличающееся тем, что дополнительно содержит блок (306) передачи, выполненный с возможностью передачи команд (334) в дополнительное устройство (300), с которого принят оцифрованный звук, при этом команды указывают дополнительному устройству, какой параметр или параметры данные поворота должны содержать.

19. Устройство по любому из пп. 13-18, отличающееся тем, что блок декодирования дополнительно выполнен с возможностью извлечения временной отметки, указывающей время захвата направленного звука, из цифровых аудиоданных.

20. Устройство по любому из пп. 13-19, отличающееся тем, что пространственные данные содержат пространственные координаты, и при этом блок воспроизведения дополнительно выполнен с возможностью регулирования громкости воспроизведенного звука на основании пространственных координат.

21. Устройство по любому из пп. 13-20, отличающееся тем, что реализовано в оборудовании (602а-е) виртуальной реальности, VR, или оборудовании (602а-е) дополненной реальности, AR, содержащем устройство отслеживания положения головы, выполненное с возможностью измерения пространственной ориентации и пространственного положения устройства в шести DoF.

22. Устройство по любому из пп. 13-21, отличающееся тем, что блок воспроизведения выполнен для бинаурального воспроизведения звука.

23. Система для обработки звука с эффектом присутствия, содержащая:

первое устройство (300) по любому из пп. 1-12, выполненное с возможностью передачи цифровых аудиоданных во второе устройство (400) по любому из пп. 13-22, при этом система выполнена с возможностью проведения аудио- и/или видеоконференций.

24. Система по п. 23, отличающаяся тем, что первое устройство дополнительно содержит блок записи видео и выполнено с возможностью кодирования записанного видео в цифровые видеоданные и передачи цифровых видеоданных во второе устройство, при этом второе устройство дополнительно содержит дисплей для отображения декодированных цифровых видеоданных.

25. Система для обработки звука с эффектом присутствия, содержащая первое устройство (300) по любому из пп. 1-12, выполненное с возможностью передачи цифровых аудиоданных во второе устройство, при этом второе устройство содержит:

блок приема, выполненный с возможностью приема цифровых аудиоданных; блок декодирования, выполненный с возможностью:

блок воспроизведения для воспроизведения звука;

модификации направленности направленного звука с применением пространственных данных, и

воспроизведения модифицированного направленного звука;

воспроизведения направленного звука.

26. Постоянный машиночитаемый носитель, на котором сохранены команды, которые при выполнении одним или более процессорами приводят к выполнению одним или более процессорами операций по любому из предыдущих пунктов.

Документы, цитированные в отчете о поиске Патент 2023 года RU2810920C2

US 20160345092 A1, 24.11.2016
WO 2017182714 A1, 26.10.2017
US 20140226838 A1, 14.08.2014.

RU 2 810 920 C2

Авторы

Брун, Стефан

Торрес, Хуан Феликс

Макграт, Дэвид С.

Ли, Брайан

Даты

2023-12-29—Публикация

2019-11-12—Подача

название	год	авторы	номер документа
СПОСОБЫ, АППАРАТЫ И СИСТЕМЫ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ НАПРАВЛЕННЫХ ИСТОЧНИКОВ ЗВУКА	2019	Тсингос, Николас Р. Томас, Марк, Р., П. Ферш, Кристоф	RU2772227C2
Аудиоустройство, система распределения аудио и способ их работы	2019	Варекамп, Кристиан Коппенс, Йерун Герардус Хенрикус Крон, Барт Сувира-Лабастье, Натан Омен, Арнольдус Вернер Йоханнес	RU2816884C2
ПРЕОБРАЗОВАНИЕ ЗВУКОВЫХ СИГНАЛОВ, ЗАХВАЧЕННЫХ В РАЗНЫХ ФОРМАТАХ, В УМЕНЬШЕННОЕ КОЛИЧЕСТВО ФОРМАТОВ ДЛЯ УПРОЩЕНИЯ ОПЕРАЦИЙ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ	2019	Брун, Стефан Экерт, Майкл Торрес, Хуан Феликс Браун, Стефани Макграт, Дэвид С.	RU2798821C2
ОБРАБОТКА ПРОСТРАНСТВЕННО ДИФФУЗНЫХ ИЛИ БОЛЬШИХ ЗВУКОВЫХ ОБЪЕКТОВ	2020	Бребарт, Дирк Ерун Лу, Ле Цингос, Николас Р. Матеос Соле, Антонио	RU2803638C2
ОБРАБОТКА ПРОСТРАНСТВЕННО-ДИФФУЗНЫХ ИЛИ БОЛЬШИХ ЗВУКОВЫХ ОБЪЕКТОВ	2014	Бребарт, Дирк Ерун Лу, Ле Цингос, Николас Р. Матеос Соле, Антонио	RU2716037C2
ПРЕДСТАВЛЕНИЕ ПРОСТРАНСТВЕННОГО ЗВУКА ПОСРЕДСТВОМ ЗВУКОВОГО СИГНАЛА И АССОЦИИРОВАННЫХ С НИМ МЕТАДАННЫХ	2019	Брун, Стефан	RU2809609C2
Аудиоустройство и способ обработки аудио	2019	Де Брюйн, Вернер Паулус Йозефус Сувира-Лабастье, Натан	RU2823573C1
СИСТЕМА, СПОСОБ И ПОСТОЯННЫЙ МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДАННЫХ ДЛЯ ГЕНЕРИРОВАНИЯ, КОДИРОВАНИЯ И ПРЕДСТАВЛЕНИЯ ДАННЫХ АДАПТИВНОГО ЗВУКОВОГО СИГНАЛА	2020	Робинсон, Чарльз К. Тсингос, Николас Р. Шабанне, Кристоф	RU2820838C2
СИСТЕМА И СПОСОБ ДЛЯ ГЕНЕРИРОВАНИЯ, КОДИРОВАНИЯ И ПРЕДСТАВЛЕНИЯ ДАННЫХ АДАПТИВНОГО ЗВУКОВОГО СИГНАЛА	2012	Робинсон Чарльз К. Тсингос Николас Р. Шабанне Кристоф	RU2731025C2
Аудиоустройство и способ обработки аудио	2019	Де Брюйн, Вернер Паулус Йозефус Сувира-Лабастье, Натан	RU2815366C2