КЛАСТЕРИЗАЦИЯ АУДИООБЪЕКТОВ С СОХРАНЕНИЕМ МЕТАДАННЫХ Российский патент 2022 года по МПК H04S7/00 H04S3/00 

Описание патента на изобретение RU2773512C2

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

[0001] По данной заявке испрашивается приоритет на основании заявки на патент Китая №. 201410765578.6, поданной 11 декабря 2014 г., и предварительной заявки на патент США № 62/100,183, поданной 6 января 2015 г., содержимое каждой из которых включено в настоящий документ путем ссылки в полном объеме.

ТЕХНОЛОГИЯ

[0002] Описанные здесь примерные варианты выполнения изобретения относятся в общем к обработке аудио контента, и более конкретно к способу и системе кластеризации аудиообъектов, позволяющих сохранять метаданные.

УРОВЕНЬ ТЕХНИКИ

[0003] Появление объектно-ориентированного аудио привело к значительному росту объема аудиоданных и к усложнению интерпретации этих данных в высококачественных системах звуковоспроизведения. Например, кинематографические аудиодорожки могут содержать множество различных аудиоэлементов, соответствующих изображениям на экране, диалогам, шумам и аудио эффектам, исходящих из различных мест на экране, и эти аудиодорожки также комбинируются с фоновой музыкой и эффектами окружающей среды для создания общего аудиовпечатления. Для точного воспроизведения требуется, чтобы звуки воспроизводились таким образом, чтобы максимально соответствовать тому, что показано на экране относительно положения, интенсивности, движения и глубины источника звука. Объектно-ориентированное аудио предоставляет значительный шаг вперед по сравнению с обычными аудиосистемами на основе каналов, которые отправляют аудио контент в форме звуковых потоков отдельным динамикам в среде прослушивания и таким образом относительно ограничены при пространственном воспроизведении определенных аудиообъектов.

[0004] Появление цифрового кино и развитие трехмерного («3D») контента привело к созданию новых стандартов для звука, таких как включение многоканального звука, предоставляя больше творческих возможностей создателям контента и более охватывающее и реалистичное аудио впечатление для слушателей. Важным является расширение возможностей по отношению к традиционным звуковым потокам, направляемым динамикам, и звука на основе каналов как средств для распространения пространственного звука. Более того, существует значительный интерес к описанию звука, созданному на основе моделей, что позволяет слушателю выбирать желаемую конфигурацию воспроизведения, со звуком воспроизводимым в соответствии с выбранной конфигурацией. В случае пространственного представления звука используются аудиообъекты, являющиеся сигналами с соответствующими параметрическими описаниями источника, такими как кажущееся положение источника (например, координаты в пространстве), ширина кажущегося источника, и другие параметры. Дополнительные преимущества включают в себя следующее поколение формата пространственного звука (также упоминаемого как «адаптивное аудио»), который было разработан посредством внедрения микширования аудиообъектов и традиционных каналов питания динамиков (аудиоканалов) совместно с позиционными метаданными для аудиообъектов.

[0005] Используемый в данном описании, термин «аудиообъект» относится к отдельному аудио элементу, который существует на протяжении определенного интервала времени в звуковом поле. Термин «аудиоканал» или «канал» относится к аудиоканалам, которые предназначены для воспроизведения в заданных и фиксированных местах расположений динамиков.

[0006] В некоторых аудиодорожках может быть несколько (например,7, 9, или 11) аудиоканалов. Кроме того, в зависимости от свойств среды разработки проектов и реализации мультимедиа, могут существовать десятки или даже сотни отдельных аудиообъектов, объединяемых во время воспроизведение для создания пространственно разнообразного аудиовпечатления с эффектом присутствия. В других системах распространения и передачи звука может быть доступной достаточно большая полоса пропускания, которая обеспечивает передачу всех аудиоканалов и объектов с небольшим аудио сжатием или вообще без аудио сжатия. В некоторых случаях, однако, таких как распространение на дисках Blu-ray, посредством широковещательной передачи (кабельной, спутниковой и по наземным линиям), мобильной связи (3G и 4G) и передачи данных на приставку (OTT или по сети Интернет), могут существовать значительные ограничения по доступной полосе пропускания для цифровой передачи всей информации аудиоканалов и объектов, созданных в среде разработки проектов и реализации мультимедиа. В то время как способы кодирования звука (с потерями или без потерь) могут применяться к звуку для уменьшения требуемой полосы пропускания, кодирования звука может быть недостаточно для уменьшения полосы пропускания, требуемой для передачи звука, в частности через сети, обеспечивающие низкую скорость передачи данных, такие как мобильные сети 3G и 4G.

[0007] Некоторые известные способы, были разработаны для уменьшения количества объектов, вводимых в меньший набор выводимых объектов посредством кластеризации. В общем, в некоторых процессах кластеризации, метаданные, такие как размер, зональная маска, и привязка должны быть предварительно воспроизведены путем направления на выход внутреннего канала. Кластеризация аудиообъектов основывается исключительно на пространственном положении аудиообъектов, а выходные объекты содержат только позиционные метаданные. Этот тип выходных объектов может оказаться неподходящим для некоторых систем воспроизведения, поскольку потери метаданных могут привести к искажению творческого контента.

[0008] Сведения, рассматриваемые в разделе уровня техники, не следует относить к уровню техники только по причине того, что они рассматриваются в этом разделе. Аналогичным образом, проблему, упомянутую в разделе уровня техники, или связанную со сведениями из раздела уровня техники, не следует рассматривать как принятую ранее во внимание в уровне техники. Сведения раздела уровня техники лишь представляют различные подходы, которые сами по себе также могут быть примерными вариантами выполнения изобретения.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯ

[0009] С целью указания на вышеупомянутые и другие потенциальные проблемы, примеры вариантов выполнения изобретения предлагают способ и систему кластеризации аудиообъектов с сохранением метаданных.

[0010] В одном аспекте, примерные варианты выполнения изобретения предоставляют способ кластеризации аудиообъектов с сохранением метаданных. Способ содержит классификацию множества аудиообъектов в некоторое количество категорий на основании информации, которую следует сохранить в метаданных, связанных с множеством аудиообъектов. Способ дополнительно содержит назначение заданного количества кластеров категориям и расположение аудиообъекта в каждой из категорий для по меньшей мере одного из кластеров в соответствии с назначением. Варианты выполнения изобретения в этом отношении дополнительно содержат соответствующий компьютерный программный продукт.

[0011] В другом аспекте, примеры вариантов выполнения изобретения предоставляют систему для кластеризации аудиообъекта с сохранением метаданных. Система содержит модуль классификации аудиообъектов, выполненный с возможностью классификации множества аудиообъектов в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, связанных со множеством аудиообъектов. Система дополнительно содержит модуль назначения кластеров, выполненный с возможностью назначения заданного количества кластеров категориям, и модуль размещения аудиообъекта, выполненный с возможностью размещения аудиообъекта в каждой из категорий для по меньшей мере одного из кластеров в соответствии с назначением.

[0012] Из последующего описания будет очевидно, что в соответствии с описанными здесь примерами вариантов выполнения изобретения входящие аудиообъекты классифицируются в соответствующие категории в зависимости от присущей им информации, предназначенной для сохранения в метаданных так, что различные метаданные предназначаются для сохранения, или уникальная комбинация метаданных предназначается для сохранения в соответствии с различными категориями. После кластеризации, для аудиообъекта в одной категории менее вероятно, что он будет микширован с аудиообъектами, связанными с отличающимися метаданными. В связи с этим, метаданные аудиообъектов могут сохраняться после кластеризации. Другие преимущества, получаемые примерами вариантов выполнения изобретения будут очевидны из последующих описаний.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0013] Упомянутые выше и другие объекты, особенности и преимущества вариантов выполнения изобретения будут более понятны из последующего подробного описания со ссылкой на приложенные графические материалы. В графических материалах, некоторые примеры вариантов выполнения изобретения будут проиллюстрированы в качестве примера и без ограничений, причем:

[0014] на Фиг. 1 проиллюстрирована блок-схема способа кластеризации аудиообъекта с сохранением метаданных в соответствии с примерным вариантом выполнения изобретения;

[0015] на Фиг. 2 иллюстрируется схематическое изображение процесса кластеризации аудиообъекта в соответствии с примером варианта выполнения изобретения;

[0016] на Фиг. 3 иллюстрируется блок-схема системы кластеризации аудиообъекта с сохранением метаданных в соответствии с примером варианта выполнения изобретения; и

[0017] на Фиг. 4 иллюстрируется блок-схема примера компьютерной системы, подходящей для выполнения вариантов изобретения.

[0018] В графических материалах, одинаковые или соответствующие символы ссылок относятся к одинаковым или соответствующим частям.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

[0019] Принципы примера варианта выполнения изобретения будут теперь описаны со ссылкой на различные примеры вариантов выполнения изобретения, проиллюстрированные в графических материалах. Следует понимать, что описание этих вариантов выполнения изобретения лишь предоставляет возможность специалисту в данной области техники лучшего понимания и дополнительно реализует примеры вариантов выполнения изобретения; это никоим образом не предназначено для ограничения объема изобретения.

[0020] Как упоминалось выше, из-за ограничения в скорости кодирования/декодирования и полосы пропускания передачи, количество аудиообъектов, используемых для создания адаптивного аудио контента, может быть уменьшено посредством кластеризации. Кроме метаданных описывающих его пространственное положение, аудиообъект обычно имеет другие метаданные описывающие его атрибуты, такие как размер, зональные маски, привязка, тип контента, и т. д., каждый из которых описывает творческий замысел о том, как аудиообъект должен обрабатываться при его воспроизведении. Однако, в некоторых предшествующих способах, после кластеризации аудиообъектов, остаются только позиционные метаданные. Хотя другие метаданные могут предварительно направляться на выход внутреннего канала, как в 7. 1. 2 или 7. 1. 4 системах, это не работает одинаково хорошо во всех системах. Если аудиообъекты испытывают понижающее микширование, например, в 5.1 или 7.1 системах, творческий контент аудиообъектов может повреждаться при воспроизведении.

[0021] Например, рассмотрим метаданные «зональная маска» в качестве примера, которые имеют множество режимов, и каждый режим определяет регион, в которой аудиообъект не должен воспроизводится. Одним из режимов зональной маски является режим «без боковых», описывающий маскирование боковых динамиков должны быть маскированы при воспроизведении аудиообъекта. В случае использования традиционного способа кластеризации, если аудиообъект в пространственном положении z=1 воспроизводится в системе 5.1 с метаданными «без боковых», боковые динамики могут активироваться в воспроизведении 5.1, поскольку звук, воспроизводимый потолочными динамиками, может передаваться по сторонам. Это приводит к нарушению оригинального творческого контента. Для устранения этой проблемы метаданные «зональная маска» в процессе кластеризации должны быть сохранены так, чтобы они могли быть правильно обработаны устройством воспроизведения звука.

[0022] В другом примере диалоговые объекты могут быть ожидаемо отделены от других объектов после кластеризации, что может обеспечивать ряд преимуществ при последующей обработке аудиообъекта. Например, при последующей обработке аудиообъекта, такой как усиление диалога, отдельные кластеры диалогового объекта могут быть легко усилены применением простого усиления/усилений. С другой стороны, может быть сложно отделить диалоговый объект, если он микширован с другими объектами в кластере. При использовании замены диалога, в каждом из языков диалог может быть полностью отделен от любого другого. По этим причинам, диалоговые объекты должны быть сохранены и распределены в отдельные кластеры в процессе кластеризации.

[0023] Кроме того, аудиообъект может быть связан с метаданными, описывающими его режим воспроизведения, например, воспроизведение как полный левый/полный правый (Lt/Rt) или как стереофонический с передаточной функцией слухового аппарата человека (HRTF) при обработке в устройстве воспроизведения наушников. Эти режимы воспроизведения также ожидаемо должны быть сохранены после кластеризации для формирования наилучших результатов воспроизведения.

[0024] Таким образом, для получения лучшего аудио впечатления, желательно, чтобы метаданные сохранялись при кластеризации аудиообъекта. Примеры вариантов выполнения изобретения, описанные здесь, предлагают способ и систему для сохранения метаданных при кластеризации объекта.

[0025] Первая ссылка выполняется на фиг. 1, которая иллюстрирует блок-схему способа 100 кластеризации аудиообъекта с сохранением метаданных в соответствии с примерами вариантов выполнения изобретения.

[0026] В S101 множество аудиообъектов классифицируется в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, которые связаны с множеством аудиообъектов. Аудиообъекты представляются в качестве входных данных, и могут существовать десятки, сотни, или иногда тысячи входных аудиообъектов.

[0027] Используемая в данном описании информация, предназначенная для сохранения в метаданных, связанных с каждым аудиообъектом может отображать цель обработки при воспроизведении аудиообъекта. Информация может описывать то, как аудиообъект должен быть обработан при его воспроизведении. В некоторых вариантах выполнения изобретений информация может включать в себя одно или более из информации о размере, информации о зональной маске, информации о привязке, типе контента, или режиме воспроизведения аудиообъекта. Информация о размере может быть использована для указания пространственной области или объема, занимаемого аудиообъектом. Информация о зональной маске указывает на режим зональной маски, определяя область, в которой аудиообъект не должен воспроизводиться. Например, информация о зональной маске может указывать на режим «без боковых», «только объемный», «только фронтальный» или другой подобный режим. Информация о привязке указывает на то, должен ли или не должен аудиообъект прямо направляться ближайшему динамику.

[0028] Следует отметить, что описаны некоторые примеры информации, предназначенной для сохранения в метаданных, однако другая информация, содержащаяся в метаданных (такая как не ограничивающие примеры, включающие в себя пространственное положение, пространственную ширину, и подобное) может также приниматься во внимание при классификации аудиообъекта, в соответствии с предпочтением пользователя или звукорежиссера. В некоторых вариантах выполнения изобретения может приниматься во внимание вся информация в метаданных, связанных с аудиообъектом.

[0029] Количество категорий может зависеть от информации в метаданных аудиообъектов и может быть больше или эквивалентно одной. В одном варианте выполнения изобретения аудиообъект без информации, предназначенной для сохранения, может быть классифицирован в одну категорию, а аудиообъект с различной информацией, предназначенной для сохранения, может быть классифицирован в другую категорию. То есть, в зависимости от различной информации, предназначенной для сохранения, соответствующие аудиообъекты классифицируются в различные категории. Альтернативно, категория может представлять уникальную комбинацию различной информации, предназначенной для сохранения в метаданных. Все другие аудиообъекты без интересующей информации могут содержаться в одной категории или множестве категорий в некоторых случаях. Объем примеров вариантов выполнения изобретения в связи с этим не ограничивается.

[0030] Категории могут быть заданы ручным назначением, автоматическим назначением, или в их комбинации. Например, пользователь или звукорежиссер могут обозначить аудиообъекты, связанные с разным типом метаданных, различными признаками, а затем эти обозначенные аудиообъекты могут быть классифицированы в различные категории в соответствии с назначенными им признаками. В другом примере, информация, предназначенная для сохранения в метаданных, может определяться автоматически. Пользователь или звукорежиссер может также предварительно настраивать собственные предпочтения или ожидаемый результат, такой как отделение диалоговых объектов, отделение различных языков диалогов, и/или отделение различных режимов зональной маски. В соответствии с предварительной настройкой аудиообъекты могут быть классифицированы в различные категории.

[0031] Предположим, что существуют O аудиообъектов. В процессе классификации информация, предназначенная для сохранения в метаданных аудиообъектов, может быть получена из (1) введенных вручную обозначений метаданных, предоставленных в результате ввода пользователем, такими как обозначения зональной маски или привязки или типа контента или языка, и/или (2) автоматической идентификации/обозначения метаданных, не ограничиваясь такой как идентификация типа контента. Количество N возможных категорий может быть определено в соответствии с полученной информацией, каждая из которых состоит из уникальной комбинации информации, предназначенной для сохранения. После классификации, каждый аудиообъект может иметь идентификацию соответствующей категории.

[0032] Ссылаясь на фиг. 2, демонстрируется схематическое изображение кластеризации аудиообъекта. Как показано на фиг. 2, на основании информации, предназначенной для сохранения в метаданных, множество входных аудиообъектов классифицируются в пять категорий - от 0 до 4. Один из примеров категорий может быть таким, как приведено ниже:

категория 0: все аудиообъекты без информации, предназначенной для сохранения;

категория 1: музыкальные объекты без зональной маски;

категория 2: объекты звуковых эффектов с зональной маской «только окружение»;

категория 3: объекты диалогов на английском языке; и

категория 4: объекты диалогов на испанском языке с зональной маской «только фронт».

[0033] Входные аудиообъекты могут содержать один или более кадров. Кадр является единицей обработки для аудио контента, и продолжительность кадра может варьироваться, а также может зависеть от настроек системы обработки звука. Поскольку аудиообъекты, предназначенные для классификации, могут отличаться для различных кадров во времени, и их метаданные также могут отличаться, значение количества категорий также может отличаться со временем. Категории, представляющие различные типы информации, предназначенной для сохранения, могут быть заданы пользователем или по умолчанию. Затем входные аудиообъекты в одном или более кадров могут классифицироваться в заданные категории на основании имеющейся информации. Категории с классифицированными аудиообъектами могут просматриваться и те, что без аудиообъектов могут быть проигнорированы при последующей обработке. Например, если отсутствует аудиообъект без информации, предназначенной для сохранения (как проиллюстрировано на Фиг. 2), соответствующая категория 0 может быть опущена. Предполагается, что количество классифицированных аудиообъектов в каждой категории может отличаться со временем.

[0034] В S102 заданное количество кластеров назначается категориям. Заданное количество может быть больше одного и может зависеть от полосы пропускания, передачи и скорости кодирования/декодирования системы обработки звука. Может допускаться компромисс между полосой пропускания передачи (и/или скорости кодирования, и/или скорости декодирования) и критерием ошибки выходных аудиообъектов. Например, заданное количество может быть 11 или 16. Также могут быть определены другие значения, такие как 5, 7, или 20, и объем примеров вариантов выполнения изобретения в этом смысле не ограничивается.

[0035] В некоторых вариантах выполнения изобретения предварительно заданное количество может не изменяться в той же системе обработки. В некоторых других вариантах выполнения изобретения заданное количество может изменяться для различных обрабатываемых аудио файлов.

[0036] В описанных здесь примерах вариантов выполнения изобретения аудиообъекты вначале классифицируются в категории в соответствии с метаданными в S101, так, что каждая категория может отображать различную информацию, предназначенную для сохранения, или уникальную комбинацию различной информации, предназначенной для сохранения. Затем аудиообъекты в этих категориях могут быть кластеризованы при последующей обработке. Могут существовать различные подходы к назначению/размещению заданного общего количества кластеров в категориях. В некоторых примерах вариантов выполнения изобретения, поскольку общее количество кластеров задано и не изменяется, можно, определять количество назначаемых кластеров в каждой категория до кластеризации аудиообъектов. Теперь будут рассмотрены некоторые примеры вариантов выполнения изобретения.

[0037] В одном примере варианта выполнения изобретения, назначение кластера может зависеть от степени важности множества аудиообъектов. В частности, предварительно заданное количество аудиообъектов из множества аудиообъектов, во-первых, может быть идентифицировано на основании степени важности каждого аудиообъекта по отношению к другим аудиообъектам, а затем может быть определено распределение заданного количества аудиообъектов среди категорий. Заданное количество кластеров соответственно назначается категориям в соответствии с распределением.

[0038] Важность каждого аудиообъекта может быть связана с одним или более типов контента, частичным уровнем громкости или уровнем мощности аудиообъекта. Аудиообъект с высокой степенью важности может восприниматься наиболее заметно среди входных аудиообъектов, например, из-за его частичной громкости или выделяющегося уровня мощности. В некоторых случаях использования, один или большее количество типов контента может рассматриваться как важный, а затем высокая степень важности может быть назначена соответствующим аудиообъектам. Например, более высокая степень важности может быть назначена объектам диалога. Следует отметить, что существует множество других путей обнаружения или определения степени важности каждого аудиообъекта. Например, степень важности некоторых аудиообъектов может быть указан пользователями. Объем примеров вариантов выполнения изобретения в связи с этим не ограничивается.

[0039] Предположим, что заданное общее количество кластеров равно M. На первом этапе, вплоть до M выбираются аудиообъекты, наиболее важные среди входных аудиообъектов. Поскольку все входные аудиообъекты классифицируются в соответствующие категории в S101, на втором этапе, может быть определено распределение M наиболее важных аудиообъектов внутри категорий. На основании того сколько M аудиообъектов распределяется в категории, такое же количество кластеров может быть назначено категориям.

[0040] Со ссылкой на Фиг. 2, например, одиннадцать наиболее важных аудиообъектов (проиллюстрированных как круг 201) определяются из множества входных аудиообъектов (проиллюстрировано как набор кругов 201 и 202). После классификации всех входных аудиообъектов в пять категорий, то есть категории от 0 до 4, на Фиг. 2 можно увидеть, что четыре наиболее важных аудиообъектов классифицированы в категорию 0, три наиболее важных аудиообъектов классифицированы в категорию 1, один наиболее важный аудиообъект классифицирован в категорию 2, два наиболее важных аудиообъекта классифицированы в категорию 3, и один наиболее важный аудиообъект классифицирован в категорию 4. В результате получается, что 4, 3, 1, 2, и 1 кластеры, соответственно, назначаются категориям от 0 до 4, как проиллюстрировано на Фиг. 2.

[0041] Следует отметить, что описанный выше пример критерия степени важности в соответствии с примером варианта выполнения изобретения, примеров вариантов выполнения изобретения может не быть таким строгим. То есть, нет необходимости, чтобы выбирались наиболее важные аудиообъекты. В некоторых вариантах выполнения изобретения, важность порогового значения может регулироваться. Среди этих аудиообъектов, чья важность выше, чем пороговое значение, заданное количество аудиообъектов может выбираться произвольно.

[0042] Кроме критерия степени важности назначение кластера может выполняться на основании уменьшения степени общего пространственного искажения для категорий. То есть, заданное количество кластеров может назначаться категории на основании уменьшения или даже минимизации общего пространственного искажения для категорий.

[0043] В одном примере варианта выполнения изобретения общее пространственное искажение для категорий может включать в себя взвешенную сумму отдельных пространственных искажений категорий. Вес соответствующей категории может представлять важность категории или важность связанной с категорией информации, предназначенной для сохранения. Например, категория с большей степенью важности может иметь больший вес. В другом варианте выполнения изобретения общее пространственное искажение для категорий может включать в себя максимальное пространственное искажение среди отдельных пространственных искажений категорий. Следует учитывать, что поскольку не обязательно нужно выбирать только максимальные искажения, и в некоторых вариантах выполнения изобретения, могут рассматриваться как общее пространственное искажение другие пространственные искажения среди категорий, такие как второе наибольшее пространственное искажение, третье наибольшее пространственное искажение, или подобные искажения.

[0044] Пространственное искажение для каждой категории может представляться искажением уровня аудиообъектов, относящихся к категории, и искажение уровня каждого аудиообъекта может измеряться разницей между его исходным пространственным положением и его положением после кластеризации. В общем случае кластерное положение аудиообъекта зависит от пространственного положения кластера(ов) в котором он расположен. В этом смысле пространственное искажение каждой категории связано с исходным пространственным положением каждого аудиообъекта в категории, и пространственным положением кластера(ов). Исходное пространственное положение аудиообъекта может содержаться в метаданных аудиообъекта и может, например, состоять из 3 декартовых координат (или также, например, состоять из полярных координат или цилиндрических и сферических координат, однородных координат, координат числа строк и т. п.). В одном варианте выполнения изобретения для расчета пространственного искажения в каждой категории может быть определено реконструированное пространственное положение каждого аудиообъекта в категории на основании пространственного положения кластера(ов). Затем пространственное искажение для каждой категории может рассчитываться на основании расстояния между исходным пространственным положением каждого аудиообъекта в категории и реконструированным пространственным положением аудиообъекта. Реконструированное пространственное положение аудиообъекта является пространственным положением аудиообъекта, представленным одним или большим количеством соответствующих пространственных кластеров. Один пример подхода к определению реконструированного пространственного положения будет описан ниже.

[0045] Пространственное искажение по отношению к различному количеству кластеров может вначале рассчитываться для каждой категории для получения общего пространственного искажения. Существует множество подходов для определения пространственного искажения для категории аудиообъектов. Один из подходов приводится ниже в качестве примера. Следует отметить, что могут использоваться другие существующие способы измерения пространственных искажений аудиообъектов (и, следовательно, категорий).

[0046] Предположим, что для категории , существует центроидный кластер, означающий с пространственным положением . может отображать пространственное искажение аудиообъекта при его кластеризации в центроидный кластер (предполагая в этом случае, что аудиообъекты в одной категории располагаются только в кластерах, связанных с категорией). Пространственное искажение для категории может быть представлено как:

(1)

где представляет количество аудиообъектов в категории , и представляет i аудиообъект в категории . В некоторых вариантах выполнения изобретения, может быть пространственным положением аудиообъекта с m-ой наибольшей степенью важности в категории, и пространственным положением может быть пространственное положение этого аудиообъекта. Пространственное искажение может быть определено расстоянием (или квадратом расстояния) между пространственным положением каждого аудиообъекта и реконструированным пространственным положением аудиообъекта при кластеризации в кластеров.

[0047] С полученным пространственным искажением для каждой категории, в одном варианте выполнения изобретения, общее пространственное искажение для категории может быть определено как взвешенная сумма отдельных пространственных искажений категорий, как упоминалось выше. Например, общее пространственное искажение может быть определено как:

(2)

где N представляет количество всех категорий. Коэффициент усиления для каждой категории может быть задан и может отображать степень важности соответствующей категории или информации, предназначенной для сохранения в метаданных, связанных с категорией.

[0048] В другом варианте выполнения изобретения, общее пространственное искажение для категорий может быть определено как максимальное пространственное искажение среди отдельных пространственных искажений категорий. Например, общее пространственное искажение может быть определено как:

(3)

[0049] Таким образом, количество кластеров, назначенных к каждой категории, может быть определено на основании уменьшения или минимизации общего измерения пространственного искажения, с ограничением . То есть, общее количество назначенных кластеров эквивалентно заданному количеству M.

[0050] Обычно входные аудиообъекты находятся в одном кадре аудиосигнала. Из-за типического динамического характера аудиосигнала и в связи с тем, что количество аудиообъектов изменяется в каждой категории, количество кластеров присваиваемых к каждой категории может обычно изменяться со временем. Поскольку измененное количество кластеров для каждой категории может вызывать некоторые проблемы со стабильностью, в показателе стоимости используется измененное пространственное искажение с учетом согласованности числа кластеров. Следовательно, показатель стоимости может быть определяется в зависимости от времени. В частности, пространственное искажение для каждой категории дополнительно основывается на разнице между количеством кластеров, назначенных категории в конкретном кадре, и количеством кластеров, назначенных категории в предшествующем кадре. В связи с этим, общее пространственное искажение в выражении (2) может быть изменено следующим образом:

(4)

[0051] Общее пространственное искажение в выражении (3) может быть изменено как:

(5)

[0052] В выражениях (4) и (5), представляет количество кластеров категории в текущем кадре, представляет количество кластеров категории n в предшествующем кадре, и представляет измененное общее пространственное искажение.

[0053] Если количество кластеров, назначенных категории, изменяется в текущем кадре, в сравнении с предшествующим пространственным искажением, модифицированное пространственное искажение может быть усилено для предотвращения изменения количества кластеров. В одном варианте выполнения изобретения может быть определено следующим образом:

(6)

представляет параметр с положительным значением. При изменении пространственного искажения появляется потери при изменении количества кластеров для каждой категории. Таким образом, пространственная нестабильность, вносимая изменением количества кластеров, может быть смягчена.

[0054] Поскольку уменьшение количества кластеров в категории скорее приводит к внесению пространственной нестабильности, чем увеличение количества кластеров, в другом варианте выполнения изобретения, может быть определено как:

(7)

где является параметром со значением больше чем 1. В этом варианте выполнения изобретения существуют большие потери из-за уменьшения количества кластеров, особенно если пространственное искажение категории с уменьшенным количеством кластеров велико. Таким образом пространственная нестабильность, вносимая уменьшением количества кластеров, может быть уменьшена.

[0055] В приведенном выше описании по отношению к назначению кластера на основании уменьшения степени общего пространственного искажения, в определение оптимального количества кластеров для каждой категории может быть вовлечено большое количество вычислительных ресурсов. Для эффективного определения количества кластеров для каждой категории, в одном варианте выполнения изобретения, предлагается использовать процесс итерации. То есть, оптимальное количество кластеров каждой категории вычисляется посредством максимизации уменьшения стоимости в каждой итерации процесса назначения кластеров, так, что общее пространственное искажение для категорий может быть итерационно уменьшено или даже минимизировано.

[0056] При итерации от 1 до заданного количества кластеров M, в каждой итерации, один или более кластеров назначаются категории, которая наиболее в них нуждается. Отметим и как общее пространственное искажение в (m-1)ой и mой итерации. В mой итерации, один или большее количество новых кластеров может быть назначено к категории , что может больше всего уменьшить общее пространственное искажение. Следовательно, может быть определен путем увеличения или максимизации степени общего пространственного искажения, которое может быть описано как:

(8)

[0057] Процесс итерации может основываться по меньшей мере на одной из разниц между пространственным искажением для категории в текущей итерации и в предшествующей итерации или величиной пространственного искажения для категории в предшествующей итерации.

[0058] Для общего пространственного искажения, получаемого взвешенной суммой всех пространственных искажений категорий, процесс итерации может основываться на разнице между пространственным искажением для категории в текущей итерации и в предшествующей итерации. В каждой итерации по меньшей мере один кластер может быть назначен категории, для которой ее пространственное искажение в текущей итерации стало существенно ниже (в соответствии с первым заданным уровнем), чем ее пространственное искажение в предшествующий итерации, если категории назначен по меньшей мере один кластер. В одном из вариантов выполнения изобретения, по меньшей мере один кластер может быть назначен категории имеющей наименьшее пространственное искажение, если категории назначен по меньшей мере один кластер. Например, в этом варианте выполнения изобретения, может быть определен как:

(9)

где и являются количеством кластеров и пространственным искажением для категории после (m-1)ой итерации. представляя количество кластеров категории в mой итерации, если в этой итерации один новый кластер назначен/добавлен к категории , и является пространственным искажением для категории в mой итерации. Следует отметить, что, в каждой итерации, может быть назначен более чем один новый кластер, и категория может быть определена подобным образом.

[0059] Для общего пространственного искажения, определяемого как максимальное пространственное искажение среди всех категорий, процесс итерации может основываться на величине пространственного искажения для категории в предшествующих итерациях. В каждой итерации, по меньшей мере один кластер может быть назначен категории, имеющей пространственное искажение более высокое, чем второй заданный уровень в предшествующей итерации. В одном варианте выполнения изобретения, по меньшей мере один кластер может быть назначен категории, имеющей наиболее высокое пространственное искажение в предшествующей итерации. Например, в этом варианте выполнения изобретения, может быть определен как:

(10)

[0060] Поскольку категория с наиболее высоким пространственным искажением в предшествующей итерации может иметь уменьшенное пространственное искажение в текущей итерации (если ей назначен один или большее количество кластеров в текущей итерации), общее пространственное искажение, которое определяется наибольшим пространственным искажением среди всех категорий, может также уменьшаться в текущей итерации.

[0061] Следует отметить, что определение, описанное в выражениях (9) и 10) может быть совместно использовано в одном процессе итерации. Например, в одной итерации, выражение (9) может использоваться для назначения нового кластера(ов) в этой итерации. В другой итерации, выражение (10) может использоваться для назначения другого нового кластера(ов).

[0062] Два способа назначения кластера были описаны выше, один на основании степени важности аудиообъектов, а другой - на основании уменьшения степени общего пространственного искажения. Дополнительно или альтернативно, данные, вводимые пользователем, могут также использоваться для управления назначением кластеров. Поскольку пользователи могут иметь различные требования к разному контенту для разных случаев использования, это может в значительной степени улучшить гибкость процесса кластеризации. В некоторых вариантах выполнения изобретения, назначение кластера может дополнительно основываться на одном или более из следующего: первом пороговом значении для некоторого количества кластеров, предназначенных для назначения каждой категории, втором пороговом значении для пространственного искажения для каждой категории, или степени важности каждой категории по отношению к другим категориям.

[0063] Первое пороговое значение может быть задано для некоторого количества кластеров, предназначенных для назначения каждой категории. Первое пороговое значение может быть заданным минимальным или максимальным количеством кластеров для каждой категории. Например, пользователь может указать, что одна категория должна иметь определенное минимальное количество кластеров. В этом случае во время процесса назначения, по меньшей мере указанное количество кластеров должно быть назначено категории. В случае, когда установлено максимальное пороговое значение, максимальное, указанное количество кластеров может быть назначено категории. Второе пороговое значение может быть установлено для уменьшения пространственного искажения для категории до разумного уровня. Степень важности каждой категории также может быть указана пользователем, или может быть определена на основании степени важности аудиообъектов, классифицированных в категории.

[0064] В некоторых случаях, пространственное искажение для категории может быть высоким после выполнения назначения кластера, что может вносить ощутимые эффекты. Для устранения этой проблемы в некоторых вариантах выполнения изобретения, по меньшей мере один аудиообъект в категории может быть переклассифицирован в другую категорию на основании пространственного искажения для категории. В примере варианта выполнения изобретения, если пространственное искажение одной категории больше, чем заданное пороговое значение, некоторые аудиообъекты в этой категории могут быть переклассифицированы в другую категорию, пока пространственное искажение не уменьшится до (или станет равно) порогового значения. В некоторых примерах, аудиообъекты могут быть переклассифицированы в категорию, содержащую аудиообъекты без информации, предназначенной для сохранения в метаданных, такой как категория 0, проиллюстрированная на Фиг. 2. В некоторых вариантах выполнения изобретения, в которых назначение кластера основывается на минимизации общего пространственного искажения в итерационном процессе, изменение размещения объекта также может быть итерационным процессом, при котором аудиообъект, имеющий наибольшее пространственное искажение в каждой итерации может переклассифицироваться до тех пор, пока критерий пространственного искажения для категории станет удовлетворительным.

[0065] Благодаря типичной динамической природе аудиосигналов важность или пространственное положение (и соответственно пространственное искажение) аудиообъектов изменяются со временем. Следовательно, назначение кластера может изменяться со временем, и затем может постепенно изменяться количество кластеров расположенных в каждой категории. В этом смысле идентификация категории, связанной с кластером m, может со временем изменяться. В частности кластер m может представлять определенный язык (например, испанский) во время первого кадра, в то время как он может изменить идентификацию категории и следовательно язык для второго кадра (например, английский). Это, в отличие от наследственности канальных систем, в которых языки статично объединяются в каналы, динамически практически не изменяемые.

[0066] Назначение кластера в S102 описано выше.

[0067] Обратимся снова к фиг. 1, в S103, аудиообъект в каждой из категорий размещен в по меньшей мере один из кластеров в соответствии с назначением.

[0068] В последующем описании, представлены два способа кластеризации аудиообъектов после классифицирования аудиообъектов в категории в S101 и назначения кластеров каждой из категорий в S102.

[0069] В одном из вариантов аудиообъект в каждой категории может размещаться по меньшей мере в один из кластеров, назначенных одной или большему количеству категорий на основании уменьшения стоимости искажения, связанной с категориями. То есть, из-за ограничения количества кластеров, назначаемых каждой категории, допускается некоторая утечка сквозь кластеры и категории для уменьшения стоимости искажения и исключения заметных эффектов для сложного аудио контента. Этот подход может упоминаться как нечеткая кластеризация категорий. В таком подходе нечеткой кластеризации категорий, аудиообъект может мягко разбиваться с усилением на различные кластеры в различные категории и с соответствующей стоимостью. Во время процесса кластеризации, стоимость искажения ожидается минимальной по отношению к общему пространственному искажению также как и недостатки или несовпадения размещения объекта в категории в кластер другой категории. Следовательно, существует компромисс между кластерным ресурсом и сложностью аудио контента. Подход с нечеткой кластеризацией категорий может подходить для аудиообъектов с такими метаданными, как зональная маска и привязка, поскольку для них не существует строгого требования о разделении с другими метаданными. Подход с нечеткой кластеризацией категорий может быть описан следующим образом.

[0070] В подходе с нечеткой кластеризацией категорий, количество кластеров, назначаемых каждой категории, может определяться в S102 на основании степени важности аудиообъекта или на основании минимизации общего пространственного искажения. Для назначения кластера на основе степени важности, могут быть некоторые категории без назначенных кластеров. В таких случаях, подход с нечеткой кластеризацией категорий может применяться при кластеризации аудиообъектов, поскольку объект может быть мягко кластеризирован в кластер/кластеры других категорий. Следует отметить, что между подходами, применяемыми на этапе назначения кластера, и подходами, применяемыми на этапе кластеризации аудиообъекта, корреляции может не существовать.

[0071] В подходе с нечеткой кластеризацией категорий, стоимость искажения может представляться как функция стоимости, связанная с одним или более из: (1) исходным пространственного положения каждого аудиообъекта , (2) идентификации категории , в которой классифицирован каждый аудиообъект, (3) пространственного положения каждого кластера , или более конкретно, пространственного положения кластера(ов) в которых аудиообъект будет расположен, или (4) идентификации категории , связанной с каждым кластером. В одном примере, кластеризированый аудиообъект кластера может определяться всеми входными аудиообъектами, распределенными в нем с использованием усиления , что может быть представлено как:

(11)

где O является количеством входящих аудиообъектов, является кластеризированым аудиообъектом mого кластера, является oым входным аудиообъектом, и усиление может быть представлено . Например, как показано на Фиг. 2, аудиообъект в категории 1 может быть кластеризирован во все одиннадцать кластеров с соответствующими коэффициентами усиления, вне зависимости от категорий в которые присваиваются кластеры.

[0072] В некоторых вариантах выполнения изобретения коэффициент усиления может быть определен посредством минимизации функции стоимости, связанной с одним или более , , или . Функция стоимости может основываться на расстоянии между исходным пространственным положением каждого аудиообъекта и пространственным положением кластера , в котором размещается аудиообъект. , Как описано выше, может быть определено пространственное положение аудиообъекта с наибольшей важностью в mой категории. Например, желательно, чтобы расстояние между и было как можно меньше. В качестве альтернативы или дополнения, функция стоимости может также быть связана с несовпадением между идентификацией категории в который классифицирован каждый аудиообъект и идентификацией категории связанный с кластером, в котором размещен аудиообъект. В общем, желательно кластеризировать аудиообъект в ту же категорию, и затем стоимость может быть уменьшена.

[0073] В некоторых вариантах выполнения изобретения функция стоимости может быть представлена как совокупность вкладов, используя полиномы второго порядка в , , и , и затем общее минимальное значение может быть определено, исходя из функции стоимости, как коэффициент усиления . Подробное описание может быть представлено в порядке, изложенном ниже.

[0074] Функция стоимости может быть сведена к минимуму с учетом некоторого дополнительного критерия. При распределении аудиосигналов одним из критериев может быть сохранение суммированной амплитуды или энергии входного аудиообъекта, например,

(12)

где может быть значением, находящимся между 1 и 2. Для любого аудиообъекта o коэффициент усиления , соответствующий всем M кластерам, может подчиняться приведенному выше выражению.

[0075] Далее будет рассмотрена функция стоимости E. Путем минимизации функции стоимости можно определить коэффициент усиления .

[0076] Функция стоимости, как упомянуто выше, может быть связана с расстоянием между и , которое можно рассматривать как первый член в функции стоимости и может быть определена как:

(13)

[0077] Функция стоимости также может быть связана с несоответствием между и , которое может рассматриваться как второе слагаемое в функции стоимости. Можно представить стоимость кластеризации аудиообъекта через кластер в другой категории, и она может быть определена как:

(14)

где можно определить как:

(15)

[0078] Как упоминалось выше, при минимизации функции стоимости одним критерием является сохранение суммарной амплитуды или энергии входного аудиообъекта. Следовательно, функция стоимости также может быть связана с приростом или потерей энергии; То есть отклонение от суммы коэффициентов усиления для конкретного аудиообъекта и +1. Отклонение можно рассматривать как третий член в функции стоимости, который может быть определен как:

(16)

[0079] Кроме того, функция стоимости может основываться на расстоянии между исходным пространственным положением каждого аудиообъекта и реконструированным пространственным положением аудиообъекта . Реконструированное пространственное положение может быть определено в соответствии с пространственным положением кластера , к которому аудио-объект кластеризуется с коэффициентом усиления . Например, может быть определено следующим образом:

(17)

[0080] Расстояние между и можно рассматривать как четвертый член в функции стоимости и может быть представлено следующим образом:

(18)

[0081] Согласно первому, второму, третьему и четвертому терминам, функция стоимости может быть представлена как взвешенная сумма этих условий и может быть представлена ниже:

(19)

где веса , , и могут представлять степень важности разных членов в функции стоимости.

[0082] На основании четырех членов функции стоимости можно определить коэффициент усиления . Ниже приведен пример расчета коэффициента усиления . Следует отметить, что возможны и другие методы расчета.

[0083] Коэффициент усиления oго аудиообъекта для кластеров M может быть записан как вектор:

(20)

[0084] Пространственные положения кластеров M могут быть записаны в виде матрицы:

(21)

[0085] Матрица для исходных пространственных положений аудиообъекта также может быть построена как:

(22)

[0086] Первый член , представляющий расстояние между исходным пространственным положением и восстановленным пространственным положением аудиообъекта, может быть переформулирован следующим образом:

(23)

где представляет собой диагональную матрицу с диагональными элементами .

[0087] Второй термин , представляющий несоответствие между и аудиообъекта, может быть переформулирован следующим образом:

(24)

где представляет собой диагональную матрицу с диагональными элементами .

[0088] Третий член , представляющий отклонение суммы коэффициентов усиления для аудиообъекта и +1 может быть переформулирован следующим образом:

(25)

где представляет единичную матрицу с размерами (N, M).

[0089] Четвертый член , представляющий расстояние между исходным пространственным положением и реконструированным пространственным положением аудиообъекта, может быть переформулирован следующим образом:

(26)

[0090] Объединив приведенные выше уравнения (23) - (26) вместе, функция стоимости может быть представлена следующим образом:

(27)

с

(28) (29) (30)

[0091] Как упоминалось выше, желательно получить минимум в функции стоимости, которая может быть определена:

(31)

давая:

(32)

[0092] Наконец, вектор может быть определен следующим образом:

(33)

[0093] Вычисляя приведенное выше уравнение, коэффициенты усиления для аудиообъекта o ого среди M могут быть определены.

[0094] o ый аудиообъект может быть кластеризирован в кластеры M с определенным коэффициентом усиления . Понятно, что в зависимости от определенного вектора усиления, аудиообъект может быть кластеризирован только в один кластер из одной категории, где он классифицирован или относится к другой категории, или может быть кластеризирован в несколько кластеров одной категории, в которой он классифицирован, или нескольких разных категорий.

[0095] Реконструированное пространственное положение аудиообъекта может быть получено уравнением (17), когда определяется вектор усиления . В этом отношении процесс определения коэффициентов усиления может также применяться в назначении кластера на основе минимизации общего пространственного искажения, как описано выше, с тем чтобы идентифицировать реконструированное пространственное положение и, следовательно, пространственное положение каждой категории.

[0096] Следует отметить, что полином второго порядка используется в качестве примера для определения минимума функции стоимости. Многие другие экспоненциальные значения, например, 1, 1,5, 3 и т. п., могут также использоваться в других примерных вариантах выполнения изобретения.

[0097] Способ с нечеткой кластеризацией категорий для аудиообъектов описан выше. В другом подходе аудиообъект в каждой категории может быть назначен по меньшей мере одному из кластеров, которые назначены категории, на основе уменьшения стоимости пространственного искажения, связанного с категорией. То есть утечка по категориям не допускается. Кластеризация аудиообъектов выполняется в каждой категории, и аудиообъект не может быть сгруппирован в кластер, назначенный другой категории. Такой подход может называться кластеризацией с жестко заданными категориями. В некоторых вариантах выполнения изобретения, где применяется подобный подход, аудиообъект может быть выделен более чем одному из кластеров, назначенных категории, соответствующей аудиообъекту. В следующем варианте выполнения изобретения при кластеризации аудиообъектов утечка в кластерах не допускается, и аудиообъект может быть назначен только одному из кластеров, назначенных соответствующей категории.

[0098] Подход, с применением кластеризации с жестко заданными категориями, может быть подходящим для некоторых конкретных приложений, таких как замена диалога или улучшение диалога, которые требуют, чтобы аудиообъекты (объекты диалога) были отделены друг от друга.

[0099] В подходе с применением кластеризации с жестко заданными категориями, поскольку аудиообъект в одной категории не может быть кластеризирован в один или несколько кластеров других категорий, ожидается, что в предшествующем назначении кластера по меньшей мере один кластер назначается каждому из категорий. Для этой цели назначение кластеров посредством минимизации общего пространственного искажения, описанного выше, может быть более подходящим в некоторых вариантах выполнения изобретения. В других вариантах выполнения изобретения также может использоваться назначение кластера на основе степени важности, в случае применения кластеризации с жестко заданными категориями. При назначении кластера могут использоваться некоторые дополнительные условия, чтобы гарантировать, что каждая категория имеет как минимум один кластер, как описано выше. Например, можно использовать минимальный порог кластера или минимальный порог пространственного искажения для каждой категории.

[00100] В пределах категории аудиообъект в одном или нескольких примерных вариантах выполнения может быть кластеризирован только в один кластер или в несколько кластеров, поскольку категория представляет один и тот же вид метаданных. Например, как проиллюстрировано на Фиг. 2, аудиообъект в категории 1 может быть кластеризирован в один или несколько кластеров 4, 5 или 6. В сценарии, в котором аудиообъект кластеризуется в несколько кластеров в пределах одной категории, можно также определить соответствующие коэффициенты усиления, чтобы уменьшить или даже минимизировать стоимость искажений, связанных с категорией (что может быть похоже на то, что описано в отношении подхода с нечеткой кластеризацией категорий). Разница заключается в том, что определение выполняется в пределах одной категории. В некоторых вариантах выполнения изобретения каждому входному аудиообъекту может быть разрешено кластеризоваться только в один кластер, назначенный его категории.

[00101] Два подхода к звуковой кластеризации описаны выше. Следует отметить, что оба подхода могут использоваться отдельно или совместно. Например, после классификации аудиообъектов на этапе S101 и назначения кластера на этапе S102 для некоторых категорий может применяться подход с нечеткой кластеризацией категорий к объектам кластера в их пределах; а для остальных категорий может применяться подход с кластеризацией с жестко заданными категориями. То есть, некоторые утечки по категориям могут быть разрешены в некоторых категориях, и утечка по категориям не допускается для других категорий.

[00102] После того, как входные аудиообъекты распределены по кластерам, для каждого кластера аудиообъекты могут быть объединены для получения кластеризированого аудиообъекта, а метаданные аудиообъектов в каждом кластере могут быть объединены для получения метаданных кластеризированого аудиообъекта. Кластеризированный аудиообъект может представлять собой взвешенную сумму всех аудиообъектов в кластере с соответствующими коэффициентами усиления. Метаданные кластеризированого аудиообъекта могут быть соответствующими метаданными, представляющими категорию в некоторых примерах, или могут быть метаданными любого аудиообъекта или наиболее важного аудиообъекта среди кластера или его категории в других примерах.

[00103] Поскольку все входные аудиообъекты классифицируются в соответствующие категории в зависимости от их информации, которая должна быть сохранена в метаданных до кластеризации аудиообъектов, различные сохраненные метаданные или уникальная комбинация сохраняемых метаданных связана с различными категориями. После кластеризации для аудиообъекта в одной категории, менее вероятно, что он будет микширован с аудиообъектами, связанными с различными метаданными. В этом отношении метаданные аудиообъекта могут быть сохранены после кластеризации. Кроме того, во время распределения кластеров и процесса распределения аудиообъектов рассматривается стоимость пространственного искажения или искажения.

[00104] На Фиг. 3 проиллюстрирована блок-схема системы 300 для кластеризации аудиообъектов с сохранением метаданных, в соответствии с одним из примеров варианта выполнения изобретения. Как проиллюстрировано на Фиг. 3, система 300 содержит модуль 301 классификации аудиообъектов, выполненный с возможностью классификации множества аудиообъектов на несколько категорий на основе информации, подлежащей сохранению в метаданных, связанных с множеством аудиообъектов. Система 300 дополнительно содержит модуль 302 назначения кластеров, выполненный с возможностью назначения заданного количества кластеров к категориям, и модуль 303 выделения аудиообъектов, выполненный с возможностью выделения аудиообъекта в каждой из категорий по меньшей мере в один из кластеров в соответствии с назначением.

[00105] В некоторых вариантах выполнения изобретения информация может включать в себя одно или более информации о размере, информации о маске зоны, информации привязки, типа контента или режима воспроизведения аудиообъекта.

[00106] В некоторых вариантах выполнения изобретения модуль 301 классификации аудиообъектов может быть дополнительно предназначен для классификации аудиообъекта без сохранения информации в одну категорию; и классифицирования аудиообъекта с другой информацией, которая должна быть сохранена, в другую категорию.

[00107] В некоторых вариантах выполнения изобретения модуль 302 назначения кластеров может дополнительно содержать: модуль определения степени важности, выполненный с возможностью определения заданного количества аудиообъектов из множества аудиообъектов на основе степени важности каждого аудиообъекта относительно других аудиообъектов; и модуль идентификации распределения, выполненный с возможностью идентификации распределения заданного количества аудиообъектов среди категорий. В этих вариантах выполнения изобретения модуль 302 назначения кластеров может быть дополнительно предназначен для назначения заданного количества кластеров категориям в соответствии с распределением.

[00108] В некоторых вариантах выполнения изобретения модуль 302 назначения кластера может быть дополнительно предназначен для назначения заданного количества кластеров категориям на основе уменьшения степени общего пространственного искажения для категорий.

[00109] В некоторых вариантах выполнения изобретения общее пространственное искажение для категорий может включать в себя максимальное пространственное искажение отдельных пространственных искажений категорий или взвешенную сумму отдельных пространственных искажений категорий. Пространственное искажение для каждой категории может быть связано с исходным пространственным положением каждого аудиообъекта в категории и пространственным положением, по меньшей мере, одного из кластеров.

[00110] В некоторых вариантах выполнения изобретения реконструированное пространственное положение каждого аудиообъекта может определяться на основе пространственного положения по меньшей мере одного кластера, а пространственное искажение для каждой категории может определяться на основе расстояния между исходным пространственным положением каждого аудиообъекта в категории и реконструированным пространственным положением аудиообъекта.

[00111] В некоторых вариантах выполнения изобретения множество аудиообъектов может находиться в одном кадре аудиосигнала, а пространственное искажение для каждой категории может быть дополнительно основано на различии между количеством назначенных кластеров категории в текущем кадре и количеству кластеров, назначенных категории в предшествующем кадре.

[00112] В некоторых вариантах выполнения изобретения модуль 302 назначения кластера может быть дополнительно предназначен для итеративного уменьшения степени общего пространственного искажения для категорий на основе по крайней мере, одного из следующего: величина пространственного искажения для категории в предшествующей итерации или разница между пространственным искажением для категории в текущей итерации и в предшествующей итерации.

[00113] В некоторых вариантах выполнения изобретения модуль 302 назначения кластера может быть дополнительно предназначен для назначения заданного количества кластеров категориям на основе одного или более из следующего: первого порога для количества кластеров, которые должны быть назначены к каждой категории, второго порога для пространственного искажения для каждой категории или степени важности каждой категории по отношению к другим категориям.

[00114] В некоторых вариантах выполнения изобретения система 300 может дополнительно содержать модуль переклассификации аудиообъекта, выполненный с возможностью переклассификации по меньшей мере одного аудиообъекта из категории в другую категорию на основе пространственного искажения для категории.

[00115] В некоторых вариантах выполнения изобретения модуль 303 размещения аудиообъектов может быть дополнительно предназначен для размещения аудиообъекта в каждой категории по меньшей мере в один из кластеров, назначенных категории, на основе уменьшения стоимости искажения, связанной с категорией.

[00116] В некоторых вариантах выполнения изобретения модуль 303 размещения аудиообъектов может быть дополнительно предназначен для распределения аудиообъекта в каждой категории по меньшей мере в один из кластеров, назначенных одной или нескольким категориям на основе уменьшения стоимости искажений, связанных с категориями.

[00117] В некоторых вариантах выполнения изобретения стоимость искажения может быть связана с одним или несколькими исходными пространственными положениями каждого аудиообъекта, пространственным положением, по меньшей мере, одного кластера, идентификацией категории, к которой относится каждый аудио-объект, или идентификации каждой категории, которой назначен хотя бы один кластер.

[00118] В некоторых вариантах выполнения изобретения стоимость искажения может быть определена на основе одного или более из следующего: расстояния между исходным пространственным положением каждого аудиообъекта и пространственным положением, по меньшей мере, одного кластера, расстояния между исходным пространственным положением каждого аудиообъекта и реконструированным пространственным положением аудиообъекта, определенным на основе пространственного положения по меньшей мере одного кластера или несоответствии между идентификацией категории, к которой классифицирован каждый аудиообъект, и идентификацией каждой категории, которой назначен хотя бы один кластер.

[00119] В некоторых вариантах выполнения изобретения система 300 может дополнительно содержать модуль объединения аудиообъектов для объединения аудиообъектов в каждом кластере для получения кластеризированого аудиообъекта и модуль объединения метаданных для объединения метаданных аудиообъектов в каждом кластере для получения метаданных кластеризированого аудиообъекта.

[00120] Для ясности некоторые дополнительные компоненты системы 300 не проиллюстрированы на Фиг. 3. Однако следует понимать, что функции, описанные выше со ссылкой на Фиг. 1, применимы к системе 300. Кроме того, компоненты системы 300 могут быть аппаратным модулем или модулем программного обеспечения и т.п. Например, в некоторых вариантах выполнения изобретения система 300 может быть реализована частично или полностью с программным обеспечением и/или прошивкой, например, реализована как компьютерный программный продукт, реализованный на машиночитаемом носителе. Альтернативно или дополнительно система 300 может быть реализована частично или полностью на основе аппаратного обеспечения, например, в виде интегральной схемы (IC), специализированной интегральной схемы (ASIC), системы на чипе (SOC), программируемой вентильной матрице (FPGA) и т. д. Объем примеров вариантов выполнения изобретения в связи с этим не ограничивается.

[00121] На Фиг. 4 проиллюстрирована блок-схема примерной компьютерной системы 400, подходящей для реализации вариантов изобретения. Как проиллюстрировано, компьютерная система 400 содержит центральный процессор (CPU) 401, который способен выполнять различные процессы в соответствии с программой, сохраненной в памяти (ROM) 402 только для чтения, или программой, загруженной из узла хранения 408, в оперативное запоминающее устройство (RAM) 403. В RAM 403 данные, требуемые, когда CPU 401 выполняет различные процессы или тому подобное, также сохраняются по мере необходимости. CPU 401, ROM 402 и RAM 403 соединены между собой через шину 404. Интерфейс 405 ввода/вывода (I/O) также подключен к шине 404.

[00122] К интерфейсу ввода-вывода 405 подключаются следующие компоненты: узел ввода 406, содержащий клавиатуру, мышь и т. п.; выходной узел 407, содержащий дисплей, такой как электронно-лучевая трубка (CRT), жидкокристаллический дисплей (LCD) или тому подобное, и громкоговоритель или тому подобное; узел хранения 408, содержащий жесткий диск или тому подобное; и узел связи 409, содержащий карту сетевого интерфейса, такую как LAN-карта, модем и т. п. Узел связи 409 осуществляет процесс связи через сеть, такую как Интернет. Привод 410 также подключается к интерфейсу 405 ввода-вывода по мере необходимости. Съемный носитель 411, такой как магнитный диск, оптический диск, магнитооптический диск, полупроводниковая память и т. п., монтируется на диске 410 по мере необходимости, так что компьютерная программа, считываемая с него, устанавливается в хранилище узла 408, если требуется.

[00123] В частности, в соответствии с примерами вариантов выполнения изобретения, раскрытыми здесь, процессы, описанные выше со ссылкой на Фиг. 1, могут быть реализованы как компьютерные программные продукты. Например, варианты осуществления примерных вариантов осуществления включают в себя компьютерный программный продукт, включающий в себя компьютерную программу, материально воплощенную на машиночитаемом носителе, то есть компьютерную программу, содержащую программный код для выполнения способа 100. В таких вариантах выполнения изобретения компьютерная программа может быть загружена и установлена из сети через узел связи 409 и/или установлена со съемного носителя 411.

[00124] Вообще говоря, различные примерные варианты изобретения могут быть реализованы в аппаратных или специальных цепях, программном обеспечении, логике или любой их комбинации. Некоторые аспекты могут быть реализованы на аппаратном уровне, в то время как другие аспекты могут быть реализованы в прошивке или программном обеспечении, которые могут выполняться контроллером, микропроцессором или другим вычислительным устройством. Хотя различные аспекты примерных вариантов выполнения изобретения проиллюстрированы и описаны в виде блок-схем, схем процессов или с использованием какого-либо других графических материалов, будет понятно, что узлы, устройства, системы, подходы или способы, описанные здесь, могут быть реализованы в качестве не ограничивающих примеров, аппаратного обеспечения, программного обеспечения, микропрограммного обеспечения, схем специального назначения или логики, аппаратного обеспечения общего назначения или контроллера или других вычислительных устройств или их комбинации.

[00125] Кроме того, различные блоки, показанные на блок-схемах, могут рассматриваться как способ и/или как операции, которые являются результатом выполнения кода компьютерной программы, и/или как множество связанных логических схемных элементов, сконструированных для выполнения связанной функции (й). Например, варианты выполнения изобретения могут включать в себя компьютерный программный продукт, содержащий компьютерную программу, материально воплощенную на машиночитаемом носителе, причем компьютерная программа, содержит программные коды, предназначенные для реализации способов, описанных выше.

[00126] В контексте настоящего описания машиночитаемый носитель может представлять собой любой материальный носитель, который может содержать или хранить программу для использования или в связи с системой, аппаратом или устройством выполнения команд. Машиночитаемый носитель может быть машиночитаемым носителем сигнала или машиночитаемым носителем данных. Машиночитаемый носитель может содержать, но не ограничиваясь, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковые системы, аппараты или устройства или любую подходящую комбинацию вышеизложенного. Более конкретные примеры машиночитаемого носителя данных включают в себя электрическое соединение, имеющее один или несколько проводов, переносную компьютерную дискету, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флэш-память), оптическое волокно, портативный компакт-диск для чтения (CD-ROM), оптическое запоминающее устройство, магнитное запоминающее устройство или любое подходящее сочетание вышеизложенного.

[00127] Компьютерный программный код для реализации способов примерных вариантов выполнения изобретения может быть записан в любой комбинации одного или нескольких языков программирования. Эти компьютерные программные коды могут быть предоставлены процессору компьютера общего назначения, компьютера специального назначения или другого программируемого устройства обработки данных, так что программные коды, когда они выполняются процессором компьютера или другим программируемым устройством обработки данных, вызывают функции/операции, указанные в блок-схемах и/или блок-диаграммах, предназначенные для выполнения. Программный код может выполняться полностью на компьютере, частично на компьютере, в виде отдельного программного пакета, частично на компьютере, а частично на удаленном компьютере или полностью на удаленном компьютере или сервере. Программный код может быть распространен на специально запрограммированных устройствах, которые в целом называются «модулями». Части программных компонентов модулей могут быть написаны на любом компьютерном языке и могут быть частью монолитной кодовой базы или могут быть разработаны в более дискретных частях кода, например, типичных для объектно-ориентированных компьютерных языков. Кроме того, модули могут быть распределены по множеству компьютерных платформ, серверов, терминалов, мобильных устройств и т.п. Данный модуль может быть реализован так, что описанные функции выполняются отдельными процессорами и/или вычислительными аппаратными платформами.

[00128] Как используется в этом приложении, термин «схема» относится ко всему следующему:(а) варианты выполнения схем только для аппаратного обеспечения (например, реализация только в аналоговых и/или цифровых схемах) и (б) комбинации схем и программного обеспечения (и/или прошивки), например (в зависимости от ситуации):(I) к комбинации процессора(ов) или (ii) к частям процессора(ов)/программного обеспечения (включая цифровой сигнальный процессор(ы)), программное обеспечение и память(и), которые работают совместно, заставляя устройство, такое как мобильный телефон или сервер выполнять различные функции) и (c) к схемам, таким как микропроцессор(ы) или часть микропроцессора (ов), которые требуют программного обеспечения или прошивки для работы, даже если программное обеспечение или прошивка физически не присутствует. Кроме того, специалисту в данной области техники хорошо известно, что средства связи обычно воплощают машиночитаемые инструкции, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой транспортный механизм, и включает в себя любой носитель для доставки информации.

[00129] Кроме того, хотя операции показаны в определенном порядке, это не следует понимать как требование, чтобы такие операции выполнялись в определенном порядке, показанном или в последовательном порядке, или чтобы все проиллюстрированные операции выполнялись для достижения желаемых результатов. В определенных обстоятельствах многозадачность и параллельная обработка могут быть полезными. Аналогичным образом, хотя в приведенных выше обсуждениях содержится несколько конкретных деталей реализации, они не должны трактоваться как ограничения объема изобретения, что может быть заявлено, а скорее как описание признаков, которые могут быть конкретными для конкретных примерных вариантов выполнения изобретения. Некоторые функции, рассмотренные в этом описании в контексте отдельных вариантов выполнения изобретения, также могут быть реализованы в комбинации в одном варианте выполнения изобретения. И наоборот, различные функции, которые описаны в контексте одного варианта выполнения изобретения, также могут быть реализованы в нескольких вариантах выполнения изобретения отдельно или в любой подходящей подкомбинации.

[00130] Различные модификации и адаптации к вышеприведенным примерным вариантам выполнения изобретения могут быть очевидными для специалистов в соответствующих областях техники с учетом вышеприведенного описания, когда оно учитывается вместе с прилагаемыми графическими материалами. Любые и все модификации также входят в объем не ограничивающих и примерных вариантов выполнения изобретения. Кроме того, другие примеры вариантов выполнения изобретения, изложенные в настоящем документе, придут на ум специалисту в данной области, к которой относятся эти варианты выполнения изобретения, которые имеют преимущество в отношении учений, представленных в вышеприведенных описаниях и графических материалах.

[00131] Соответственно, описанные здесь примеры вариантов выполнения изобретения могут быть реализованы в любой из форм, описанных здесь. Например, следующие перечисленные примерные варианты выполнения изобретения (EEE) описывают некоторые структуры, признаки и функциональные возможности некоторых аспектов описанных здесь примерных вариантов выполнения изобретения.

[00132] EEE 1. Способ сохранения метаданных объекта при кластеризации аудиообъектов, содержащий этапы, на которых: позиционируют аудиообъекты в категории, причем каждая категория представляет одну или уникальную комбинацию метаданных, предназначенных для сохранения; формируют некоторое количество кластеров для каждой категории посредством процесса кластеризации, в зависимости от общего (максимального) количества доступных кластеров и критерия общей ошибки, и способ дополнительно содержит: нечеткое разделение объекта по категориям, или разделение объекта по жестко заданным категориям.

[00133] EEE 2. Способ в соответствии с EEE 1, отличающийся тем, что нечеткое разделение объекта по категориям содержит: определение выходных центроидных кластеров, например, при выборке наиболее важных объектов, и формирование выходных сигналов кластера, при минимизации функции стоимости, которая совместно рассматривает (1) позиционные метаданные каждого объекта , (2) идентификацию категории каждого объекта , (3) позиционные метаданные каждого кластера , и (4) идентификацию категории, связанной с каждым кластером .

[00134] EEE 3. Способ согласно EEE 2, в котором функция стоимости рассматривает стоимость, связанную с несоответствием между идентификацией категории объектов и идентификацией категории кластера ;

[00135] EEE 4. Способ согласно EEE 1, в котором жесткое разделение категории объектов содержит: определение оптимального номера кластера для каждой категории путем минимизации общего пространственного искажения и кластеризации объектов в каждой категории, причем процесс кластеризации выполняется для каждой категории независимо.

[00136] EEE 5. Способ согласно EEE 4, в котором общее пространственное искажение содержит: пространственное искажение в каждой категории, измеряющее разницу между исходной позицией объекта и позицией после кластеризации, степень важности каждой категории и изменение номера кластера для каждой категории.

[00137] EEE 6. Способ согласно EEE 4, процесс определения оптимального количества кластеров для каждой категории является итеративным процессом, и кластер добавляется или присваивается категории, которая больше всего нуждается в каждой итерации.

[00138] EEE 7. Способ согласно EEE 4, процесс определения оптимального количества кластеров дополнительно содержит перераспределение объектов, чтобы избежать больших пространственных искажений в одной категории.

Следует понимать, что варианты выполнения описанных здесь примеров реализации изобретения не должны ограничиваться раскрытыми конкретными вариантами выполнения, и что модификации и другие варианты выполнения предназначены для включения в объем прилагаемой формулы изобретения. Хотя здесь используются конкретные термины, они используются только в общем и описательном смысле, а не в целях ограничения.

Похожие патенты RU2773512C2

название год авторы номер документа
КЛАСТЕРИЗАЦИЯ АУДИООБЪЕКТОВ С СОХРАНЕНИЕМ МЕТАДАННЫХ 2015
  • Чэнь Ляньву
  • Лу Ли
  • Цингос Николас Р.
RU2678650C2
СИСТЕМЫ, СПОСОБЫ И ОБОРУДОВАНИЕ ДЛЯ ПРЕОБРАЗОВАНИЯ ИЗ КАНАЛЬНО-ОРИЕНТИРОВАННОГО АУДИО В ОБЪЕКТНО-ОРИЕНТИРОВАННОЕ АУДИО 2020
  • Уорд, Майкл С.
  • Санчес, Фредди
  • Ферш, Кристоф
RU2793271C1
РЕНДЕРИНГ ОТРАЖЕННОГО ЗВУКА ДЛЯ ОБЪЕКТНО-ОРИЕНТИРОВАННОЙ АУДИОИНФОРМАЦИИ 2013
  • Крокетт Бретт Г.
  • Хукс Спенсер
  • Сифельдт Алан
  • Ландо Джошуа Б.
  • Браун С. Филлип
  • Мехта Срипал С.
  • Марри Стюарт
RU2602346C2
Устройство и способ обработки аудиовизуальных данных 2019
  • Де Брюйн, Вернер Паулус Йозефус
  • Коппенс, Йерун Герардус Хенрикус
RU2805260C2
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ МНОГОКАНАЛЬНОГО АУДИО С ИСПОЛЬЗОВАНИЕМ МЕТАДАННЫХ НАПРАВЛЕННОСТИ 2020
  • Макграт, Дэвид С.
RU2826480C1
АВТОМАТИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ ЗАПРОСОВ 2005
  • Турски Анджей
  • Ченг Лили
  • Маклорин Мэттью
  • Рашид Ричард Ф.
RU2368948C2
СИСТЕМА АДМИНИСТРИРОВАНИЯ ТРАНЗАКЦИЙ С ИИ 2020
  • Фелинг, Ронни
  • Шорт, Саманта
  • Де Гурсак, Аксель
  • Дюбуа, Рафаэль
  • Эрлебах, Йорг
  • Фон Функ, Карин
RU2777958C2
АУДИОКОДИРОВЩИК И ДЕКОДЕР 2015
  • Коппенс Йерун
  • Виллемоес Ларс
  • Хирвонен Тони
  • Чоэрлинг Кристофер
RU2696952C2
ПРОЦЕССОР ДАННЫХ И ТРАНСПОРТ ДАННЫХ ПОЛЬЗОВАТЕЛЬСКОГО УПРАВЛЕНИЯ НА УСТРОЙСТВА ДЕКОДИРОВАНИЯ И ВОСПРОИЗВЕДЕНИЯ АУДИО 2015
  • Шрайнер Штефан
  • Фюг Зимоне
  • Фукс Харальд
  • Плогстис Ян
  • Дела Штефан
RU2653858C1
Способ обработки сетевого трафика с использованием межсетевого экранирования 2017
  • Зуйков Александр Васильевич
  • Душа Игорь Федорович
  • Зулькарнаев Равиль Фикратович
RU2697698C2

Иллюстрации к изобретению RU 2 773 512 C2

Реферат патента 2022 года КЛАСТЕРИЗАЦИЯ АУДИООБЪЕКТОВ С СОХРАНЕНИЕМ МЕТАДАННЫХ

Изобретение относится к средствам для кластеризации аудиообъектов. Технический результат заключается в повышении эффективности кластеризации аудиообъектов. Классифицируют множество аудиообъектов в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, связанных с множеством аудиообъектов. Назначают заданное количество кластеров категориям. Размещают аудиообъект в каждой из категорий по меньшей мере в один из кластеров в соответствии с упомянутым назначением. Назначение заданного количества кластеров категориям включает в себя этап, на котором определяют для каждой категории соответствующее количество кластеров, предназначенных для назначения этой категории, таким образом, что общее количество кластеров составляет в сумме заданное количество кластеров. При этом информация включает в себя одно или более из информации о размере, информации о зональной маске, информации о привязке, типа контента или режима воспроизведения аудиообъекта. Классифицируют аудиообъект без информации, предназначенной для сохранения, в одну категорию; и классифицируют аудиообъект с различной информацией, предназначенной для сохранения, в другую категорию. 3 н. и 17 з.п. ф-лы, 4 ил.

Формула изобретения RU 2 773 512 C2

1. Способ кластеризации аудиообъектов с сохранением метаданных, содержащий этапы, на которых:

классифицируют множество аудиообъектов в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, связанных с множеством аудиообъектов;

определяют для каждой категории соответствующее количество кластеров, предназначенных для назначения соответствующей категории, таким образом, что общее количество кластеров добавляется вплоть до заданного количества кластеров; и

размещают аудиообъект в каждой из категорий по меньшей мере в один из кластеров в соответствии с назначением.

2. Способ по п. 1, в котором информация включает в себя одно или более из информации о размере, информации о зональной маске, информации о привязке, типа контента или режима воспроизведения аудиообъекта.

3. Способ по п. 1, в котором классификация множества аудиообъектов в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, связанных с множеством аудиообъектов, содержит этапы, на которых:

классифицируют аудиообъект без информации, предназначенной для сохранения, в одну категорию; и

классифицируют аудиообъект с различной информацией, предназначенной для сохранения, в другую категорию.

4. Способ по п. 1, в котором назначение заданного количества кластеров категориям содержит этапы, на которых:

определяют заданное количество аудиообъектов из множества аудиообъектов на основании важности каждого аудиообъекта относительно других аудиообъектов;

определяют распределение заданного количества аудиообъектов среди категорий; и

назначают заданное количество кластеров категориям в соответствии с распределением.

5. Способ по п. 1, в котором назначение заданного количества кластеров категориям содержит этап, на котором:

назначают заданное количество кластеров категориям на основании уменьшения общего пространственного искажения для категорий.

6. Способ по п. 5, в котором общее пространственное искажение для категорий включает в себя максимальное пространственное искажение среди отдельных пространственных искажений категорий или взвешенную сумму отдельных пространственных искажений категорий, и

причем пространственное искажение для каждой категории связано с исходным пространственным положением каждого аудиообъекта в категории и пространственным положением по меньшей мере одного из кластеров.

7. Способ по п. 6, в котором реконструированное пространственное положение каждого аудиообъекта определяется на основании пространственного положения по меньшей мере одного кластера, а пространственное искажение для каждой категории определяется на основании расстояния между исходным пространственным положением каждого аудиообъекта в категории и реконструированным пространственным положением аудиообъекта.

8. Способ по п. 6, в котором множество аудиообъектов находится в одном кадре аудиосигнала, и пространственное искажение для каждой категории дополнительно основано на различии между количеством кластеров, назначенных категории в текущем кадре и в предшествующем кадре.

9. Способ по п. 5, в котором назначение заданного количества кластеров категориям на основании уменьшения общего пространственного искажения для категорий содержит этап, на котором:

итерационно уменьшают общее пространственное искажение для категорий на основании по меньшей мере одного из следующего:

величины пространственного искажения для категории в предшествующей итерации, или

различия между пространственным искажением для категории в текущей итерации и в предшествующей итерации.

10. Способ по п. 4, в котором назначение заданного количества кластеров категориям дополнительно основано на одном или более из следующего:

первого порогового значения количества кластеров, предназначенных для назначения каждой категории,

второго порогового значения пространственного искажения для каждой категории, или

важности каждой категории по отношению к другим категориям.

11. Способ по п. 1, дополнительно содержащий этап, на котором:

переклассифицируют по меньшей мере один аудиообъект в категории в другую категорию на основании пространственного искажения для категории.

12. Способ по п. 1, в котором распределение аудиообъекта в каждой из категорий по меньшей мере в один из кластеров в соответствии с назначением содержит этап, на котором:

распределяют аудиообъект в каждой категории по меньшей мере в один из кластеров, назначенных категории, на основании уменьшения стоимости искажения, связанной с категорией.

13. Способ по п. 1, в котором распределение аудиообъекта в каждой из категорий по меньшей мере в один из кластеров в соответствии с назначением содержит этап, на котором:

распределяют аудиообъект в каждой категории по меньшей мере в один из кластеров, назначенных одной или более категориям, на основании уменьшения стоимости искажения, связанной с категориями.

14. Способ по п. 12, в котором стоимость искажения связана с одним или более из исходного пространственного положения каждого аудиообъекта, пространственного положения по меньшей мере одного кластера, идентификации категории, в которой классифицирован каждый аудиообъект, или идентификации каждой категории, которой назначен по меньшей мере один кластер.

15. Способ по п. 14, отличающийся тем, что стоимость искажения определяется на основании одного или более из следующего:

расстояния между исходным пространственным положением каждого аудиообъекта и пространственным положением по меньшей мере одного кластера,

расстояния между исходным пространственным положением каждого аудиообъекта и реконструированного пространственного положения аудиообъекта, определенного на основании пространственного положения по меньшей мере одного кластера, или

несовпадения между идентификацией категории, в которой классифицирован каждый аудиообъект, и идентификацией каждой категории, которой назначен по меньшей мере один кластер.

16. Способ по п. 1, дополнительно содержащий этапы, на которых:

объединяют аудиообъекты в каждом кластере для получения кластеризированного аудиообъекта; и

объединяют метаданные аудиообъектов в каждом кластере для получения метаданных кластеризированного аудиообъекта.

17. Система для кластеризации аудиообъектов с сохранением метаданных, содержащая:

модуль классификации аудиообъектов, выполненный с возможностью классификации множества аудиообъектов в некоторое количество категорий на основании информации, предназначенной для сохранения в метаданных, связанных с множеством аудиообъектов;

модуль назначения кластеров, выполненный с возможностью определения для каждой категории соответствующего количества кластеров, предназначенных для назначения соответствующей категории, таким образом, что общее количество кластеров составляет в сумме заданное количество кластеров; и

модуль размещения аудиообъекта, выполненный с возможностью размещения аудиообъекта в каждой из категорий в по меньшей мере один из кластеров в соответствии с назначением.

18. Система по п. 17, в которой информация включает в себя одно или более из информации о размере, информации о зональной маске, информации о привязке, типа контента или режима воспроизведения аудиообъекта.

19. Система по п. 17, в которой модуль классификации аудиообъектов дополнительно выполнен с возможностью классификации аудиообъекта без информации, предназначенной для сохранения, в одну категорию, и классификации аудиообъекта с различной информацией, предназначенной для сохранения, в другую категорию.

20. Машиночитаемый носитель, на котором сохранён компьютерный программный продукт, содержащий компьютерную программу, причем компьютерная программа содержит программный код для осуществления способа по п. 1.

Документы, цитированные в отчете о поиске Патент 2022 года RU2773512C2

Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз 1924
  • Подольский Л.П.
SU2014A1
ZHEXUE HUANG, "CLUSTERING LARGE DATA SETS WITH MIXED NUMERIC AND CATEGORICAL VALUES", PAKDD, 24.02.1997
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок 1923
  • Григорьев П.Н.
SU2008A1
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз 1924
  • Подольский Л.П.
SU2014A1
Приспособление для суммирования отрезков прямых линий 1923
  • Иванцов Г.П.
SU2010A1
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз 1924
  • Подольский Л.П.
SU2014A1
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз 1924
  • Подольский Л.П.
SU2014A1
ПАРАМЕТРИЧЕСКОЕ СОВМЕСТНОЕ КОДИРОВАНИЕ АУДИОИСТОЧНИКОВ 2006
  • Фаллер Кристоф
RU2376654C2

RU 2 773 512 C2

Авторы

Чэнь, Ляньву

Лу, Ли

Цингос, Николас Р.

Даты

2022-06-06Публикация

2015-12-10Подача