МИКШИРОВАНИЕ АУДИОПОТОКА С НОРМАЛИЗАЦИЕЙ ДИАЛОГОВОГО УРОВНЯ Российский патент 2014 года по МПК H03G3/00 

Описание патента на изобретение RU2526746C1

Перекрестная ссылка на родственные заявки

Данная заявка заявляет приоритет предварительной заявки на патент США №61/385428, поданной 22 сентября 2010 г., которая ссылкой полностью включается в настоящий документ.

Область технического применения

Данная заявка относится к области звуковых сигналов. В частности, она относится к микшированию звуковых сигналов.

Предпосылки

Включение метаданных наряду со звуковыми сигналами позволило внести значительные улучшения во впечатления пользователя от прослушивания. Для благоприятных впечатлений пользователя, в общем, желательно, чтобы общий уровень звука в различных программах являлся согласованным. Однако звуковые сигналы различных программ обычно происходят из разных источников, подвергаются мастерингу разными изготовителями и могут содержать разнообразное информационное содержимое в диапазоне от речевого диалога до музыки с низкочастотными эффектами для звуковых дорожек кинокартин. Возможность изменения уровня звука делает сложным поддержание одинакового общего уровня звука для всех указанных программ в ходе воспроизведения. На практике нежелательно, чтобы слушатель ощущал потребность в регулировке громкости воспроизведения при переключении от одной программы к другой с целью регулировки одной из программ так, чтобы она была громче или тише по отношению к другой программе по причине разностей в воспринимаемом уровне звука для различных программ. Способы изменения звуковых сигналов с целью поддержания согласованного уровня звука между программами, в общем, известны как регулировка уровня сигнала. В контексте диалоговых звуковых дорожек количественный показатель, относящийся к воспринимаемому уровню звука, известен как диалоговый уровень, который основывается на средневзвешенном уровне звукового сигнала. Диалоговый уровень часто задается с использованием параметра dialnorm, который указывает уровень в децибелах (дБ) по отношению к полной цифровой шкале.

В прошлом вещательные компании, работающие со звуковыми сигналами, сталкивались с особенно большими трудностями в случае звуковых сигналов, таких как звуковые дорожки, уровни звука которых ощущались выше или ниже, чем в других программах, в особенности, для таких звуковых сигналов, как диалоги, которые могут значительно изменяться во времени. С развитием цифрового звука, многоканального звука и, в особенности, возможности включения метаданных наряду со звуковым сигналом изготовители и звукорежиссеры теперь имеют широкий выбор возможностей задания установок, который могут внедряться в сигнал в качестве метаданных с целью точного определения уровней воспроизведения для различных систем воспроизведения. Эти установки даже могут создаваться на этапе компоновки, и, таким образом, вещательные компании могут доставлять в высшей степени согласованный звуковой сигнал и гарантировать то, что наиболее важные элементы звукового сигнала будут сообщены конечному пользователю.

Аналогично, при микшировании звуковых сигналов для благоприятных впечатлений пользователя также желательно поддерживать одинаковый воспринимаемый уровень звука при микшировании входных звуковых сигналов в единый сигнал. Одним из способов достижения этой цели для входных сигналов является включение метаданных микширования, которые определяют то, каким образом сигнал должен подвергаться масштабированию при микшировании.

Многие современные звуковые стандарты позволяют изготовителям информационного содержимого включать связанные звуковые сигналы, которые связаны с основным звуковым сигналом и включают изменяющиеся во времени метаданные наряду со связанными звуковыми сигналами. Например, изготовитель информационного содержимого может предусматривать дорожку с комментариями режиссера в указанном связанном звуковом сигнале. Метаданные, сопровождающие связанный сигнал, точно определяют то, каким образом изготовитель информационного содержимого желает, чтобы звуковой сигнал основной дорожки подвергался регулировке в ходе микширования для совместного воспроизведения. Например, двумя примерами стандартов, которые предусматривают указанные метаданные микширования, являются E-AC-3 (Dolby Digital Plus) и высокоэффективное перспективное звуковое кодирование (HE-AAC). Подробности см. в документе "ETSI TS 102 366 vl.2.1 (2008-08): Digital Audio Compression (AC-3, Enhanced-AC-3) Standard", который описывает E-AC-3 (Dolby Digital Plus); или см. документ "ETSI TS 101 154 Vl.9.1 (2009-09): Digital Video Broadcasting (DVB); Specification for the use of Video and Audio Coding in Broadcasting Applications based on the MPEG-2 Transport Stream", который описывает высокоэффективное перспективное звуковое кодирование (HE-AAC). Оба эти документа ссылкой полностью включаются в настоящий документ.

Однако пользователь может изъявить желание отклониться от предусмотренных изготовителем установок, которые диктуются метаданными, передаваемыми наряду со связанным сигналом. Например, пользователь, который активирует комментарии режиссера при просмотре кинокартины в некоторой точке в ходе воспроизведения, принимает решение о том, что он больше хочет слышать оригинальный диалог, который изготовитель указал в метаданных как подлежащий ослаблению при микшировании для того, чтобы он не преобладал над комментариями режиссера.

Поэтому существует потребность в создании регулировки, которая позволяла бы пользователю регулировать микширование входных звуковых сигналов и, в то же время, обеспечивала бы благоприятные впечатления пользователя путем сохранения воспринимаемого уровня звука в сведенном сигнале. Кроме того, также существует потребность в создании регулировки микширования входных звуковых сигналов и, в то же время, сохранения согласованного уровня звука для сведенного сигнала даже тогда, когда информация масштабирования из метаданных и внешний входной сигнал от пользователя могут быть изменяющимися во времени так, чтобы не было необходимости в выполнении дополнительной регулировки уровня сведенного сигнала.

Краткое описание изобретения

Использование метаданных микширования позволяет изготовителю информационного содержимого точно управлять и определять то, каким образом сигналы должны сочетаться в ходе воспроизведения. Таким образом, уровень звука или диалоговый уровень входных звуковых сигналов может быть перед микшированием нормализован посредством информации масштабирования, предусматриваемой метаданными, с тем, чтобы каждый входной сигнал в микшер был надлежащим образом масштабирован для достижения согласованного воспринимаемого уровня звука. Таким образом, в ходе микширования относительный уровень каждого входного сигнала, вносящего вклад в сведенный сигнал, управляется при помощи информации масштабирования, содержащейся в метаданных, которые доставляются с сигналом. На практике этот способ обычно включает идентификацию одного основного сигнала и одного или нескольких связанных с ним сигналов, подлежащих микшированию. Как предполагают наименования, основной сигнал - это стандартный сигнал, а связанный сигнал - это сигнал, каким-то образом относящийся к соответствующему ему основному сигналу. Соответственно, тогда метаданные доставляют информацию масштабирования для основного сигнала относительно связанного сигнала при их микшировании.

Например, часто в качестве специальной функции изготовитель может включить в качестве связанного сигнала наряду с кинокартиной дополнительную голосовую дорожку с «комментарием режиссера», где пользователь может слышать комментарий режиссера, накладывающийся в реальном времени поверх кинокартины. Таким образом, пользователь может одновременно смотреть кинокартину с ее оригинальным звуком и с комментарием режиссера. В ходе воспроизведения указанный связанный сигнал предназначается для микширования с основным звуковым сигналом оригинальной кинокартины, например, на таком оборудовании конечного пользователя, как телевизионная приставка. Однако другие диалоги, эффекты и музыка основного звукового сигнала кинокартины могут быть очень громкими и поэтому могут маскировать связанный звуковой сигнал. Таким образом, в некоторые моменты времени основной звуковой сигнал кинокартины желательно, в целом, понизить или ослабить, с тем, чтобы можно было надлежащим образом понять комментарий режиссера поверх основного звукового сигнала. Указанное ослабление основного сигнала может выполняться, например, путем предоставления метаданных, сопровождающих дополнительный связанный звуковой сигнал, где метаданные точно определяют, каким образом и насколько должен ослабляться основной сигнал.

Кроме того, может потребоваться, чтобы указанное ослабление было изменяющимся во времени. Например, в кинобоевике при микшировании сигналов может оказаться необходимым, чтобы основной звуковой сигнал сильно ослаблялся в ходе слишком громких сцен, которые могут включать такие особенности, как езда автомобилей с недозволенной скоростью на визжащих шинах или взрывы самолетов и ракет, за которыми конечному пользователю будет трудно достаточно хорошо расслышать комментарии режиссера из связанного сигнала. Например, режиссер может иметь желание объяснить, как совершается главный взрыв в боевой сцене, включая направляющие провода и специальные удаленные камеры, и то, как синхронизировались эти особенности, и все это в то время как в фоне происходит сама сцена. В этом случае, изготовитель информационного содержимого даже может изъявить желание еще сильнее ослабить низкочастотные эффекты и, в то же время, по-прежнему поддерживать нормальный уровень звука для диалога. Иными словами, высокие уровни звука некоторых типов основного звукового сигнала могут в некоторые моменты времени блокировать комментарии режиссера. В другие моменты времени, такие как тихая интимная сцена в кинокартине, режиссер может захотеть сохранить полный уровень звука в кинокартине, например, так, чтобы конечный пользователь могут точно расслышать передачу шепотом важного сообщения в ключевой сцене кинокартины.

Однако пользователь может изъявить желание иметь возможность регулировки установок, поставляемых изготовителем информационного содержимого. Например, пользователь, который просматривает кинокартину с активированными комментариями режиссера, может в некоторый момент в ходе воспроизведения решить, что он, скорее, считает более важным прослушивание оригинального диалога, музыки, звуков и эффектов, чем комментарии режиссера. Однако, поскольку установки метаданных от изготовителя могут указывать, что основной сигнал должен сильно ослабляться при микшировании с тем, чтобы он не перекрывал комментарии режиссера, у пользователя нет прямого способа модифицировать установки микширования, предусмотренные изготовителем информационного содержимого (разумеется, для того, чтобы лучше слышать ослабленные звуки, пользователь может увеличить громкость, но с нежелательным эффектом того, что другие, неослабленные звуки также будут громче). Таким образом, существует потребность в создании способа модификации микширования входных звуковых сигналов в соответствии с требованиями пользователя.

Для выполнения указанной функции пользователя можно снабдить устройством ввода, предназначенным для регулировки баланса между основным и связанными сигналами. Однако, поскольку микширование явным образом оказывает влияние на уровень звука, без дополнительных мер уровень звука в процессе может легко разлаживаться, что будет приводить к скачку громкости при переключении от программы со сведенным сигналом, отрегулированным пользователем при помощи устройства ввода, к программе с несведенным звуковым сигналом. Кроме того, поскольку метаданные и данные, вводимые пользователем, могут быть изменяющимися во времени, без аккуратной обработки воспринимаемый уровень звука сведенного сигнала также может быть изменяющимся во времени. Поэтому существует дополнительная потребность в масштабировании основного и связанного входных сигналов в ходе микширования так, чтобы воспринимаемый уровень звука сведенного сигнала программы оставался постоянным.

Согласно одной из особенностей раскрывается способ, который позволяет поддерживать совместимый воспринимаемый уровень звука для сведенного сигнала путем поддержания постоянного уровня звука преобладающего сигнала в сведенном сигнале и регулировки уровня звука непреобладающего сигнала относительно преобладающего сигнала. Способ также включает прием входного сигнала баланса микширования, который указывает регулируемый баланс между основным и связанными сигналами. Способ также включает идентификацию преобладающего сигнала на основе входного сигнала баланса микширования и метаданных микширования. Способ также может включать определение подходящего масштабного коэффициента для непреобладающего сигнала непосредственно из информации масштабирования без необходимости в каком-либо анализе или измерении звуковых сигналов, подлежащих микшированию. Так как указанные способы не требуют какого-либо анализа или измерения звуковых сигналов, аппаратное обеспечение, необходимое для реализации этих способов, может быть намного проще по сравнению с аппаратными системами, которые должны дискретизировать сигнал или выполнять расчеты с большим объемом вычислений. Аналогично, микширование в реальном времени может выполняться с относительной легкостью, поскольку все данные уже являются доступными, без необходимости в дискретизации или анализе больших объемов данных на лету.

Согласно первой особенности предусматривается способ микширования двух входных звуковых сигналов в единый, сведенный звуковой сигнал с согласованным воспринимаемым уровнем звука. Первые этапы указанного способа микширования включают прием основного входного звукового сигнала, прием связанного входного звукового сигнала, прием метаданных микширования, которые содержат информацию масштабирования, и прием входного сигнала баланса микширования, который указывает регулируемый баланс между основным и связанным сигналами. Исходя из указанных входных сигналов, на основе информации масштабирования, доставляемой посредством метаданных микширования, и входного сигнала баланса микширования идентифицируется преобладающий сигнал. Затем непреобладающий сигнал подвергается масштабированию относительно преобладающего сигнала. В конечном итоге, масштабированный непреобладающий сигнал объединяется с преобладающим сигналом в сведенный сигнал. Таким образом, путем использования входного сигнала баланса микширования, способ делает возможным для пользователя оказание влияния на микширование, позволяя пользователю выбирать преобладающий сигнал, а также уровень масштабирования непреобладающего сигнала относительно преобладающего сигнала, в то время как воспринимаемый уровень звука сведенного сигнала поддерживается постоянным путем масштабирования непреобладающего сигнала относительно преобладающего сигнала.

Согласно другой особенности уровень звука может быть представлен средневзвешенным уровнем сигналов. Уровень звука также может быть выражен как диалоговый уровень сигнала. Таким образом, способ может относиться к микшированию двух входных звуковых сигналов в единый, сведенный звуковой сигнал с согласованным воспринимаемым диалоговым уровнем. Кроме того, диалоговый уровень может количественно выражаться величиной dialnorm, связанной с каждым сигналом. Параметр dialnorm часто предусматривается как параметр метаданных, предназначенный для управления коэффициентом усиления декодера. Согласно документу стандарта ETSI TS 102 366 v1.2.1, параметр метаданных «dialnorm» представляет собой 5-битный код со значениями в интервале от 1 до 31 (значение 0 является зарезервированным). Этот код следует интерпретировать как уровень со значениями в интервале от -1 дБ до -31 дБ относительно полной шкалы. Исходя из параметра метаданных dialnorm, можно определить масштабный коэффициент. Масштабный коэффициент эквивалентен (31-dialnorm) дБ. Таким образом, значение dialnorm, равное 31, указывает масштабный коэффициент, равный 0 дБ, в то время как значение dialnorm, равное 1, указывает масштабный коэффициент, равный -30 дБ. Вкратце, dialnorm представляет собой целочисленную величину со значениями от 31 до 1, где значение 31 указывает коэффициент усиления декодера, остающийся равным единице, и значение 1 указывает коэффициент усиления декодера, подлежащий уменьшению на 30 дБ.

При условии, что уровень звука преобладающего сигнала остается согласованным, любые изменения в уровнях непреобладающих сигналов будут менее заметными, и воспринимаемый уровень звука, а также воспринимаемый диалоговый уровень сведенного сигнала должен оставаться совместимым. Предпочтительно, входные сигналы должны быть соответствующим образом нормализованы. Кроме того, следует уделить внимание тому, чтобы параметр dialnorm информационного содержимого входных сигналов при микшировании поддерживался на совместимом воспринимаемом диалоговом уровне. Для наилучших результатов, параметр dialnorm информационного содержимого для входных сигналов должен быть задан соответствующим образом, обычно со значением dialnorm, равным 31, что указывает на коэффициент усиления, равный единице. Однако параметр dialnorm необязательно всегда должен задаваться значением 31, но, предпочтительно, на обоих входных сигналах уже должна быть применена диалоговая нормализация. В ходе микширования преобладающий сигнал, как правило, не подвергается масштабированию, в то время как непреобладающий входной сигнал подвергается масштабированию посредством определяемого масштабного коэффициента. Поэтому после микширования диалогового звукового сигнала в соответствии с описываемыми способами диалоговый уровень преобладающего сигнала будет оставаться совместимым, в то время как диалоговый уровень непреобладающего сигнала относительно преобладающего сигнала будет соответствовать данной информации масштабирования из метаданных микширования и входному сигналу баланса микширования.

Согласно другой особенности входной сигнал баланса микширования также может включать внешний входной сигнал от пользователя, предусматривающий значение в интервале от очень больших отрицательных значений до очень больших положительных значений, посредством чего в ходе процесса микширования допускается отдание предпочтения или связанному сигналу, или основному сигналу на желаемую величину. В общем, входной сигнал баланса микширования может представлять собой положительное или отрицательное действительное число. Указанный входной сигнал баланса микширования позволяет пользователю при микшировании двух входных сигналов по желанию регулировать желаемый сигнал в фокусе. Кроме того, входной сигнал баланса микширования позволяет пользователю точно определять в процессе микширования ослабление непреобладающего сигнала относительно преобладающего сигнала, что, как правило, позволяет пользователю выбирать из полного диапазона от отсутствия ослабления до полного ослабления. Применение способов, описываемых в данном документе, позволяет пользователю плавно переключать микширование от полного ослабления основного сигнала до полного ослабления связанного сигнала.

Согласно одной из особенностей способ также может включать этап определения масштабного коэффициента, посредством которого подвергается масштабированию непреобладающий сигнал, где масштабный коэффициент определяется непосредственно из информации масштабирования, содержащейся в метаданных микширования, и из входного сигнала баланса микширования. Тогда способ также может включать масштабирование непреобладающего сигнала с использованием определяемого масштабного коэффициента. Кроме того, метаданные микширования могут включать масштабный коэффициент метаданных для основного сигнала, обозначающий масштабный коэффициент, предназначенный для масштабирования основного сигнала относительно связанного сигнала, и метаданные микширования, необязательно, могут включать масштабный коэффициент метаданных для связанного сигнала, обозначающий масштабный коэффициент, предназначенный для масштабирования связанного сигнала относительно основного сигнала. Указанные масштабные коэффициенты также могут включать значения в дБ. Поскольку номинальный уровень звука для сигналов обычно определяется путем присвоения параметру dialnorm значения 31, для наилучших результатов входные сигналы также должны иметь установки значения параметра dialnorm, равные 31.

Способ также может включать этап идентификации преобладающего сигнала путем выполнения следующего сравнения при условии, что масштабный коэффициент для связанного сигнала отсутствует: в случае, если значение входного сигнала баланса микширования больше, чем масштабный коэффициент метаданных для основного сигнала из метаданных микширования, связанный сигнал определяется как являющийся преобладающим сигналом; иначе, как являющийся преобладающим сигналом определяется основной сигнал. Если в качестве преобладающего сигнала идентифицируется связанный сигнал, способ также может включать определение масштабного коэффициента для основного сигнала, который вычисляется как разность между масштабным коэффициентом метаданных для основного сигнала из метаданных микширования и входным сигналом баланса микширования. В альтернативном варианте, если в качестве преобладающего сигнала идентифицируется основной сигнал, способ также может включать определение масштабного коэффициента для связанного сигнала, который вычисляется как разность между входным сигналом баланса микширования и масштабным коэффициентом метаданных из метаданных микширования для основного сигнала.

В случае, когда имеется в наличии также и масштабный коэффициент метаданных для связанного сигнала, способ также может включать этап идентификации преобладающего сигнала путем выполнения следующего сравнения. Масштабный коэффициент метаданных для основного сигнала из метаданных микширования может корректироваться посредством масштабного коэффициента метаданных для связанного сигнала из метаданных микширования путем вычитания масштабного коэффициента метаданных для связанного сигнала из масштабного коэффициента метаданных для основного сигнала. В случае, когда значение входного сигнала баланса микширования больше, чем скорректированный масштабный коэффициент, связанный сигнал идентифицируется как являющийся преобладающим сигналом; иначе, как являющийся преобладающим сигналом идентифицируется основной сигнал. Если в качестве преобладающего сигнала идентифицирован связанный сигнал, способ также может включать определение масштабного коэффициента для основного сигнала, который вычисляется как разность между скорректированным масштабным коэффициентом и входным сигналом баланса микширования. В альтернативном варианте, если в качестве преобладающего сигнала идентифицируется основной сигнал, способ также может включать определение масштабного коэффициента для связанного сигнала, который вычисляется как разность между входным сигналом баланса микширования и скорректированным масштабным коэффициентом.

Путем определения масштабного коэффициента для непреобладающего сигнала и микширования входных сигналов, на основе чего сигнал определяется как являющийся преобладающим сигналом, воспринимаемый уровень звука сведенного сигнала может поддерживаться постоянным, несмотря на то, что по-прежнему допускается как регулировка сигнала в фокусе, так и соответствующее масштабирование непреобладающего сигнала. Иными словами, по меньшей мере, один из сигналов всегда является преобладающим сигналом, который представляет собой сигнал в фокусе. Так как преобладающий сигнал, как правило, не является масштабированным, уровень звука сведенного сигнала относительно других программ сохраняется независимо от того, насколько сильно ослабляется непреобладающий сигнал относительно преобладающего сигнала на основе сочетания входного сигнала баланса микширования и масштабных коэффициентов микширования, предусматриваемых метаданными.

В некоторых случаях, входные сигналы могут состоять из нескольких каналов аудиоданных. В одном из альтернативных вариантов осуществления изобретения, для каждого канала основного входного сигнала могут определяться отдельные масштабные коэффициенты. Тогда в ходе микширования каждый канал непреобладающего сигнала может подвергаться масштабированию посредством его соответствующим образом определенного масштабного коэффициента и, как и в предыдущем варианте осуществления изобретения, преобладающий сигнал остается неограниченным. Поэтому сигналы также могут включать несколько каналов, где метаданные микширования тогда могут также включать первичный масштабный коэффициент метаданных для основного сигнала относительно связанного сигнала и масштабные коэффициенты метаданных для каждого из каналов основного сигнала относительно связанного сигнала.

Несколько каналов в сигналах могут включать окружающие каналы с левым, правым, центральным, левым окружающим, правым окружающим каналами и каналом низкочастотных эффектов (LFE). Несколько каналов могут, например, включать многоканальные сигналы 5.1, многоканальные сигналы 3.1, многоканальные сигналы 13.1 или другие многоканальные сигналы.

Для многоканальных сигналов, включающих канал низкочастотных эффектов (LFE) способ также может включать вычисление масштабного коэффициента для канала LFE как минимального масштабного коэффициента метаданных LFE и максимального из масштабных коэффициентов метаданных других каналов основного сигнала. Эта характерная особенность предназначена для предотвращения слишком сильного преобладания канала LFE в сведенном сигнале.

Что особенно полезно для входных сигналов, включающих несколько каналов, способ также может включать следующую ниже идентификацию преобладающего сигнала исходя из входного сигнала баланса микширования и масштабных коэффициентов метаданных для основного сигнала и масштабного коэффициента метаданных для связанного сигнала. Данный способ использует определение максимального вторичного масштабного коэффициента метаданных как максимального среди всех масштабных коэффициентов метаданных для всех каналов основного сигнала за исключением канала низкочастотных эффектов (LFE). Таким образом, канал LFE, в случае его присутствия, не используется при определении максимального вторичного масштабного коэффициента метаданных. Способ также включает вычисление суммы указанного максимального вторичного масштабного коэффициента метаданных и первичного масштабного коэффициента метаданных для основного сигнала. Тогда, если значение входного сигнала баланса микширования больше, чем указанная сумма, то связанный сигнал определяется как являющийся преобладающим сигналом; иначе, как являющийся преобладающим сигналом определяется основной сигнал. В альтернативном варианте, в случае, когда также присутствует масштабный коэффициент метаданных для связанного сигнала, приведенное выше определение преобладающего сигнала определяется путем сравнения того, больше ли значение входного сигнала баланса микширования, чем указанная сумма, и меньше ли оно, чем масштабный коэффициент метаданных для связанного сигнала.

Кроме того, в случае, когда связанный сигнал определяется как являющийся преобладающим, способ также может включать вычисление масштабных коэффициентов для каждого из каналов основного сигнала, которые вычисляются как первичный масштабный коэффициент метаданных для основного сигнала плюс масштабный коэффициент метаданных для соответствующего основного канала минус входной сигнал баланса микширования.

В случае, когда основной сигнал определяется как являющийся преобладающим и масштабный коэффициент метаданных для связанного сигнала отсутствует, способ также может включать определение масштабного коэффициента для связанного сигнала, который вычисляется как значение входного сигнала баланса микширования минус сумма первичного масштабного коэффициента метаданных для основного сигнала и максимального вторичного масштабного коэффициента метаданных, который представляет собой максимальный среди всех масштабных коэффициентов метаданных для всех каналов основного сигнала за исключением канала низкочастотных эффектов (LFE), если он присутствует.

В случае, когда основной сигнал определяется как являющийся преобладающим сигналом и присутствует масштабный коэффициент метаданных для связанного сигнала, способ также может включать определение масштабного коэффициента для связанного сигнала, который вычисляется как значение входного сигнала баланса микширования плюс масштабный коэффициент метаданных для связанного сигнала минус сумма первичного масштабного коэффициента метаданных для основного сигнала и максимального вторичного масштабного коэффициента метаданных, который представляет собой максимальный среди всех масштабных коэффициентов метаданных для всех каналов основного сигнала за исключением канала низкочастотных эффектов (LFE), если он присутствует.

Данный способ также может включать определение масштабного коэффициента для каждого канала основного сигнала, который вычисляется как первичный масштабный коэффициент для основного канала плюс масштабный коэффициент для основного канала минус сумма первичного основного масштабного коэффициента и максимального вторичного основного масштабного коэффициента, представляющего собой максимальный среди всех масштабных коэффициентов для всех каналов основного сигнала за исключением канала низкочастотных эффектов (LFE), если он присутствует.

Согласно следующей особенности сигналы могут включать сигналы Dolby Digital Plus (DD+) или Dolby Pulse. Аналогично, сигналы могут кодироваться как звуковые сигналы E-AC-3, MPEG-4 HE-AAC, aacPlus, AC-3, M PEG-1 Layer 2, MPEG-4 AAC, любые производные от MPEG-4 звуковые сигналы или звуковые сигналы в других сходных форматах. Поэтому метаданные могут включать метаданные микширования уровня ES (элементарных потоков), предназначенные для микширования сигналов DD+, например, метаданные микширования согласно стандарту ETSI TS 102 366 V1.2.1 Ch. E.1.2.2. Указанные метаданные микширования уровня ES также могут включать масштабные коэффициенты для каналов многоканального сигнала: extpgmscl, extpgmlscl, extpgmrscl, extpgmcscl, extpgmlsscl, extpgmrsscl, extpgmlfescl, соответствующие первичному масштабному коэффициенту и масштабным коэффициентам для левого канала, правого канала, центрального канала, левого окружающего канала, правого окружающего канала и канала низкочастотных звуковых эффектов (LFE). Метаданные уровня ES также могут, необязательно, включать величину panmean. Метаданные уровня ES также могут, необязательно, включать величину pgmscl, соответствующую масштабному коэффициенту для связанного сигнала. Во многих случаях сигналов, относящихся к DD+, метаданные микширования могут кодироваться вместе со связанным сигналом или внедряться в связанный сигнал, хотя различные стандарты метаданных и реализации различаются. Например, в MPEG-4 HE-AAC метаданные микширования перемещаются наряду с аудиоданными, но не прямо в аудиоданных. Соответственно, применение описанных выше способов не следует ограничивать только теми случаями, в которых метаданные содержатся в связанном сигнале.

Согласно другой особенности метаданные могут включать метаданные микширования уровня PES (элементарных пакетизированных потоков), предназначенные для микширования сигналов Pulse/HE-AAC, а также звуковых сигналов E-AC-3, MPEG-4 H E-AAC, aacPlus, AC-3, MPEG-1 Layer 2, MPEG-4 AAC или любых производных MPEG-4, например, метаданные микширования согласно стандарту ETSI TS 101 154 V1.9.1 Annex E2. Указанные метаданные уровня PES также могут включать масштабные коэффициенты для каналов многоканального сигнала: AD_fade_byte, AD_gain_byte_center, AD_gain_byte_front, AD_gain_byte_surround или AD_pan_byte, соответствующие первичному масштабному коэффициенту и масштабным коэффициентам для центра, фронта, окружения и панорамирования. Во многих случаях, включающих сигналы Pulse, метаданные микширования могут быть непосредственно связаны со связанным сигналом. Например, метаданные микширования и связанный сигнал могут передаваться совместно в одном и том же потоке или в связанных потоках. Однако применение способов, описываемых в настоящем описании, не следует никоим образом ограничивать указанными случаями, и описанные способы требуют только приема метаданных микширования, которые доставляют информацию микширования для основного сигнала относительно связанного сигнала.

Согласно другой особенности способ также может включать ограничение, которое заключается в том, что связанный сигнал не должен содержать каналы, которые отсутствуют в основном сигнале, если связанный сигнал не является монофоническим. Монофонический сигнал может указываться, например, значением параметра «режим звукового кодирования», или acmod, равным 1, что указывает на то, что сигнал содержит только центральный канал. Тем не менее, связанный сигнал также может включать монофонический канал и канал LFE, где канал LFE связанного сигнала микшируется с каналом LFE основного сигнала, а монофонический канал связанного сигнала панорамируется на основные каналы основного сигнала, где панорамирование включает разделение или распределение сигнала на несколько каналов в соответствии с величиной, определяющей, каким образом следует распределять сигнал, например, в соответствии со значением ключа "panmean".

Согласно другой особенности в случае, когда основной канал не является монофоническим и, таким образом, содержит левый и правый каналы, а связанный сигнал является монофоническим (т.е. не содержит стереофонических, окружающих или левых-правых составляющих), метаданные для связанного сигнала также могут включать информацию метаданных панорамирования. Например, указанная информация метаданных панорамирования может предусматриваться в метаданных микширования ключом метаданных "panmean". Тогда способ включает использование величины панорамирования для панорамирования монофонического связанного сигнала на соответствующие левый и правый каналы сведенного сигнала, где значение panmean определяет направление, из которого должны рассчитываться масштабные коэффициенты для каждого канала. Раздел "E.4.3.5 Panning" стандарта ETSI TS 102 366 v1.2.1 предоставляет дальнейшие подробности применения значения panmean. Согласно данным техническим условиям panmean определяет эффективный угол, под которым монофонический связанный сигнал проявляется в пространстве декодированного основного сигнала, где 0 градусов представляет собой центр, +/-90 указывает полное панорамирование влево или вправо. Панорамирование может применяться к различным многоканальным сигналам, таким как 3.1, 5.1 и 13.1. Точный интервал значений panmean составляет 0-239, что представляет 0-358,5 градусов с шагом 1,5 градусов, где 0 градусов - это направление центрального громкоговорителя. Например, значение panmean, равное 121, может применяться со следующими масштабными коэффициентами на пяти не относящихся к каналу LFE каналах многоканального сигнала 5.1: левый - 0,078, центральный - 0,997, правый - 0 , левый окружающий - 0,734, правый окружающий - 0,679.

В еще одном альтернативном варианте осуществления изобретения, к преобладающему сигналу может применяться дополнительный масштабный коэффициент. Этот масштабный коэффициент может определяться исходя из метаданных, из дополнительного входного управляющего сигнала или из фиксированного значения в микширующем устройстве. Однако этот масштабный коэффициент также может определяться из анализа входных сигналов в реальном времени для того, чтобы еще больше улучшить поддержание постоянного воспринимаемого уровня звука. Другой альтернативой является то, что дополнительный масштабный коэффициент может быть получен из метаданных битового потока, например, с использованием параметра dialnorm. В некоторых случаях, масштабный коэффициент является равным единице, что делает сведенный выходной сигнал из данного варианта осуществления изобретения идентичным выходному сигналу предыдущих вариантов осуществления изобретения. Однако в других случаях, масштабный коэффициент не является равным единице, и сведенный выходной сигнал из данного варианта осуществления изобретения будет отличаться от выходного сигнала предыдущих вариантов осуществления изобретения. Однако, независимо от того, какой вариант осуществления изобретения используется, диалоговый уровень преобладающего потока будет оставаться согласованным, гарантируя, что останется согласованным и воспринимаемый диалоговый уровень сведенного сигнала. Таким образом, согласно другой особенности преобладающий сигнал также может подвергаться масштабированию путем применения масштабного коэффициента к преобладающему сигналу. Это дополнительное масштабирование преобладающего сигнала может служить, например, для того, чтобы допускать интегрирующую нормализацию входных звуковых сигналов в микширующем устройстве в случае, если входные сигналы не были нормализованы перед микшированием.

Согласно другой особенности способ также может включать этап проверки того, что параметр dialnorm информационного содержимого для входных сигналов задан надлежащим образом, и, возможно, обеспечения индикации в случае, когда это условие не удовлетворяется.

Согласно другой особенности, также предусматривается устройство для микширования сигналов, которое применяет описанный выше способ микширования сигналов. Сходным образом, также предусматривается декодер, который применяет описанный выше способ микширования сигналов.

Согласно другой особенности также предусматривается читаемый процессором носитель данных, который сохраняет в памяти машиночитаемые команды, предназначенные для исполнения любого из описанных выше способов. Сходным образом, также предусматривается читаемый процессором программный продукт, включающий исполняемые команды, предназначенные для выполнения любого из описанных выше способов при исполнении на процессоре.

Согласно другой особенности также предусматривается устройство для микширования входных звуковых сигналов в единый, сведенный звуковой сигнал с согласованным воспринимаемым уровнем звука. Устройство включает приемник, предназначенный для приема основного входного звукового сигнала, связанного входного звукового сигнала и метаданных микширования с информацией масштабирования. Устройство также включает входной сигнал баланса микширования, который указывает регулируемый баланс между основным и связанным сигналами. Устройство также включает микшер, сконфигурированный для идентификации преобладающего сигнала, масштабирования входных сигналов и объединения сигналов в сведенный сигнал. Преобладающий сигнал идентифицируется путем анализа информации масштабирования, предоставляемой метаданными микширования, и входным сигналом баланса микширования, и непреобладающий сигнал подвергается масштабированию относительно преобладающего сигнала. Кроме того, также предусматривается устройство, предназначенное для микширования входных звуковых сигналов в единый, сведенный звуковой сигнал с согласованным воспринимаемым уровнем звука, где масштабный коэффициент для непреобладающего сигнала определяется напрямую исходя из информации масштабирования из метаданных микширования и из входного сигнала баланса микширования. Непреобладающий сигнал подвергается масштабированию с использованием определяемого масштабного коэффициента, и масштабированный непреобладающий сигнал объединяется с преобладающим сигналом в сведенный сигнал.

Согласно другой особенности предусматривается устройство, предназначенное для микширования входного звукового сигнала в единый, сведенный звуковой сигнал с согласованным воспринимаемым уровнем звука, которое также сконфигурировано для приема метаданных микширования, которые интегрированы в связанный входной звуковой сигнал. Входной сигнал баланса микширования устройства также может включать внешний входной сигнал от пользователя, доставляющий величину со значениями в интервале от очень больших отрицательных значений до очень больших положительных значений. Приемник устройства также может конфигурироваться для приема многоканальных сигналов, где модуль микширования сконфигурирован для микширования многоканальных сигналов.

Описанные выше способы спроектированы для поддержания согласованного воспринимаемого уровня звука в сведенном сигнале. Поскольку указанные способы также могут быть описаны как регулировка уровня сигнала, описанные выше способы, которые масштабируют сигналы, также могут рассматриваться в терминах регулировки уровня сигнала. Соответственно, для того, чтобы обобщить предмет изобретения как способы на микширование сигналов на основе результата, которого он достигает, входные сигналы должны подвергаться масштабированию так, чтобы результирующая разность уровней масштабирования между масштабированием основного сигнала и масштабированием связанного сигнала, по существу, представляла собой сумму масштабного коэффициента метаданных микширования для основного сигнала и значения входного сигнала баланса микширования. Аналогично, если присутствует масштабный коэффициент метаданных микширования для связанного сигнала, то результирующая разность уровней масштабирования между масштабированием основного сигнала и масштабированием связанного сигнала, по существу, представляет собой сумму разности масштабных коэффициентов метаданных микширования для основного сигнала и связанного сигнала и значения входного сигнала баланса микширования.

Посредством описанных выше способов автор информационного содержимого может оказывать влияние на разность уровней между основным и связанным сигналами во все моменты времени. Соответственно, конечный пользователь также может оказывать влияние на разность уровней между основным и связанным сигналами во все моменты времени. Кроме того, если входной сигнал баланса микширования имеет нейтральную, нулевую установку, сигналы микшируются в точности так, как это определяется автором информационного содержимого. Способы, описанные в данном описании, обеспечивают плавное управление во всем диапазоне входного сигнала баланса микширования, на всем пути от основного сигнала как единственного сигнала (когда связанный сигнал полностью ослабляется) до другой крайности, когда единственным сигналом, присутствующим при воспроизведении, является связанный сигнал (когда полностью ослабляется основной сигнал). Тем не менее, преобладающий сигнал имеет отрегулированный уровень, и это означает, что, независимо от значений метаданных микширования или входного сигнала баланса микширования, слушатель не будет воспринимать существенное изменение в уровне звука при переключении от одной программы к другой. Так, для диалогового звукового сигнала пользователь может выбрать диалог в фокусе, и преобладающий диалог всегда будет иметь отрегулированный уровень, поскольку преобладающий диалог связан с преобладающим сигналом.

Способы и устройства, в том числе примеры и варианты осуществления изобретения, описываемые в настоящей патентной заявке, могут использоваться по отдельности или в сочетании с другими способами и устройствами, раскрытыми в данном документе. Кроме того, все особенности способов и устройств, описанные в настоящей патентной заявке, могут произвольно объединяться. В частности, характерные признаки пунктов формулы изобретения могут объединяться друг с другом произвольным образом, что очевидно для специалистов в данной области.

Краткое описание фигур

Ниже изобретение разъясняется путем использования примеров с отсылкой к сопроводительным графическим материалам, где примеры проиллюстрированы следующими фигурами:

Фиг. 1A показывает уровни звука в различных звуковых программах.

Фиг. 1В показывает уровни звука в различных звуковых программах после регулировки уровня звука.

Фиг. 2 показывает блок-схему телевизионной приставки с микшером.

Фиг. 3 показывает схему процессов, предназначенных для идентификации преобладающего сигнала и микширования входных сигналов.

Фиг. 4 показывает схему последовательности операций для идентификации преобладающего сигнала и микширования.

Фиг. 5А показывает график масштабных коэффициентов для основного и связанного сигналов для случая, когда масштабный коэффициент метаданных микширования равен -10 дБ.

Фиг. 5В показывает пример считывания масштабных коэффициентов по фиг. 5А для основного и связанного сигналов, где масштабный коэффициент метаданных микширования равен -10 дБ, для случая, когда входной сигнал баланса микширования, имеет значение +5 дБ.

Фиг. 5С показывает пример считывания масштабных коэффициентов по фиг. 5А для основного и связанного сигналов, где масштабный коэффициент метаданных микширования равен -10 дБ, для случая, когда входной сигнал баланса микширования, имеет значение -15 дБ.

Фиг. 6 показывает блок-схему сигнала для микширования многоканальных сигналов 5.1.

Фиг. 7А показывает схему последовательности операций примера микширования многоканальных сигналов 5.1.

Фиг. 7В показывает схему последовательности операций определения масштабного коэффициента для канала LFE на этапе 703 по фиг. 7.

Фиг. 8 показывает блок-схему сигнала для микширования многоканального основного сигнала 5.1 со связанным сигналом 1.1 (моно+LFE).

Подробное описание

Внедрение метаданных звукового сигнала в цифровой аудиопоток, например, в цифровой вещательной среде, является общепринятой концепцией. Указанные метаданные представляют собой «данные о данных», т.е. данные о цифровом звуковом сигнале в потоке. Метаданные могут доставлять в аудиодекодер информацию о том, каким образом воспроизводить звуковой сигнал. Такие метаданные, как правило, передаются наряду с битовым потоком звукового сигнала. Эти метаданные предоставляют изготовителям информационного содержимого беспрецедентную возможность доставлять потребителям звуковой сигнал наивысшего качества для некоторого диапазона сред, предназначенных для прослушивания. Они также предусматривают варианты, которые позволяют потребителям регулировать их установки для наилучшего соответствия их средам для прослушивания.

Способы, описываемые в настоящем документе, могут применяться к широкому диапазону форматов звукового сигнала и схем кодирования. Для того чтобы применять указанные способы, сигналам лишь необходимо содержать метаданные, сопровождающие звуковой сигнал и доставляющие информацию микширования. Входные сигналы могут быть одноканальными, но часто будут иметь несколько каналов, как, например, многоканальные сигналы 5.1 с шестью каналами: левым, правым, центральным, левым окружающим, правым окружающим и LFE (низкочастотных эффектов). Двумя примерами указанных форматов звукового сигнала, которые допускают указанные метаданные микширования, являются Dolby Digital Plus (DD+ или E-AC-3 (Enhanced AC-3)) и высокоэффективное перспективное звуковое кодирование (HE-AAC).

Dolby Digital Plus (DD+ или E-AC-3 (Enhanced AC-3)) представляет собой схему сжатия цифрового звукового сигнала, которая представляет собой усовершенствованную систему кодирования на основе кодека AC-3. E-AC-3 поддерживает до 13 полнополосных звуковых каналов с битовой скоростью передачи кодированных данных 6,144 Мбит/с. Например, метаданные DD+ подробно описываются в документе ETSI TS 102 366 v1.2.1, например, «El.3.1.17 extpgmscl: Масштабный коэффициент внешней программы - 6 бит: В некоторых приложениях могут декодироваться и совместно микшироваться два битовых потока. Указанное поле определяет масштабный коэффициент, который в ходе микширования следует применить к внешней программе (т.е. к программе, которая переносится в отдельном битовом потоке или в независимом битовом потоке). Данное поле использует тот же масштаб, что и поле pgmscl». Наиболее подходящие метаданные микширования включают следующие ключи метаданных: extpgmscl, extpgmlscl, extpgmrscl, extpgmcscl, extpgmlsscl, extpgmrsscl, extpgmlfescl, pgmscl. В некоторых случаях, например, когда связанный звуковой сигнал является монофоническим, также может использоваться ключ метаданных panmean.

Высокоэффективное перспективное звуковое кодирование (HE-AAC) представляет собой схему сжатия данных с потерями, предназначенную для цифрового звукового сигнала и определяемую в документе ISO/IEC 14496-3 как профиль MPEG-4 Audio. Она представляет собой расширение ААС низкой сложности (AAC LC), оптимизированное для приложений с низкими битовыми скоростями передачи данных, таких как потоковое аудио. Для повышения эффективности сжатия в частотной области профиль HE-AAC version 1 (HE-AAC v1) использует репликацию спектральной полосы (SBR). С целью повышения эффективности сжатия стереофонических сигналов профиль HE-AAC version 2 (HE-AAC v2) объединяет SBR с параметрическим стереофоническим кодированием (PS). Он является стандартизованной и усовершенствованной версией кодека AACplus. Наиболее подходящие метаданные микширования включают следующие ключи метаданных: AD_fade_byte, AD_gain_byte_center, AD_gain_byte_front, AD_gain_byte_surround и AD_pan_byte. HE-AAC используется в таких стандартах цифрового радиовещания, как DAB+ и Digital Radio Mondiale.

Для того чтобы в полной мере воспользоваться их возможностями, авторы или изготовители информационного содержимого должны обладать жестким контролем над метаданными звукового сигнала, которые обычно добавляются в ходе изготовления и компоновки.

Как было описано в разделе Предпосылки, для того, чтобы поддерживать согласованные уровни звука для различных программ, самые современные звуковые сигналы включают метаданные, такие как метаданные диалогового уровня, которые используются для масштабирования звукового сигнала. Указанное масштабирование позволяет надлежащим образом представлять каждый звуковой сигнал в форме, допускающей высококачественное и хорошее сжатие, но также и поддержание одного и того же уровня звука. Фигура 1A показывает пример различных программ без указанной регулировки уровня или нормализации диалогового уровня. Как видно из схемы, уровень звука в различных программах отличается, поэтому слушатель при переключении от одной программы к другой может воспринимать различный уровень звука. Фигура 1A иллюстрирует уровни звука для четырех различных программ S1, S2, S3 и S4, например, в случаях, когда пользователь переключает канал, или в моменты времени t0, t1, t2 и t3 передается новая программа. Развитие во времени показано на горизонтальной оси, а уровень звука - на вертикальной оси. Горизонтальная линия А1 показывает уровень звука программы S1, которая выполняется с момента времени t0 до момента времени t1. Аналогично, горизонтальные линии А2, А3 и А4, соответственно, показывают уровень звука программ S2, S3 и S4, которые выполняются с момента времени t1 до t2, от t2 до t3 и от t3 до t4. Как видно, уровень звука А1 выше, чем уровни звука А2, А3 и А4.

Для коррекции указанной разности в уровне звука сигналы программ подвергаются регулировке уровня или масштабированию до общего номинального уровня. Так, фигура 1B показывает сигналы программ после регулировки уровня до общего номинального уровня звука. Номинальный уровень звука для сигналов, как правило, представляется как средневзвешенный уровень, который часто задается в метаданных как присвоение параметру dialnorm значения 31. Как видно на фигуре 1B, все уровни звука Α1', Α2', A3' и A4' являются одинаковыми. Поэтому пользователь при переключении между программами не воспринимает значительное изменение в уровне звука.

В настоящее время, многие новые форматы звуковых сигналов также позволяют группировать с основным сигналом один или несколько связанных сигналов. Эти звуковые сигналы могут активироваться или на основе установок устройства, или по выбору пользователя, например, в ходе воспроизведения. Как правило, указанная активация включает объединение связанного сигнала с его соответствующим основным сигналом. Указанное объединение сигналов в один сигнал именуется микшированием. Например, изготовитель может предусматривать дорожку комментариев режиссера в звуковой дорожке, например, на носителе DVD video. Тогда слушатель может использовать телевизионную приставку или проигрыватель DVD для активации этой связанной дорожки, которая часто накладывается и микшируется с основным сигналом. Для того чтобы поддерживать такой же воспринимаемый уровень звука, как в других программах, указанный связанный сигнал обычно содержит метаданные, которые определяют то, каким образом сигналы должны микшироваться. Метаданные микширования позволяют изготовителю точно управлять микшированием сигналов путем доставки конкретных подробностей о том, каким образом микшировать сигналы, в том числе, также включая возможность определения деталей микширования многоканальных сигналов.

Несмотря на то, что метаданные микширования описывают уровни микширования так, как их представляет себе изготовитель, в какой-то момент времени слушатель может иметь иное желание в отношении того, каким образом должны микшироваться сигналы. Так, слушатель может решить, что он хотел бы, чтобы «диалогом в фокусе» был другой сигнал. Таким образом, «диалог в фокусе» представляет собой сигнал, который должен преобладать в сведенном сигнале. Однако указанный «диалог в фокусе» является весьма субъективным. Автор информационного содержимого имеет представление о том, какой сигнал должен находиться в фокусе, однако, для пользователя также желательно, чтобы он тоже имел возможность управлять этим. Согласно идеям данной заявки указание «пользовательский фокус» может достигаться путем предложения управляющего входного сигнала баланса микширования, предназначенного для регулировки микширования основного и связанного сигналов.

Таким образом, в случае, когда пользователь хотел бы отклониться от взвешивания сигнала, определяемого метаданными, путем регулировки сведенного сигнала в пользу того или иного сигнала, один из вариантов осуществления изобретения включает создание устройства управления балансом микширования, делающего возможным ввод входного сигнала баланса микширования. Указанное устройство управления балансом микширования позволяет пользователю указывать, что один из сигналов должен в большей степени присутствовать в сведенном сигнале, а также то, в какой степени сигнал должен быть преобладающим в большей степени. Кроме того, указанный входной сигнал баланса микширования предоставляет пользователю непосредственное управление сигналом в фокусе. В стандартном положении устройство управления балансом микширования нейтрально, что указывает на то, что микширование должно происходить так, как это указывается метаданными. Когда устройство управления балансом микширования поворачивается в одном из направлений (в данном варианте осуществления изобретения, в отрицательном направлении), основной сигнал делается громче относительно связанного сигнала. Когда устройство управления балансом микширования поворачивается в другом направлении (в данном варианте осуществления изобретения, в положительном направлении), связанный сигнал делается громче относительно основного сигнала.

Однако, когда указанное устройство управления балансом микширования или входной сигнал баланса микширования затем используется для повышения или понижения уровней основного и связанного сигналов, вероятно, что уровень звука или воспринимаемый диалоговый уровень сведенного сигнала будет, таким образом, изменен. Таким образом, вероятно, что переключение между программами, содержащими и не содержащими активированный связанный сигнал, также будет приводить к нежелательной ситуации, которая описана на фигуре 1A. Поэтому существует потребность в создании способа микширования связанного и основного сигналов под действием входного сигнала баланса микширования так, чтобы воспринимаемый уровень звука сведенного сигнала также поддерживался постоянным.

Способы, описываемые в настоящем документе, могут быть реализованы во многих вариантах осуществления, таких как телевизионная приставка, переносной или непереносной звуковой проигрыватель, микширующее устройство, проигрыватель DVD, телевизор, смартфон, телевизионное приемное устройство для компьютерной системы. Кроме того, отдельные особенности могут реализовываться в сочетании с системами аппаратного и программного обеспечения. Компоненты одного конкретного варианта осуществления изобретения будут описаны более подробно на основе телевизионной приставки, включающей микшер согласно способам, описываемым в настоящем документе. Данный вариант осуществления телевизионной приставки проиллюстрирован на фигуре 2. Телевизионная приставка 200 включает приемник 209, микшер 204 и процессор 205. Несмотря на то, что данный пример показан с этими компонентами, применение способов, описываемых в настоящем документе, не следует ограничивать данной точной конфигурацией. Например, приемник 209 может быть интегрирован в микшер 204; кроме того, телевизионная приставка 200 необязательно нуждается в процессоре, поскольку функциональная возможность может выполняться традиционными электронными схемами. В данном примере приемник 209 телевизионной приставки 200 сконфигурирован для приема основного входного сигнала 201 и связанного входного звукового сигнала 202, включающего соответствующие метаданные. В некоторых случаях, приемник необходимо дополнительно адаптировать для приема метаданных микширования, которые могут передаваться или кодироваться отдельно. В случае необходимости, приемник 209 может дополнительно конфигурироваться для декодирования входных сигналов 201, 202 и соответствующих метаданных 202а микширования в соответствии с кодированием сигналов. Кроме того, телевизионная приставка 200 и микшер 204 также сконфигурированы для приема управляющего входного сигнала 203 баланса микширования. Необязательно, приемник 209 также может конфигурироваться для выполнения специального декодирования управляющего входного сигнала 203 баланса микширования.

Для дальнейших характеристик и точной реализации управляющего входного сигнала 203 баланса микширования существуют различные возможности. Например, телевизионная приставка 200 может связывать этот входной сигнал с удаленным устройством управления для того, чтобы позволить пользователю задавать указанный уровень баланса микширования посредством меню, к которому получает доступ удаленное устройство управления. Разумеется, телевизионная приставка 200, или ее удаленное устройство управления, может реализовывать управляющий входной сигнал баланса микширования посредством специально предназначенного элемента, такого как номеронабиратель для ввода данных, клавиши «плюс» и «минус» или сходное устройство ввода данных. Разумеется, телевизионная приставка 200 и микшер 204 также могут быть сконфигурированы для приема входного сигнала 203 баланса микширования как сигнала от другой системы или устройства. В любом случае, преобладающим сигналом 206 является входной сигнал, который идентифицируется процессором 204 микшера 205 на основе основного входного сигнала 201, связанного входного звукового сигнала 202, метаданных 202а микширования и входного сигнала 203 баланса микширования. Таким образом, непреобладающий сигнал 207 представляет собой другой входной сигнал, который не определяется как являющийся преобладающим сигналом 206. Тогда масштабированный непреобладающий сигнал 207s представляет собой непреобладающий сигнал 207 после его масштабирования. В конечном итоге, преобладающий сигнал 206 и масштабированный непреобладающий сигнал 207s микшируются в сведенный сигнал 208.

На фигуре 3 проиллюстрирован один из примеров решения для достижения указанной цели при микшировании звуковых сигналов на основе конфигурации по фигуре 2. Так, входные сигналы состоят из основного входного сигнала 201, связанного входного сигнала 202 и входного сигнала 203 баланса микширования. В первую очередь, на этапе 301 основной входной сигнал 201 принимается микшером 204, телевизионной приставкой 200 и/или приемником 209. На этапе 302 принимается связанный входной сигнал 202, включающий метаданные 202а микширования. Отметим, что включение метаданных 202а микширования в связанный сигнал 202 предназначено только для данного примера, и его не следует интерпретировать как ограничивающее применение способов, поскольку другие стандарты и форматы кодирования сигнала могут отличаться. На этапе 303 принимается входной сигнал 203 баланса микширования. Эти этапы включают любое специальное декодирование, которого может потребовать формат сигналов. Затем на этапе 304 информация масштабирования из метаданных 202а микширования и входного сигнала 203 баланса микширования используется для идентификации преобладающего сигнала 206 среди подлежащих микшированию входных сигналов 201, 202. Этот этап может выполняться общеизвестным электронным устройством или схемой, поскольку он не требует какого-либо высокомощного расчета, измерения, углубленного анализа или дискретизации входных сигналов. Затем, на необязательном этапе 305, непосредственно исходя из метаданных 202а микширования и входного сигнала 203 баланса микширования, может определяться масштабный коэффициент для непреобладающего сигнала 207. На этапе 306 непреобладающий сигнал 207 подвергается масштабированию. В случае если масштабный коэффициент для непреобладающего сигнала 207 определялся на этапе 305 на основе метаданных 202а микширования и входного сигнала 203 баланса микширования, этап 306 включает масштабирование непреобладающего сигнала в соответствии с масштабным коэффициентом, определяемым на этапе 305. В конечном итоге, на этапе 307 масштабированный непреобладающий сигнал 207s объединяется с преобладающим сигналом 206 как сведенный сигнал 208 на завершающем этапе 308.

Один из дальнейших вариантов осуществления изобретения включает необязательный этап 305, предназначенный для определения масштабного коэффициента для непреобладающего сигнала 207 непосредственно на основе метаданных 202а микширования и входного сигнала 203 баланса микширования. Фигура 4 показывает схему последовательности операций для указанного определения в указанном дальнейшем варианте осуществления изобретения. Идентификация преобладающего сигнала 206 основывается на входном сигнале 203 баланса микширования и метаданных 202а микширования. В некоторых случаях, метаданные микширования также могут содержать масштабный коэффициент для связанного сигнала. Если указанное значение метаданных присутствует, то оно может использоваться для корректировки коэффициента метаданных, предназначенного для микширования сигналов. Так, на необязательном этапе 401 масштабный коэффициент для основного сигнала может корректироваться путем вычитания масштабного коэффициента для связанного сигнала из масштабного коэффициента для основного сигнала. На этапе 402 значение входного сигнала 203 баланса микширования сравнивается со скорректированным масштабным коэффициентом метаданных. В случае, когда масштабный коэффициент на этапе 401 не корректируется, значение входного сигнала 203 баланса микширования сравнивается с масштабным коэффициентом для основного сигнала из метаданных 202а микширования. В случае «да», если входной сигнал 203 баланса микширования больше, чем масштабный коэффициент 202а метаданных микширования, то на этапе 403y связанный сигнал 202 определяется как являющийся преобладающим сигналом 206, и основной сигнал 201 является непреобладающим сигналом 207. Иначе, в случае «нет», если значение входного сигнала 203 баланса микширования меньше или равно масштабному коэффициенту 202а метаданных микширования, то на этапе 403n основной сигнал 201 определяется как являющийся преобладающим сигналом 207, и связанный сигнал 202 является непреобладающим сигналом 207. За обоими этапами, 403у и 403n, следует этап 404, где непреобладающий сигнал 207 затем подвергается масштабированию. На этапе 405 преобладающий сигнал 206 объединяется с масштабированным непреобладающим сигналом 207s, образуя на этапе 406 сведенный сигнал 208.

Фигура 5 показывает график, иллюстрирующий конкретный пример масштабных коэффициентов, которые подлежат применению к основному и связанному сигналам 201, 202 при микшировании связанного сигнала 202 с основным сигналом 201. В данном примере масштабный коэффициент метаданных 202а микширования связанного сигнала 202 указывает на то, что основной сигнал 201 должен подвергаться масштабированию на -10 дБ. Указанный масштабный коэффициент -10 дБ, предназначенный для масштабирования основного сигнала 201 при микшировании со связанным сигналом 202, указывает желаемую взаимосвязь микширования, заданную изготовителем информационного содержимого в ходе мастеринга. Горизонтальная ось на фигуре 5 показывает входной сигнал 203 баланса микширования, поскольку он изменяется от минус бесконечности до плюс бесконечности. Вертикальная ось указывает масштабный коэффициент в дБ от -∞ до 0 снизу вверх. Оба графика по фигуре 5 показывают масштабные коэффициенты для двух входных сигналов, нанесенные на график для всех значений входного сигнала баланса микширования от -∞ дБ до +∞ дБ (значения входного сигнала баланса микширования находятся на горизонтальной оси). Два линейных графика, один - со штриховой линией, и второй - с пунктирной линией, соответственно, представляют масштабные коэффициенты для основного сигнала 201 и связанного сигнала 202. Так, график со штриховой линией 501а, 501b показывает основной сигнал, а график 502а, 502b показывает связанный сигнал. Как видно, когда входной сигнал 203 баланса микширования находится в нейтральной установке, т.е. при нуле дБ, входной сигнал 203 баланса не оказывает влияния, и масштабным коэффициентом является масштабный коэффициент, указываемый в метаданных 202а: в данном примере, где указанный масштабный коэффициент метаданных равен -10 дБ, что указывает величину ослабления основного сигнала относительно связанных сигналов, связанный сигнал 202, таким образом, является преобладающим сигналом 206 и не подвергается масштабированию, а основной сигнал 201 подвергается масштабированию в соответствии с масштабным коэффициентом метаданных, равным -10 дБ. Однако, как видно на фигуре, если входной сигнал 203 баланса делается более отрицательным, чем масштабный коэффициент метаданных, т.е. становится меньше -10 дБ, то преобладающим сигналом 206 становится основной сигнал 201. Кроме того, то, какой из входных сигналов является преобладающим сигналом, дополнительно указывается на фигуре 5 метками 501a, 501b и 502a, 502b, где горизонтальная линия 501a представляет основной входной сигнал 201 тогда, когда он является преобладающим сигналом 206, диагональная линия 501b представляет входной сигнал тогда, когда он является непреобладающим сигналом 207, горизонтальная линия 502b представляет связанный сигнал 202 тогда, когда он является преобладающим сигналом 206, и диагональная линия 502a представляет связанный сигнал тогда, когда он является непреобладающим сигналом 207.

Для отдельного примера считывания масштабных коэффициентов в случае по фигуре 5, фигура 5A показывает масштабные коэффициенты для случая, когда входной сигнал 203 баланса микширования имеет значение +5 дБ и, как и на фигуре 5, масштабный коэффициент метаданных микширования для основного сигнала равен -10 дБ. Согласно фигуре масштабный коэффициент 501 для основного сигнала 201, как видно, равен -15 дБ, т.е. -10-5= -15 дБ. Масштабный коэффициент 502а для связанного сигнала 202 равен 0 дБ. Поскольку преобладающим сигналом 206 является связанный сигнал 202, ожидается, что масштабный коэффициент для связанного сигнала 202 должен быть равен единице. Таким образом, если входной сигнал 203 баланса увеличивается в пользу связанного сигнала 202, то связанный сигнал 202 остается преобладающим сигналом 206, связанный сигнал 202 не подвергается масштабированию и масштабируется только основной сигнал 201.

С другой стороны, фигура 5B показывает масштабные коэффициенты для случая по фигуре 5, где входой сигнал 203 баланса микширования имеет значение -15 дБ и, как и на фигуре 5, масштабный коэффициент метаданных микширования для основного сигнала составляет -10 дБ. На фигуре можно видеть, что масштабный коэффициент для основного сигнала 501b равен 0 дБ, поэтому основной сигнал 201 не подвергается масштабированию, поскольку он является преобладающим сигналом 206, и что связанный сигнал 202 подвергается масштабированию со связанным масштабным коэффициентом 502b, равным -5 дБ, т.е. -15-(-10)=-5 дБ.

Кроме того, из фигур 5А, 5В и 5С видно, что, когда входной сигнал 203 баланса микширования приравнивается плюс бесконечности, основной сигнал 201 полностью ослабляется и связанный сигнал 202 не подвергается масштабированию. Наоборот, когда входной сигнал 203 баланса микширования приравнивается минус бесконечности, основной сигнал 201 не подвергается масштабированию и связанный сигнал полностью подавляется.

Способы, описываемые в настоящем документе, также могут применяться для микширования многоканальных сигналов. Поскольку метаданные микширования для многоканальных сигналов могут иметь много разных форм, как, например, в общеизвестных многоканальных сигналах они могут иметь от 2 до 14 каналов (например, 2 канала - для стереофонического сигнала, 2 канала - для монофонического сигнала+LFE, 4 канала - для 3.1, 6 каналов - для 5.1 и 14 каналов - для 13.1), в настоящем документе способ будет описываться через использование обобщенных ключей метаданных. На практике специалистам в данной области потребуется заменить перечисляемые ниже обобщенные метаданные метаданными, соответствующими конкретному кодированию, используемому сигналами. Так, ниже используются обобщенные термы "sclmain", "scl[ch]" и "pan", где "sclmain" - первичный масштабный коэффициент, "scl[ch]" - масштабный коэффициент для каждого отдельного канала, где [ch] - индекс канала и "pan" - необязательная величина, указывающая на то, каким образом каналы должны применяться к сведенному сигналу с различным количеством каналов (например, то, каким образом монофонический сигнал должен применяться к сигналу 5.1, например, как 50% монофонического сигнала - на левый канал, 50% - на правый канал или 0% - на другие каналы, или 60% - на левый канал, 40% - на центральный канал, и 0% - на правый, LFE и окружающие каналы).

Таблица 1 показывает обобщенное представление метаданных микширования (общее для ES и PES), где первая колонка показывает обобщенные ключи метаданных, вторая колонка показывает соответствующие метаданные для ES (например, для Dolby Digital Plus, или DD+) и третья колонка показывает соответствующие метаданные для PES (например, для Dolby Pulse или DVB):

Таблица 1

В следующем разделе и приводимом ниже псевдокоде выражение "pref" обозначает значение 203 входного сигнала баланса микширования, предназначенное для регулировки баланса между основным 201 и связанным 202 сигналами. Значение входного сигнала 203 баланса микширования может находиться в интервале [-∞...+∞], где -∞ приводит к полному ослаблению связанного сигнала 202, 0 представляет собой нейтральное значение, приводящее к микшированию в соответствии с метаданными 202а микширования, и ∞ приводит к полному ослаблению основного сигнала 201.

Для данного примера, включающего многоканальный основной сигнал 5.1 201 и многоканальный связанный сигнал 5.1 202, применение способов для многоканального сигнала приводит к следующему псевдокоду, где gainA и gainM[ch] - эффективные коэффициенты усиления, или масштабные коэффициенты, применяемые, соответственно, на связанном сигнале 202 и на каналах основного сигнала 201.

Приведенный ниже псевдокод действует в области дБ.

maxscl = max (scl[c], scl[l], scl[r], scl[ls], scl[rs]);
mainscltotal = sclmain + maxscl;
scl[lfe] = min(scl[lfe], maxscl);
если (pref > mainscltotal - sclasso ) {

gainA =0;

gainM[ch] = sclmain + scl[ch] - pref - sclasso ;

} иначе {

gainA = pref - mainscltotal + sclasso;

gainM[ch] = sclmain + scl[ch] - mainscltotal;

}

Данный псевдокод выполняется для каждого канала входных сигналов.

Таким образом, когда баланс микширования имеет максимальное значение +∞ дБ, связанный сигнал 202 является преобладающим сигналом 206 так, что основной сигнал 201 полностью ослабляется, и сведенный сигнал 208, по существу, представляет собой неограниченный связанный сигнал 202. Напротив, когда баланс 203 микширования имеет минимальное значение -∞ дБ, преобладающим сигналом 206 является основной сигнал 201 так, что полностью ослабляется связанный сигнал 202, и сведенный сигнал 208, по существу, представляет собой неограниченный основной сигнал 201.

Отметим, что в данном конкретном примере преобладающий сигнал также может в небольшой степени подвергаться масштабированию в случае, когда преобладающим сигналом является основной сигнал (строка gainM [ch]=sclmain+scl[ch]-mainscltotal в операторе иначе). Это позволяет алгоритму предотвращать применение положительного коэффициента усиления к основному сигналу, что возможно для метаданных DD+. Конечным результатом должно быть то, что самый громкий канал основного сигнала ограничивается 0 дБ, что приблизительно согласуется с общим принципом, согласно которому преобладающий сигнал должен иметь коэффициент усиления, равный единице.

Для применения указанного псевдокода к конкретному стандарту метаданных такие обобщенные переменные, как scl[ch], должны замещаться соответствующими термами метаданных. Таким образом, основываясь на конкретной форме сигналов, в том числе, на количестве каналов, типе кодирования и доступных в сигналах метаданных, специалисты в данной области будут способны отобразить соответствующие обобщенные ключи метаданных для конкретного случая. В некоторых особых случаях не все перечисленные выше ключи метаданных могут оказаться значимыми. Например, при микшировании двух многоканальных сигналов 5.1 специалисты в данной области должны иметь возможность определить, что метаданные панорамирования или отсутствуют, или должны игнорироваться, поскольку связанный сигнал уже содержит те же каналы, что и основной сигнал.

В случае, когда связанный сигнал 202 является монофоническим, а основной сигнал 201 - нет, к связанному сигналу 201, возможно, придется применять коэффициенты усиления при панорамировании. В этом случае, если связанный сигнал 201 содержит канал LFE, канал LFE может микшироваться так, как это описывается в приведенном выше псевдокоде, как sci[lfe].

Для микширования DD+ с использованием метаданных микширования уровня ES следует использовать следующие ключи метаданных микширования уровня ES:

extpgmscl, panmean, extpgmlscl, extpgmrscl, extpgmcscl, extpgmlsscl, extpgmrsscl, extpgmlfescl, pgmscl.

Как правило, все остальные метаданные микширования для микширования не требуются. Ключ метаданных dmxscl также может использоваться при понижающем микшировании, где понижающее микширование представляет собой отображение сигнала в формат с другим количеством каналов. Ключ метаданных pgmscl, который представляет масштабный коэффициент для связанного сигнала, также может использоваться в ходе микширования для корректировки масштабных коэффициентов метаданных для основного канала. В приведенном выше псевдокоде pgmscl представлен переменной sclasso. Из строки псевдокода «если (pref>mainscltotal-sclasso)» видно, что тогда переменная sclasso, которая в DD+ представляет ключ метаданных pgmscl, влияет на сравнение если там, где определяется преобладающий сигнал, поскольку sclasso вычитается из mainscltotal перед сравнением с pref. Использование sclasso, однако, является необязательным, и если sclasso отсутствует, или использование этой величины нежелательно, то pref просто сравнивается с mainscltotal.

Для микширования Dolby Pulse/HE-AAC с использованием метаданных микширования уровня PES, например, в DVB, должны использоваться следующие ключи метаданных микширования уровня ES:

AD_gain_byte_center,

AD_gain_byte_front, AD_gain_byte_surround.

Для получения наилучших результатов максимальный результирующий коэффициент усиления для каждой из сумм

[AD_gain_byte_center+AD_fade_byte] ,

[AD_gain_byte_front+AD_fade_byte] ,

[AD_gain_byte_surround+AD_fade_byte]

не должен превышать +12 дБ, и указанные эффективные коэффициенты усиления должны быть нормализованными таким образом, чтобы самый высокий коэффициент усиления не превышал 12 дБ, и, в то же время, соотношения между AD_gain_byte_center, AD_gain_byte_front, AD_gain_byte_surround должны сохраняться, т.е.

AD_fade_byte=min(12 дБ, AD_fade_byte+max(AD_gain_byte_center, AD_gain_byte_front, AD_gain_byte_surround)).

Фигура 6 показывает дальнейший вариант осуществления микшера 600, предназначенного для микширования многоканального основного сигнала 5.1 610 с многоканальным связанным сигналом 5.1 620, включающим метаданные 640 микширования, например, для сигналов Dolby Digital Plus (DD+ или E-AC-3 (Enhanced AC-3)). Входные сигналы включают входной сигнал 601 баланса микширования, основной сигнал 610 и связанный сигнал 620 с метаданными 640 микширования. В данном примере входной основной сигнал 610 и выходной сведенный сигнал 630 представляют собой многоканальные сигналы 5.1, содержащие шесть каналов: левый, правый, центральный, левый окружающий, правый окружающий и LFE (канал низкочастотных эффектов). Так, основной входной сигнал 610 включает шесть каналов: левый 611, правый 612, центральный 613, левый окружающий 614, правый окружающий 615 и LFE (канал низкочастотных эффектов) 616. Связанный сигнал 620 также включает шесть каналов: левый 621, правый 622, центральный 623, левый окружающий 624, правый окружающий 625 и LFE (канал низкочастотных эффектов) 626. Метаданные микширования также включают первичный масштабный коэффициент 647 и масштабные коэффициенты для шести каналов: левого 641, правого 642, центрального 643, левого окружающего 644, правого окружающего 645 и LFE (канала низкочастотных эффектов) 646. В некоторых случаях, метаданные микширования также могут включать масштабный коэффициент для связанного сигнала 648. Если указанный масштабный коэффициент для связанного сигнала отсутствует, то он игнорируется или обрабатывается как равный единице или равный 0 дБ. Микшер также сконфигурирован для приема входного сигнала из входного сигнала 601 баланса микширования. На основе метаданных 640 микширования и входного сигнала 601 баланса микширования масштабные коэффициенты для каждого из каналов 651, 652, 653, 654, 655, 656 определяются на основе логики представленного выше псевдокода, а также на основе показанной на фигуре 7А схемы последовательности операций, описывающей то, каким образом определяется масштабный коэффициент для каждого канала. Каждый канал подвергается масштабированию исходя из масштабных коэффициентов микширования 651, 652, 653, 654, 655, 656, где первичное масштабирование происходит на непреобладающем сигнале и преобладающий сигнал подвергается масштабированию минимально или вовсе не подвергается масштабированию. В конечном итоге, соответствующие каналы сигналов 660, 670 масштабированных каналов объединяются в сведенные каналы, и тогда шесть сведенных каналов 631, 632, 633, 634, 635, 636 включают сведенный выходной сигнал 5.1 630. Таким образом, сведенный выходной сигнал 5.1 630 также включает шесть каналов: левый 631, правый 632, центральный 633, левый окружающий 634, правый окружающий 635 и LFE (канал низкочастотных эффектов) 616, каждый из которых вычисляется в соответствии с логикой по фигуре 7А.

Фигура 7А показывает схему последовательности операций, описывающую пример микширования многоканального входного основного сигнала 5.1 610 с многоканальным входным связанным сигналом 5.1 620 согласно фигуре 6, где преобладающий сигнал 206 также может в небольшой степени подвергаться масштабированию в случае, когда преобладающим сигналом 206 является основной сигнал 610. Как показано на фигуре 6, входные сигналы включают входной сигнал 601 баланса микширования, основной сигнал 610 и связанный сигнал 620 с метаданными 640 микширования, где входные сигналы и сведенный выходной сигнал 630 представляют собой многоканальные сигналы 5.1. Так, сигналы 610, 620, 630 включают шесть каналов, а метаданные 640 микширования включают первичный масштабный коэффициент 647 и масштабные коэффициенты для шести каналов: левого 641, правого 642, центрального 643, левого окружающего 644, правого окружающего 654 и LFE (канала низкочастотных эффектов) 646. В некоторых случаях метаданные 640 микширования также могут включать масштабный коэффициент для связанного сигнала, sclasso 648. Если sclasso 648 отсутствует или его использование при микшировании нежелательно, для sclasso 648 используется значение 0 дБ, и регулировка других масштабных коэффициентов не проводится. На этапе 701 максимальный масштабный коэффициент из пяти «нормальных каналов», левого 641, правого 642, центрального 643, левого окружающего 644 и правого окружающего 645 определяется как "maxsci". Затем на этапе 702 mainscltotal вычисляется как сумма sclmain 647 и maxsci, где sclmain 647 - первичный масштабный коэффициент из метаданных микширования, maxsci - максимальный среди масштабных коэффициентов нормальных каналов 641, 642, 643, 644, 645. Этап 703, на котором определяется масштабный коэффициент LFE, более подробно описан на фигуре 7A.

Фигура 7В показывает схему последовательности операций, представляющую детали этапа 703 по фигуре 7А, предназначенные для определения масштабного коэффициента для канала LFE в отношении примера микширования двух многоканальных сигналов 5.1 по фигуре 7А. На этапе 703а метаданные микширования для канала 646 LFE сравниваются с максимальным масштабным коэффициентом среди остальных каналов, maxscl, определяемым на этапе 701 по фигуре 7А. Если масштабный коэффициент 646 LFE больше или равен maxscl, то на этапе 703y масштабный коэффициент для канала LFE, gain[lfe] 656, определяется как maxscl. Иначе, в отрицательном случае, на этапе 703n масштабный коэффициент для канала LFE, gain[lfe] 656, определяется как из метаданных микширования для канала 646 LFE. Затем на этапе 703с коэффициент усиления gain[Ife] 646 определяется из значений, вычисленных на этапах 703y или 703n. Коэффициент gain[lfe] 656, который представляет собой масштабный коэффициент, подлежащий применению к каналу LFE при микшировании сигналов, будет позднее использоваться на этапах 707n и 707y по фигуре 7А.

Возвращаясь к фигуре 7А, затем на этапе 704 pref, который представляет собой значение 601 входного сигнала баланса микширования, сравнивается с mainscltotal минус sclasso 648, где sclasso 648 - масштабный коэффициент для связанного сигнала. Отметим, что sclasso 648 может отсутствовать или может игнорироваться, и в этом случае pref просто сравнивается с mainscltotal. Например, для сигналов DD+ переменной sclasso 648 соответствует ключ метаданных pgmscl. Если pref 602 больше, чем mainscltotal минус sclasso 648, то на этапе 705y связанный сигнал 620 определяется как являющийся преобладающим сигналом 206. Тогда на этапе 706y коэффициент усиления для связанного сигнала отсутствует, поскольку он является преобладающим сигналом, и, таким образом, коэффициент усиления для связанного сигнала равен единице или нулю дБ, что указывает на то, что связанный сигнал является неограниченным. Тогда на этапе 707y коэффициент усиления для каждого канала основного сигнала для всех каналов (левого, правого, центрального, левого окружающего, правого окружающего и LFE) gainM[ch] 651, 652, 653, 654, 655 определяется как сумма первичного масштабного коэффициента, sclmain 647, и масштабных коэффициентов для нормальных каналов scl[ch] 641, 642, 643, 644, 645 минус pref 602 минус sclasso. Вычисление на этапе 707y повторяется для всех шести каналов основного сигнала.

Если решение на этапе 704 является отрицательным, поскольку pref 602 не превышает mainscltotal, то на этапе 705n основной сигнал определяется как являющийся преобладающим сигналом. Тогда на этапе 706n коэффициент усиления для связанного сигнала, gainA, определяется как pref 602 минус mainscltotal плюс sclasso 648. В данном особом случае этого конкретного примера основной сигнал 610 также подвергается масштабированию, хотя он определяется как являющийся преобладающим сигналом, и масштабные коэффициенты 651, 652, 653, 654, 655, 656 для каждого канала основного сигнала 620 вычисляются как sclmain 647 плюс масштабный коэффициент для соответствующих каналов scl[ch] 641, 642, 643, 644, 645 минус mainscltotal. Таким образом, на этапе 707n коэффициент усиления для каждого канала основного сигнала для всех каналов (левого, правого, центрального, левого окружающего, правого окружающего и LFE), gainM[ch] 651, 652, 653, 654, 655, определяется как сумма sclmain 647 и scl[ch] 641, 642, 643, 644, 645 минус mainscltotal. Вычисление на этапе 707n повторяется для всех шести каналов. Коэффициенты усиления из этапов 706y, 707y, 706n и 707n, а также входные сигналы 620, 610 затем подаются на этап 708, где каждый канал основного 611, 612, 613, 614, 615, 616 и связанного 621, 622, 623, 624, 625, 626 сигналов масштабируются в соответствии с определяемыми масштабными коэффициентами 651, 652, 653, 654, 655, 656. Отметим, что в типичном случае масштабированию подвергается только преобладающий сигнал, но в данном особом случае непреобладающий сигнал также может подвергаться масштабированию. Затем на этапе 709, который повторяется для каждого из шести каналов, масштабированный связанный 670 и основной 660 сигналы для каждого канала микшируются в шесть сведенных каналов 631, 632, 633, 634, 635, 636. В конечном итоге, на этапе 710 шесть сведенных каналов 631, 632, 633, 634, 635, 636 объединяются в единый сигнал, который включает сведенный выходной сигнал 5.1 630 на этапе 711.

Фигура 8 показывает дальнейший вариант осуществления микшера 800, предназначенного для микширования многоканального основного сигнала 5.1 810 с 2-канальным связанным сигналом 820 моно+LFE, включающим метаданные 840 микширования, например, для сигналов Dolby Digital Plus (DD+ или E-AC-3 (Enhanced AC-3)). Входной сигнал включает входной сигнал 801 баланса микширования, основной сигнал 810 и связанный сигнал 820 с метаданными 840 микширования. В данном примере входной основной сигнал 810 и выходной сведенный сигнал 830 представляют собой многоканальные сигналы 5.1, содержащие шесть каналов: левый, правый, центральный, левый окружающий, правый окружающий и LFE (канал низкочастотных эффектов). Так, основной входной сигнал 810 включает шесть каналов: левый 811, правый 812, центральный 813, левый окружающий 814, правый окружающий 815 и LFE (канал низкочастотных эффектов) 816. Связанный сигнал 820 моно+LFE включает только два канала: центральный 823 и LFE (канал низкочастотных эффектов) 826. Метаданные микширования также включают метаданные со значениями масштабирования для первичного масштабного коэффициента 847 и шести каналов: левого 841, правого 842, центрального 843, левого окружающего 844, правого окружающего 845 и LFE (канала низкочастотных эффектов) 846. Микшер 800 также сконфигурирован для приема входного сигнала из входного сигнала 801 баланса микширования.

На основе метаданных 840 микширования и входного сигнала 801 баланса микширования масштабный коэффициент для каждого канала 851, 852, 853, 854, 855, 856 определяется на основе логики в приведенном выше псевдокоде, а также на показанной фигуре 7, которая представляет собой схему последовательности операций, описывающую то, каким образом определяется масштаб для каждого канала. Масштабированию подвергается каждый канал непреобладающего входного сигнала 207, в то время как преобладающий сигнал 206, как правило, вообще не подвергается масштабированию или, в особых случаях, подвергается масштабированию лишь минимально. Для панорамирования монофонического канала моно+LFE канала в связанном сигнале на 5.1 каналов используется величина panmean. Panmean представляет собой величину со значениями в интервале от 0 до 239, представляющими интервал 0-358,5 градусов с шагом 1,5 градусов, где 0 градусов представляет собой направление центрального громкоговорителя. Для ознакомления с подробностями применения panmean см. Раздел "E.4.3.5 Panning" стандарта ETSI TS 102 366 v1.2.1.

В конечном итоге, шесть пар каналов для двух масштабированных входных сигналов попарно для каждого канала объединяются в шесть сведенных каналов 831, 832, 833, 834, 835, 836. Шесть сведенных каналов 831, 832, 833, 834, 835, 836 затем составляют сведенный выходной сигнал 5.1 830. Таким образом, сведенный выходной сигнал 5.1 830 также включает шесть каналов: левый 831, правый 832, центральный 833, левый окружающий 834, правый окружающий 835 и LFE (канал низкочастотных эффектов) 836, каждый из которых вычисляется в соответствии с логикой по фигуре 7.

В целом, для достижения наилучших результатов, тип каналов сведенного сигнала должен быть таким же, как в декодированном основном звуковом сигнале, хотя он, разумеется, может изменяться, например, подвергаться понижающему микшированию, на более поздних этапах. В большинстве случаев, ожидается небольшое значение входного сигнала баланса микширования, как правило, до 10 дБ, несмотря на то, что способ поддерживает произвольно большие (и малые) значения.

В некоторых случаях количество каналов основного и связанного сигналов может отличаться. В таком случае, способы, описываемые в настоящем документе, по-прежнему могут применяться при условии, что некоторые из входных каналов, возможно, придется отображать в каналы сведенного сигнала, которые могут присутствовать или отсутствовать во входном сигнале. Для достижения наилучших результатов связанный сигнал должен содержать только те положения каналов, которые также присутствуют и в основном сигнале, если только связанный сигнал не является монофоническим (acmod 1), или, иначе, каналы связанного сигнала могут соответствующим образом отображаться в каналы основного сигнала. Аналогично, канал низкочастотных эффектов (LFE), только предпочтительно, должен присутствовать в связанном сигнале, если основной сигнал также содержит канал LFE. Иначе, канал LFE связанного сигнала в процессе микширования должен игнорироваться. Аналогично, если связанный сигнал представляет собой сигнал моно+LFE, LFE, предпочтительно, должен подвергаться микшированию с LFE основного звукового сигнала, а монофонический канал, предпочтительно, должен подвергаться панорамированию на основные каналы основного звукового сигнала.

Как правило, в процессе микширования предпочтительно, чтобы входные сигналы были нормализованными. Нормализация может применяться или перед определением или после определения преобладающего сигнала, поскольку результаты будут одинаковыми. На практике предпочтительно убедиться, что значение параметра dialnorm информационного содержимого входных сигналов задано правильно и как для основного, так и для связанного сигнала перед микшированием находится на диалоговом уровне 31. Соответственно, уровень преобладающего сигнала, который рассматривается как «сигнал в фокусе», в идеале должен выходить из микшера со значением dialnorm 31. Если входные сигналы не являются нормализованными, то нормализация, как правило, должна выполняться перед микшированием, хотя способы могут применяться и без нормализации, а нормализации при необходимости затем подвергается сведенный сигнал.

При микшировании многоканальных сигналов соотношения между scl[ch] в выходящем сигнале, предпочтительно, должны сохраняться. Однако если scl[ch] имеет значение больше, чем у всех остальных scl[ch] (переданных или нулевых по умолчанию), его следует модифицировать в направлении максимального значения для остальных scl[ch].

Следует отметить, что для сигналов Dolby Pulse метаданные микширования, как правило, включаются в поток Sub Audio, как указывается в Разделе "E.2" документа ETSI TS 101 154 V1.9.1 и в ETSI TS 102 366 V1.2.1, Annex E. (см. также DVB blue book A0001 r8). Независимо от того, каким образом метаданные передаются или упаковываются в сигнале потока, способы, описанные в настоящем документе, по-прежнему могут применяться до тех пор, пока метаданные доступны. Поэтому для обработки указанного случая описанные варианты осуществления и примеры могут потребовать адаптации.

Приведенный выше пример связанной дорожки, содержащей комментарии режиссера, является только одним из примеров. Описанные способы, однако, могут применяться для любого микширования основного и связанного сигналов независимо от содержащегося в сигналах информационного содержимого. Например, первый сигнал может содержать прямой эфир спортивной программы, где второй сигнал обеспечивает комментарий на местном языке и/или комментарий на другом языке. Существует множество возможностей для того, каким образом можно распространять эти сигналы. Например, первый сигнал может представлять собой общую звуковую дорожку без комментариев, а второй сигнал может представлять собой комментарий на местном языке.

Еще один случай использования способов, описываемых в настоящем документе, может относиться к отдельной дорожке для слабослышащих, где связанный сигнал содержит специальные усиления, предназначенные для улучшения понимания диалога. Сходным образом, в помощь слабовидящим зрителям связанный сигнал может содержать речевое разъяснение содержимого сцен.

Однако описанные в настоящем документе способы не ограничиваются единственно диалогом, но также могут применяться ко всем типам звуковых сигналов, таким как музыка, поскольку способы основываются на воспринимаемом уровне звука. Например, в отношении музыки, связанная дорожка может содержать голос или дополнительную наложенную инструментальную дорожку для музыки; иными словами, основная дорожка может представлять собой основную инструментальную дорожку со, скажем, фортепиано или акустической гитарой, первая связанная дорожка может содержать голосовое наложение, вторая связанная дорожка - рок-музыку с электро- и бас-гитарами, и третья дорожка - наложение техно с жестким быстрым басовым битом. В этом случае, автор информационного содержимого имеет возможность задавать желаемые характеристики микширования, определяющие то, каким образом должна микшироваться каждая связанная дорожка, и описанные в настоящем документе способы могли бы позволить слушателю модифицировать эти установки в соответствии с его требованиями путем регулировки входного сигнала баланса для микшируемых сигналов. В качестве другого примера, указанные способы также могут применяться к музыкальному сигналу, в котором разные каналы содержат различные музыкальные возможности, такие как инструменты типа струнных или ударные и вокал, где различные каналы микшируются при помощи метаданных и входного сигнала баланса микширования.

Способы, описанные в настоящем документе, полагаются на определение преобладающего сигнала в микшируемом сигнале. Поэтому сигнал, который определяется как являющийся преобладающим сигналом, получает высший полный коэффициент усиления. В дополнение к поддержанию постоянного воспринимаемого уровня звука сведенного сигнала путем использования устройства управления входным сигналом баланса микширования пользователь может управлять балансом микширования во все моменты времени. Кроме того, изменения коэффициента усиления также являются плавными во всем диапазоне.

Несмотря на то, что способы, описанные в настоящем документе, были проиллюстрированы на таких конкретных примерах, как микширование многоканальных сигналов, содержащих диалоговые дорожки, указанные способы не следует ограничивать этими примерами или вариантами осуществления изобретения, поскольку указанные способы могут в равной степени применяться в ситуациях, когда основной и связанный сигналы имеют очень разный состав, до тех пор, пока при определении преобладающего сигнала для сведенного сигнала могут быть использованы метаданные микширования и входной сигнал баланса микширования.

В настоящем документе описаны различные способы и схемы микширования звуковых сигналов. Используя эти способы и/или такие устройства, как микшеры сигналов, можно поддерживать совместимый воспринимаемый уровень звука для сведенного сигнала, при этом допуская регулировку баланса между основным и связанным сигналом. Способы могут выполняться без дискретизации или анализа входных сигналов или высокомощной обработки, поскольку вычисления могут легко выполняться в реальном времени с использованием метаданных, сопровождающих входные сигналы, посредством относительно простых и базовых электронных устройств.

Следует отметить, что описание и графические материалы иллюстрируют единственно принципы предложенных способов и систем. Поэтому следует принять во внимание, что специалисты в данной области будут способны разработать различные схемы, которые, хотя и не описываются в прямой форме в настоящем документе, осуществляют принципы предложенных способов и систем и рассматриваются как часть раскрытия настоящего документа. Кроме того, все утверждения в настоящем документе, перечисляющие принципы, особенности и варианты осуществления предложенных способов и устройств, а также их конкретные примеры, предполагаются как охватывающие их эквиваленты.

Кроме того, все примеры, перечисленные в настоящем документе, преимущественно и в прямой форме предназначаются только для педагогических целей, для того, чтобы помочь читателю в понимании принципов предложенных способов и устройств, а также концепций, внесенных авторами изобретения с целью развития данной области техники, и их следует толковать как имеющие место без ограничения указанными конкретно перечисленными примерами и условиями.

Кроме того, следует учитывать, что любые блок-схемы в настоящем документе представляют концептуальные представления иллюстративных устройств, осуществляющих принципы изобретения. Сходным образом, следует принять во внимание, что любые схемы последовательностей операций, диаграммы состояний, псевдокоды и т.п. представляют различные процессы, которые, по существу, могут быть представлены на машиночитаемом носителе и, таким образом, исполняться компьютером или процессором независимо от того, показан ли указанный компьютер или процессор в прямой форме.

Похожие патенты RU2526746C1

название год авторы номер документа
ГЕНЕРИРОВАНИЕ БИНАУРАЛЬНОГО ЗВУКОВОГО СИГНАЛА В ОТВЕТ НА МНОГОКАНАЛЬНЫЙ ЗВУКОВОЙ СИГНАЛ С ИСПОЛЬЗОВАНИЕМ ПО МЕНЬШЕЙ МЕРЕ ОДНОЙ СХЕМЫ ЗАДЕРЖКИ С ОБРАТНОЙ СВЯЗЬЮ 2014
  • Ень, Куань-Чиэф
  • Бребарт, Дирк Дж.
  • Дэвидсон, Грант А.
  • Уилсон, Ронда
  • Купер, Дэвид М.
  • Шуан, Чживэй
RU2747713C2
АУДИОКОДЕР И АУДИОДЕКОДЕР С МЕТАДАННЫМИ СВЕДЕНИЙ О ПРОГРАММЕ ИЛИ СТРУКТУРЫ ВЛОЖЕННЫХ ПОТОКОВ 2019
  • Ридмиллер, Джеффри
  • Вард, Майкл
RU2790571C2
ГЕНЕРИРОВАНИЕ БИНАУРАЛЬНОГО ЗВУКОВОГО СИГНАЛА В ОТВЕТ НА МНОГОКАНАЛЬНЫЙ ЗВУКОВОЙ СИГНАЛ С ИСПОЛЬЗОВАНИЕМ ПО МЕНЬШЕЙ МЕРЕ ОДНОЙ СХЕМЫ ЗАДЕРЖКИ С ОБРАТНОЙ СВЯЗЬЮ 2014
  • Ень Куань-Чиэф
  • Бребарт Дирк Дж.
  • Дэвидсон Грант А.
  • Уилсон Ронда
  • Купер Дэвид М.
  • Шуан Чживэй
RU2637990C1
АУДИОКОДЕР И АУДИОДЕКОДЕР С МЕТАДАННЫМИ СВЕДЕНИЙ О ПРОГРАММЕ ИЛИ СТРУКТУРЫ ВЛОЖЕННЫХ ПОТОКОВ 2014
  • Ридмиллер Джеффри
  • Вард Майкл
RU2619536C1
АУДИОКОДЕР И АУДИОДЕКОДЕР С МЕТАДАННЫМИ СВЕДЕНИЙ О ПРОГРАММЕ ИЛИ СТРУКТУРЫ ВЛОЖЕННЫХ ПОТОКОВ 2017
  • Ридмиллер, Джеффри
  • Вард, Майкл
RU2696465C2
ГИБРИДНОЕ УСИЛЕНИЕ РЕЧИ С КОДИРОВАНИЕМ ФОРМЫ СИГНАЛА И ПАРАМЕТРИЧЕСКИМ КОДИРОВАНИЕМ 2014
  • Коппенс, Йерун
  • Муеш, Ханнес
RU2639952C2
ПРЕДСТАВЛЕНИЕ ПРОСТРАНСТВЕННОГО ЗВУКА ПОСРЕДСТВОМ ЗВУКОВОГО СИГНАЛА И АССОЦИИРОВАННЫХ С НИМ МЕТАДАННЫХ 2019
  • Брун, Стефан
RU2809609C2
АУДИОКОДЕР И АУДИОДЕКОДЕР С МЕТАДАННЫМИ СВЕДЕНИЙ О ПРОГРАММЕ ИЛИ СТРУКТУРЫ ВЛОЖЕННЫХ ПОТОКОВ 2014
  • Ридмиллер, Джеффри
  • Вард, Майкл
RU2589370C1
АУДИОКОДЕР И АУДИОДЕКОДЕР С МЕТАДАННЫМИ СВЕДЕНИЙ О ПРОГРАММЕ ИЛИ СТРУКТУРЫ ВЛОЖЕННЫХ ПОТОКОВ 2014
  • Ридмиллер Джеффри
  • Вард Майкл
RU2624099C1
ЗВУКОВОЙ КОДЕР И ЗВУКОВОЙ ДЕКОДЕР 2019
  • Фридрих, Тобиас
  • Пурнхаген, Хейко
  • Горлов, Станислав
  • Мерпиллат, Селин
RU2795865C2

Иллюстрации к изобретению RU 2 526 746 C1

Реферат патента 2014 года МИКШИРОВАНИЕ АУДИОПОТОКА С НОРМАЛИЗАЦИЕЙ ДИАЛОГОВОГО УРОВНЯ

Изобретение относится к средствам микширования звуковых сигналов. Технический результат заключается в создании возможности регулирования пользователем микширования входных звуковых сигналов. Принимают основной входной звуковой сигнал. Принимают связанный входной звуковой сигнал. Соединяют связанный входной звуковой сигнал с основным входным звуковым сигналом. Принимают метаданные микширования, которые содержат информацию масштабирования, предназначенную для масштабирования основного входного звукового сигнала и которые определяют каким образом должны быть микшированы основной входной звуковой сигнал и связанный входной звуковой сигнал, для того чтобы генерировать сведенный звуковой сигнал на воспринимаемом уровне звука. Принимают входной сигнал баланса микширования, который указывает регулируемый баланс между основным входным звуковым сигналом и связанным входным звуковым сигналом. Идентифицируют преобладающий сигнал или как основной входной звуковой сигнал, или как связанный входной звуковой сигнал из информации масштабирования, предоставляемой метаданными микширования, и из входного сигнала баланса микширования, где соответствующий второй входной сигнал тогда идентифицируют как непреобладающий сигнал; и где преобладающий сигнал идентифицируют посредством сравнения входного сигнала баланса микширования с масштабным коэффициентом метаданных для основного входного звукового сигнала. Масштабируют непреобладающий сигнал относительно преобладающего сигнала. Объединяют масштабированный непреобладающий сигнал с преобладающим сигналом для выработки сведенного звукового сигнала. 5 н.з. и 33 з.п. ф-лы, 12 ил., 1 табл.

Формула изобретения RU 2 526 746 C1

1. Способ микширования двух входных звуковых сигналов в единый, сведенный звуковой сигнал с поддержанием воспринимаемого уровня звука сведенного звукового сигнала, при этом способ включает этапы, на которых:
принимают основной входной звуковой сигнал;
принимают связанный входной звуковой сигнал; причем связанный входной звуковой сигнал соединяют с основным входным звуковым сигналом;
принимают метаданные микширования, которые содержат информацию масштабирования, предназначенную для масштабирования основного входного звукового сигнала, и которые определяют каким образом должны быть микшированы основной входной звуковой сигнал и связанный входной звуковой сигнал, для того чтобы генерировать сведенный звуковой сигнал на воспринимаемом уровне звука; причем информация масштабирования из метаданных микширования содержит масштабный коэффициент метаданных для основного входного звукового сигнала, для масштабирования основного входного звукового сигнала относительно связанного входного звукового сигнала;
принимают входной сигнал баланса микширования, который указывает регулируемый баланс между основным входным звуковым сигналом и связанным входным звуковым сигналом, причем входной сигнал баланса микширования содержит информацию масштабирования, которая позволяет отклонение от взвешивания основного входного звукового сигнала и связанного входного звукового сигнала в сведенном звуковом сигнале, как определено в метаданных микширования;
идентифицируют преобладающий сигнал или как основной входной звуковой сигнал, или как связанный входной звуковой сигнал из информации масштабирования, предоставляемой метаданными микширования, и из входного сигнала баланса микширования, где соответствующий второй входной сигнал тогда идентифицируют как непреобладающий сигнал; и где преобладающий сигнал идентифицируют посредством сравнения входного сигнала баланса микширования с масштабным коэффициентом метаданных для основного входного звукового сигнала;
масштабируют непреобладающий сигнал относительно преобладающего сигнала; и
объединяют масштабированный непреобладающий сигнал с преобладающим сигналом для выработки сведенного звукового сигнала.

2. Способ по п.1, отличающийся тем, что дополнительно включает этап, на котором:
определяют масштабный коэффициент, предназначенный для масштабирования непреобладающего сигнала, на основе информации масштабирования из метаданных микширования и входного сигнала баланса микширования;
где определенный масштабный коэффициент используют для масштабирования непреобладающего сигнала.

3. Способ по пп.1-2, отличающийся тем, что
если значение входного сигнала баланса микширования больше, чем масштабный коэффициент метаданных для основного входного звукового сигнала из метаданных микширования,
то связанный входной звуковой сигнал определяют как являющийся преобладающим сигналом;
иначе - основной входной звуковой сигнал определяют как являющийся преобладающим сигналом.

4. Способ по п.1, отличающийся тем, что связанный входной звуковой сигнал идентифицируют как являющийся преобладающим сигналом, где способ дополнительно включает этап, на котором:
вычисляют масштабный коэффициент для основного входного звукового сигнала как масштабный коэффициент метаданных для основного входного звукового сигнала из метаданных микширования минус значение входного сигнала баланса микширования.

5. Способ по п.1, отличающийся тем, что основной входной звуковой сигнал идентифицируют как являющийся преобладающим сигналом, где способ дополнительно включает этап, на котором:
вычисляют масштабный коэффициент для связанного входного звукового сигнала как значение входного сигнала баланса микширования минус масштабный коэффициент метаданных из метаданных микширования для основного входного звукового сигнала.

6. Способ по п.1, отличающийся тем, что метаданные микширования содержатся в связанном входном звуковом сигнале.

7. Способ по п.1, отличающийся тем, что основной входной звуковой сигнал содержит несколько звуковых каналов.

8. Способ по п.7, отличающийся тем, что метаданные микширования дополнительно включают:
первичный масштабный коэффициент метаданных для основного входного звукового сигнала относительно связанного входного звукового сигнала; и
один или несколько масштабных коэффициентов метаданных для различных каналов основного входного звукового сигнала относительно связанного входного звукового сигнала.

9. Способ по п.1, отличающийся тем, что масштабный коэффициент включает значения в дБ.

10. Способ по любому из пп.8-9, отличающийся тем, что преобладающий сигнал идентифицируют путем сравнения значения входного сигнала баланса микширования с первичным и канальным масштабными коэффициентами метаданных для основного входного звукового сигнала, и
если значение входного сигнала баланса микширования больше, чем сумма первичного масштабного коэффициента метаданных для основного входного звукового сигнала плюс максимальный среди всех канальных масштабных коэффициентов метаданных для всех каналов основного входного звукового сигнала,
то связанный входной звуковой сигнал определяют как являющийся преобладающим сигналом;
иначе - основной входной звуковой сигнал определяют как являющийся преобладающим сигналом.

11. Способ по п.10, отличающийся тем, что связанный входной звуковой сигнал идентифицируют как являющийся преобладающим сигналом, при этом способ дополнительно включает этап, на котором:
вычисляют канальный масштабный коэффициент для каждого канала основного входного звукового сигнала, причем канальный масштабный коэффициент для канала является первичным масштабным коэффициентом метаданных для основного входного звукового сигнала плюс канальный масштабный коэффициент метаданных для соответствующего канала основного входного звукового сигнала минус значение входного сигнала баланса микширования.

12. Способ по п.10, отличающийся тем, что основной входной звуковой сигнал идентифицируют как являющийся преобладающим сигналом, при этом способ дополнительно включает этапы, на которых:
определяют масштабный коэффициент для связанного входного звукового сигнала, вычисляемый как значение входного сигнала баланса микширования минус сумма первичного масштабного коэффициента метаданных для основного входного звукового сигнала и максимального среди всех канальных масштабных коэффициентов метаданных для всех каналов основного входного звукового сигнала; и
определяют масштабный коэффициент для каждого канала основного входного звукового сигнала, вычисляемый как первичный масштабный коэффициент для основного входного звукового сигнала плюс канальный масштабный коэффициент для соответствующего канала основного входного звукового сигнала минус сумма первичного масштабного коэффициента метаданных и максимального среди всех канальных масштабных коэффициентов для каналов основного входного звукового сигнала.

13. Способ по п.10, отличающийся тем, что масштабные коэффициенты метаданных, предназначенные для определения преобладающего сигнала, дополнительно включают масштабный коэффициент для связанного входного звукового сигнала, который могут использовать в качестве регулировки, где масштабный коэффициент для связанного входного звукового вычитают из масштабного коэффициента метаданных для основного входного звукового сигнала для определения преобладающего сигнала.

14. Способ по п.1, отличающийся тем, что воспринимаемый уровень звука основан на средневзвешенном уровне основного входного звукового сигнала и связанного входного звукового сигнала.

15. Способ по п.1, отличающийся тем, что воспринимаемый уровень звука основан на диалоговом уровне основного входного звукового сигнала и связанного входного звукового сигнала.

16. Способ по п.15, отличающийся тем, что диалоговый уровень измеряют как значение параметра dialnorm.

17. Способ по п.1, отличающийся тем, что основной входной звуковой сигнал и связанный входной звуковой сигнал кодируют как сигналы Dolby Digital Plus "DD+" или Dolby Pulse.

18. Способ по п.1, отличающийся тем, что основной входной звуковой сигнал и связанный входной звуковой сигнал кодируют как звуковые сигналы E-AC-3, MPEG-4 HE-AAC, aacPlus, AC-3, MPEG-1 Layer 2, MPEG-4 AAC или любые производные от MPEG-4.

19. Способ по п.17 или 18, отличающийся тем, что метаданные микширования включают метаданные микширования согласно ETSI TS 102 366 V1.2.1 Ch. E.1.2.2 для микширования сигналов DD+.

20. Способ по п.19, отличающийся тем, что метаданные микширования включают масштабные коэффициенты для нескольких звуковых каналов: extpgmscl, extpgmlscl, extpgmrscl, extpgmcscl, extpgmlsscl, extpgmrsscl, extpgmlfescl, соответствующие первичному масштабному коэффициенту и масштабным коэффициентам для левого канала, правого канала, центрального канала, левого окружающего канала, правого окружающего канала, канала низкочастотных эффектов, названного «LFE»; и причем метаданные микширования, необязательно, дополнительно включают величину panmean.

21. Способ по п.20, отличающийся тем, что основной входной звуковой сигнал дополнительно включает канал низкочастотных эффектов, названный «LFE», и канальный масштабный коэффициент для канала LFE вычисляют как минимальный канальный масштабный коэффициент для канала LFE и максимальный масштабный коэффициент метаданных для остальных каналов основного входного звукового сигнала.

22. Способ по п.17 или 18, отличающийся тем, что метаданные микширования включают метаданные микширования согласно ETSI TS 101 154 V1.9.1 Annex E2 для микширования входных звуковых сигналов.

23. Способ по п.22, отличающийся тем, что метаданные микширования включают масштабные коэффициенты для нескольких звуковых каналов: AD_fade_byte, AD_gain_byte_center, AD_gain_byte_front, AD_gain_byte_surround или AD_pan_byte, соответствующие первичному масштабному коэффициенту и канальным масштабным коэффициентам для центрального канала, одного или более фронтальных каналов, одного или более окружающих каналов и панорамирования.

24. Способ по п.10, отличающийся тем, что основной входной звуковой сигнал включает канал низкочастотных эффектов, названный «LFE», и причем канал LFE исключают из максимального среди всех канальных масштабных коэффициентов метаданных для всех каналов основного входного звукового сигнала так, что:
если значение входного сигнала баланса микширования больше, чем сумма первичного масштабного коэффициента метаданных для основного входного звукового сигнала плюс максимальный среди всех канальных масштабных коэффициентов метаданных для всех каналов основного входного звукового сигнала, за исключением канала LFE,
то связанный входной звуковой сигнал определяют как являющийся преобладающим сигналом;
иначе - основной входной звуковой сигнал определяют как являющийся преобладающим сигналом.

25. Способ по п.12, отличающийся тем, что основной входной звуковой сигнал включает канал низкочастотных эффектов, названный «LFE», и причем канал LFE исключают из максимального среди всех масштабных коэффициентов метаданных для всех каналов основного входного звукового сигнала так, что основной входной звуковой сигнал идентифицируют как являющийся преобладающим сигналом путем:
определения масштабного коэффициента для связанного входного звукового сигнала, вычисляемого как значение входного сигнала баланса микширования минус сумма первичного масштабного коэффициента метаданных для основного входного звукового сигнала и максимального среди всех канальных масштабных коэффициентов метаданных для всех каналов основного входного звукового сигнала за исключением канала LFE; и
определения масштабного коэффициента для каждого канала основного входного звукового сигнала, вычисляемого как первичный масштабный коэффициент для основного входного звукового сигнала плюс масштабный коэффициент для соответствующего канала основного входного звукового сигнала минус сумма первичного масштабного коэффициента метаданных и максимального среди всех канальных масштабных коэффициентов для каналов основного входного звукового сигнала за исключением канала низкочастотных LFE.

26. Способ по п.8, отличающийся тем, что метаданные микширования для связанного входного звукового сигнала дополнительно включают информацию метаданных панорамирования, связанный входной звуковой сигнал включает монофонический сигнал, и основной входной звуковой сигнал включает стереофонический или многоканальный сигнал,
где связанный входной звуковой сигнал микшируют с каналами основного входного звукового сигнала в соответствии с информацией метаданных панорамирования.

27. Способ по п.1, отличающийся тем, что входной сигнал баланса микширования включает внешний входной сигнал от пользователя, обеспечивающий значение в интервале от отрицательных значений до положительных значений.

28. Способ по п.7, отличающийся тем, что ряд каналов основного входного звукового сигнала и ряд каналов связанного входного звукового сигнала включают окружающие сигналы с левым, правым, центральным, левым окружающим, правым окружающим каналами и каналом низкочастотных эффектов, названным «LFE».

29. Способ по п.28, отличающийся тем, что ряд каналов основного входного звукового сигнала и связанного входного звукового сигнала включает многоканальные сигналы 5.1, 3.1 или 13.1.

30. Способ по п.21, отличающийся тем, что связанный входной звуковой сигнал включает монофонический канал и канал LFE, где канал LFE связанного входного звукового сигнала микшируют с каналом LFE основного входного звукового сигнала, и монофонический канал связанного входного звукового сигнала панорамируют на каналы основного входного звукового сигнала в соответствии с информацией метаданных панорамирования.

31. Устройство, предназначенное для микширования сигналов, которое применяет любой из способов микширования сигналов по пп.1-30.

32. Декодер, который применяет любой из способов микширования сигналов по пп.1-30 для декодирования двух входных звуковых сигналов в единый, сведенный звуковой сигнал с поддержанием согласованного воспринимаемого уровня звука.

33. Читаемый процессором носитель данных, в памяти которого хранятся машиночитаемые команды, предназначенные для исполнения способа по одному из пп.1-30.

34. Устройство для микширования входных звуковых сигналов в единый, сведенный звуковой сигнал с поддержанием воспринимаемого уровня звука сведенного звукового сигнала, при этом устройство содержит:
приемник для приема основного входного звукового сигнала, связанного входного звукового сигнала и метаданных микширования; причем связанный входной звуковой сигнал связан с основным входным звуковым сигналом, причем метаданные микширования содержат информацию масштабирования для масштабирования основного входного звукового сигнала; причем информация масштабирования определяет, каким образом должны быть микшированы основной входной звуковой сигнал и связанный входной звуковой сигнал, для генерации сведенного звукового сигнала на воспринимаемом уровне звука; причем информация масштабирования из метаданных микширования включает масштабный коэффициент метаданных для основного входного звукового сигнала, для масштабирования основного входного звукового сигнала относительно связанного входного звукового сигнала;
входной сигнал баланса микширования, который указывает регулируемый баланс между основным и связанным входными звуковыми сигналами; причем входной сигнал баланса микширования включает информацию масштабирования, которая позволяет отклонение от взвешивания основного входного звукового сигнала и связанного входного звукового сигнала в сведенном звуковом сигнале, как определено в метаданных микширования; и
модуль микширования, сконфигурированный для идентификации преобладающего сигнала или как основного входного звукового сигнала или как связанного входного звукового сигнала из информации масштабирования, обеспеченной метаданными микширования и из входного сигнала баланса микширования, причем тогда соответствующий второй входной звуковой сигнал идентифицирован как непреобладающий сигнал; и причем преобладающий сигнал идентифицирован посредством сравнения входного сигнала баланса микширования с масштабным коэффициентом метаданных для основного входного звукового сигнала;
отличающееся тем, что модуль микширования дополнительно сконфигурирован для масштабирования непреобладающего сигнала относительно преобладающего сигнала; и для объединения масштабированного непреобладающего сигнала с преобладающим сигналом для выработки сведенного звукового сигнала.

35. Устройство по п.34, отличающееся тем, что масштабный коэффициент для непреобладающего сигнала определяется, исходя непосредственно из информации масштабирования из метаданных микширования и из входного сигнала баланса микширования;
непреобладающий сигнал подвергается масштабированию с использованием определяемого масштабного коэффициента; и
масштабированный непреобладающий сигнал объединяется с преобладающим сигналом в сведенный сигнал.

36. Устройство по п.34 или 35, отличающееся тем, что метаданные микширования интегрированы в связанный входной звуковой сигнал.

37. Устройство по п.34, отличающееся тем, что входной сигнал баланса микширования дополнительно включает внешний входной сигнал от пользователя, обеспечивающий значение в интервале от отрицательных значений до положительных значений.

38. Устройство по п.34, отличающееся тем, что приемник дополнительно сконфигурирован для приема многоканальных основных входных звуковых сигналов и связанных входных звуковых сигналов, и модуль микширования сконфигурирован для микширования многоканальных основных входных звуковых сигналов и связанных входных звуковых сигналов.

Документы, цитированные в отчете о поиске Патент 2014 года RU2526746C1

US 2009245539 A1, 01.10.2009
US 2010014692 A1, 21.01.2010
US 6985594 B1, 10.01.2006
US 2004008851 A1, 15.01.2004
RU 2007108494 A (БОНДЖОВИ ЭНТОНИ), 01.08.2005
RU 2008114497 A, 15.09.2006

RU 2 526 746 C1

Авторы

Грешель Александер

Уильямс Филип А

Купер Джарет А

Шильдбах Вольфганг А

Даты

2014-08-27Публикация

2011-09-06Подача