Показать метаданные Скрыть метаданные

(19)

(11)

2 648 632

(13)

(51)

МПК

G10L25/03(2013-01-01)

G10L19/08(2013-01-01)

H03M7/30(2006-01-01)

(21) (22)

Заявка

2016131192, 2014-01-13

(24)

Дата начала отсчета патента

2014-01-13

(22)

дата подачи заявки

2014-01-13

(45)

опубликовано

2018-03-26

(72)

авторы

Василаке АдрианаЛааксонен Лассе ЮханиРамо Ансси Сакари

(73)

патентообладатели

Нокиа Текнолоджиз Ой

(56)

Документы, цитированные в отчете о поиске

US 7283957 B2, 16.10.2007US 8054981 B2, 08.11.2011

Классификатор многоканального звукового сигнала Российский патент 2018 года по МПК G10L25/03 G10L19/08 H03M7/30

Описание патента на изобретение RU2648632C2

ОБЛАСТЬ ТЕХНИКИ

Настоящая заявка относится к классификации многоканального или стереофонического звукового сигнала для кодера звукового сигнала и, в частности, но не исключительно, к кодеру многоканального или стереофонического звукового сигнала, предназначенного для использования в портативном устройстве.

УРОВЕНЬ ТЕХНИКИ

Звуковые сигналы, такие как речь или музыка, кодируются, например, для обеспечения возможности эффективной передачи или хранения звуковых сигналов.

Кодеры и декодеры звуковых сигналов (также называемые кодеками) используются для представления сигналов, основанных на звуковых колебаниях, таких как музыка и звуковое сопровождение (которое в терминах кодирования речи может называться фоновым шумом).

Кодек звукового сигнала также может быть сконфигурирован для работы с различными битовыми скоростями. На низких битовых скоростях такой кодек звукового сигнала может быть оптимизирован для работы с речевыми сигналами на скорости кодирования, эквивалентной скорости кодека, ориентированного исключительно на обработку речевого сигнала. На более высоких битовых скоростях кодек звукового сигнала может эффективно и с высоким качеством выполнять кодирование любого сигнала, включая музыку, фоновый шум и речь. Кодек звукового сигнала с переменной скоростью также может реализовывать встроенную масштабируемую структуру кодирования и битовый поток, в котором дополнительные биты (конкретное количество битов, часто называемых уровнем) улучшают кодирование на более низких скоростях, причем битовый поток с более высокой скоростью может урезаться для получения битового потока с более низкой скоростью кодирования. Такой кодек звукового сигнала в качестве базового уровня или кодирования с наименьшей битовой скоростью может использовать схему кодека, разработанную исключительно для речевых сигналов.

Кодек звукового сигнала разрабатывается для поддержки высокого (воспринимаемого) качества и одновременного улучшения коэффициента сжатия. Таким образом, кодек звукового сигнала обычно использует многорежимный подход для кодирования входного звукового сигнала, при этом конкретный режим кодирования выбирается в соответствии с конфигурацией каналов входного звукового сигнала.

Кодек звукового сигнала может быть сконфигурирован для работы с входным многоканальным звуковым сигналом, и, в частности, с двухканальным звуковым сигналом. Одна из таких двухканальных конфигураций может представлять собой стереофонический звуковой сигнал, включающий два одинаковых звуковых сигнала, разнесенных по фазе и обладающих различным уровнем звукового давления. Эти различия могут характеризовать стереофонический сигнал, поступающий на два всенаправленных микрофона, размещенных на приемлемом расстоянии друг от друга. К другой двухканальной конфигурации может относиться бинауральный сигнал, который отличается от стереофонического сигнала тем, что принимается двумя всенаправленными микрофонами, размещенными на относительно малом расстоянии друг от друга. Обычно расстояние, на котором принимается бинауральный сигнал, составляет порядка нескольких сантиметров, что соизмеримо с расстоянием между правым и левым ухом типичной головы человека.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Настоящее изобретение предлагает способ, включающий: оценку значения энтропии для многоканального звукового сигнала; определение конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и кодирование многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала.

Многоканальный звуковой сигнал включает по меньшей мере звуковой сигнал первого канала и звуковой сигнал второго канала, при этом оценка значения энтропии для многоканального звукового сигнала может включать: преобразование как звукового сигнала первого канала, так и звукового сигнала второго канала в звуковой сигнал в частотной области, содержащий множество частотных полос; определение относительного уровня звукового сигнала путем определения уровня звукового сигнала в полосе частот звукового сигнала первого канала относительно уровня звукового сигнала в полосе частот звукового сигнала второго канала; и определение значения энтропии на основе относительного уровня звукового сигнала.

Определение конфигурации каналов многоканального звукового сигнала может включать: сравнение значения энтропии с пороговым значением; классификацию конфигурации канала как первого типа конфигурации канала, когда значение энтропии не превышает порогового значения или равно пороговому значению; и классификацию конфигурации канала как второго типа конфигурации канала, когда значение энтропии превышает пороговое значение.

Определение значения энтропии на основе относительного уровня звукового сигнала может включать определение вероятности относительного уровня звукового сигнала путем определения гистограммы множества относительных уровней звуковых сигналов в звуковом кадре многоканального звукового сигнала.

В альтернативном варианте определение значения энтропии на основе относительного уровня звукового сигнала может включать оценку среднего количества значений относительного уровня звукового сигнала между появлением двух одинаковых значений относительного уровня звукового сигнала путем последовательного наблюдения за последовательностью значений относительного уровня звукового сигнала в звуковом кадре многоканального звукового сигнала.

Многоканальный звуковой сигнал может включать двухканальный звуковой сигнал, при этом первый тип конфигурации канала может представлять собой бинауральный звуковой канал, а второй тип конфигурации канала - стереофонический звуковой канал.

Уровень звукового сигнала может включать амплитуду звукового сигнала в частотной полосе.

Относительный уровень звукового сигнала может представлять собой интерауральное различие в уровнях.

В соответствии со вторым аспектом предлагается устройство, сконфигурированное для: оценки значения энтропии для многоканального звукового сигнала; определения конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и кодирования многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала.

Многоканальный звуковой сигнал может включать по меньшей мере звуковой сигнал первого канала и звуковой сигнал второго канала, при этом устройство, сконфигурированное для оценки значения энтропии для многоканального звукового сигнала, может быть также сконфигурировано для: преобразования как звукового сигнала первого канала, так и звукового сигнала второго канала в звуковой сигнал в частотной области, содержащий множество частотных полос; определения относительного уровня звукового сигнала посредством устройства, сконфигурированного для определения уровня звукового сигнала в полосе частот звукового сигнала первого канала относительно уровня звукового сигнала в полосе частот звукового сигнала второго канала; и определения значения энтропии на основе относительного уровня звукового сигнала.

Устройство, сконфигурированное для определения конфигурации каналов многоканального звукового сигнала, может быть также сконфигурировано для: сравнения значения энтропии с пороговым значением; классификации конфигурации канала как первого типа конфигурации канала, когда значение энтропии не превышает порогового значения или равно пороговому значению; и классификации конфигурации канала как второго типа конфигурации канала, когда значение энтропии превышает пороговое значение.

Устройство, сконфигурированное для определения значения энтропии на основе относительного уровня звукового сигнала, может быть также сконфигурировано для определения вероятности относительного уровня звукового сигнала путем конфигурирования для определения гистограммы множества относительных уровней звукового сигнала в звуковом кадре многоканального звукового сигнала.

В альтернативном варианте устройство, сконфигурированное для определения энтропии на основе относительного уровня звукового сигнала, может быть также сконфигурировано для оценки среднего количества значений относительного уровня звукового сигнала между появлением двух одинаковых значений относительного уровня звукового сигнала путем последовательного наблюдения за последовательностью значений относительного уровня звукового сигнала в звуковом кадре многоканального звукового сигнала.

Уровень звукового сигнала может включать амплитуду звукового сигнала в частотной полосе.

Относительный уровень звукового сигнала может представлять собой интерауральное различие в уровнях.

В соответствии с третьим аспектом предлагается устройство, содержащее по меньшей мере один процессор и по меньшей мере одну память, содержащую код компьютерной программы, при этом по меньшей мере одна память и код компьютерной программы сконфигурированы таким образом, чтобы при взаимодействии по меньшей мере с одним процессором устройство выполняло по меньшей мере следующие операции: оценка значения энтропии для многоканального звукового сигнала; определение конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и кодирование многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала.

Многоканальный звуковой сигнал может включать по меньшей мере звуковой сигнал первого канала и звуковой сигнал второго канала, при этом устройство, выполняющее оценку значения энтропии для многоканального звукового сигнала, также может выполнять: преобразование как звукового сигнала первого канала, так и звукового сигнала второго канала в звуковой сигнал в частотной области, содержащий множество частотных полос; определение относительного уровня звукового сигнала посредством устройства, выполняющего определение уровня звукового сигнала в полосе частот звукового сигнала первого канала относительно уровня звукового сигнала в полосе частот звукового сигнала второго канала; и определение значения энтропии на основе относительного уровня звукового сигнала.

Устройство, выполняющее определение конфигурации каналов многоканального звукового сигнала, также может выполнять: сравнение значения энтропии с пороговым значением; классификацию конфигурации канала как первого типа конфигурации канала, когда значение энтропии не превышает порогового значения или равно пороговому значению; и классификацию конфигурации канала как второго типа конфигурации канала, когда значение энтропии превышает пороговое значение.

Устройство, выполняющее определение значения энтропии на основе относительного уровня звукового сигнала, также может выполнять определение вероятности относительного уровня звукового сигнала путем определения гистограммы множества относительных уровней звукового сигнала в звуковом кадре многоканального звукового сигнала.

В альтернативном варианте устройство, выполняющее определение значения энтропии на основе относительного уровня звукового сигнала, также может выполнять оценку среднего количества значений относительного уровня звукового сигнала между появлением двух одинаковых значений относительного уровня звукового сигнала путем последовательного наблюдения за последовательностью значений относительного уровня звукового сигнала в звуковом кадре многоканального звукового сигнала.

Уровень звукового сигнала может включать амплитуду звукового сигнала в частотной полосе.

Относительный уровень звукового сигнала может представлять собой интерауральное различие в уровнях.

В соответствии с четвертым аспектом предлагается компьютерный программный код, который при выполнении процессором реализует следующие операции: оценку значения энтропии для многоканального звукового сигнала; определение конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и кодирование многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала.

Электронный прибор может включать описанное выше устройство.

Чипсет может включать описанное выше устройство.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Для лучшего понимания сути настоящего изобретения и способа осуществления настоящего изобретения далее в примерах приводятся ссылки на прилагаемые чертежи, на которых:

на фиг. 1 схематично показан электронный прибор, в котором используются некоторые варианты осуществления настоящего изобретения;

на фиг. 2 схематично показана система кодека звукового сигнала в соответствии с некоторыми вариантами осуществления настоящего изобретения;

на фиг. 3 схематично показан кодер, изображенный на фиг. 2, в соответствии с некоторыми вариантами осуществления настоящего изобретения;

на фиг. 4 схематично и более подробно показан классификатор звуковых сигналов, изображенный на фиг. 3, в соответствии с некоторыми вариантами осуществления настоящего изобретения;

на фиг. 5 показан алгоритм работы кодера, показанного на фиг. 3, в соответствии с некоторыми вариантами осуществления настоящего изобретения; и

на фиг. 6 показан алгоритм работы классификатора звуковых сигналов, показанного на фиг. 4, в соответствии с некоторыми вариантами осуществления настоящего изобретения.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Ниже более подробно описываются возможные кодеки стереофонического и многоканального речевого и звукового сигналов, включая многорежимные кодеки звуковых сигналов.

Некоторые многорежимные кодеки звуковых сигналов могут конфигурироваться для кодирования стереофонических звуковых сигналов способом, отличающимся от кодирования бинауральных звуковых сигналов, и без предварительных сведений о представлении двух типов многоканального звукового сигнала кодек не способен предварительно выбрать наилучший режим кодирования. Вследствие этого может возникнуть проблема, связанная с тем, что кодек звукового сигнала, кодирующий входной звуковой сигнал, поступающий по двум каналам (или двухканальный звуковой сигнал), как в стереофоническом, так и в бинауральном режиме работы, не может обеспечить наилучший режим кодирования входного многоканального звукового сигнала.

Эта проблема, в еще большей степени может проявляться, если часто происходит переключение входного звукового сигнала между стереофоническим и бинауральный звучанием, в результате чего кодеку требуется постоянно выполнять кодирование в двух режимах работы, для того чтобы обеспечить оптимальный режим кодирования входного звукового сигнала.

Описываемая концепция вариантов осуществления настоящего изобретения может исходить из того аспекта, что некоторые признаки бинаурального и стереофонического сигналов могут различаться вследствие различия в физическом разнесении микрофонов при приеме соответствующих сигналов. Эти признаки могут использоваться для того, чтобы отличить один сигнал от другого. Это позволяет многорежимному кодеру звукового сигнала вводить этап предварительной классификации, на котором конкретный входной звуковой сигнал вначале может быть идентифицирован для выбора наилучшего режима кодирования перед началом кодирования входного звукового сигнала.

В этом отношении, вначале со ссылкой на фиг. 1 рассматривается блок-схема типового электронного прибора или устройства 10, которое может включать кодек, соответствующий варианту осуществления изобретения, представленного в настоящем изобретении.

Устройство 10 может, например, представлять собой мобильный терминал или пользовательское оборудование системы беспроводной связи. В других вариантах осуществления устройство 10 может представлять собой аудио-видео оборудование, такое как видеокамера, телевизионный (TV) приемник, устройство звукозаписи или воспроизведения звуковых сигналов, например устройство записи/воспроизведения файлов формата mp3, устройство записи мультимедийных файлов (также известное как устройство записи/воспроизведения файлов формата mp4) или любой компьютер, подходящий для обработки звуковых сигналов.

Электронный прибор или устройство 10 в некоторых вариантах осуществления содержит микрофон 11, который через аналого-цифровой преобразователь (ADC, Analogue-to-Digital Converter) 14 соединяется с процессором 21. Процессор 21 далее, через цифро-аналоговый преобразователь (DAC, Digital-to-Analogue Converter) 32 соединяется с громкоговорителем 33. Процессор 21 также соединяется с приемопередатчиком (RX/TX) 13, пользовательским интерфейсом (UI, User Interface) 15 и памятью 22.

Процессор 21 в некоторых вариантах осуществления может быть сконфигурирован для выполнения различных программных кодов. Реализуемые программные коды в некоторых вариантах осуществления, как описывается ниже, могут содержать коды для кодирования или декодирования многоканального или стереофонического звукового сигнала. Реализуемые программные коды 23 могут в некоторых вариантах осуществления храниться, например, в памяти 22, из которой они при необходимости считываются процессором 21. В памяти 22 также может быть отведен раздел 24 для хранения данных, например данных, закодированных в соответствии с вариантами осуществления настоящего изобретения.

Код для кодирования и декодирования в вариантах осуществления настоящего изобретения может быть реализован аппаратным и/или микропрограммным способом.

Пользовательский интерфейс 15 позволяет пользователю вводить команды, управляющие устройством 10, например, с помощью клавиатуры, и/или получать информацию от устройства 10, например, на дисплее. В некоторых вариантах осуществления функции ввода и вывода пользовательского интерфейса может выполнять сенсорный экран. Устройство 10 в некоторых вариантах осуществления содержит приемопередатчик 13, позволяющий осуществлять связь с другим устройством, например, через сеть беспроводной связи.

Следует понимать, что структура устройства 10 может быть дополнена или изменена различными способами.

Пользователь устройства 10, например, может применять микрофон 11, используемый для ввода речевого или других звуковых сигналов, которые должны передаваться в некоторое другое устройство или сохраняться в разделе 24 данных памяти 22. Для этого в некоторых вариантах осуществления изобретения пользователь через пользовательский интерфейс 15 может активировать соответствующее приложение. Это приложение, которое может запускаться процессором 21, в этих вариантах осуществления инициирует выполнение процессором 21 закодированного кода, хранящегося в памяти 22.

Аналого-цифровой преобразователь (ADC) 14 в некоторых вариантах осуществления преобразует входной аналоговый звуковой сигнал в цифровой звуковой сигнал и подает этот сигнал в процессор 21. В некоторых вариантах осуществления микрофон 11 может содержать интегрированный микрофон и функциональный блок ADC и подавать цифровые звуковые сигналы для обработки непосредственно в процессор.

Процессор 21 в таких вариантах осуществления затем обрабатывает цифровой звуковой сигнал таким же образом, как описывается со ссылкой на систему, показанную на фиг. 2, и кодер, показанный на фиг. 3.

Результирующий битовой поток может в некоторых вариантах осуществления подаваться в приемопередатчик 13 для передачи в другое устройство. В альтернативном варианте закодированные данные звукового сигнала в некоторых вариантах осуществления могут сохраняться в разделе 24 данных памяти 22, например, для последующей передачи или последующего представления тем же устройством 10.

Устройство 10 в некоторых вариантах осуществления также может через приемопередатчик 13 принимать от другого устройства битовый поток, содержащий соответствующим образом закодированные данные. В этом примере процессор 21 может выполнять программный код для декодирования, хранимый в памяти 22. Процессор 21 в таких вариантах осуществления декодирует принятые данные и подает декодированные данные в цифро-аналоговый преобразователь 32. Цифро-аналоговый преобразователь 32 преобразует цифровые декодированные данные в аналоговый звуковой сигнал и в некоторых вариантах осуществления может выводить аналоговый звуковой сигнал через громкоговорители 33. В некоторых вариантах осуществления выполнение программного кода декодирования также может активироваться приложением, запускаемым пользователем через пользовательский интерфейс 15.

Кроме того, принятые закодированные данные в некоторых вариантах осуществления могут не сразу выводиться через громкоговорители 33, а сохраняться в разделе 24 данных памяти 22, например, для последующего декодирования и воспроизведения или для декодирования и пересылки в другое устройство.

Следует принимать во внимание, что схематические структуры, описываемые со ссылкой на фиг. 1-4, и шаги способа, описываемые со ссылкой на фиг. 5 и 6, представляют только часть операций, выполняемых кодеком звукового сигнала, а конкретно - ту часть устройства или способа кодирования стереофонического сигнала, показанную в качестве примера реализации в устройстве, изображенном на фиг. 1.

Основные операции, выполняемые кодеками звуковых сигналов согласно вариантам осуществления настоящего изобретения, показаны на фиг. 2. Основные системы кодирования/декодирования звукового сигнала содержат как кодер, так и декодер, как схематично показано на фиг. 2. Однако следует принимать во внимание, что согласно некоторым вариантам осуществления в системе может быть реализован либо только кодер, либо только декодер, либо как кодер, так и декодер. Показанная на фиг. 2 система 102 содержит кодер 104, в частности, кодер 151 стереофонического сигнала, запоминающее устройство или мультимедийный канал 106, и декодер 108. Следует принимать во внимание, что, как было описано выше, в некоторых вариантах осуществления система может содержать или в ней может быть реализован один кодер 104 или один декодер 108, или как кодер 104, так и декодер 108.

Кодер 104 сжимает входной звуковой сигнал 110 и формирует битовый поток 112, который в некоторых вариантах осуществления может сохраняться или передаваться через мультимедийный канал 106. Кроме того, кодер 104 в некоторых вариантах осуществления может содержать многоканальный кодер 151, выполняющий часть общей операции кодирования. Следует понимать, что многоканальный кодер может входить в состав общего кодера 104 или представлять собой отдельный модуль кодирования.

Битовый поток 112 может приниматься в декодере 108. Декодер 108 распаковывает битовый поток 112 и формирует выходной звуковой сигнал 114. Декодер 108 может содержать многоканальный декодер, выполняющий часть общей операции декодирования. Следует понимать, что многоканальный декодер может быть включен в общий декодер 108 или представлять собой отдельный модуль декодирования. Скорость передачи битового потока 112 и качество выходного звукового сигнала 114 относительно входного сигнала 110 являются основными характеристиками, которые определяют производительность системы 102 кодирования.

На фиг. 3 схематично показан кодер 104 в соответствии с некоторыми вариантами осуществления настоящего изобретения.

На фиг. 5 показан алгоритм работы кодера 104 в соответствии с некоторыми вариантами осуществления настоящего изобретения.

Описываемая концепция вариантов осуществления настоящего изобретения заключается в классификации входного многоканального звукового сигнала перед его кодированием. В этом отношении на фиг. 3 показан пример кодера 104 в соответствии с некоторыми вариантами осуществления. Кроме того, со ссылкой на фиг. 5 более подробно описывается функционирование кодера 104.

Кодер 104 в некоторых вариантах осуществления содержит классификатор 301 звукового сигнала. Классификатор 301 звукового сигнала сконфигурирован для приема многоканального звукового сигнала и для генерации представлений этого звукового сигнала в частотной области. Эти представления в частотной области могут передаваться в анализатор/монофонический кодер 303 канала для последующей обработки и кодирования.

Классификатор 301 звукового сигнала сконфигурирован для анализа представлений звуковых сигналов в частотной области для получения значения классификации звукового сигнала для входного многоканального звукового сигнала. Полученное значение классификации звукового сигнала указывает конфигурацию каналов для входного многоканального звукового сигнала. Значение классификации звукового сигнала затем может передаваться в анализатор/монофонический кодер 303 канала и в кодер 305 многоканальных параметров, посредством чего оно может использоваться для идентификации конкретного режима кодирования для анализатора/монофонического кодера 303 канала и кодера 305 многоканальных параметров.

В первой группе вариантов осуществления классификатор 301 звукового сигнала кодера 104 может быть сконфигурирован для приема многоканального звукового сигнала, содержащего по меньшей мере двухканальный входной звуковой сигнал с левым и правым каналами. В этих вариантах осуществления настоящего изобретения классификатор 301 звукового сигнала может определять значение классификации звукового сигнала, которое указывает, содержит ли входной звуковой сигнал двухканальный звуковой сигнал, который является либо стереофоническим, либо бинауральным.

Со ссылкой на фиг. 4 далее более подробно описывается пример классификатора 301 звукового сигнала в соответствии с некоторыми вариантами осуществления. Кроме того, на фиг. 6 показан алгоритм работы классификатора 301 звукового сигнала, показанного на фиг. 4, в соответствии с некоторыми вариантами осуществления изобретения.

В некоторых вариантах осуществления классификатор 301 звукового сигнала содержит блок 401 кадрового секционирования/преобразования. Блок 401 кадрового секционирования/преобразования может быть сконфигурирован для секционирования или сегментации звукового сигнала из левого и правого каналов 110 на секции или кадры, подходящие для преобразования в частотной области. Блок 401 кадрового секционирования/преобразования в некоторых вариантах осуществления также может быть сконфигурирован для создания окна с этими кадрами или секциями данных звукового сигнала, поступающего из левого и правого каналов, с использованием любой подходящей функции организации окна. Например, блок 401 кадрового секционирования/преобразования может конфигурироваться для генерации кадров длительностью 20 мс, которые на 10 мс перекрывают каждый предшествующий и последующий кадр.

В некоторых вариантах осуществления блок 401 кадрового секционирования/преобразования может быть сконфигурирован для выполнения со звуковыми сигналами левого и правого каналов любого подходящего преобразования из временной области в частотную. Например, преобразование из временной области в частотную может представлять собой дискретное преобразование Фурье (DFT, Discrete Fourier Transform), быстрое преобразование Фурье (FFT, Fast Fourier transform) и модифицированное дискретное косинусное преобразование (MDCT, Modified Discrete Cosine Transform). В последующих примерах используется быстрое преобразование Фурье (FFT). Кроме того, выход преобразователя из временной области в частотную также может обрабатываться для формирования отдельных представлений в области диапазона частот (представлений поддиапазона) данных звукового сигнала каждого входного канала. Эти диапазоны могут размещаться любым удобным способом. Например, эти диапазоны могут располагаться линейно или распределяться в соответствии с восприятием или психоакустикой.

Операция формирования представления в частотной области для звуковых кадров каждого канала выполняется на шаге 601, изображенном на фиг. 6.

В некоторых вариантах осуществления представления в частотной области подаются на определитель 403 относительного энергетического уровня звукового сигнала, который может быть сконфигурирован для определения относительных уровней звуковых сигналов или интераурального различия в уровнях (энергии) (ILD, Interaural Level Difference) между парами каналов для каждого поддиапазона. Относительный уровень сигнала для поддиапазона может определяться путем поиска уровня звукового сигнала в частотном диапазоне звукового сигнала первого канала относительно уровня звукового сигнала в соответствующем частотном диапазоне звукового сигнала второго канала.

Следует принимать во внимание, что в последующих примерах анализируется и обрабатывается одна пара левого и правого каналов.

В некоторых вариантах осуществления относительный уровень для каждого диапазона (или интерауральное различие в уровнях) может рассчитываться с использованием следующего кода:

В этом коде переменная L_FFT является длиной FFT, a EPSILON представляет собой небольшое значение, большее нуля, предотвращающее возникновение проблем, связанных с делением на ноль. Определитель относительного энергетического уровня звукового сигнала в таких вариантах осуществления эффективно выполняет процессы определения амплитуды для каждого канала (L и R) в каждом поддиапазоне, а затем делит значение для одного канала на значение для другого канала для формирования относительного значения.

Операция определения относительных энергетических уровней звуковых сигналов (или интераурального различия в уровнях (энергии)) выполняется на шаге 603, показанном на фиг. 6.

Согласно некоторым вариантам осуществления может выполняться любая подходящая оценка интераурального различия в уровнях (энергии) (ILD). Например, для каждого кадра могут существовать два окна, для которых оценивается задержка и уровни. Таким образом, например, в том случае, если длительность каждого кадра составляет 10 мс, могут существовать два окна, которые могут перекрываться и задерживаться относительно друг друга на 5 мс. Другими словами, для каждого кадра могут определяться два отдельных значения различия в уровнях, которые могут передаваться в кодер для кодирования.

Кроме того, в некоторых вариантах осуществления различия для каждого окна могут оцениваться для каждого из соответствующих поддиапазонов. Разделение на поддиапазоны может в некоторых вариантах осуществления выполняться в соответствии с любым подходящим способом.

Например, в некоторых вариантах осуществления разделение на поддиапазоны, которое затем определяет количество оценок интераурального различия в уровнях (энергии) (ILD), может выполняться в соответствии с выбранным определением полосы частот. Например, генерация звуковых сигналов может основываться на том, рассматривается ли выходной сигнал как широкополосный (WB, WideBand), сверхширокополосный (SWB, SuperWideBand) или полнодиапазонный (FB, FullBand) (при этом требования к полосе частот последовательно возрастают, начиная от широкополосного и до полнодиапазонного сигнала). Для выбора возможной полосы частот в некоторых вариантах осуществления может применяться конкретный способ разделения на поддиапазоны. Таким образом, например, разделение на поддиапазоны для области FFT для оценок интераурального различия в уровнях (энергии) может выглядеть следующим образом:

поддиапазоны ITD для широкополосного (WB) сигнала:

const short scale1024_WB[]=

{1, 5, 8, 12, 20, 34, 48, 56, 120, 512};

поддиапазоны ITD для сверхширокополосного (SWB) сигнала:

const short scale1024_SWB[]=

{1, 2, 4, 6, 10, 14, 17, 24, 28, 60, 256, 512};

поддиапазоны ITD для полнодиапазонного (FB) сигнала:

const short scale1024_FB[]=

{1,2, 3, 4, 7, 11, 16, 19, 40, 171, 341, 448/* ~21 кГц */};

поддиапазоны ILD для широкополосного (WB) сигнала:

const short scf_band_WB[]=

{1, 8, 20, 32, 44, 60, 90, 110, 170, 216, 290, 394, 512};

поддиапазоны ILD для сверхширокополосного (SWB) сигнала:

const short scf_band_SWB[]=

(1, 4, 10, 16, 22, 30, 45, 65, 85, 108, 145, 197, 256, 322, 412, 512};

поддиапазоны ILD для полнодиапазонного (FB) сигнала:

const short scf_band_FB[]=

{1, 3, 7, 11, 15, 20, 30, 43, 57, 72, 97, 131, 171, 215, 275, 341, 391, 448/* ~21 кГц */}.

Другими словами, в некоторых вариантах осуществления могут существовать различные поддиапазоны для различий в уровнях.

Определитель 403 относительного энергетического уровня звукового сигнала может быть сконфигурирован для вывода относительных энергетических уровней звуковых сигналов для каждого поддиапазона или элемента разрешения по частоте в блок 405 оценки энтропии.

В некоторых вариантах осуществления блок 405 оценки энтропии выполнен с возможностью определения оценки энтропии нулевого порядка для принятых относительных энергетических уровней звуковых сигналов. Блок 405 оценки энтропии затем может использовать значение энтропии принятых относительных энергетических уровней звуковых сигналов для определения конфигурации или типа многоканального звукового сигнала, переданного в качестве входного сигнала 110.

В некоторых вариантах осуществления значение энтропии, определенное на основе относительных энергетических уровней звуковых сигналов (ILD) для многоканального звукового сигнала, включающего конфигурации левого и правого звуковых каналов, может использоваться для определения, являются ли левый и правый звуковые каналы стереофоническими или бинауральными.

Следует также принимать во внимание, что стереофонический звуковой сигнал может отличаться от бинаурального звукового сигнала физическим разделением между микрофонами при приеме указанных сигналов. Кроме того, это различие может отражаться в энтропии значений относительных энергетических уровней звуковых сигналов (ILD) для соответствующих звуковых сигналов.

В некоторых вариантах осуществления энтропия относительных энергетических уровней звуковых сигналов (ILD) для звуковых сигналов левого и правого каналов обычно может определяться следующим образом:

где X представляет алфавит возможных значений ILD, H(X_ILd) представляет энтропию значений ILD, P(X_ILDi) является вероятностью конкретного значения ILD, a n - количество возможных результатов для набора значений ILD.

Энтропия Н(X_ILD) может определяться для конечного количества n возможных значений диапазона значений ILD. Этого в некоторых вариантах осуществления можно добиться путем скалярного квантования значений ILD в один из n возможных уровней квантования перед определением значения H(X_ILD) энтропии.

Операция скалярного квантования относительного энергетического уровня звукового сигнала или интераурального различия в уровнях (энергии) (ILD) выполняется на шаге 605, показанном на фиг. 6.

В некоторых вариантах осуществления значение H(X_ILD) энтропии может определяться с использованием гистограммы на основе способа, реализуемого посредством следующего кода:

Где выражение 2*max_value+1 определяет количество возможных уровней квантования для значений ILD, которое может соответствовать n в приведенной выше формуле, а переменная scales является массивом, содержащим квантованные значения ILD, с использованием которых должно определяться значение H(X_ILD) энтропии. Блок 405 оценки энтропии в таких вариантах осуществления эффективно определяет вероятность P(X_ILDi) конкретного квантованного значения ILD путем определения частоты появления конкретного квантованного ILD в наборе данных квантованных значений ILD, с использованием которых должно вычисляться значение энтропии. Фактически блок 405 оценки энтропии определяет вероятность каждого квантованного значения ILD путем определения его гистограммы в пределах набора конечных квантованных значений ILD. Значение H(X_ILD) соответствует параметру h0 в приведенном выше коде. Кроме того, приведенный выше код возвращает значение энтропии в битах.

В целом, согласно вариантам осуществления настоящего изобретения определение энтропии может включать определение вероятности относительного уровня звукового сигнала путем определения гистограммы множества относительных уровней звуковых сигналов на основе звукового кадра многоканального звукового сигнала.

В других вариантах осуществления значение энтропии может определяться путем использования подхода, заключающегося в обнаружении совпадения, согласно которому оценка энтропии выполняется посредством обнаружения совпадения конкретных квантованных значений ILD, которые также могут называться символами, для определения значения энтропии.

Согласно этому подходу вначале осуществляется оценка среднего количества квантованных значений ILD между совпадениями квантованных значений ILD (или символов).

Эта оценка может выполняться путем наблюдения за потоком квантованных значений ILD и отметки количества квантованных значений ILD между конкретным появлением одинаковых квантованных значений ILD.

Например, если начало потока символов содержит значения [a g b z d g h b a z a …], то первое совпадение символов возникает для символа g, и количество символов между совпадением D₁ определяется равным 6. Второе совпадение символов возникает для символа а, и количество символов между совпадением D₂ определяется равным 5. Этот процесс может повторяться для последующих символов в потоке.

Оценка среднего количества квантованных значений (или символов) ILD для совпадения символов затем может вычисляться по следующей формуле:

Если предположить, что K представляет равновероятные символы случайного источника без памяти, то энтропия в битах определяется как log₂(K).

Если затем предположить, что является аппроксимацией до количества равновероятных символов (или значений ILD), то значение может быть выражено как функция от в соответствии со следующим отношением:

где символам a, b и с присваиваются следующие значения: 0,6366, -0,8493 и 0,1272, соответственно.

Другими словами, энтропия относительных энергетических уровней звуковых сигналов (ILD) может оцениваться, во-первых, путем определения посредством последовательного наблюдения за квантованными значениями ILD для определения совпадений, как показано в примере, приведенном выше, а во-вторых - путем вычисления в соответствии с указанным выше выражением. Наконец, энтропия может оцениваться как .

Следует принимать во внимание, что значения, используемые в приведенном выше примере, служат только для иллюстрации базового принципа способа совпадений для определения энтропии набора данных и не отражают точные квантованные значения ILD, с использованием которых может применяться указанный способ.

В целом, в других вариантах осуществления настоящего изобретения энтропия может определяться путем начальной оценки среднего количества значений относительного уровня звукового сигнала между появлением двух одинаковых значений относительного уровня звукового сигнала посредством последовательного наблюдения за последовательностью значений относительного уровня звукового сигнала в звуковом кадре многоканального звукового сигнала. Энтропия затем может задаваться в виде квадратного трехчлена в терминах оценки среднего количества значений относительного уровня звукового сигнала.

Более подробную информацию о способе обнаружения совпадений для определения энтропии набора данных можно найти в статье "Simple entropy estimator for small datasets" (простое устройство оценки энтропии для небольших наборов данных), опубликованной J. Monyalvao, D.G. Solva и R. Attux в журнале "Electronics Letters", том 48, №17, которая полностью включена в эту заявку посредством ссылки.

В некоторых вариантах осуществления энтропия Н(X_ILD) может определяться в соответствии с log₂, для того чтобы значение энтропии задавалось в битах.

Операция определения значения энтропии для квантованного относительного энергетического уровня звукового сигнала или интераурального различия в уровнях (энергии) (ILD) выполняется на шаге 607, показанном на фиг. 6.

Следует принимать во внимание, что согласно вариантам осуществления настоящего изобретения значение энтропии может определяться для квантованных значений ILD, соответствующих каждому кадру входного звукового сигнала.

Согласно вариантам осуществления значение конфигурации канала затем может определяться путем сравнения значения энтропии с заранее заданным порогом принятия решения на основе энтропии.

В частности, в некоторых вариантах осуществления значение энтропии может использоваться для того, чтобы различать стереофонический и бинауральный звуковые сигналы, если входной звуковой сигнал представляет собой по меньшей мере двухканальный звуковой сигнал.

В одном из конкретных вариантов осуществления определено, что значение заранее заданного порога принятия решения на основе энтропии, составляющее 2,5 бита, достаточно для различения бинаурального и стереофонического звуковых сигналов. Другими словами, если определяется, что энтропия для двухканального входного звукового сигнала не превышает заранее заданный порог решения на основе энтропии или равно ему, входной звуковой сигнал может быть классифицирован как бинауральный звуковой сигнал. Однако, если определяется, что энтропия для двухканального входного звукового сигнала превышает заранее заданный порог решения на основе энтропии, входной звуковой сигнал может быть классифицирован как стереофонический звуковой сигнал.

Операция генерации значения классификации многоканального входного звукового сигнала путем сравнения значения энтропии с заранее заданным пороговым значением выполняется на шаге 609, показанном на фиг. 6.

Полностью операция, осуществляемая кодером 104 для классификации входного многоканального звукового сигнала, выполняется на шаге 501, показанном на фиг. 5.

Выход блока 405 оценки энтропии может представлять собой значение классификации звукового сигнала, указывающее конфигурацию каналов многоканального входного звукового сигнала 110. В частности, в некоторых вариантах осуществления, если во входном звуковом сигнале содержится ряд звуковых сигналов, образующих по меньшей мере двухканальный входной звуковой сигнал, выходное значение классификации звукового сигнала может указывать тип упомянутого двухканального входного звукового сигнала: бинауральный или стереофонический.

Значение классификации звукового сигнала, поступающее из блока 405 оценки энтропии, может формировать один из выходов из классификатора 301 звукового сигнала. Кроме того, классификатор 301 звукового сигнала также может выводить относительные энергетические уровни звуковых сигналов (или ILD), поступающие из определителя 403 относительного энергетического уровня звукового сигнала, и представления в частотной области входного звукового сигнала, поступающие из блока 401 кадрового секционирования/преобразования, для того чтобы эти данные могли использоваться в процессе выполнения последующих операций кодирования звукового сигнала.

На фиг. 3 показано, что выходные сигналы из классификатора 301 могут быть сконфигурированы для подачи в анализатор/монофонический кодер 303 канала.

В некоторых вариантах осуществления кодер 104 может содержать анализатор/монофонический кодер 303 канала. Анализатор/монофонический кодер 303 канала может быть сконфигурирован для приема значения классификации канала совместно с представлениями в частотной области входного многоканального звукового сигнала и соответствующими, относящимися к этим областям энергетическими уровнями звуковых сигналов.

Следует обратить внимание на то, что в других вариантах осуществления анализатор/монофонический кодер 303 канала может принимать лишь значение классификации звукового сигнала, поступающее из классификатора 301 звукового сигнала. В этих конкретных вариантах осуществления могут генерироваться представления в частотной области входного многоканального звукового сигнала в анализаторе/монофоническом кодере 303.

Анализатор/монофонический кодер 303 может быть сконфигурирован для анализа представлений в частотной области многоканального входного звукового сигнала и для определения параметров, связанных с каждым поддиапазоном, с учетом различий двухканального или многоканального звукового сигнала.

В вариантах осуществления настоящего изобретения анализ и параметризация представлений в частотной области может зависеть от значения классификации звукового сигнала, определяемого классификатором 301. В частности, в некоторых вариантах осуществления форма анализа и параметризации представлений в частотной области может зависеть от того, на какой тип входного звукового сигнала указывает значение классификации звукового сигнала: бинауральный или стереофонический. В результате анализа могут быть получены параметры, которые представляют двухканальные (или в более общем случае - многоканальные) характеристики для каждого поддиапазона входного звукового сигнала.

Анализатор/монофонический кодер 303 канала может использовать параметры, связанные с каждым поддиапазоном, для понижающего микширования многоканального звукового сигнала и генерации монофонического канала, который может кодироваться в соответствии с любой подходящей схемой кодирования.

В некоторых вариантах осуществления сгенерированный звуковой сигнал монофонического канала (или закодированный сигнал с уменьшенным количеством каналов) может кодироваться с использованием любого подходящего формата кодирования. Например, в некоторых вариантах осуществления звуковой сигнал монофонического канала может кодироваться с использованием формата кодирования монофонического канала посредством усовершенствованной речевой услуги (EVS, Enhanced Voice Service), который может содержать обеспечивающую взаимодействие версию битового потока адаптивного широкополосного многоскоростного (AMR-WB, Adaptive Multi-Rate-Wide Band) кодека.

Операция генерации и кодирования монофонического канала (или уменьшенного количества каналов) выполняется на шаге 503, показанном на фиг. 5.

Затем может выводиться закодированный монофонический сигнал. В некоторых вариантах осуществления закодированный сигнал монофонического канала выводится в мультиплексор для объединения с выходным сигналом кодера 305 многоканальных параметров для формирования единого потока или выходного сигнала. В некоторых вариантах осуществления закодированный сигнал монофонического канала отдельно выводится из кодера 305 многоканальных параметров.

Согласно некоторым вариантам осуществления кодер 104 содержит кодер многоканальных параметров. В некоторых вариантах осуществления кодер многоканальных параметров представляет собой кодер 305 двухканальных параметров или содержит подходящие средства кодирования многоканальных параметров. Кодер 305 многоканальных параметров может быть сконфигурирован для приема многоканальных параметров, таких как стереофонические или бинауральные (разностные) параметры, определяемые анализатором/монофоническим кодером 303 канала. Кодер 305 многоканальных параметров в некоторых вариантах осуществления может быть сконфигурирован для выполнения операции квантования с параметрами, а также кодирования параметров для того, чтобы их можно было вывести (либо сохранить в устройстве, либо передать в другое устройство).

В некоторых вариантах осуществления кодер 305 многоканальных параметров также может принимать в качестве дополнительного входа значение классификации звукового сигнала и, таким образом, обеспечивать квантование и кодирование многоканальных параметров в зависимости от указанного значения классификации звукового сигнала.

Операция квантования и кодирования квантованных многоканальных параметров выполняется на шаге 505, изображенном на фиг. 5.

В других вариантах осуществления кодера 104 стадии анализа канала и кодирования многоканальных параметров могут выполняться в одном модуле кодирования перед формированием сигнала монофонического канала.

В таких вариантах осуществления кодер 104 может вначале анализировать представления в частотной области многоканального входного звукового сигнала и определять параметры, связанные с каждым поддиапазоном, с учетом различий двухканального или многоканального звукового сигнала, а затем выполнять квантование и кодирование многоканальных параметров. В этих вариантах осуществления монофонический звуковой сигнал может впоследствии формироваться с использованием параметров, связанных с каждым поддиапазоном, для понижающего микширования многоканального звукового сигнала. Результирующий монофонический канал затем, как указано выше, может кодироваться в соответствии с любой подходящей схемой кодирования.

Таким образом, по меньшей мере в одном из вариантов осуществления настоящего изобретения устройство может содержать: средство для оценки значения энтропии для многоканального звукового сигнала; средство для определения конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и средство для кодирования многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала.

Хотя в приведенных выше примерах описываются варианты осуществления настоящего изобретения, применимые в устройстве 10, следует принимать во внимание, что изобретение, как описано ниже, может быть реализовано как часть любого кодека звукового (или речевого) сигнала, включая любой кодек звукового (или речевого) сигнала с переменной/адаптивной скоростью. Так, например, варианты осуществления настоящего изобретения могут быть реализованы в кодеке звукового сигнала, который может выполнять кодирование звуковых сигналов, передаваемых по фиксированным или проводным линиям связи.

Таким образом, пользовательское оборудование может содержать кодек звукового сигнала, подобный тем, что описаны в представленных выше вариантах осуществления настоящего изобретения.

Следует отметить, что термин пользовательское оборудование охватывает пользовательское оборудование беспроводной связи любого подходящего типа, например мобильные телефоны, портативные устройства обработки данных или портативные веб-браузеры.

Кроме того, элементы наземной сети мобильной связи общего пользования (PLMN, Public Land Mobile Network) также могут содержать описанные выше кодеки звукового сигнала.

В целом, различные варианты осуществления настоящего изобретения могут быть реализованы в виде аппаратуры или специализированных схем, программного обеспечения, логических схем или любой комбинации указанных средств. Например, некоторые аспекты могут быть реализованы в виде аппаратных средств, в то время как другие аспекты могут быть реализованы в виде микропрограммного или программного обеспечения, которое может выполняться контроллером, микропроцессором или другим вычислительным устройством, хотя изобретение не ограничено только перечисленными средствами. Хотя различные аспекты настоящего изобретения могут быть проиллюстрированы и описаны в виде блок-схем, алгоритмов или с использованием некоторых других графических представлений, достаточно очевидно, что описанные здесь блоки, устройства, системы, технологии или способы могут быть реализованы (не ограничиваясь приведенными примерами) в виде аппаратного, программного, микропрограммного обеспечения, специализированных схем или логических схем, универсальных аппаратных средств или контроллера, или других вычислительных устройств, или некоторой комбинации указанных средств.

Варианты осуществления настоящего изобретения могут быть реализованы посредством компьютерного программного обеспечения, выполняемого процессором данных мобильного устройства, например блоком процессора, или посредством аппаратного обеспечения, или посредством комбинации программного и аппаратного обеспечения. Кроме того, в этом отношении следует отметить, что различные показанные на чертежах блоки логических алгоритмов могут представлять собой шаги программы или взаимосвязанные логические схемы, блоки и функции, или комбинацию шагов программы и логических схем, блоков и функций.

Память может быть любого типа, подходящего к локальной технической среде, и может быть реализована с использованием любых подходящих технологий хранения данных и представлять собой, например, устройства полупроводниковой памяти, устройства и системы магнитной памяти, устройства и системы оптической памяти, постоянное запоминающее устройство и съемные блоки памяти. Процессоры данных могут быть любого типа, подходящего для локальной технической среды, и могут, например, содержать один или более универсальных компьютеров, специализированных компьютеров, микропроцессоров, цифровых сигнальных процессоров (DSP, Digital Signal Processor), специализированных интегральных схем (ASIC, Specific Integrated Circuit), логических схем и процессоров, основанных на многоядерной архитектуре, а также другие подобные устройства.

Варианты осуществления настоящего изобретения на практике могут быть выполнены в виде различных компонентов, таких как модули интегральных схем. В целом, конструирование интегральных схем является в высшей степени автоматизированным процессом. Имеются комплексные и эффективные программные средства для преобразования конструкции логического уровня в полупроводниковую схему, подготовленную для травления и формирования полупроводниковой подложки.

Программы, производимые, например, компаниями Synopsys, Inc., расположенной в Маунтин Вью, Калифорния, и Cadence Design, расположенной в Сан Хосе, Калифорния, автоматически разводят проводники и размещают компоненты на полупроводниковом кристалле с использованием четко установленных правил конструирования, а также библиотек, в которых хранятся заранее записанные конструктивные модули. По окончании разработки полупроводниковой схемы полученная в результате конструкция в стандартизованном электронном формате (например, Opus, GDSII и т.п.) может быть передана в средство производства полупроводникового устройства или производственный модуль ("fab") для изготовления.

Используемый в этой заявке термин "схема" относится ко всем следующим компонентам:

(a) только к аппаратным реализациям схем (таким как реализации, выполненные только в виде аналоговых и/или цифровых схем);

(b) к комбинации схем и программного обеспечения (и/или микропрограммного обеспечения), таким как: (i) комбинация процессора(-ов) или (ii) сочетание процессора(-ов)/программного обеспечения (включая цифровой сигнальный процессор(ы)), программного обеспечения и памяти, которые совместно обеспечивают выполнение устройством, таким как мобильный телефон или сервер, различных функций; и

(c) к схемам, таким как микропроцессор(ы) или компонент микропроцессора(-ов), для работы которого требуется программное или микропрограммное обеспечение, даже если оно физически не установлено.

Это определение "схема" применимо ко всем использованиям этого термина в данной заявке, включая любые пункты формулы изобретения. В качестве другого примера термина "схема", используемого в этой заявке, можно привести реализацию обычного процессора (или множества процессоров), или компонента процессора и выполняемого им (или ими) программного или микропрограммного обеспечения. Термин "схема" также относится, например (в том числе, если это применимо к конкретному пункту формулы изобретения), к интегральной схеме обработки сигнала основной полосы частот или к интегральной схеме прикладного процессора в мобильном телефоне, или к подобной интегральной схеме в сервере, в устройстве сотовой сети или в другом сетевом устройстве.

Приведенное описание посредством типовых примеров, не ограничивающих возможности реализации изобретения, предоставляет полное и информативное описание примеров осуществления настоящего изобретения. Однако специалисту в данной области техники в свете изложенного описания, изученного в совокупности с прилагаемыми чертежами и формулой изобретения, могут быть очевидны различные модификации и адаптации. Тем не менее, любые виды таких и подобных модификаций изложенных принципов должны оставаться в пределах объема настоящего изобретения, определенного в прилагаемой формуле изобретения.

Иллюстрации к изобретению RU 2 648 632 C2

Реферат патента 2018 года Классификатор многоканального звукового сигнала

Изобретение относится к классификации многоканального или стереофонического звукового сигнала для кодера звукового сигнала и, в частности, к кодеру многоканального или стереофонического звукового сигнала, предназначенного для использования в портативном устройстве. Технический результат – обеспечение оптимального режима кодирования входного звукового сигнала. Данный способ включает: оценку значения энтропии для многоканального звукового сигнала; определение конфигурации каналов многоканального звукового сигнала на основе значения энтропии; и кодирование многоканального звукового сигнала, при этом режим кодирования зависит от конфигурации канала. 3 н. и 18 з.п. ф-лы, 6 ил.

Формула изобретения RU 2 648 632 C2

1. Способ обработки многоканального звукового сигнала, включающий:

преобразование как звукового сигнала первого канала многоканального звукового сигнала, так и звукового сигнала второго канала многоканального звукового сигнала в звуковой сигнал в частотной области, содержащий множество частотных полос;

определение относительного уровня звукового сигнала путем определения уровня звукового сигнала в полосе частот звукового сигнала первого канала относительно уровня звукового сигнала в полосе частот звукового сигнала второго канала;

определение значения энтропии на основе относительного уровня звукового сигнала;

определение конфигурации каналов многоканального звукового сигнала путем сравнения значения энтропии с пороговым значением; и

кодирование многоканального звукового сигнала многорежимным кодером звукового сигнала, при этом режим кодирования многорежимного кодера зависит от конфигурации каналов, которая была определена.

2. Способ по п. 1, отличающийся тем, что определение конфигурации каналов многоканального звукового сигнала дополнительно включает:

классификацию конфигурации канала как первого типа конфигурации канала, когда значение энтропии не превышает порогового значения или равно пороговому значению; и

классификацию конфигурации канала как второго типа конфигурации канала, когда значение энтропии превышает пороговое значение.

3. Способ по п. 1, отличающийся тем, что определение значения энтропии на основе относительного уровня звукового сигнала включает

определение вероятности относительного уровня звукового сигнала путем определения гистограммы множества относительных уровней звуковых сигналов в звуковом кадре многоканального звукового сигнала.

4. Способ по п. 1, отличающийся тем, что определение значения энтропии на основе относительного уровня звукового сигнала включает

оценку среднего количества значений относительного уровня звукового сигнала между появлением двух одинаковых значений относительного уровня звукового сигнала путем последовательного наблюдения за последовательностью значений относительного уровня звукового сигнала в звуковом кадре многоканального звукового сигнала.

5. Способ по любому из пп. 1-4, отличающийся тем, что многоканальный звуковой сигнал включает двухканальный звуковой сигнал, при этом первым типом конфигурации канала является бинауральный звуковой канал, а вторым типом конфигурации канала является стереофонический звуковой канал.

6. Способ по любому из пп. 1-4, отличающийся тем, что уровень звукового сигнала включает амплитуду звукового сигнала в частотной полосе.

7. Способ по любому из пп. 1-4, отличающийся тем, что относительный уровень звукового сигнала представляет собой интерауральное различие в уровнях.

8. Устройство для обработки многоканального звукового сигнала, сконфигурированное:

для преобразования как звукового сигнала первого канала многоканального звукового сигнала, так и звукового сигнала второго канала многоканального звукового сигнала в звуковой сигнал в частотной области, содержащий множество частотных полос; для определения относительного уровня звукового сигнала путем определения уровня звукового сигнала в полосе частот звукового сигнала первого канала относительно уровня звукового сигнала в полосе частот звукового сигнала второго канала;

для определения значения энтропии на основе относительного уровня звукового сигнала;

для определения конфигурации каналов многоканального звукового сигнала путем сравнения значения энтропии с пороговым значением; и

для кодирования многоканального звукового сигнала многорежимным кодером звукового сигнала, при этом режим кодирования многорежимного кодера звукового сигнала зависит от конфигурации каналов, которая была определена.

9. Устройство по п. 8, отличающееся тем, что устройство, сконфигурированное для определения конфигурации каналов многоканального звукового сигнала, также сконфигурировано:

для классификации конфигурации канала как первого типа конфигурации канала, когда значение энтропии не превышает порогового значения или равно пороговому значению; и

для классификации конфигурации канала как второго типа конфигурации канала, когда значение энтропии превышает пороговое значение.

10. Устройство по п. 8, отличающееся тем, что устройство, сконфигурированное для определения значения энтропии на основе относительного уровня звукового сигнала, также сконфигурировано для

определения вероятности относительного уровня звукового сигнала для определения гистограммы множества относительных уровней звукового сигнала в звуковом кадре многоканального звукового сигнала.

11. Устройство по п. 8, отличающееся тем, что устройство, сконфигурированное для определения энтропии на основе относительного уровня звукового сигнала, также сконфигурировано для

оценки среднего количества значений относительного уровня звукового сигнала между появлением двух одинаковых значений относительного уровня звукового сигнала путем последовательного наблюдения за последовательностью значений относительного уровня звукового сигнала в звуковом кадре многоканального звукового сигнала.

12. Устройство по любому из пп. 8-11, отличающееся тем, что многоканальный звуковой сигнал включает двухканальный звуковой сигнал, при этом первым типом конфигурации канала является бинауральный звуковой канал, а вторым типом конфигурации канала является стереофонический звуковой канал.

13. Устройство по любому из пп. 8-11, отличающееся тем, что уровень звукового сигнала включает амплитуду звукового сигнала в частотной полосе.

14. Устройство по любому из пп. 8-11, отличающееся тем, что относительный уровень звукового сигнала представляет собой интерауральное различие в уровнях.

15. Машиночитаемый носитель, содержащий набор инструкций, которые при их выполнении одним или более процессорами реализуют следующие операции:

определение значения энтропии на основе относительного уровня звукового сигнала;

16. Машиночитаемый носитель по п. 15, отличающийся тем, что набор инструкций, реализующий определение конфигурации каналов многоканального звукового сигнала, также реализует:

17. Машиночитаемый носитель по п. 15, отличающийся тем, что набор инструкций, реализующий определение значения энтропии на основе относительного уровня звукового сигнала, также реализует

определение вероятности относительного уровня звукового сигнала путем определения гистограммы множества относительных уровней звукового сигнала в звуковом кадре многоканального звукового сигнала.

18. Машиночитаемый носитель по п. 15, отличающийся тем, что набор инструкций, реализующий определение значения энтропии на основе относительного уровня звукового сигнала, также реализует

19. Машиночитаемый носитель по любому из пп. 15-18, отличающийся тем, что многоканальный звуковой сигнал включает двухканальный звуковой сигнал, при этом первым типом конфигурации канала является бинауральный звуковой канал, а вторым типом конфигурации канала является стереофонический звуковой канал.

20. Машиночитаемый носитель по любому из пп. 15-18, отличающийся тем, что уровень звукового сигнала включает амплитуду звукового сигнала в частотной полосе.

21. Машиночитаемый носитель по любому из пп. 15-18, отличающийся тем, что относительный уровень звукового сигнала представляет собой интерауральное различие в уровнях.

Документы, цитированные в отчете о поиске Патент 2018 года RU2648632C2

Многоступенчатая активно-реактивная турбина	1924	Ф. Лезель	SU2013A1
Многоступенчатая активно-реактивная турбина	1924	Ф. Лезель	SU2013A1
УСТРОЙСТВО И СПОСОБ ДЛЯ ГЕНЕРАЦИИ МНОГОКАНАЛЬНОГО СИГНАЛА, ИСПОЛЬЗУЮЩИЕ ОБРАБОТКУ ГОЛОСОВОГО СИГНАЛА	2008	Ухле Кристиан Хелльмут Оливер Херре Юрген Попп Харальд Кастнер Торстен	RU2461144C2
СПОСОБЫ И УСТРОЙСТВА ДЛЯ ЭФФЕКТИВНОГО ИСПОЛЬЗОВАНИЯ ПОЭТАПНО ПЕРЕДАВАЕМОЙ ИНФОРМАЦИИ В КОДИРОВАНИИ И ДЕКОДИРОВАНИИ ЗВУКА	2009	Грилл Бернард Хильперт Йоханес Нейзингер Матиас Робильиард Жульен Луис-Валеро Мария	RU2491657C2
US 7283957 B2, 16.10.2007
US 8054981 B2, 08.11.2011
Приспособление для суммирования отрезков прямых линий	1923	Иванцов Г.П.	SU2010A1
ТРЕХФАЗНЫЙ СИММЕТРИЧНЫЙ ТРАНСФОРМАТОР	1997	Бальян Р.Х. Гельман М.З. Александров В.А. Майоров В.А.	RU2144229C1
КОМБИНИРОВАННЫЙ ГЛУШИТЕЛЬ ШУМА КОЧЕТОВА	2005	Кочетов Олег Савельевич Кочетова Мария Олеговна	RU2304723C1

RU 2 648 632 C2

Авторы

Василаке Адриана

Лааксонен Лассе Юхани

Рамо Ансси Сакари

Даты

2018-03-26—Публикация

2014-01-13—Подача

название	год	авторы	номер документа
АУДИОКОДИРОВАНИЕ	2003	Схейерс Эрик Г. П. Омен Арнолдус В. Й.	RU2325046C2
УСТРАНЕНИЕ ПОЗИЦИОННОЙ НЕОДНОЗНАЧНОСТИ ПРИ ФОРМИРОВАНИИ ПРОСТРАНСТВЕННОГО ЗВУКА	2009	Ояла Паси Виролайнен Юсси	RU2529591C2
УСТРОЙСТВО ДЛЯ КОДИРОВАНИЯ АУДИО СИГНАЛА, ИМЕЮЩЕГО МНОЖЕСТВО КАНАЛОВ	2011	Кунтц Ахим Диш Саша Херре Юрген Кюх Фабиан Хильперт Йоханнес	RU2640650C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБРАБОТКИ АУДИОСИГНАЛА	2007	Ох Хиен О. Дзунг Йанг Вон	RU2417549C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБРАБОТКИ ЗВУКОВОГО СИГНАЛА	2008	Ох Хиен-О Дзунг Йанг Вон	RU2437247C1
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБРАБОТКИ ЗВУКОВОГО СИГНАЛА	2008	Ох Хиен-О Дзунг Йанг Вон	RU2439717C1
УСТРОЙСТВО ДЛЯ ГЕНЕРИРОВАНИЯ ДЕКОРРЕЛИРОВАННОГО СИГНАЛА, ИСПОЛЬЗУЯ ПЕРЕДАННУЮ ФАЗОВУЮ ИНФОРМАЦИЮ	2011	Кунтц Ахим Диш Саша Херре Юрген Кюх Фабиан Хильперт Йоханнес	RU2580084C2
УСТРОЙСТВО ДЛЯ ДЕКОДИРОВАНИЯ СИГНАЛА, СОДЕРЖАЩЕГО ПЕРЕХОДНЫЕ ПРОЦЕССЫ, ИСПОЛЬЗУЯ БЛОК ОБЪЕДИНЕНИЯ И МИКШЕР	2011	Кунтц Ахим Диш Саша Херре Юрген Кюх Фабиан Хильперт Йоханнес	RU2573774C2
СПОСОБ И СИСТЕМА С ИСПОЛЬЗОВАНИЕМ РАЗНОСТИ ДОЛГОВРЕМЕННЫХ КОРРЕЛЯЦИЙ МЕЖДУ ЛЕВЫМ И ПРАВЫМ КАНАЛАМИ ДЛЯ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ ВО ВРЕМЕННОЙ ОБЛАСТИ СТЕРЕОФОНИЧЕСКОГО ЗВУКОВОГО СИГНАЛА В ПЕРВИЧНЫЙ И ВТОРИЧНЫЙ КАНАЛЫ	2016	Вайанкур, Томми Елинек, Милан	RU2763374C2
СПОСОБ И СИСТЕМА С ИСПОЛЬЗОВАНИЕМ РАЗНОСТИ ДОЛГОВРЕМЕННЫХ КОРРЕЛЯЦИЙ МЕЖДУ ЛЕВЫМ И ПРАВЫМ КАНАЛАМИ ДЛЯ ПОНИЖАЮЩЕГО МИКШИРОВАНИЯ ВО ВРЕМЕННОЙ ОБЛАСТИ СТЕРЕОФОНИЧЕСКОГО ЗВУКОВОГО СИГНАЛА В ПЕРВИЧНЫЙ И ВТОРИЧНЫЙ КАНАЛЫ	2016	Вайанкур Томми Елинек Милан	RU2728535C2

Классификатор многоканального звукового сигнала Российский патент 2018 года по МПК G10L25/03 G10L19/08 H03M7/30

Описание патента на изобретение RU2648632C2

Похожие патенты RU2648632C2

Иллюстрации к изобретению RU 2 648 632 C2

Реферат патента 2018 года Классификатор многоканального звукового сигнала

Формула изобретения RU 2 648 632 C2

Документы, цитированные в отчете о поиске Патент 2018 года RU2648632C2

RU 2 648 632 C2