КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ АУДИОСИГНАЛОВ Российский патент 2022 года по МПК G10L25/18 G10L19/20 

Описание патента на изобретение RU2765985C2

Область техники, к которой относится изобретение

Изобретение относится к кодированию аудио, а более конкретно, к анализу и согласованию характеристик входных сигналов для кодирования.

Уровень техники

Сети сотовой связи развиваются в направлении более высоких скоростей передачи данных, повышенной пропускной способности и улучшенного покрытия. В организации по стандартизации Партнерский проект третьего поколения (3GPP) разработаны, а также в данный момент разрабатываются несколько технологий.

LTE (стандарт долгосрочного развития) является примером стандартизированной технологии. В LTE, технология доступа на основе OFDM (мультиплексирования с ортогональным частотным разделением каналов) используется для нисходящей линии связи и FDMA с одной несущей (SC-FDMA) для восходящей линии связи. Выделение ресурсов для беспроводных терминалов, также известных как абонентские устройства (UE), как в нисходящей линии связи, так и в восходящей линии связи, в общем, выполняется адаптивно с использованием быстрой диспетчеризации с учетом мгновенного шаблона трафика и характеристик распространения радиосигнала каждого беспроводного терминала. Один тип данных по LTE представляют собой аудиоданные, например, для речевой связи или потокового аудио.

Чтобы повышать производительность кодирования речи и аудио с низкой скоростью передачи битов, общеизвестно использовать априорные знания относительно характеристик сигналов и использовать моделирование прохождения сигналов. Для более сложных сигналов, несколько моделей кодирования или режимов кодирования могут использоваться для различных частей сигнала. Эти режимы кодирования также могут заключать в себе различные стратегии обработки канальных ошибок и потерянных пакетов. Предпочтительно выбирать надлежащий режим кодирования в любой момент.

Сущность изобретения

Решение, описанное в данном документе, относится к стабильной адаптации с низкой сложностью для классификации или различения сигналов, которая может использоваться как для выбора способа кодирования, так и для выбора способа маскирования ошибок, которые в данном документе обобщены в качестве выбора режима кодирования. В случае маскирования ошибок, решение относится к декодеру.

Согласно первому аспекту, предусмотрен способ для декодирования аудиосигнала. Способ содержит, для кадра m: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит выбор режима декодирования, из множества режимов декодирования, на основе значения D(m) стабильности; и применение выбранного режима декодирования.

Согласно второму аспекту, предусмотрен декодер для декодирования аудиосигнала. Декодер выполнен с возможностью, для кадра m: определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Декодер дополнительно выполнен с возможностью выбирать режим декодирования, из множества режимов декодирования, на основе значения D(m) стабильности; и применять выбранный режим декодирования.

Согласно третьему аспекту, предусмотрен способ для кодирования аудиосигнала. Способ содержит, для кадра m: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит выбор режима кодирования, из множества режимов кодирования, на основе значения D(m) стабильности; и применение выбранного режима кодирования.

Согласно четвертому аспекту, предусмотрен кодер для кодирования аудиосигнала. Кодер выполнен с возможностью, для кадра m: определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый такой диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Кодер дополнительно выполнен с возможностью выбирать режим кодирования, из множества режимов кодирования, на основе значения D(m) стабильности; и применять выбранный режим кодирования.

Согласно пятому аспекту, предусмотрен способ для классификации аудиосигналов. Способ содержит, для кадра m аудиосигнала: определение значения D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Способ дополнительно содержит классификацию аудиосигнала на основе значения D(m) стабильности.

Согласно шестому аспекту, предусмотрен классификатор аудиосигналов. Классификатор аудиосигналов выполнен с возможностью, для кадра m аудиосигнала: определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала; и дополнительно классифицировать аудиосигнал на основе значения D(m) стабильности.

Согласно седьмому аспекту, предусмотрено хост-устройство, содержащее декодер согласно второму аспекту.

Согласно восьмому аспекту, предусмотрено хост-устройство, содержащее кодер согласно четвертому аспекту.

Согласно девятому аспекту, предусмотрено хост-устройство, содержащее классификатор сигналов согласно шестому аспекту.

Согласно десятому аспекту, предусмотрена компьютерная программа, которая содержит инструкции, которые при выполнении, по меньшей мере, на одном процессоре инструктируют, по меньшей мере, одному процессору осуществлять способ согласно первому, третьему и/или шестому аспекту.

Согласно одиннадцатому аспекту, предусмотрен несущий элемент, содержащий компьютерную программу девятого аспекта, при этом несущий элемент представляет собой одно из электронного сигнала, оптического сигнала, радиосигнала или машиночитаемого носителя хранения данных.

Краткое описание чертежей

Далее изобретение описывается, в качестве примера, со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 является принципиальной схемой, иллюстрирующей сотовую сеть, в которой могут применяться варианты осуществления, представленные в данном документе;

Фиг. 2a и 2b являются блок-схемами последовательности операций, иллюстрирующими способы, осуществляемые посредством декодера согласно иллюстративным вариантам осуществления.

Фиг. 3a является схематичным графиком, иллюстрирующим кривую преобразования из фильтрованного значения стабильности в параметр стабильности;

Фиг. 3b является схематичным графиком, иллюстрирующим кривую преобразования из фильтрованного значения стабильности в параметр стабильности, причем кривая преобразования получается из дискретных значений;

Фиг. 4 является схематичным графиком, иллюстрирующим спектральную огибающую сигналов принимаемых аудиокадров;

Фиг. 5a-b являются блок-схемами последовательности операций, иллюстрирующими способы, осуществляемые в хост-устройстве для выбора процедуры маскирования потерь пакетов;

Фиг. 6a-c являются принципиальными блок-схемами, иллюстрирующими различные реализации декодера согласно иллюстративным вариантам осуществления;

Фиг. 7a-c являются принципиальными блок-схемами, иллюстрирующими различные реализации кодера согласно иллюстративным вариантам осуществления;

Фиг. 8a-c являются принципиальными блок-схемами, иллюстрирующими различные реализации классификатора согласно иллюстративным вариантам осуществления;

Фиг. 9 является принципиальной схемой, показывающей некоторые компоненты беспроводного терминала;

Фиг. 10 является принципиальной схемой, показывающей некоторые компоненты узла транскодирования; и

Фиг. 11 показывает один пример компьютерного программного продукта, содержащего машиночитаемое средство.

Подробное описание изобретения

Далее настоящее изобретение подробнее описывается со ссылкой на прилагаемые чертежи, на которых показаны определенные варианты осуществления изобретения. Тем не менее, это изобретение может быть осуществлено во множестве различных форм и не должно рассматриваться как ограниченное примерными вариантами осуществления, изложенными в данном документе; наоборот, эти варианты осуществления предоставляются в качестве примера, так что это раскрытие сущности является полным и всеобъемлющим и полностью передает объем изобретения специалистам в данной области техники. Аналогичные номера ссылаются на аналогичные элементы во всем описании.

Фиг. 1 является принципиальной схемой, иллюстрирующей сотовую сеть 8, в которой могут применяться варианты осуществления, представленные в данном документе. Сотовая сеть 8 содержит базовую сеть 3 и одну или более базовых радиостанций 1, здесь в форме усовершенствованных узлов B, также известных как усовершенствованные узлы B или eNB. Базовая радиостанция 1 также может иметь форму узлов B, BTS (базовых приемо-передающих станций) и/или BSS (подсистем базовой станции) и т.д. Базовая радиостанция 1 предоставляет радиоподключения для множества беспроводных терминалов 2. Термин "беспроводной терминал" также известен как терминал мобильной связи, абонентское устройство (UE), мобильный терминал, пользовательский терминал, пользовательский агент, беспроводное устройство, межмашинные устройства и т.д. и, например, может представлять собой то, что сегодня общеизвестно в качестве мобильного телефона или планшетного компьютера/переносного компьютера с беспроводным подключением либо стационарно установленного терминала.

Сотовая сеть 8, например, может соответствовать любому или комбинации LTE (стандарта долгосрочного развития), W-CDMA (широкополосного мультиплексирования с кодовым разделением каналов), EDGE (развития стандарта GSM (глобальной системы мобильной связи) с увеличенной скоростью передачи данных), GPRS (общей службы пакетной радиопередачи), CDMA2000 (множественного доступа с кодовым разделением каналов 2000) либо любой другой текущей или будущей беспроводной сети, такой как усовершенствованный стандарт LTE, при условии, что принципы, описанные далее, являются применимыми.

Связь по восходящей линии 4a связи (UL) из беспроводного терминала 2 и связь по нисходящей линии 4b связи (DL) в беспроводной терминал 2 между беспроводным терминалом 2 и базовой радиостанцией 1 выполняется по беспроводному радиоинтерфейсу. Качество беспроводного радиоинтерфейса для каждого беспроводного терминала 2 может варьироваться во времени и в зависимости от позиции беспроводного терминала 2, вследствие таких эффектов, как затухание, многолучевое распространение, помехи и т.д.

Базовая радиостанция 1 также соединяется с базовой сетью 3 для подключения к центральным функциям и внешней сети 7, к примеру, к коммутируемой телефонной сети общего пользования (PSTN) и/или к Интернету.

Аудиоданные могут кодироваться и декодироваться, например, посредством беспроводного терминала 2 и узла 5 транскодирования, представляющего собой сетевой узел, размещаемый с возможностью осуществлять транскодирование аудио. Узел 5 транскодирования, например, может реализовываться в MGW (медиашлюзе), SBG (граничном сеансовом шлюзе)/BGF (функции граничного шлюза) или MRFP (процессоре функции мультимедийных ресурсов). Следовательно, как беспроводной терминал 2, так и узел 5 транскодирования представляют собой хост-устройства, которые содержат соответствующий аудио-кодер и декодер.

Использование набора способов восстановления после ошибок или маскирования ошибок и выбор соответствующей стратегии маскирования в зависимости от мгновенных характеристик сигналов во многих случаях позволяет повышать качество восстановленного аудиосигнала.

Чтобы выбирать наилучший режим кодирования/декодирования, кодер и/или декодер может пробовать все доступные режимы в анализе через синтез, также называемом методом с замкнутым контуром, либо он может основываться на классификаторе сигналов, который принимает решение относительно режима кодирования на основе анализа сигналов, также называемого решением с разомкнутым контуром. Типичные классы сигналов для речевых сигналов представляют собой вокализованную и невокализованную речевую активность. Для общих аудиосигналов, обычная практика заключается в том, чтобы различать между речью, музыкой и потенциально фоновыми шумовыми сигналами. Аналогичная классификация может использоваться для управления способом восстановления после ошибок или маскирования ошибок.

Тем не менее, классификатор сигналов может заключать в себе анализ сигналов с высокими затратами с точки зрения вычислительной сложности и ресурсов запоминающего устройства. Нахождение подходящей классификации для всех сигналов также представляет собой сложную проблему.

Проблема вычислительной сложности может исключаться посредством использования способа классификации сигналов с использованием параметров кодека, которые уже доступны в способе кодирования или декодирования, в силу этого добавляя очень незначительную дополнительную вычислительную сложность. Способ классификации сигналов также может использовать различные параметры в зависимости от используемого режима кодирования, чтобы предоставлять надежный управляющий параметр в момент, когда изменяется режим кодирования. Это обеспечивает низкую сложность, стабильную адаптацию классификации сигналов, что может использоваться как для выбора способа кодирования, так и для выбора способа маскирования ошибок.

Варианты осуществления могут применяться в аудиокодеке, работающем в частотной области или области преобразования. В кодере, входные выборки разделяются на временные сегменты или кадры фиксированной или варьирующейся длины. Чтобы обозначать выборки кадра , записывается . Обычно, используется фиксированная длина в 20 мс, с вариантом использования меньшей длины окна кодирования со взвешиванием или длины кадра, для быстрых временных изменений; например, в переходных звуках. Входные выборки преобразуются в частотную область посредством преобразования частоты. Множество аудиокодеков используют модифицированное дискретное косинусное преобразование (MDCT) вследствие его пригодности для кодирования. Также могут использоваться другие преобразования, такие как DCT (дискретное косинусное преобразование) или DFT (дискретное преобразование Фурье). Спектральные MDCT-коэффициенты кадра m находятся с использованием отношения:

,

где представляет MDCT-коэффициент k в кадре m. Коэффициенты MDCT-спектра разделяются на группы или полосы частот. Эти полосы частот типично являются неравномерными по размеру, с использованием более узких полос частот для низких частот и более широкой полосы пропускания для верхних частот. Это предназначено для того, чтобы имитировать частотное разрешение слухового восприятия человека и релевантного проектирования для схемы кодирования с потерями. Коэффициенты полосы b частот в таком случае представляют собой вектор MDCT-коэффициентов:

где и обозначают начальный и конечный индексы полосы b частот. Значение энергии или среднеквадратическое (RMS) значение каждой полосы частот затем вычисляется следующим образом:

Энергии полосы частот формируют приблизительную спектральную структуру или огибающую MDCT-спектра. Она квантуется с использованием подходящих технологий квантования, например, с использованием дифференциального кодирования в комбинации с энтропийным кодированием или векторным квантователем (VQ). Шаг квантования формирует индексы квантования, которые должны сохраняться или передаваться в декодер, а также воспроизводит соответствующие квантованные значения огибающей. MDCT-спектр нормализуется с квантованными энергиями полосы частот, чтобы формировать нормализованный MDCT-спектр :

Нормализованный MDCT-спектр дополнительно квантуется с использованием подходящих технологий квантования, таких как скалярные квантователи, в комбинации с технологиями дифференциального кодирования и энтропийного кодирования или векторного квантования. Типично, квантование заключает в себе формирование выделения битов для каждой полосы b частот, которое используется для кодирования каждой полосы частот. Выделение битов может формироваться с включением перцепционной модели, которая назначает биты отдельным полосам частот на основе перцепционной важности.

Может быть желательным дополнительно направлять процессы кодера и декодера посредством адаптации к характеристикам сигналов. Если адаптация выполняется с использованием квантованных параметров, которые доступны как в кодере, так и в декодере, адаптация может синхронизироваться между кодером и декодером без передачи дополнительных параметров.

Решение, описанное в данном документе, в основном относится к адаптации процесса кодера и/или декодера к характеристикам сигнала, который должен быть кодирован или декодирован. Короче говоря, значение/параметр стабильности определяется для сигнала, и соответствующий режим кодирования и/или декодирования выбирается и применяется на основе определенного значения/параметра стабильности. При использовании в данном документе, "режим кодирования" может означать режим кодирования и/или режим декодирования. Как описано выше, режим кодирования может заключать в себе различные стратегии обработки канальных ошибок и потерянных пакетов. Дополнительно, при использовании в данном документе, выражение "режим декодирования" имеет намерение означать способ декодирования и/или способ для маскирования ошибок, который должен использоваться в ассоциации с декодированием и восстановлением аудиосигнала. Иными словами, при использовании в данном документе, различные режимы декодирования могут быть ассоциированы с идентичным способом декодирования, но с различными способами маскирования ошибок. Аналогично, различные режимы декодирования могут быть ассоциированы с идентичным способом маскирования ошибок, но с различными способами декодирования. Решение, описанное в данном документе, когда применяется в кодеке, относится к выбору способа кодирования и/или способа маскирования ошибок на основе нового показателя, связанного со стабильностью аудиосигнала.

Иллюстративные варианты осуществления

Ниже описываются иллюстративные варианты осуществления, связанные со способом для декодирования аудиосигнала, со ссылкой на фиг. 2a и 2b. Способ должен осуществляться посредством декодера, который может быть выполнен с возможностью совместимости с одним или более стандартов для декодирования аудио. Способ, проиллюстрированный на фиг. 2a, содержит определение 201 значения D(m) стабильности, в области преобразования, для кадра m аудиосигнала. Значение D(m) стабильности определяется на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. На основе значения D(m) стабильности, может выбираться 204 режим декодирования из множества режимов декодирования. Например, может выбираться способ декодирования и/или способ маскирования ошибок. Выбранный режим декодирования затем может применяться 205 для декодирования и/или восстановления, по меньшей мере, кадра m аудиосигнала.

Как проиллюстрировано на чертеже, способ дополнительно может содержать фильтрацию 202 нижних частот значения D(m) стабильности, за счет этого достигая фильтрованного значения стабильности. Фильтрованное значение стабильности затем может преобразовываться 203 в скалярный диапазон [0,1] посредством использования, например, сигмоидальной функции, за счет этого достигая параметра S(m) стабильности. Выбор режима декодирования на основе D(m) затем должен быть реализован посредством выбора режима декодирования на основе параметра S(m) стабильности, который извлекается из D(m). Определение значения стабильности и извлечение параметра стабильности могут рассматриваться в качестве способа классификации сегмента аудиосигнала, при этом стабильность служит признаком определенного класса или типа сигналов.

В качестве примера, адаптация описанной процедуры декодирования может быть связана с выбором способа для маскирования ошибок из множества способов для маскирования ошибок на основе значения стабильности. Множество способов маскирования ошибок, содержащихся, например, в декодере, могут быть ассоциированы с одним способом декодирования или с различными способами декодирования. Как указано выше, термин "режим декодирования", используемый в данном документе, может означать способ декодирования и/или способ маскирования ошибок. На основе значения стабильности или параметра стабильности и возможно еще других критериев, может выбираться способ маскирования ошибок, который является самым подходящим для рассматриваемой части аудиосигнала. Значение и параметр стабильности могут служить признаком того, содержит рассматриваемый сегмент аудиосигнала речь или музыку, и/или, когда аудиосигнал содержит музыку: параметр стабильности может служить признаком различных типов музыки. По меньшей мере, один из способов маскирования ошибок может быть более подходящим для речи, чем для музыки, и, по меньшей мере, еще один способ маскирования ошибок из множества способов маскирования ошибок может быть более подходящим для музыки, чем для речи. Затем, когда значение стабильности или параметр стабильности, возможно в комбинации с дополнительной детализацией, например, как проиллюстрировано ниже, указывают то, что рассматриваемая часть аудиосигнала содержит речь, может выбираться способ маскирования ошибок, который является более подходящим для речи, чем для музыки. Соответственно, когда значение или параметр стабильности указывает то, что рассматриваемая часть аудиосигнала содержит музыку, может выбираться способ маскирования ошибок, который является более подходящим для музыки, чем для речи.

Новизна способа для адаптации кодека, описанной в данном документе, заключается в том, чтобы использовать диапазон квантованной огибающей сегмента аудиосигнала (в области преобразования) для определения параметра стабильности. Разность D(m) между диапазоном огибающей в смежных кадрах может вычисляться следующим образом:

Полосы частот обозначают диапазон полос частот, который используется для показателя разности огибающих. Он может представлять собой непрерывный диапазон полос частот, либо полосы частот могут быть непересекающимися, и в этом случае выражение должно быть заменено корректным числом полос частот в диапазоне. Следует отметить, что при вычислении для самого первого кадра, значения не существуют и в силу этого инициализируются, например, как значения огибающей, соответствующие пустому спектру.

Фильтрация нижних частот определенной разности D(m) выполняется для того, чтобы достигать более стабильного управляющего параметра. Одно решение состоит в том, чтобы использовать AR (авторегрессионный) фильтр первого порядка или коэффициент отсутствия последействия формы:

,

где является конфигурационным параметром AR-фильтра.

Чтобы упрощать использование фильтрованной разности или значения стабильности, в кодеке/декодере, может быть желательным преобразовывать фильтрованную разность в более подходящий диапазон использования. Здесь, сигмоидальная функция используется для того, чтобы преобразовывать значение в диапазон [0,1], следующим образом:

,

где обозначает преобразованное значение стабильности. В иллюстративном варианте осуществления, константы могут задаваться равными , и , но b, c и d могут задаваться равными любому подходящему значению. Параметры сигмоидальной функции могут задаваться экспериментально таким образом, что она адаптирует наблюдаемый динамический диапазон входного параметра к требуемому выходному решению . Сигмоидальная функция предлагает хороший механизм для реализации порогового значения на основе мягких решений, поскольку могут управляться как точка перегиба, так и рабочий диапазон. Кривая преобразования показана на фиг 3a, где находится на горизонтальной оси, а находится на вертикальной оси. Поскольку показательная функция является вычислительно сложной, может быть желательным заменять функцию преобразования таблицей поиска. В этом случае, кривая преобразования должна быть дискретизирована в дискретных точках для пар и , как указано посредством окружностей на фиг. 3b. В дискретизированном случае, в предпочтительном аспекте, и могут обозначаться, например, как и , в этом случае подходящее значение в таблице поиска находится посредством определения местоположения ближайшего значения, , к , например, посредством использования евклидова расстояния. Можно также отметить, что сигмоидальная функция может быть представлена только с одной половиной кривой перехода вследствие симметрии функции. Средняя точка Smid сигмоидальной функции задается как Smid=c/b+d. Посредством вычитания средней точки Smid следующим образом:

,

можно получать соответствующий односторонний преобразованный параметр стабильности с использованием квантования и поиска, как описано выше, и конечный параметр стабильности, извлекаемый в зависимости от позиции относительно средней точки следующим образом:

Дополнительно, может быть желательным применять логику хвостов сигнала или гистерезис к показателю стабильности огибающей. Также может быть желательным дополнять показатель с помощью детектора переходных частей. Пример детектора переходных частей с использованием логики хвостов сигнала подробнее указывается ниже.

Дополнительный вариант осуществления удовлетворяет потребность формировать показатель стабильности огибающей, который сам по себе является более стабильным и меньше подверженным статистическим флуктуациям. Как упомянуто выше, один вариант состоит в том, чтобы применять логику хвостов сигнала или гистерезис к показателю стабильности огибающей. Тем не менее, во многих случаях это может быть недостаточным, и с другой стороны, в некоторых случаях, достаточно только формировать дискретный вывод с ограниченным числом степеней стабильности. Для такого случая, обнаружено преимущество того, чтобы использовать сглаживающую функцию с использованием модели Маркова. Такая сглаживающая функция должна предоставлять более стабильные, т.е. менее флуктуирующие выходные значения, чем значения, которые могут достигаться с применением логики хвостов сигнала или гистерезиса к показателю стабильности огибающей. Например, возвращаясь к иллюстративным вариантам осуществления на фиг. 2a и/или 2b, выбор режима декодирования, например, способа декодирования и/или способа маскирования ошибок, на основе значения или параметра стабильности дополнительно может быть основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между различными свойствами сигнала в аудиосигнале. Различные состояния, например, могут представлять речь и музыку. Далее описывается подход использования модели Маркова для формирования дискретного вывода с ограниченным числом степеней стабильности.

Модель Маркова

Используемая модель Маркова содержит M состояний, при этом каждое состояние представляет определенную степень стабильности огибающей. В случае если M выбирается равным 2, одно состояние (состояние 0) может представлять сильно флуктуирующие спектральные огибающие, в то время как другое состояние (состояние 1) может представлять стабильные спектральные огибающие. Без концептуальной разности можно расширять эту модель на большее число состояний, например, для промежуточных степеней стабильности огибающей.

Эта модель состояния Маркова характеризуется посредством вероятностей перехода состояния, которые представляют вероятности того, чтобы переходить из каждого данного состояния в предыдущий момент времени в данное состояние в текущий момент времени. Например, моменты времени могут соответствовать индексам кадров m для текущего кадра и m-1 для ранее корректно принимаемого кадра. Следует отметить, что в случае потерь кадров вследствие ошибок при передаче, они могут представлять собой кадр, отличающийся от предыдущего кадра, который должен быть доступен без потерь кадров. Вероятности перехода состояния могут записываться в математическом выражении в качестве матрицы T переходов, в которой каждый элемент представляет вероятность для перехода в состояние j при возникновении из состояния i. Для предпочтительной модели Маркова с 2 состояниями, матрица вероятностей перехода выглядит следующим образом:

.

Можно отметить, что требуемый эффект сглаживания достигается посредством задания правдоподобий для пребывания в данном состоянии равными относительно большим значениям, в то время как правдоподобие (правдоподобия) для выхода из этого состояния получает небольшие значения.

Помимо этого, каждое состояние ассоциировано с вероятностью в данный момент времени. В момент предыдущего корректно принимаемого кадра m-1, вероятности состояний задаются посредством вектора:

.

Чтобы вычислять априорные правдоподобия для возникновения каждого состояния, вектор вероятностей состояний умножается на матрицу вероятностей перехода:

.

Тем не менее, истинные вероятности состояний зависят не только от этих априорных правдоподобий, но также и от правдоподобий, ассоциированных с текущим наблюдением Pp(m) в момент m времени текущего кадра. Согласно вариантам осуществления, представленным в данном документе, значения измерения спектральной огибающей, которые должны быть сглажены, ассоциированы с такими правдоподобиями наблюдения. Поскольку состояние 0 представляет флуктуирующие спектральные огибающие, а состояние 1 представляет стабильные огибающие, низкое значение измерения стабильности огибающей означает высокую вероятность для состояния 0 и низкую вероятность для состояния 1. С другой стороны, при измерении или наблюдении, стабильность огибающей является большой, это ассоциировано с высокой вероятностью для состояния 1 и низкой вероятностью для состояния 0. Преобразование значений измерения стабильности огибающей в правдоподобия наблюдения состояний, которые оптимально подходят для предпочтительной обработки значений стабильности огибающей посредством вышеописанной сигмоидальной функции, является преобразованием "один-к-одному" в вероятность наблюдения состояния для состояния 1 и преобразования "один-к-одному" в вероятность наблюдения состояния для состояния 0. Иными словами, вывод преобразования сигмоидальной функции может быть вводом в сглаживающую функцию Маркова:

.

Следует отметить, что это преобразование сильно зависит от используемой сигмоидальной функции. Изменение этой функции может требовать введения функций повторного преобразования из и в соответствующие вероятности наблюдения состояний. Простое повторное преобразование, которое также может выполняться в дополнение к сигмоидальной функции, представляет собой применение аддитивного смещения и коэффициента масштабирования.

На следующем этапе обработки, вектор вероятностей наблюдения состояний комбинируется с вектором априорных вероятностей, который дает новый вектор вероятностей состояний для кадра m. Эта комбинация выполняется посредством поэлементного умножения обоих векторов:

.

Поскольку вероятности этого вектора не обязательно суммируются в 1, вектор ренормализован, что, в свою очередь, дает в результате вектор вероятностей конечного состояния для кадра m:

.

На конечном этапе, наиболее вероятное состояние для кадра m возвращается посредством способа в качестве сглаженного и дискретизированного показателя стабильности огибающей. Это требует идентификации максимального элемента в векторе вероятностей состояний:

.

Чтобы обеспечивать оптимальную работу описанного способа сглаживания на основе моделей Маркова для показателя стабильности огибающей, вероятности перехода состояния выбираются подходящим способом. Ниже показан пример матрицы вероятностей перехода, которая обнаружена как очень подходящая для задачи:

.

Из вероятностей в этой матрице вероятностей перехода можно видеть, что правдоподобие для пребывания в состоянии 0 является очень высоким в 0,999, тогда как правдоподобие для выхода из этого состояния является небольшим в 0,001. Следовательно, сглаживание показателя стабильности огибающей избирательно только для случая, когда значения измерения стабильности огибающей указывают низкую стабильность. Поскольку значения измерения стабильности, указывающие стабильную огибающую, являются относительно стабильными сами по себе, дополнительное сглаживание для них не считается необходимым. Соответственно, значения правдоподобия перехода для выхода из состояния 1 и для пребывания в состоянии 1 задаются одинаково равными 0,5.

Следует отметить, что увеличение разрешения сглаженного показателя стабильности огибающей может легко достигаться посредством увеличения числа M состояний.

Дополнительный вариант улучшения способа сглаживания показателя стабильности огибающей состоит в том, чтобы предусматривать дополнительные показатели, которые демонстрируют статистическую взаимосвязь со стабильностью огибающей. Такие дополнительные показатели могут использоваться аналогично ассоциированию наблюдений показателя стабильности огибающей с вероятностями наблюдения состояний. В таком случае, вероятности наблюдения состояний вычисляются посредством поэлементного умножения соответствующих вероятностей наблюдения состояний различных используемых показателей.

Обнаружено, что показатель стабильности огибающей и, в частности, сглаженный показатель является особенно полезным для классификации речи/музыки. Согласно этому обнаружению, речь может хорошо быть ассоциирована с низкими показателями стабильности и, в частности, с состоянием 0 вышеописанной модели Маркова. Напротив, музыка может хорошо быть ассоциирована с высокими показателями стабильности и, в частности, с состоянием 1 модели Маркова.

Для ясности, в конкретном варианте осуществления, вышеописанная процедура сглаживания выполняется на следующих этапах в каждый момент m времени:

1. Ассоциирование текущего значения измерения стабильности огибающей с вероятностями наблюдения состояний.

2. Вычисление априорных вероятностей , связанных с вероятностями состояний в более ранний момент m-1 времени и связанных с вероятностями перехода.

3. Умножение поэлементных априорных вероятностей на вероятности наблюдения состояний, включающее в себя ренормализацию, что дает в результате вектор вероятностей состояний для текущего кадра m.

4. Идентификация состояния с наибольшей вероятностью в векторе вероятностей состояний и возвращение его в качестве конечного сглаженного показателя стабильности огибающей для текущего кадра m.

Фиг. 4 является схематичным графиком, иллюстрирующим спектральную огибающую 10 сигналов принимаемых аудиокадров, причем амплитуда каждой полосы частот представлена с помощью одного значения. Горизонтальная ось представляет частоту, а вертикальная ось представляет амплитуду, например, мощность и т.д. Чертеж иллюстрирует типичную компоновку увеличения полосы пропускания для верхних частот, но следует отметить, что может использоваться любой тип равномерной или неравномерной сегментации полос частот.

Обнаружение переходных частей

Как упомянуто выше, может быть желательным комбинировать значение стабильности или параметр стабильности с показателем переходного характера аудиосигнала. Чтобы достигать такого показателя, может использоваться детектор переходных частей. Например, можно определять то, какой тип заполнения шумом или управления ослаблением должен использоваться при декодировании аудиосигнала, на основе значения/параметра стабильности и показателя переходных частей. Примерный детектор переходных частей с использованием логики хвостов сигнала указывается ниже. Термин "хвост сигнала" обычно используется в обработке аудиосигналов и означает идею задержки решения в отношении того, чтобы исключать нестабильное поведение при переключении в переходный период, когда, в общем, считается безопасным задерживать решение.

Детектор переходных частей использует различный анализ в зависимости от режима кодирования. Он имеет счетчик хвостов сигнала, чтобы обрабатывать логику хвостов сигнала, которая инициализируется равной нулю. Детектор переходных частей имеет заданное поведение для трех различных режимов:

- режим A: режим кодирования в полосе низких частот без значений огибающей

- режим B: нормальный режим кодирования со значениями огибающей

- режим C: переходный режим кодирования

Детектор переходных частей основывается на долговременной оценке энергии синтезирующего сигнала. Он обновляется по-разному в зависимости от режима кодирования.

Режим A

В режиме A, оценка энергии кадра вычисляется следующим образом:

,

где является наибольшим кодированным коэффициентом в синтезированной полосе низких частот режима A, и являются синтезированными MDCT-коэффициентами кадра . В кодере, они воспроизводятся с использованием способа локального синтеза, который может извлекаться в процессе кодирования, и они являются идентичными коэффициентам, полученным в процессе декодирования. Долговременная оценка энергии обновляется с использованием фильтра нижних частот:

,

где является коэффициентом фильтрации с примерным значением в 0,93. Если счетчик хвостов сигнала превышает единицу, он постепенно уменьшается.

Режим B

Долговременная оценка энергии обновляется на основе квантованных значений огибающей:

,

где является наибольшей полосой частот, включенной в вычисление низкочастотной энергии. Долговременная оценка энергии обновляется идентично режиму A:

Снижение числа хвостов сигнала выполняется идентично режиму A.

Режим C

Режим C является переходным режимом, который кодирует спектр в четырех субкадрах (причем каждый субкадр соответствует 1 мс в LTE). Огибающая перемежается в шаблон, в котором часть порядка частоты сохраняется. Четыре энергии субкадров вычисляются согласно следующему:

,

где обозначает полосы b частот огибающей, которая представляет субкадр , и является размером этого набора. Следует отметить, что фактическая реализация должна зависеть от компоновки перемеженных субкадров в векторе огибающих.

Энергия кадра формируется посредством суммирования энергий субкадров:

Тест переходных частей выполняется для кадров с высокой энергией посредством проверки следующего условия:

,

где является пороговым значением энергии, и является числом субкадров. Если вышеуказанное условие удовлетворяется, максимальная разность энергий субкадров находится следующим образом:

В завершение, если условие является истинным, где является пороговым значением принятия решения, которое зависит от реализации и настройки чувствительности, счетчик хвостов сигнала задается равным максимальному значению:

,

где является конфигурируемым постоянным значением счетчика кадров. Теперь, если условие является истинным, это означает то, что переходная часть обнаружена, и то, что счетчик хвостов сигнала еще не достиг нуля.

Решение по хвосту сигнала переходной части может комбинироваться с показателем стабильности огибающей таким образом, что модификации в зависимости от применяются только тогда, когда является истинным.

Конкретная проблема представляет собой вычисление показателя стабильности огибающей в случае аудиокодеков, которые не предоставляют представление спектральной огибающей в форме норм подполос частот (или коэффициентов масштабирования).

Далее описывается один вариант осуществления, разрешающий эту проблему и при этом получающий полезный показатель стабильности огибающей, который является согласованным с показателем стабильности огибающей, полученным на основе норм подполос частот или коэффициентов масштабирования, как описано выше.

Первый этап решения заключается в том, чтобы находить подходящее альтернативное представление спектральной огибающей данного кадра сигнала. Одно такое представление является представлением на основе линейных прогнозирующих коэффициентов (LPC, или коэффициентов кратковременного прогнозирования). Эти коэффициенты являются хорошим представлением спектральной огибающей, если LPC-порядок P выбран надлежащим образом, что, например, составляет 16 для широкополосных или сверхширокополосных сигналов. Представление LPC-параметров, которое является, в частности, подходящим для целей кодирования, квантования и интерполяции, представляет собой частоты спектральных линий (LSF) или связанные параметры, такие как, например, ISF (частоты спектральных иммитансов) или LSP (пары спектральных линий). Причина состоит в том, что эти параметры демонстрируют хорошую взаимосвязь со спектром огибающей соответствующего синтезирующего LPC-фильтра.

Показатель предшествующего уровня техники, оценивающий стабильность LSF-параметров текущего кадра по сравнению с LSF-параметрами предыдущего кадра, известен как показатель LSF-стабильности в кодеке ITU-T G.718. Этот показатель LSF-стабильности используется в контексте интерполяции LPC-параметров и в случае стираний кадров. Этот показатель задается следующим образом:

,

где P является порядком LPC-фильтра, a и b являются некоторыми подходящими константами. Помимо этого, показатель lsf_stab может быть ограничен интервалом от 0 до 1. Большое число, близкое к 1, означает то, что LSF-параметры являются очень стабильными, т.е. не сильно изменяющимися, тогда как низкое значение означает то, что параметры являются относительно нестабильными.

Одно обнаружение согласно вариантам осуществления, представленным в данном документе, состоит в том, что показатель LSF-стабильности также может использоваться в качестве конкретного полезного индикатора стабильности огибающей в качестве альтернативы сравнению текущих и более ранних спектральных огибающих в форме норм подполос частот (или коэффициентов масштабирования). С этой целью, согласно одному варианту осуществления, параметр lsf_stab вычисляется для текущего кадра (относительно более раннего кадра). Затем этот параметр повторно масштабируется посредством подходящего полиномиального преобразования, такого как:

,

где N является порядком полинома, и являются коэффициентами полинома.

Повторное масштабирование, т.е. задание порядка и коэффициентов полинома выполняется таким образом, что преобразованные значения ведут себя максимально возможно аналогично соответствующим значениям стабильности огибающей, как описано выше. Обнаружено, что порядок полинома 1 является достаточным во многих случаях.

Классификация, фиг. 5a и 5b

Способ, описанный выше, может описываться как способ для классификации части аудиосигнала, и при этом соответствующий режим либо способ декодирования или кодирования может выбираться на основе результата классификации.

Фиг. 5a-b являются блок-схемами последовательности операций, иллюстрирующими способы, осуществляемые в аудиокодере хост-устройства, например, в качестве беспроводного терминала и/или узла транскодирования по фиг. 1, для помощи в выборе режима кодирования для аудио.

На этапе 501 получения параметров кодека, могут получаться параметры кодека. Параметры кодека являются параметрами, которые уже доступны в кодере или декодере хост-устройства.

На этапе 502 классификации, аудиосигнал классифицирован на основе параметров кодека. Классификация, например, может быть на голос или музыку. Необязательно, гистерезис используется на этом этапе, как подробнее пояснено выше, чтобы предотвращать перескок частот назад и вперед. Альтернативно или дополнительно, модель Маркова, к примеру, цепь Маркова, как подробнее пояснено выше, может использоваться для того, чтобы повышать стабильность классификации.

Например, классификация может быть основана на показателе стабильности огибающей спектральной информации аудиоданных, который затем вычисляется на этом этапе. Это вычисление, например, может быть основано на квантованном значении огибающей.

Необязательно, этот этап содержит преобразование показателя стабильности в предварительно заданный скалярный диапазон, как представлено посредством S(m) выше, необязательно с использованием таблицы поиска, чтобы уменьшать потребности в вычислениях.

Способ может повторяться для каждого принимаемого кадра аудиоданных.

Фиг 5b иллюстрирует способ для помощи в выборе режима кодирования и/или декодирования для аудио согласно одному варианту осуществления. Этот способ является аналогичным способу, проиллюстрированному на фиг. 5a, и описываются только новые или модифицированные этапы, относительно фиг. 5a.

На необязательном этапе 503 выбора режима кодирования, режим кодирования выбирается на основе классификации из этапа 502 классификации.

На необязательном этапе 504 кодирования, аудиоданные кодируются или декодируются на основе режима кодирования, выбранного на этапе 503 выбора режима кодирования.

Реализации

Способ и технологии, описанные выше, могут реализовываться в кодерах и/или декодерах, которые могут быть частью, например, устройств связи.

Декодер, фиг. 6a-6c

Иллюстративный вариант осуществления декодера обобщенно проиллюстрирован на фиг. 6a. Под декодером подразумевается декодер, выполненный с возможностью декодирования и возможно иного восстановления аудиосигналов. Декодер, возможно, дополнительно может быть выполнен с возможностью декодирования других типов сигналов. Декодер 600 выполнен с возможностью осуществлять, по меньшей мере, один из вариантов осуществления способа, описанных выше со ссылкой, например, на фиг. 2a и 2b. Декодер 600 ассоциирован с техническими признаками, целями и преимуществами, идентичными техническим признакам, целям и преимуществам вышеописанных вариантов осуществления способа. Декодер может быть выполнен с возможностью совместимости с одним или более стандартов для кодирования/декодирования аудио. Декодер описывается кратко во избежание необязательного повторения.

Декодер может реализовываться и/или описываться следующим образом.

Декодер 600 выполнен с возможностью декодирования аудиосигнала. Декодер 600 содержит схему 601 обработки или средство обработки и интерфейс 602 связи. Схема 601 обработки выполнена с возможностью инструктировать декодеру 600, в области преобразования, для кадра m: определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема 601 обработки дополнительно выполнена с возможностью инструктировать декодеру выбирать режим декодирования из множества режимов декодирования на основе значения D(m) стабильности; и применять выбранный режим декодирования.

Схема 601 обработки дополнительно может быть выполнена с возможностью инструктировать декодеру подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности; и преобразовывать фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого затем выбирается режим декодирования. Интерфейс 602 связи, который также может обозначаться, например, как интерфейс ввода-вывода, включает в себя интерфейс для отправки данных и приема данных из других объектов или модулей.

Схема 601 обработки, как проиллюстрировано на фиг. 6b, может содержать средство обработки, такое как процессор 603, например, CPU и запоминающее устройство 604 для сохранения или хранения инструкций. Запоминающее устройство в таком случае должно содержать инструкции, например, в форме компьютерной программы 605, которая при выполнении посредством средства 603 обработки инструктирует декодеру 600 выполнять операции, описанные выше.

Альтернативная реализация схемы 601 обработки показана на фиг 6c. Схема обработки здесь содержит блок 606 определения, выполненный с возможностью инструктировать декодеру 600: определять отношение, чтобы определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема обработки дополнительно содержит блок609 выбора, выполненный с возможностью инструктировать декодеру выбирать режим декодирования из множества режимов декодирования на основе значения D(m) стабильности. Схема обработки дополнительно содержит блок610 применения или блокдекодирования, выполненный с возможностью инструктировать декодеру применять выбранный режим декодирования. Схема 601 обработки может содержать большее число блоков, к примеру, блок607 фильтрации, выполненный с возможностью инструктировать декодеру подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности. Схема обработки дополнительно может содержать блок608 преобразования, выполненный с возможностью инструктировать декодеру преобразовывать фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого затем выбирается режим декодирования. Эти необязательные блокипроиллюстрированы с пунктирным контуром на фиг. 6c.

Декодеры или кодеки, описанные выше, могут быть сконфигурированы для различных вариантов осуществления способа, описанных в данном документе, таких как использование модели Маркова и выбор между различными режимами декодирования, ассоциированными с маскированием ошибок.

Кодер 600 предположительно может содержать дополнительную функциональность для выполнения функций регулярного декодера.

Кодер, фиг. 7a-7c

Иллюстративный вариант осуществления кодера обобщенно проиллюстрирован на фиг. 7a. Под кодером подразумевается кодер, выполненный с возможностью кодирования аудиосигналов. Кодер, возможно, дополнительно может быть выполнен с возможностью кодирования других типов сигналов. Кодер 700 выполнен с возможностью осуществлять, по меньшей мере, один способ, соответствующий способам декодирования, описанным выше со ссылкой, например, на фиг. 2a и 2b. Иными словами, вместо выбора режима декодирования, в как указано на фиг. 2a и 2b, выбирается и применяется режим кодирования. Кодер 700 ассоциирован с техническими признаками, целями и преимуществами, идентичными техническим признакам, целям и преимуществам вышеописанных вариантов осуществления способа. Кодер может быть выполнен с возможностью совместимости с одним или более стандартов для кодирования/декодирования аудио. Кодер описывается кратко во избежание необязательного повторения.

Кодер может реализовываться и/или описываться следующим образом.

Кодер 700 выполнен с возможностью кодирования аудиосигнала. Кодер 700 содержит схему 701 обработки или средство обработки и интерфейс 702 связи. Схема 701 обработки выполнена с возможностью инструктировать кодеру 700, в области преобразования, для кадра m: определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема 701 обработки дополнительно выполнена с возможностью инструктировать кодеру выбирать режим кодирования из множества режимов кодирования на основе значения D(m) стабильности; и применять выбранный режим кодирования.

Схема 701 обработки дополнительно может быть выполнена с возможностью инструктировать кодеру подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности; и преобразовывать фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого затем выбирается режим кодирования. Интерфейс 702 связи, который также может обозначаться, например, как интерфейс ввода-вывода, включает в себя интерфейс для отправки данных и приема данных из других объектов или модулей.

Схема 701 обработки, как проиллюстрировано на фиг. 7b, может содержать средство обработки, такое как процессор 703, например, CPU и запоминающее устройство 704 для сохранения или хранения инструкций. Запоминающее устройство в таком случае должно содержать инструкции, например, в форме компьютерной программы 705, которая при выполнении посредством средства 703 обработки инструктирует кодеру 700 выполнять операции, описанные выше.

Альтернативная реализация схемы 701 обработки показана на фиг 7c. Схема обработки здесь содержит блок706 определения, выполненный с возможностью инструктировать кодеру 700: определять отношение, чтобы определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема обработки дополнительно содержит блок709 выбора, выполненный с возможностью инструктировать кодеру выбирать режим кодирования из множества режимов кодирования на основе значения D(m) стабильности. Схема обработки дополнительно содержит блок710 применения или модуль кодирования, выполненный с возможностью инструктировать кодеру применять выбранный режим кодирования. Схема 701 обработки может содержать большее число блоков, к примеру, блок707 фильтрации, выполненный с возможностью инструктировать кодеру подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности. Схема обработки дополнительно может содержать блок708 преобразования выполненный с возможностью инструктировать кодеру преобразовывать фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого затем выбирается режим декодирования. Эти необязательные блокипроиллюстрированы с пунктирным контуром на фиг. 7c.

Кодеры или кодеки, описанные выше, могут быть сконфигурированы для различных вариантов осуществления способа, описанных в данном документе, таких как использование модели Маркова.

Кодер 700 предположительно может содержать дополнительную функциональность для выполнения функций регулярного кодера.

Классификатор, фиг. 8a-8c

Иллюстративный вариант осуществления классификатора обобщенно проиллюстрирован на фиг. 8a. Под классификатором подразумевается классификатор, выполненный с возможностью классификации аудиосигналов, т.е. различения между различными типами или классами аудиосигналов. Классификатор 800 выполнен с возможностью осуществлять, по меньшей мере, один способ, соответствующий способам, описанным выше со ссылкой, например, на фиг. 5a и 5b. Классификатор 800 ассоциирован с техническими признаками, целями и преимуществами, идентичными техническим признакам, целям и преимуществам вышеописанных вариантов осуществления способа. Классификатор может быть выполнен с возможностью совместимости с одним или более стандартов для кодирования/декодирования аудио. Классификатор описывается кратко во избежание необязательного повторения.

Классификатор может реализовываться и/или описываться следующим образом.

Классификатор 800 выполнен с возможностью классификации аудиосигнала. Классификатор 800 содержит схему 801 обработки или средство обработки и интерфейс 802 связи. Схема 801 обработки выполнена с возможностью инструктировать классификатору 800, в области преобразования, для кадра m: определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема 801 обработки дополнительно выполнена с возможностью инструктировать классификатору классифицировать аудиосигнал на основе значения D(m) стабильности. Например, классификация может заключать в себе выбор класса аудиосигналов из множества возможных вариантов классов аудиосигналов. Схема 801 обработки дополнительно может быть выполнена с возможностью инструктировать классификатору указывать классификацию для использования, например, посредством декодера или кодера.

Схема 801 обработки дополнительно может быть выполнена с возможностью инструктировать классификатору подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности; и преобразовывать фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого может быть классифицирован аудиосигнал. Интерфейс 802 связи, который также может обозначаться, например, как интерфейс ввода-вывода, включает в себя интерфейс для отправки данных и приема данных из других объектов или модулей.

Схема 801 обработки, как проиллюстрировано на фиг. 8b, может содержать средство обработки, такое как процессор 803, например, CPU и запоминающее устройство 804 для сохранения или хранения инструкций. Запоминающее устройство в таком случае должно содержать инструкции, например, в форме компьютерной программы 805, которая при выполнении посредством средства 803 обработки инструктирует классификатору 800 выполнять операции, описанные выше.

Альтернативная реализация схемы 801 обработки показана на фиг 8c. Схема обработки здесь содержит блок 806 определения, выполненный с возможностью инструктировать классификатору 800: определять отношение, чтобы определять значение D(m) стабильности на основе разности между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Схема обработки дополнительно содержит блок 809 классификации, выполненный с возможностью инструктировать классификатору классифицировать аудиосигнал. Схема обработки дополнительно может содержать блок 810 указания, выполненный с возможностью инструктировать классификатору указывать классификацию, например, кодеру или декодеру. Схема 801 обработки может содержать большее число блоков, к примеру, блок 807 фильтрации, выполненный с возможностью инструктировать классификатору подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности. Схема обработки дополнительно может содержать блок 808 преобразования, выполненный с возможностью инструктировать классификатору преобразовывать фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности, на основе которого может быть классифицирован аудиосигнал. Эти необязательные блоки проиллюстрированы с пунктирным контуром на фиг. 8c.

Классификаторы, описанные выше, могут быть сконфигурированы для различных вариантов осуществления способа, описанных в данном документе, таких как использование модели Маркова.

Классификатор 800 предположительно может содержать дополнительную функциональность для выполнения функций регулярного классификатора.

Фиг. 9 является принципиальной схемой, показывающей некоторые компоненты беспроводного терминала 2 по фиг. 1. Процессор 70 предоставляется с использованием любой комбинации одного или более из подходящего центрального процессора (CPU), многопроцессорной системы, микроконтроллера, процессора цифровых сигналов (DSP), специализированной интегральной схемы и т.д., допускающих выполнение программных инструкций 76, сохраненных в запоминающем устройстве 74, которое в силу этого может представлять собой компьютерный программный продукт. Процессор 70 может выполнять программные инструкции 76, чтобы выполнять любой один или более вариантов осуществления способов, описанных со ссылкой на фиг. 5a-b выше.

Запоминающее устройство 74 может представлять собой любую комбинацию оперативного запоминающего устройства (RAM) и постоянного запоминающего устройства (ROM). Запоминающее устройство 74 также содержит постоянное хранилище, которое, например, может представлять собой любое одно или комбинацию магнитного запоминающего устройства, оптического запоминающего устройства, полупроводникового запоминающего устройства или даже удаленно смонтированного запоминающего устройства.

Запоминающее устройство 73 данных также предусмотрено для считывания и/или сохранения данных во время выполнения программных инструкций в процессоре 70. Запоминающее устройство 73 данных может представлять собой любую комбинацию оперативного запоминающего устройства (RAM) и постоянного запоминающего устройства (ROM).

Беспроводной терминал 2 дополнительно содержит интерфейс 72 ввода-вывода для обмена данными с другими внешними объектами. Интерфейс 72 ввода-вывода также включает в себя пользовательский интерфейс, содержащий микрофон, динамик, дисплей и т.д. Необязательно, внешний микрофон и/или динамик/наушник могут подключаться к беспроводному терминалу.

Беспроводной терминал 2 также содержит одно или более приемо-передающих устройств 71, содержащих аналоговые и цифровые компоненты и подходящее число антенн 75 для беспроводной связи с беспроводными терминалами, как показано на фиг. 1.

Беспроводной терминал 2 содержит аудиокодер и аудиодекодер. Они могут реализовываться в программных инструкциях 76, выполняемых посредством процессора 70 или с использованием отдельных аппаратных средств (не показаны).

Другие компоненты беспроводного терминала 2 опускаются, чтобы не затруднять понимание принципов, представленных в данном документе.

Фиг. 10 является принципиальной схемой, показывающей некоторые компоненты узла 5 транскодирования по фиг. 1. Процессор 80 предоставляется с использованием любой комбинации одного или более из подходящего центрального процессора (CPU), многопроцессорной системы, микроконтроллера, процессора цифровых сигналов (DSP), специализированной интегральной схемы и т.д., допускающих выполнение программных инструкций 66, сохраненных в запоминающем устройстве 84, которое в силу этого может представлять собой компьютерный программный продукт. Процессор 80 может быть выполнен с возможностью осуществлять программные инструкции 86, чтобы выполнять любой один или более вариантов осуществления способов, описанных со ссылкой на фиг. 5a-b выше.

Запоминающее устройство 84 может представлять собой любую комбинацию оперативного запоминающего устройства (RAM) и постоянного запоминающего устройства (ROM). Запоминающее устройство 84 также содержит постоянное хранилище, которое, например, может представлять собой любое одно или комбинацию магнитного запоминающего устройства, оптического запоминающего устройства, полупроводникового запоминающего устройства или даже удаленно смонтированного запоминающего устройства.

Запоминающее устройство 83 данных также предусмотрено для считывания и/или сохранения данных во время выполнения программных инструкций в процессоре 80. Запоминающее устройство 83 данных может представлять собой любую комбинацию оперативного запоминающего устройства (RAM) и постоянного запоминающего устройства (ROM).

Узел 5 транскодирования дополнительно содержит интерфейс 82 ввода-вывода для обмена данными с другими внешними объектами, такими как беспроводной терминал по фиг. 1, через базовую радиостанцию 1.

Узел 5 транскодирования содержит аудиокодер и аудиодекодер. Они могут реализовываться в программных инструкциях 86, выполняемых посредством процессора 80 или с использованием отдельных аппаратных средств (не показаны).

Другие компоненты узла 5 транскодирования опускаются, чтобы не затруднять понимание принципов, представленных в данном документе.

Фиг. 11 показывает один пример компьютерного программного продукта 90, содержащего машиночитаемое средство. На этом машиночитаемом средстве может сохраняться компьютерная программа 91, причем эта компьютерная программа может инструктировать процессору осуществлять способ согласно вариантам осуществления, описанным в данном документе. В этом примере, компьютерный программный продукт представляет собой оптический диск, такой как CD (компакт-диск) или DVD (универсальный цифровой диск) или Blu-Ray-диск. Как пояснено выше, компьютерный программный продукт также может быть осуществлен в памяти устройства, к примеру, как компьютерный программный продукт 74 по фиг. 7 или компьютерный программный продукт 84 по фиг. 8. Хотя компьютерная программа 91 здесь схематично показана в качестве дорожки на проиллюстрированном оптическом диске, компьютерная программа может сохраняться любым способом, который является подходящим для компьютерного программного продукта, к примеру, на съемном полупроводниковом запоминающем устройстве (например, на карте памяти по стандарту универсальной последовательной шины (USB)).

Далее приводится набор перечислимых вариантов осуществления для того, чтобы дополнительно примерно иллюстрировать некоторые аспекты идей изобретения, представленных в данном документе.

1. Способ для помощи в выборе режима кодирования или декодирования для аудио, при этом способ осуществляется в аудиокодере или декодере и содержит этапы:

- получения (501) параметров кодека; и

- классификации (502) аудиосигнала на основе параметров кодека.

2. Способ согласно варианту 1 осуществления, дополнительно содержащий этапы:

- выбора (503) режима кодирования на основе классификации.

3. Способ согласно варианту 2 осуществления, дополнительно содержащий этап:

- кодирования или декодирования (504) аудиоданных на основе режима кодирования выбраны на этапе выбора.

4. Способ согласно любому из предыдущих вариантов осуществления, в котором этап классификации (502) аудиосигнала содержит использование гистерезиса.

5. Способ согласно любому из предыдущих вариантов осуществления, в котором этап классификации (502) аудиосигнала содержит использование цепи Маркова.

6. Способ согласно любому из предыдущих вариантов осуществления, в котором этап классификации (502) содержит вычисление показателя стабильности огибающей спектральной информации аудиоданных.

7. Способ согласно варианту 6 осуществления, в котором на этапе классификации, вычисление показателя стабильности огибающей основано на квантованном значении огибающей.

8. Способ согласно варианту 6 или 7 осуществления, в котором этап классификации содержит преобразование показателя стабильности в предварительно заданный скалярный диапазон.

9. Способ согласно варианту 8 осуществления, в котором этап классификации содержит преобразование показателя стабильности в предварительно заданный скалярный диапазон с использованием таблицы поиска.

10. Способ согласно любому из предыдущих вариантов осуществления, в котором показатель стабильности огибающей основан на сравнении характеристик огибающей в кадре m и предшествующем кадре m-1.

11. Хост-устройство (2, 5) для помощи в выборе режима кодирования для аудио, причем хост-устройство содержит:

- процессор (70, 80); и

- запоминающее устройство (74, 84) (76, 86), сохраняющее инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5):

- получать параметры кодека; и

- классифицировать аудиосигнал на основе параметров кодека.

12. Хост-устройство (2, 5) согласно варианту 11 осуществления, дополнительно содержащее инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) выбирать режим кодирования на основе классификации.

13. Хост-устройство (2, 5) согласно варианту 12 осуществления, дополнительно содержащее инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) кодировать аудиоданные на основе выбранного режима кодирования.

14. Хост-устройство (2, 5) согласно любому из вариантов 11-13 осуществления, в котором инструкции для того, чтобы классифицировать аудиосигнал, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) использовать гистерезис.

15. Хост-устройство (2, 5) согласно любому из вариантов 11-14 осуществления, в котором инструкции для того, чтобы классифицировать аудиосигнал, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) использовать цепь Маркова.

16. Хост-устройство (2, 5) согласно любому из вариантов 11-15 осуществления, в котором инструкции для того, чтобы классифицировать, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) вычислять показатель стабильности огибающей спектральной информации аудиоданных.

17. Хост-устройство (2, 5) согласно варианту 16 осуществления, в котором инструкции для того, чтобы классифицировать, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) вычислять показатель стабильности огибающей на основе квантованного значения огибающей.

18. Хост-устройство (2, 5) согласно варианту 16 или 17 осуществления, в котором инструкции для того, чтобы классифицировать, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) преобразовывать показатель стабильности в предварительно заданный скалярный диапазон.

19. Хост-устройство (2, 5) согласно варианту 18 осуществления, в котором инструкции для того, чтобы классифицировать, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) преобразовывать показатель стабильности в предварительно заданный скалярный диапазон с использованием таблицы поиска.

20. Хост-устройство (2, 5) согласно любому из вариантов 11-19 осуществления, в котором инструкции для того, чтобы классифицировать, содержат инструкции, которые при выполнении посредством процессора инструктируют хост-устройству (2, 5) вычислять показатель стабильности огибающей на основе сравнения характеристик огибающей в кадре m и предшествующем кадре m-1.

21. Компьютерная программа (66, 91) для помощи в выборе режима кодирования для аудио, причем компьютерная программа содержит компьютерный программный код, который, когда запущен на хост-устройстве (2, 5), инструктирует хост-устройству (2, 5):

- получать параметры кодека; и

- классифицировать аудиосигнал на основе параметров кодека.

22. Компьютерный программный продукт (74, 84, 90), содержащий компьютерную программу согласно варианту 21 осуществления и машиночитаемое средство, на котором сохраняется компьютерная программа.

Изобретение в основном описано выше в отношении нескольких вариантов осуществления. Тем не менее, специалисты в данной области техники должны принимать во внимание, что варианты осуществления, отличные от вариантов осуществления, раскрытых выше, являются в равной степени возможными в пределах объема изобретения.

Заключительные замечания

Этапы, функции, процедуры, модули, блоки и/или части, описанные в данном документе, могут реализовываться в аппаратных средствах с использованием любой традиционной технологии, такой как технология изготовления дискретных схем или интегральных схем, включающих в себя как электронную схему общего назначения, так и специализированную схему.

Конкретные примеры включают в себя один или более надлежащим образом сконфигурированных процессоров цифровых сигналов и других известных электронных схем, например, дискретных логических элементов, соединенных с возможностью осуществлять специализированную функцию, или специализированных интегральных схем (ASIC).

Альтернативно, по меньшей мере, некоторые этапы, функции, процедуры, модули, блоки и/или части, описанные выше, могут реализовываться в программном обеспечении, таком как компьютерная программа, для выполнения посредством подходящей схемы обработки, включающей в себя один или более модулей обработки. Программное обеспечение может переноситься посредством несущего элемента, такого как электронный сигнал, оптический сигнал, радиосигнал или машиночитаемый носитель хранения данных до и/или во время использования компьютерной программы в сетевых узлах. Сетевой узел и сервер индексации, описанные выше, могут реализовываться в так называемом облачном решении, что означает то, что реализация может быть распределена, и сетевой узел и сервер индексации, следовательно, могут представлять собой так называемые виртуальные узлы или виртуальные машины.

Блок-схема или блок-схемы последовательности операций способа, представленные в данном документе, могут рассматриваться в качестве компьютерной блок-схемы или блок-схем последовательности операций способа при выполнении посредством одного или более процессоров. Соответствующий аппарат может задаваться как группа функциональных модулей, причем каждый этап, выполняемый посредством процессора, соответствует функциональному модулю. В этом случае, функциональные модули реализуются как компьютерная программа, запущенная на процессоре.

Примеры схемы обработки включают в себя, но не только, один или более микропроцессоров, один или более процессоров цифровых сигналов (DSP), один или более центральных процессоров (CPU) и/или любую подходящую программируемую логическую схему, такую как одна или более программируемых пользователем вентильных матриц (FPGA) или один или более программируемых логических контроллеров (PLC). Иными словами, блоки или модули в компоновках в различных узлах, описанных выше, могут реализовываться посредством комбинации аналоговых и цифровых схем и/или одного или более процессоров, сконфигурированных с программным обеспечением и/или микропрограммным обеспечением, например, сохраненным в запоминающем устройстве. Один или более этих процессоров, а также другие цифровые аппаратные средства могут быть включены в одну специализированную интегральную схему (ASIC), либо несколько процессоров и различные цифровые аппаратные средства могут быть распределены по нескольким отдельным компонентам, в отдельном корпусе либо собранным во внутрикристальную систему (SoC).

Также следует понимать, что может быть возможным многократно использовать общие характеристики обработки любого традиционного устройства или модуля, в котором реализуется предложенная технология. Также может быть возможным многократно использовать существующее программное обеспечение, например, посредством перепрограммирования существующего программного обеспечения или посредством добавления новых программных компонентов.

Вышеописанные варианты осуществления приведены просто в качестве примеров, и следует понимать, что предлагаемая технология не ограничена ими. Специалисты в данной области техники должны понимать, что различные модификации, комбинации и изменения могут быть выполнены в вариантах осуществления без отступления от настоящего объема. В частности, решения по различным частям в различных вариантах осуществления могут быть комбинированы в другие конфигурации, если технически осуществимо.

При использовании слова "содержать" или "содержащий", оно должно интерпретироваться как неограничивающее, т.е. означающее "состоять, по меньшей мере, из".

Следует также отметить, что в некоторых альтернативных реализациях, функции, указанные на блоках, могут выполняться не в порядке, указанном на блок-схемах последовательности операций способа. Например, два блока, показанные друг за другом, фактически могут выполняться практически одновременно, или блоки иногда могут выполняться в обратном порядке, в зависимости от включенной функциональности/этапов. Кроме того, функциональность данного блока блок-схем последовательности операций способа и/или принципиальных схем может разделяться на несколько блоков, и/или функциональность двух или более блоков блок-схем последовательности операций способа и/или принципиальных схем может быть, по меньшей мере, частично интегрирована. В завершение, другие блоки могут быть добавлены/вставлены между блоками, которые проиллюстрированы, и/или блоки/операции могут опускаться без отступления от объема идей изобретения.

Следует понимать, что выбор взаимодействующих блоков, а также именование блоков в этом раскрытии сущности служит только для примерной иллюстрации, и узлы, подходящие для того, чтобы осуществлять любые из способов, описанных выше, могут быть сконфигурированы множеством альтернативных вариантов, чтобы иметь возможность выполнять предлагаемые операции процедуры.

Также следует отметить, что блоки, описанные в этом раскрытии сущности, должны рассматриваться в качестве логических объектов и не обязательно в качестве отдельных физических объектов.

Похожие патенты RU2765985C2

название год авторы номер документа
КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ АУДИОСИГНАЛОВ 2015
  • Норвелл Эрик
  • Брун Стефан
RU2668111C2
КОДЕР, ДЕКОДЕР И СПОСОБ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ АУДИОКОНТЕНТА С ИСПОЛЬЗОВАНИЕМ ПАРАМЕТРОВ ДЛЯ УЛУЧШЕНИЯ МАСКИРОВАНИЯ 2015
  • Леконт Жереми
  • Шуберт Беньямин
  • Шнабель Михаэль
  • Дитц Мартин
RU2701707C2
КОДЕР, МНОГОСИГНАЛЬНЫЙ ДЕКОДЕР И СООТВЕТСТВУЮЩИЕ СПОСОБЫ С ИСПОЛЬЗОВАНИЕМ ОТБЕЛИВАНИЯ СИГНАЛОВ ИЛИ ПОСТОБРАБОТКИ СИГНАЛОВ 2019
  • Фотопоулоу, Элени
  • Мультрус, Маркус
  • Дик, Саша
  • Маркович, Горан
  • Мабен, Паллави
  • Корсе, Срикантх
  • Байер, Штефан
  • Диш, Саша
  • Херре, Юрген
RU2769788C1
УСТРОЙСТВО И СПОСОБ ДЛЯ КОДИРОВАНИЯ СТЕРЕО НА ОСНОВЕ MDCT M/S С ГЛОБАЛЬНОЙ ILD С УЛУЧШЕННЫМ ПРИНЯТИЕМ РЕШЕНИЯ ПО КОДИРОВАНИЮ МЕТОДОМ СРЕДНЕГО/БОКОВОГО КАНАЛА 2017
  • Равелли Эммануэль
  • Шнелль Маркус
  • Дёла Штефан
  • Егерс Вольфганг
  • Дитц Мартин
  • Хельмрих Кристиан
  • Маркович Горан
  • Фотопоулоу Элени
  • Мультрус Маркус
  • Байер Штефан
  • Фукс Гийом
  • Херре Юрген
RU2713613C1
СИСТЕМА ОБРАБОТКИ АУДИО 2014
  • Черлинг, Кристофер
  • Пурнхаген, Хейко
  • Виллемоес, Ларс
RU2625444C2
АУДИОКОДЕР ДЛЯ КОДИРОВАНИЯ МНОГОКАНАЛЬНОГО СИГНАЛА И АУДИОДЕКОДЕР ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА 2016
  • Диш Саша
  • Фукс Гийом
  • Равелли Эммануэль
  • Нойкам Кристиан
  • Шмидт Константин
  • Бенндорф Конрад
  • Нидермайер Андреас
  • Шуберт Беньямин
  • Гайгер Ральф
RU2679571C1
УСТРОЙСТВО ОБРАБОТКИ АУДИОСИГНАЛА, СПОСОБ ОБРАБОТКИ АУДИОСИГНАЛА И ПРОГРАММА ОБРАБОТКИ АУДИОСИГНАЛА 2019
  • Цуцуми, Кимитака
  • Кикуири, Кей
  • Ямагути, Ацуси
RU2701075C1
УСТРОЙСТВО ОБРАБОТКИ АУДИОСИГНАЛА, СПОСОБ ОБРАБОТКИ АУДИОСИГНАЛА И ПРОГРАММА ОБРАБОТКИ АУДИОСИГНАЛА 2014
  • Цуцуми Кимитака
  • Кикуири Кей
  • Ямагути Ацуси
RU2680748C1
МАСШТАБИРУЕМОЕ КОДИРОВАНИЕ РЕЧИ И АУДИО С ИСПОЛЬЗОВАНИЕМ КОМБИНАТОРНОГО КОДИРОВАНИЯ MDCT-СПЕКТРА 2008
  • Резник Юрий
  • Хуан Пэнцзюнь
RU2459282C2
АУДИОКОДЕР ДЛЯ КОДИРОВАНИЯ МНОГОКАНАЛЬНОГО СИГНАЛА И АУДИОДЕКОДЕР ДЛЯ ДЕКОДИРОВАНИЯ КОДИРОВАННОГО АУДИОСИГНАЛА 2016
  • Диш Саша
  • Фукс Гийом
  • Равелли Эммануэль
  • Нойкам Кристиан
  • Шмидт Константин
  • Бенндорф Конрад
  • Нидермайер Андреас
  • Шуберт Беньямин
  • Гайгер Ральф
RU2680195C1

Иллюстрации к изобретению RU 2 765 985 C2

Реферат патента 2022 года КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ АУДИОСИГНАЛОВ

Изобретение относится к средствам для классификации и кодирования аудиосигналов. Технический результат заключается в повышении эффективности кодирования. Определяют значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1. Причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала. Выбирают режим декодирования из множества режимов декодирования на основе значения D(m) стабильности. Применяют выбранный режим декодирования. Подвергают фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности. Преобразуют фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности. При этом выбор режима декодирования основан на параметре S(m) стабильности. 4 н. и 15 з.п. ф-лы, 20 ил.

Формула изобретения RU 2 765 985 C2

1. Способ для декодирования аудиосигнала, при этом способ содержит этапы, на которых:

- определяют (201) значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;

- выбирают (204) режим декодирования из множества режимов декодирования на основе значения D(m) стабильности и

- применяют (205) выбранный режим декодирования.

2. Способ по п. 1, дополнительно содержащий этапы, на которых:

- подвергают (202) фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности;

- преобразуют (203) фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и

- при этом выбор режима декодирования основан на параметре S(m) стабильности.

3. Способ по п. 1 или 2, в котором выбор режима декодирования содержит этап, на котором определяют, содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.

4. Способ по любому из предшествующих пунктов, в котором по меньшей мере один режим декодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и по меньшей мере один режим декодирования является более подходящим для музыки, чем для речи.

5. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования из множества режимов декодирования связан с маскированием ошибок.

6. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между различными свойствами сигнала в аудиосигнале.

7. Способ по любому из предшествующих пунктов, в котором выбор режима декодирования дополнительно основан на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.

8. Способ по любому из пп. 1-4, в котором выбор режима декодирования дополнительно основан на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.

9. Способ по любому из предшествующих пунктов, в котором значение D(m) стабильности определяется следующим образом:

,

где b обозначает полосу спектра в кадре m, E(m,b) обозначает показатель энергии для полосы b частот в кадре m и полосы bstart, …, bend частот обозначают диапазон полос частот, который используется для определения показателя разности огибающих.

10. Декодер для декодирования аудиосигнала, причем декодер выполнен с возможностью:

- определять значение D(m) стабильности на основе разности, в области преобразования, между диапазоном спектральной огибающей кадра m и соответствующим диапазоном спектральной огибающей смежного кадра m-1, причем каждый диапазон содержит набор квантованных значений спектральной огибающей, связанных с энергией в полосах спектра сегмента аудиосигнала;

- выбирать режим декодирования из множества режимов декодирования на основе значения D(m) стабильности и

- применять выбранный режим декодирования.

11. Декодер по п. 10, дополнительно выполненный с возможностью:

- подвергать фильтрации нижних частот значение D(m) стабильности, за счет этого достигая фильтрованного значения стабильности; и

- преобразовывать (203) фильтрованное значение стабильности в скалярный диапазон [0,1] посредством использования сигмоидальной функции, за счет этого достигая параметра S(m) стабильности; и

- при этом выбор режима декодирования основан на параметре S(m) стабильности.

12. Декодер по п. 10 или 11, в котором выбор режима декодирования выполнен с возможностью содержать определение того, содержит сегмент аудиосигнала, представленного в кадре m, речь или музыку.

13. Декодер по любому из пп. 10-12, в котором по меньшей мере один режим декодирования из множества режимов декодирования является более подходящим для речи, чем для музыки, и по меньшей мере один режим декодирования является более подходящим для музыки, чем для речи.

14. Декодер по любому из пп. 10-13, в котором выбор режима декодирования из множества режимов декодирования связан с маскированием ошибок.

15. Декодер по любому из пп. 10-14, в котором выбор режима декодирования выполнен с возможностью быть основанным на модели Маркова, задающей вероятности перехода состояния, связанные с переходами между речью и музыкой в аудиосигнале.

16. Декодер по любому из пп. 10-13, выполненный с возможностью дополнительно основывать выбор режима декодирования на показателе переходных частей, указывающем структуру переходных частей спектрального контента кадра m.

17. Декодер по любому из пп. 10-16, выполненный с возможностью определять значение D(m) стабильности следующим образом:

,

где b обозначает полосу спектра в кадре m, E(m,b) обозначает показатель энергии для полосы b частот в кадре m и полосы bstart, …, bend частот обозначают диапазон полос частот, который используется для определения показателя разности огибающих.

18. Хост-устройство, содержащее декодер по любому из пп. 10-17.

19. Машиночитаемый носитель хранения данных, содержащий инструкции, которые при выполнении по меньшей мере на одном процессоре инструктируют по меньшей мере одному процессору осуществлять способ по любому из пп. 1-9.

Документы, цитированные в отчете о поиске Патент 2022 года RU2765985C2

Многоступенчатая активно-реактивная турбина 1924
  • Ф. Лезель
SU2013A1
US 7596491 B1, 29.09.2009
US 8160872 B2, 17.04.2012
US 8515742 B2, 20.08.2013
US 8209190 B2, 26.06.2012
Способ приготовления лака 1924
  • Петров Г.С.
SU2011A1
КОДИРОВАНИЕ СИГНАЛА С ИСПОЛЬЗОВАНИЕМ КОДИРОВАНИЯ С РЕГУЛЯРИЗАЦИЕЙ ОСНОВНЫХ ТОНОВ И БЕЗ РЕГУЛЯРИЗАЦИИ ОСНОВНЫХ ТОНОВ 2011
  • Раджендран Вивек
  • Кандхадаи Анантападманабхан А.
  • Кришнан Венкатеш
RU2470384C1
СПОСОБ И ДИСКРИМИНАТОР ДЛЯ КЛАССИФИКАЦИИ РАЗЛИЧНЫХ СЕГМЕНТОВ СИГНАЛА 2009
  • Фухс Гильом
  • Баер Стефан
  • Хиршфельд Йенс
  • Херре Юрген
  • Лекомте Джереми
  • Реттелбах Николаус
  • Нагель Фредерик
  • Вабник Стефан
  • Йокотани Йошиказу
RU2507609C2

RU 2 765 985 C2

Авторы

Норвелл, Эрик

Брун, Стефан

Даты

2022-02-07Публикация

2015-05-12Подача