Показать метаданные Скрыть метаданные

(19)

(11)

2 823 081

(13)

(51)

МПК

G10L19/02(2013-01-01)

(21) (22)

Заявка

2022111049, 2020-10-16

(24)

Дата начала отсчета патента

2020-10-16

(22)

дата подачи заявки

2020-10-16

(45)

опубликовано

2024-07-18

(72)

авторы

Клейса, ЯнушБисвас, АрийитВиллемоес, ЛарсФейгин, Рой М.Чжоу, Цун

(73)

патентообладатели

Долби Лэборетериз Лайсенсинг КорпорейшнДолби Интернэшнл Аб

(56)

Документы, цитированные в отчете о поиске

ADAPTIVE WAVELETS FOR SPEECH CODING, SKadambe et al., опублFast dictionary learning for sparse representations of speech signals, Maria GJafari et al., опубл

СПОСОБЫ И СИСТЕМА ДЛЯ КОДИРОВАНИЯ НА ОСНОВЕ ФОРМЫ СИГНАЛОВ АУДИОСИГНАЛОВ С ПОМОЩЬЮ ПОРОЖДАЮЩЕЙ МОДЕЛИ Российский патент 2024 года по МПК G10L19/02

Описание патента на изобретение RU2823081C1

Перекрестные ссылки на родственные заявки

Данная заявка испрашивает приоритет по заявке на патент (Европа) номер 19 209 362.3, поданной 15 ноября 2019 года, и предварительной заявке на патент (США) номер 62/923,225, поданной 18 октября 2019 года, которые содержатся в данном документе по ссылке.

Область техники, к которой относится изобретение

Настоящее раскрытие, в общем, относится к способу декодирования на основе формы сигналов, а более конкретно к декодированию на основе формы сигналов для сигналов источников с помощью порождающей модели. Настоящее раскрытие дополнительно относится к способу и системе для кодирования на основе формы сигналов и к способу обучения порождающей модели.

Хотя некоторые варианты осуществления описываются в данном документе с конкретной ссылкой на это раскрытие, следует принимать во внимание, что настоящее раскрытие не ограничено такой областью применения и является применимым в более широких контекстах.

Уровень техники

Любое пояснение предшествующего уровня техники во всем раскрытии никоим образом не должно считаться подтверждением того, что такая область техники широко известна или составляет часть общедоступных знаний в данной области техники.

Низкоскоростное квантование форм сигналов приводит к артефактам кодирования. Перцепционные эффекты этих артефактов не захватываются оптимально посредством повсеместно используемых показателей искажения выборок. По этой причине, алгоритмы кодирования аудио, работающие с формой сигнала, обычно оснащаются эвристиками, направленными на улучшение перцепционных характеристик, когда квантование сигналов не может восстанавливать перцепционно релевантные признаки сигнала.

Например, в контексте кодирования аудио с преобразованием, схемы кодирования с низкой скоростью следования битов (битрейтом) типично вводят артефакты кодирования, к примеру, спектральные дыры, или ограничивают полосу пропускания кодированного сигнала (в качестве результата оптимизации компромисса между скоростью следования битов и показателем искажения выборок). Чтобы скрывать артефакты кодирования, повсеместно используются инструментальные средства, такие как заполнение шумом или расширение полосы пропускания.

Помимо этого, кодирование с преобразованием типично заключает в себе использование простых квантователей (к примеру, скалярных квантователей). Вследствие свойства декорреляции повсеместно используемых преобразований, разрыв в производительности по отношению к векторному квантованию может уменьшаться. Тем не менее, достижение идеальной декорреляции может быть затруднительным. Следовательно, во многих случаях, дополнительные меры по-прежнему требуются на стороне декодера для того, чтобы дополнительно повышать производительность квантования, такие как постфильтрация.

К настоящему моменту, глубокие порождающие модели успешно использовались для кодирования речи, с предоставлением существенного улучшения в отношении компромисса между перцепционным качеством и скоростью следования битов. Эти схемы содержат кодер, вычисляющий параметрическое представление (на конечной скорости следования битов) речи, и декодер на основе порождающей модели. Речевой сигнал восстанавливался посредством дискретизации из полученного обучением распределения вероятностей, обусловленного параметрическим представлением.

Порождающие модели также использовались для синтеза аудиосигналов. Тем не менее, их применение к кодированию аудио остается нерешенной проблемой.

Вариант применения, который является наиболее подходящим для проблемы кодирования, представляет собой схему проекта Magenta, в котором формы сигнала фортепьяно кодируются в MIDI-подобное представление, а затем восстанавливаются из него. Это концептуально напоминает упомянутые схемы кодирования речи, в которых кодер предоставляет характерное параметрическое описание сигнала, который должен формироваться. Возможно, самый очевидный недостаток такого подхода для аудио заключается в том, что набор характерных параметров зависит от категории сигналов (например, MIDI-подобная параметризация не является подходящей для речи).

Хотя глубокие нейронные сети уже применяются к проблеме кодирования аудио, эти схемы основаны на различающих сетях, в которых отсутствует порождающая мощность моделей, которые восстанавливают сигнал посредством дискретизации из полученного обучением распределения вероятностей. Порождающее моделирование предоставляет средства для синтеза правдоподобных структур сигналов, обеспечивающие мощные технологии, оптимизирующие перцепционные характеристики, такие как расширение полосы пропускания или заполнение шумом структур сигналов, которые в противном случае должны теряться вследствие квантования сигналов. Также предложены квантователи сигналов, допускающие предоставление заполнения шумом на основе сопоставления источников. Тем не менее, эти схемы ограничены скалярными квантователями и простыми распределениями вероятностей, описывающими источник.

Соответственно, имеется существующая потребность в способах, устройстве и системе для кодирования на основе формы сигналов аудиосигналов с помощью порождающей модели.

Сущность изобретения

В соответствии с первым аспектом настоящего раскрытия, предусмотрен способ декодирования на основе формы сигналов. Способ может включать в себя этап (a) приема, посредством декодера на основе формы сигналов, потока битов, включающего в себя представление на конечной скорости следования битов сигнала источника. Способ дополнительно может включать в себя этап (b) декодирования на основе формы сигналов представления на конечной скорости следования битов сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника. Способ дополнительно может включать в себя этап (c) предоставления аппроксимации формы сигнала для сигнала источника в порождающую модель, которая реализует функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника. Кроме того, способ может включать в себя этап (d) формирования восстановленного сигнала для сигнала источника на основе распределения вероятностей.

Согласно вышеуказанной конфигурации, описанный способ обеспечивает комбинирование преимуществ кодирования (coding) на основе формы сигналов и параметрического кодирования взаимодополняющим способом. В частности, перцепционная характеристика кодированного на основе формы сигналов аудио может улучшаться.

В некоторых вариантах осуществления, на этапе (d), восстановленный сигнал может формироваться посредством формирования случайной выборки согласно распределению вероятностей, или на этапе (d), восстановленный сигнал может формироваться посредством усреднения выборок согласно распределению вероятностей.

В некоторых вариантах осуществления, на этапе (a), принимаемый поток битов дополнительно может включать в себя один или более вспомогательных параметров, представленных на конечной скорости следования битов, и опционально один или более вспомогательных параметров могут включать в себя индикатор относительно энергии в расчете на полосу частот для по меньшей мере одной полосы частот и/или спектральной огибающей сигнала источника.

В некоторых вариантах осуществления, на этапе (a), принимаемый поток битов дополнительно может включать в себя информацию, указывающую тип контента сигнала источника, и/или на этапе (a), принимаемый поток битов дополнительно может включать в себя информацию, указывающую рабочую скорость следования битов схемы кодирования.

В некоторых вариантах осуществления, этап (c) дополнительно может включать в себя выбор порождающей модели из предварительно заданного набора порождающих моделей на основе информации, указывающей тип контента сигнала источника, и/или этап (c) дополнительно может включать в себя выбор порождающей модели из предварительно заданного набора порождающих моделей на основе информации, указывающей рабочую скорость следования битов схемы кодирования.

В некоторых вариантах осуществления, способ дополнительно может включать в себя этап определения того, что аппроксимация формы сигнала для сигнала источника должна выводиться в качестве восстановленного сигнала для сигнала источника на основе информации, указывающей тип контента сигнала источника, и/или на основе информации, указывающей рабочую скорость следования битов схемы кодирования.

В некоторых вариантах осуществления, порождающая модель может работать с упреждающим просмотром. При этом, функциональная производительность порождающей модели может повышаться.

В некоторых вариантах осуществления, порождающая модель может обучаться с возможностью работать в сигнальной области.

В некоторых вариантах осуществления, порождающая модель может работать авторегрессивным способом, или порождающая модель может работать с возможностью восстанавливать весь кадр сигнала источника сразу.

В некоторых вариантах осуществления, порождающая модель на этапе (c), может представлять собой порождающую модель, которая реализует условную функцию плотности распределения вероятностей, и порождающая модель может обуславливаться в отношении аппроксимации формы сигнала для сигнала источника и опционально в отношении одного или более вспомогательных параметров. В этом способ допускает обеспечение конкурентных перцепционных характеристик для других схем кодирования на основе формы сигналов, повсеместно используемых в контексте кодирования аудио.

В некоторых вариантах осуществления, порождающая модель может представлять собой явную модель на основе плотности, к примеру, поддающуюся трактовке модель на основе плотности. В некоторых вариантах осуществления, порождающая модель может представлять собой авторегрессивную нейронную сеть, к примеру, сверточную нейронную сеть (CNN) (например, WaveNet) или рекуррентную нейронную сеть (RNN) (например, sampleRNN). В некоторых вариантах осуществления, порождающая модель может включать в себя условную потоковую модель.

В некоторых вариантах осуществления, порождающая модель может представлять собой условную нейронную sampleRNN-сеть, и опционально условная нейронная sampleRNN-сеть может представлять собой четырехуровневую sampleRNN с обуславливанием, предоставляемым для каждого уровня через сверточные слои.

В некоторых вариантах осуществления, представление на конечной скорости следования битов сигнала источника может получаться посредством кодера на основе формы сигналов, формирующего поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника, и опционально дополнительные один или более вспомогательных параметров могут предоставляться посредством кодера на основе формы сигналов и включаться в поток битов.

В некоторых вариантах осуществления, кодер на основе формы сигналов может представлять собой детерминированный кодер на основе формы сигналов.

В некоторых вариантах осуществления, дополнительные один или более классификаторов источников, предоставляющих информацию, указывающую тип контента сигнала источника, могут предоставляться посредством кодера на основе формы сигналов и включаться в информацию потока битов, и/или дополнительная информация, указывающая рабочую скорость следования битов схемы кодирования, может предоставляться посредством кодера на основе формы сигналов и включаться в поток битов.

В соответствии со вторым аспектом настоящего раскрытия, предусмотрен способ для кодирования на основе формы сигналов. Способ может включать в себя этап (a) работы, посредством кодера на основе формы сигналов, с сигналом источника для того, чтобы получать поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника. Способ дополнительно может включать в себя этап (b) приема, посредством декодера на основе формы сигналов, потока битов, включающего в себя представление на конечной скорости следования битов сигнала источника. Способ дополнительно может включать в себя этап (c) декодирования на основе формы сигналов представления на конечной скорости следования битов сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника. Способ дополнительно может включать в себя этап (d) предоставления аппроксимации формы сигнала для сигнала источника в порождающую модель, которая реализует функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника. Кроме того, способ может включать в себя этап (e) формирования восстановленного сигнала для сигнала источника на основе распределения вероятностей.

В соответствии с третьим аспектом настоящего раскрытия, предусмотрена система для кодирования на основе формы сигналов, при этом система включает в себя кодер на основе формы сигналов и декодер на основе формы сигналов, и при этом система выполнена с возможностью осуществлять способ для кодирования на основе формы сигналов.

В соответствии с четвертым аспектом настоящего раскрытия, предусмотрен способ обучения порождающей модели. Способ может включать в себя этап (a) предоставления исходного сигнала для сигнала источника. Способ дополнительно может включать в себя этап (b) кодирования и декодирования на основе формы сигналов исходного сигнала для сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника. Способ дополнительно может включать в себя этап (c) ввода аппроксимации формы сигнала для сигнала источника в порождающую модель, чтобы получать параметрическую функцию для распределения вероятностей. Кроме того, способ может включать в себя этап (d) настройки параметров порождающей модели, чтобы максимизировать правдоподобие исходного сигнала источника на основе распределения вероятностей, полученного из упомянутой порождающей модели.

В некоторых вариантах осуществления, порождающая модель может обуславливаться в отношении аппроксимации формы сигнала для сигнала источника и опционально в отношении одного или более вспомогательных параметров.

В некоторых вариантах осуществления, на этапе (d), параметры порождающей модели могут настраиваться на основе минимизации среднего значения по набору данных отрицательного логарифмического правдоподобия.

В некоторых вариантах осуществления, на этапе (c), дополнительно восстановленный сигнал для сигнала источника может формироваться на основе распределения вероятностей, и на этапе (d), параметры порождающей модели могут настраиваться на основе минимизации индикатора разности между восстановленным сигналом сигнала источника и исходным сигналом сигнала источника.

Краткое описание чертежей

Ниже описываются примерные варианты осуществления раскрытия, только в качестве примера, со ссылкой на прилагаемые чертежи, на которых:

Фиг. 1 иллюстрирует блок-схему последовательности операций примера способа декодирования на основе формы сигналов с помощью порождающей модели.

Фиг. 2 схематично иллюстрирует пример способа кодирования на основе формы сигналов с помощью порождающей модели, обусловленной в отношении аппроксимации формы сигнала для сигнала источника, реализованного посредством системы кодера на основе формы сигналов и порождающей модели.

Фиг. 3 иллюстрирует блок-схему последовательности операций примера способа декодирования на основе формы сигналов с помощью порождающей модели, обусловленной в отношении аппроксимации формы сигнала для сигнала источника и одного или более вспомогательных параметров.

Фиг. 4 схематично иллюстрирует пример способа кодирования на основе формы сигналов с помощью порождающей модели, обусловленной в отношении аппроксимации формы сигнала для сигнала источника и одного или более вспомогательных параметров, реализованных посредством системы кодера на основе формы сигналов и порождающей модели.

Фиг. 5 иллюстрирует блок-схему последовательности операций примера способа декодирования на основе формы сигналов с помощью порождающей модели, выбранной из предварительно заданного набора порождающих моделей.

Фиг. 6 схематично иллюстрирует пример способа кодирования на основе формы сигналов с помощью порождающей модели, выбранной из предварительно заданного набора порождающих моделей, реализованного посредством системы кодера на основе формы сигналов и декодера на основе формы сигналов.

Фиг. 7 схематично иллюстрирует пример системы кодера на основе формы сигналов и декодера на основе формы сигналов.

Фиг. 8 схематично иллюстрирует пример способа обучения порождающей модели.

Фиг. 9 показывает результаты тестирования на основе прослушивания для задачи кодирования звуков фортепьяно.

Фиг. 10 показывает результаты тестирования на основе прослушивания для задачи кодирования речи.

Фиг. 11a-c иллюстрируют спектрограммы для задачи кодирования звуков фортепьяно, причем фиг. 11a показывает эталон X, фиг. 11b показывает базовую линию формы сигнала, и фиг. 11c показывает восстановление с использованием варианта осуществления способа кодирования с использованием порождающей модели .

Подробное описание примерных вариантов осуществления

Порождающие модели для кодирования на основе формы сигналов

Способы, устройство и система, описанные в данном документе, нацелены на улучшение перцепционных характеристик кодированного на основе формы сигналов аудио. В частности, можно способствовать расширению полосы пропускания и заполнению спектральных дыр правдоподобными структурами; перемеженному кодированию на основе формы сигналов и расширению полосы пропускания; и улучшенным характеристикам с точки зрения показателя искажения выборок. Способы, устройство и система, описанные в данном документе, предоставляют схему кодирования источников на основе порождающей модели, которая комбинирует преимущества кодирования на основе формы сигналов и параметрического кодирования взаимодополняющим способом. При обучении для конкретной категории сигналов (типа контента), схема превосходит технологии кодирования источников предшествующего уровня техники. Кроме того, схема кодирования может использоваться вместе с перцепционной моделью для выделения искажения при кодировании. Работа схемы и ее производительность могут описываться и прогнозироваться аналитически.

Способ декодирования на основе формы сигналов с помощью порождающей модели

Ссылаясь на пример по фиг. 1, проиллюстрирована блок-схема последовательности операций примера способа декодирования на основе формы сигналов с помощью порождающей модели. На этапе S101, поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника, принимается посредством декодера на основе формы сигналов. В варианте осуществления, представление на конечной скорости следования битов сигнала источника может получаться посредством кодера на основе формы сигналов, формирующего поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника. В варианте осуществления, кодер на основе формы сигналов может представлять собой детерминированный кодер на основе формы сигналов.

На этапе S102, представление на конечной скорости следования битов сигнала источника декодируется на основе формы сигналов, чтобы получать аппроксимацию формы сигнала для сигнала источника.

На этапе S103, аппроксимация формы сигнала для сигнала источника предоставляется в порождающую модель, которая реализует функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника. В варианте осуществления, порождающая модель может работать с упреждающим просмотром. В варианте осуществления, порождающая модель может обучаться с возможностью работать в сигнальной области.

На этапе S104, восстановленный сигнал для сигнала источника затем формируется на основе распределения вероятностей. В варианте осуществления, на этапе S104, восстановленный сигнал может формироваться посредством формирования случайной выборки согласно распределению вероятностей. Альтернативно, на этапе S104, восстановленный сигнал может формироваться посредством усреднения выборок согласно распределению вероятностей.

Способы декодирования на основе формы сигналов, описанные в данном документе, могут реализовываться в соответствующем декодере на основе формы сигналов, содержащем один или более процессоров, выполненных с возможностью осуществлять упомянутые способы.

Способ для кодирования на основе формы сигналов может реализовываться в системе, включающей в себя кодер на основе формы сигналов и декодер на основе формы сигналов. Способ может включать в себя этап (a) работы, посредством кодера на основе формы сигналов, с сигналом источника для того, чтобы получать поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника. Способ дополнительно может включать в себя этап (b) приема, посредством декодера на основе формы сигналов, потока битов, включающего в себя представление на конечной скорости следования битов сигнала источника. Способ дополнительно может включать в себя этап (c) декодирования на основе формы сигналов представления на конечной скорости следования битов сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника. Способ дополнительно может включать в себя этап (d) предоставления аппроксимации формы сигнала для сигнала источника в порождающую модель, которая реализует функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника. Кроме того, способ может включать в себя этап (e) формирования восстановленного сигнала для сигнала источника на основе распределения вероятностей.

Следует отметить, что декодер на основе формы сигналов системы, описанной выше, альтернативно или дополнительно также может быть выполнен с возможностью осуществлять способы декодирования на основе формы сигналов, как описано в данном документе.

Способы, описанные в данном документе, дополнительно могут реализовываться как компьютерный программный продукт, содержащий считываемый компьютером носитель данных с инструкциями, адаптированными с возможностью инструктировать устройству осуществлять упомянутые способы при выполнении посредством устройства, имеющего возможности обработки.

Способ декодирования на основе формы сигналов с помощью обусловленной порождающей модели

В варианте осуществления, порождающая модель может представлять собой порождающую модель, которая реализует на этапе S103 условную функцию плотности распределения вероятностей, при этом порождающая модель может обуславливаться в отношении аппроксимации формы сигнала для сигнала источника.

Ссылаясь теперь на пример по фиг. 2, проиллюстрирован способ кодирования на основе формы сигналов с помощью порождающей модели, обусловленной в отношении аппроксимации формы сигнала для сигнала источника, реализованного посредством системы кодера на основе формы сигналов и порождающей модели.

В общем, следует отметить, что в ходе этого раскрытия заглавные буквы могут использоваться для случайных переменных, и строчные буквы могут использоваться для их реализаций.

В примере по фиг. 2, (параметрическое) представление на конечной скорости следования битов, I, 2, сигнала источника, X, 1, предоставляется посредством кодера на основе формы сигналов. Например, кодер на основе формы сигналов может работать с выборками сигнала источника, блокированными в векторы, представленные посредством X, 1, чтобы получать представление на конечной скорости следования битов сигнала источника, I, 2. Кодер на основе формы сигналов может (легко) оптимизироваться для компромисса между скоростью следования битов и искажением (посредством использования показателя искажения выборок, например, перцепционно взвешенная квадратическая ошибка).

Декодирование на основе формы сигналов, например, посредством декодера на основе формы сигналов, представления на конечной скорости следования битов, I, 2, сигнала источника, X, 1, затем дает в результате аппроксимацию формы сигнала, , 3, сигнала источника, X, 1, в отношении которого порождающая модель может обуславливаться, 4. Обусловленная порождающая модель, 4, затем может реализовывать условную функцию плотности распределения вероятностей, чтобы получать условное распределение вероятностей (1):

(1).

Восстановленный сигнал, , 5, сигнала источника, X, 1, затем может формироваться на основе случайной дискретизации из/усреднения выборок согласно условному распределению pθ вероятностей.

Структура системы (схемы) кодирования на основе формы сигналов, проиллюстрированной в таком случае в примере по фиг. 2, допускает предоставление конкурентных перцепционных характеристик для других схем кодирования источников (на основе формы сигналов), повсеместно используемых в контексте кодирования аудио.

Ссылаясь теперь на пример по фиг. 3, проиллюстрирована блок-схема последовательности операций примера способа декодирования на основе формы сигналов с помощью порождающей модели, обусловленной в отношении аппроксимации формы сигнала для сигнала источника и одного или более вспомогательных параметров.

На этапе S201, поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника и один или более вспомогательных параметров, представленных на конечной скорости следования битов, может приниматься посредством декодера на основе формы сигналов. Один или более вспомогательных параметров могут включать в себя индикатор относительно энергии в расчете на полосу частот для по меньшей мере одной полосы частот и/или спектральной огибающей сигнала источника. Представление на конечной скорости следования битов сигнала источника и одного или более вспомогательных параметров, представленных на конечной скорости следования битов, может предоставляться посредством кодера на основе формы сигналов. В варианте осуществления, кодер на основе формы сигналов может представлять собой детерминированный кодер на основе формы сигналов.

На этапе S202, представление на конечной скорости следования битов сигнала источника может декодироваться на основе формы сигналов, чтобы получать аппроксимацию формы сигнала для сигнала источника.

На этапе S203, аппроксимация формы сигнала для сигнала источника может предоставляться в порождающую модель, обусловленную в отношении аппроксимации формы сигнала для сигнала источника и одного или более вспомогательных параметров. Порождающая модель в силу этого может реализовывать условную функцию плотности распределения вероятностей, чтобы получать условное распределение вероятностей для восстановленного сигнала для сигнала источника.

На этапе S204, восстановленный сигнал для сигнала источника затем может формироваться на основе условного распределения вероятностей. В варианте осуществления, на этапе S204, восстановленный сигнал может формироваться посредством формирования случайной выборки согласно условному распределению вероятностей. Альтернативно, на этапе S204, восстановленный сигнал может формироваться посредством усреднения выборок согласно условному распределению вероятностей.

Ссылаясь теперь на пример по фиг. 4, схематично проиллюстрирован пример способа кодирования на основе формы сигналов с помощью порождающей модели, обусловленной в отношении аппроксимации формы сигнала для сигнала источника и одного или более вспомогательных параметров, реализованных посредством системы кодера на основе формы сигналов и порождающей модели. В примере по фиг. 4, аналог примеру по фиг. 2, представление на конечной скорости следования битов, I, 2, сигнала источника, X, 1, предоставляется посредством кодера на основе формы сигналов. Например, кодер на основе формы сигналов может работать с выборками сигнала источника, блокированными в векторы, представленные посредством X, 1, чтобы получать представление на конечной скорости следования битов сигнала источника, I, 2. Кодер на основе формы сигналов может (легко) оптимизироваться для компромисса между скоростью следования битов и искажением (посредством использования показателя искажения выборок, например, перцепционно взвешенная квадратическая ошибка). Дополнительно, один или более (набор) вспомогательных параметров, α, 6, представленных на конечной скорости следования битов, также могут предоставляться посредством кодера на основе формы сигналов.

Декодирование на основе формы сигналов, например, посредством декодера на основе формы сигналов, представления на конечной скорости следования битов, I, 2, сигнала источника, X, 1, затем дает в результате аппроксимацию формы сигнала, , 3, сигнала источника, X, 1. В примере по фиг. 4, порождающая модель, 4, может обуславливаться и в отношении аппроксимации формы сигнала, , 3, сигнала источника, X, 1, и в отношении одного или более вспомогательных параметров, α, 6. Обусловленная порождающая модель, 4, затем может реализовывать условную функцию плотности распределения вероятностей, чтобы получать условное распределение вероятностей (2) следующим образом:

(2).

Восстановленный сигнал, , 5, сигнала источника, X, 1, затем может формироваться на основе случайной дискретизации из/усреднения выборок согласно вышеуказанному условному распределению pθ вероятностей. Структура системы (схемы) кодирования на основе формы сигналов, проиллюстрированной в таком случае в примере по фиг. 4, также допускает предоставление конкурентных перцепционных характеристик для других схем кодирования источников (на основе формы сигналов), повсеместно используемых в контексте кодирования аудио.

Способ декодирования на основе формы сигналов с помощью предварительно заданного набора порождающих моделей

Ссылаясь теперь на пример по фиг. 5, проиллюстрирована блок-схема последовательности операций примера способа декодирования на основе формы сигналов с помощью порождающей модели, выбранной из предварительно заданного набора порождающих моделей. На этапе S301, принимаемый поток битов может включать в себя представление на конечной скорости следования битов сигнала источника и информацию, указывающую тип контента сигнала источника. В варианте осуществления, один или более классификаторов источников, предоставляющих информацию, указывающую тип контента сигнала источника, могут предоставляться посредством кодера на основе формы сигналов и включаться в поток битов. Тип контента сигнала источника, например, может означать категорию сигналов для сигнала источника. Категория сигналов может включать в себя, неограничивающим способом, одно или более из речи, реверберирующей речи, аплодисментов и музыки.

Хотя в примере по фиг. 5, поток битов проиллюстрирован как включающий в себя информацию, указывающую тип контента сигнала источника, альтернативно или дополнительно, в варианте осуществления, поток битов дополнительно может включать в себя информацию, указывающую рабочую скорость следования битов схемы кодирования.

На этапе S302, представление на конечной скорости следования битов сигнала источника может декодироваться на основе формы сигналов, чтобы получать аппроксимацию формы сигнала для сигнала источника.

На этапе S303, порождающая модель может выбираться, например, посредством модуля выбора моделей, из предварительно заданного набора порождающих моделей на основе информации, указывающей тип контента сигнала источника. При этом, поток битов, принимаемый посредством декодера на основе формы сигналов (т.е. отправленный посредством кодера на основе формы сигналов), содержит информацию, которая обеспечивает возможность определения (выбора) порождающей модели, которая должна использоваться, из предварительно заданного набора порождающих моделей на стороне декодера на основе формы сигналов. Определение (выбор) может упрощаться, например, на основе кадров. Например, порождающие модели в предварительно заданном наборе порождающих моделей могут перечисляться, и информация, указывающая тип контента сигнала источника, может предоставляться в качестве числа, указывающего порождающую модель, которая должна использоваться, из предварительно заданного набора порождающих моделей.

Как уже упомянуто выше, альтернативно или дополнительно, в варианте осуществления, поток битов дополнительно может включать в себя информацию, указывающую рабочую скорость следования битов схемы кодирования. В этом случае, на этапе S302, порождающая модель также может выбираться из предварительно заданного набора порождающих моделей на основе информации, указывающей рабочую скорость следования битов схемы кодирования. Например, схема кодирования может упрощать работу на трех различных скоростях следования битов R1<R2<R3. Для каждой скорости следования битов, может быть предусмотрена отдельная (индивидуальная) порождающая модель, обученная для этой скорости следования битов. В этом случае, рабочая скорость следования битов может указываться в потоке битов, например, посредством перечисления возможных скоростей следования битов. Порождающая модель затем может выбираться, например, посредством модуля выбора моделей, на основе этой информации, т.е. может быть предусмотрена отдельная порождающая модель для скорости R1 следования битов, отдельная модель для скорости R2 следования битов и отдельная модель для скорости R3 следования битов. Хотя в этом примере, указываются три различных скорости следования битов, тем не менее, число возможных скоростей следования битов может быть произвольным. Например, порождающая модель может предоставляться для речи на 16 Кбит/с, и другая порождающая модель может предоставляться для речи на 32 Кбит/с.

Аппроксимация формы сигнала для сигнала источника затем может предоставляться в выбранную порождающую модель, которая реализует функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника. Выбранная порождающая модель может представлять собой порождающую модель, обусловленную в отношении аппроксимации формы сигнала для сигнала источника. Дополнительно, принимаемый поток битов дополнительно может включать в себя один или более вспомогательных параметров, представленных на конечной скорости следования битов, и выбранная порождающая модель дополнительно может обуславливаться в отношении одного или более вспомогательных параметров, как описано выше.

На этапе S304, восстановленный сигнал для сигнала источника затем может формироваться на основе распределения вероятностей, которое может представлять собой условное распределение вероятностей в зависимости от выбранной порождающей модели. В варианте осуществления, на этапе S304, восстановленный сигнал может формироваться посредством формирования случайной выборки согласно распределению вероятностей. Альтернативно, на этапе S304, восстановленный сигнал может формироваться посредством усреднения выборок согласно распределению вероятностей.

В варианте осуществления, способ дополнительно может включать в себя этап определения того, что аппроксимация формы сигнала для сигнала источника должна выводиться в качестве восстановленного сигнала для сигнала источника на основе информации, указывающей тип контента сигнала источника. Режим транзитной пересылки в силу этого может реализовываться. Например, порождающая модель может выбираться только для категории сигналов речи, другие категории сигналов затем могут транзитно пересылаться. Порождающая модель также может выбираться только для сигналов аплодисментов, и другие категории сигналов могут транзитно пересылаться. Дополнительно, порождающие модели также могут выбираться для категорий сигналов речи и аплодисментов, соответственно, в то время как другие категории сигналов затем могут транзитно пересылаться, например, музыка или реверберирующая речь. Дополнительно, режим транзитной пересылки также может реализовываться в случае, если ни одна из порождающих моделей в предварительно заданном наборе порождающих моделей не обучается для соответствующей категории сигналов. Восстановленный сигнал затем может предоставляться посредством декодера на основе формы сигналов.

Альтернативно или дополнительно, определение того, что аппроксимация формы сигнала для сигнала источника должна выводиться в качестве восстановленного сигнала для сигнала источника, также может быть основано на информации, указывающей рабочую скорость следования битов схемы кодирования. Режим транзитной пересылки в силу этого может реализовываться. Режим транзитной пересылки может реализовываться, в частности, для высоких скоростей следования битов.

Ссылаясь теперь на пример по фиг. 6, проиллюстрирован пример способа кодирования на основе формы сигналов с помощью порождающей модели, выбранной из предварительно заданного набора порождающих моделей, реализованного посредством системы кодера на основе формы сигналов и декодера на основе формы сигналов.

Кодер на основе формы сигналов, 7, может предоставлять поток битов, 12, включающий в себя представление на конечной скорости следования битов сигнала источника, получаемого посредством базового кодера на основе формы сигналов, 10, работающего с сигналом аудиоисточника, 9. В варианте осуществления, кодер на основе формы сигналов, 7, дополнительно может быть выполнен с возможностью предоставлять информацию, указывающую рабочую скорость следования битов схемы кодирования, и включать информацию, указывающую рабочую скорость следования битов схемы кодирования, в поток битов, 12. Один или более классификаторов источников, 11, дополнительно могут предоставляться посредством кодера на основе формы сигналов, 7, и включаться в поток битов, 12.

Поток битов, 12, может приниматься посредством декодера на основе формы сигналов, 8. Декодер на основе формы сигналов, 8, может включать в себя базовый декодер на основе формы сигналов, 13, выполненный с возможностью декодировать на основе формы сигнала представление на конечной скорости следования битов сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника. Декодер на основе формы сигналов, 8, дополнительно может включать в себя модуль выбора моделей, 14, выполненный с возможностью выбирать порождающую модель из предварительно заданного набора порождающих моделей 1...N, 16, на основе информации, указывающей тип контента сигнала источника, предоставленного посредством одного или более классификаторов источников, 11. Тип контента сигнала источника, например, может означать категорию сигналов для сигнала источника. Например, каждая из порождающих моделей в предварительно заданном наборе порождающих моделей 1...N, 16, может обучаться, чтобы восстанавливать категорию сигналов. Категория сигналов может включать в себя, неограничивающим способом, одно или более из речи, реверберирующей речи, аплодисментов и музыки. Информация, указывающая тип контента сигнала источника, в силу этого обеспечивает возможность модулю выбора моделей, 14, выбирать (определять) порождающую модель, которая должна использоваться, из предварительно заданного набора порождающих моделей, 1...N, 16. Это может упрощаться, например, на основе кадров. Например, порождающие модели в предварительно заданном наборе порождающих моделей 1...N, 16, могут перечисляться, и информация, указывающая тип контента сигнала источника, дополнительно может включать в себя и/или быть числом, указывающим порождающую модель, которая должна использоваться.

Альтернативно или дополнительно, в варианте осуществления, модуль выбора моделей, 14, дополнительно может быть выполнен с возможностью выбирать порождающую модель из предварительно заданного набора порождающих моделей 1...N, 16, на основе информации, указывающей рабочую скорость следования битов схемы кодирования. Например, предварительно заданный набор порождающих моделей 1...N, 16, может включать в себя порождающие модели, отдельно обученные относительно целевой рабочей скорости следования битов. Например, если схема кодирования упрощает работу на трех различных скоростях следования битов R1<R2<R3, может быть предусмотрено три отдельно обученных порождающих модели для каждой из скоростей следования битов. Рабочая скорость следования битов может указываться в потоке битов, принимаемом посредством декодера на основе формы сигналов, 8, например, посредством перечисления возможных скоростей следования битов, при этом число возможных скоростей следования битов может быть произвольным. Модуль выбора моделей, 14, затем может быть выполнен с возможностью выбирать порождающую модель, которая должна использоваться, на основе этой информации. В этом случае, порождающие модели в предварительно заданном наборе порождающих моделей 1...N, 16, также могут перечисляться, соответственно. Например, предварительно заданный набор порождающих моделей 1...N, 16, может включать в себя порождающую модель для речи на 16 Кбит/с и другую порождающую модель для речи на 32 Кбит/с.

Аппроксимация формы сигнала для сигнала источника затем может предоставляться в выбранную порождающую модель из предварительно заданного набора порождающих моделей 1...N, 16, который реализует функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника. Восстановленный сигнал для сигнала источника, 17, затем может формироваться и выводиться посредством декодера на основе формы сигналов, 8, на основе распределения вероятностей.

Модуль выбора моделей, 14, дополнительно может быть выполнен с возможностью определять то, что аппроксимация формы сигнала для сигнала источника должна выводиться в качестве восстановленного сигнала для сигнала источника, 17, на основе информации, указывающей тип контента сигнала источника, предоставленного посредством одного или более классификаторов источников, 11, как указано посредством выбора транзитной пересылки, 15. Альтернативно или дополнительно, модуль выбора моделей, 14, дополнительно может быть выполнен с возможностью определять то, что аппроксимация формы сигнала для сигнала источника должна выводиться в качестве восстановленного сигнала для сигнала источника, 17, на основе информации, указывающей рабочую скорость следования битов схемы кодирования, как указано посредством выбора транзитной пересылки, 15. Например, если рабочая скорость следования битов указывается как речь на 32 Кбит/с, и предварительно заданный набор порождающих моделей 1...N, 16, не включает в себя порождающую модель, обученную для этой скорости следования битов, модуль выбора моделей, 14, может быть выполнен с возможностью обходить предварительно заданный набор порождающих моделей, 16, как указано посредством выбора транзитной пересылки, 15.

Кодер на основе формы сигналов

Ниже по тексту описывается пример кодера на основе формы сигналов (системы из кодера на основе формы сигналов и декодера на основе формы сигналов) на основе примера, проиллюстрированного на фиг. 7. Кодер на основе формы сигналов, работающий в MDCT-области, может использоваться. Входной сигнал X источника, 1, может кадрироваться, чтобы упрощать применение MDCT, 18a, с шагом в 320 выборок (на частоте дискретизации f_S=16 кГц). Коэффициенты преобразования могут блокироваться в N неоднородных неперекрывающихся полос частот. Для n-ой полосы частот, дисперсия коэффициентов может вычисляться и квантоваться с шагом в 3 дБ, давая в результате индекс i_env(n). Квантованные значения могут блокироваться в вектор ε, 21, и кодироваться в поток битов с использованием дифференциального кодирования частоты с таблицей кодирования кодом Хаффмана.

На стороне кодера, MDCT-коэффициенты могут сначала спектрально сглаживаться посредством F(-), 19a, согласно огибающей ε, 21. Сглаженные MDCT-линии затем могут квантоваться посредством набора квантователей, выбранных таким образом, чтобы удовлетворять ограничению по скорости следования битов в расчете на кадр. Набор квантователей [m₀, ..., m_M] может упорядочиваться, предоставляя инкрементные увеличения SNR в 1,5 дБ между каждым m_n и m_n+1. Каждый m_n может быть ассоциирован с таблицей кодирования кодом Хаффмана.

Для каждого кодированного блока, процесс выделения скорости может ограничиваться посредством общего числа битов, выделяемых этому блоку. Оно может управляться посредством m_n=i_env(n)-i_offset, где i_offset может быть целым числом, общим для всех полос частот, и m_n может быть ограничено таким образом, что 0≤m_n≤M. Значение i_offset может определяться посредством двоичного поиска, который напоминает процедуру обратного налива воды в перцепционно взвешенной области. Перцепционный эффект этого выделения скорости может заключаться в том, что SNR в кадре должно выделяться пропорционально для квадратного корня спектральной огибающей (с выделением увеличения SNR в 1,5 дБ для каждого увеличения значения внутриполосной огибающей в 3 дБ).

На стороне декодера, MDCT-линии могут восстанавливаться в сглаженной области, и после этого может применяться обратное спектральное сглаживание F^-1(-), 19b. Обратное сглаживание управляется посредством ε, 21, который может декодироваться из потока битов наряду с квантованными коэффициентами преобразования и параметром i_offset выделения скорости.

Условная sampleRNN

Порождающая модель, в которую предоставляется аппроксимация формы сигнала для сигнала источника, не ограничена. В варианте осуществления, порождающая модель может работать авторегрессивным способом, или порождающая модель может работать с возможностью восстанавливать весь кадр сигнала источника сразу. В варианте осуществления, условная нейронная sampleRNN-сеть может использоваться. Ниже по тексту описывается пример конкретной нейронной sampleRNN-сети, который не имеет намерение быть ограничивающим. В общем, sampleRNN представляет собой глубокую нейронную порождающую модель для формирования необработанных аудиосигналов посредством их дискретизации из обученной модели. Она состоит из последовательности многоскоростных рекуррентных слоев, которые допускают моделирование динамики последовательности в различных временных шкалах, и многоуровневого перцептрона (MLP), обеспечивающего использование параметризованных простых распределений. SampleRNN моделирует вероятность последовательности аудиовыборок, блокированных в x, посредством факторизации совместного распределения в произведение распределений скалярных выборок, обусловленных в отношении всех предыдущих выборок. Это упрощает эффективную реализацию, в которой одна скалярная выборка извлекается за один раз.

Порождающая модель может обуславливаться согласно . Скалярные выборки, блокированные в x, могут обозначаться посредством [s₀, ..., s_n]. Затем модель может работать рекурсивно согласно (3):

(3).

В варианте осуществления, условная нейронная sampleRNN-сеть может представлять собой четырехуровневую sampleRNN с обуславливанием, предоставляемым для каждого уровня через сверточные слои. Выходной слой может использовать дискретизированное сведение логистической технологии, чтобы формировать 16-битовые выводы. Модель может обуславливаться в отношении y, содержащего кадры выборок сигнальной области, восстановленные посредством кодека на основе формы сигналов, и ассоциированные значения огибающей квантованного сигнала в ε. В варианте осуществления, порождающая модель может работать с упреждающим просмотром, что позволяет повышать производительность. Это может осуществляться посредством обработки вектора обуславливания сверточным слоем 3×1, что может приводить к упреждающему просмотру двух кадров кодека. В дополнение к обуславливанию, описанному выше, MLP-блок может иметь доступ к кодированной форме сигнала, обработанной через сверточный слой с использованием ядра 1×319, центрированного на выборке, совмещенной с целью прогнозирования.

Обучение порождающей модели

В общем, обучение порождающей модели, в которую предоставляется аппроксимация формы сигнала для сигнала источника, не ограничено. Обучение порождающей модели может быть адаптировано к типу используемой порождающей модели и обуславливанию, которое может применяться. Тем не менее, способ обучения порождающей модели может включать в себя этап (a) предоставления исходного сигнала для сигнала источника. Способ дополнительно может включать в себя этап (b) кодирования и декодирования на основе формы сигналов исходного сигнала для сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника. Способ дополнительно может включать в себя этап (c) ввода аппроксимации формы сигнала для сигнала источника в порождающую модель, чтобы получать параметрическую функцию для распределения вероятностей. Кроме того, способ может включать в себя этап (d) настройки (обучения) параметров порождающей модели, чтобы максимизировать правдоподобие исходного сигнала источника на основе распределения вероятностей, полученного из упомянутой порождающей модели.

Обучение порождающей модели также может заключать в себе обуславливание. В варианте осуществления, порождающая модель может обуславливаться в отношении аппроксимации формы сигнала для сигнала источника и опционально в отношении одного или более вспомогательных параметров. Более конкретно, набор обучающих данных может конструироваться следующим образом. Каждый сигнал в наборе сигналов (которые используются для обучения) разделяется на кадры. Кроме того, каждый сигнал кодируется посредством кодека на основе формы сигналов, дающего в результате восстановленную форму сигнала и/или вспомогательные параметры, которые разделяются на кадры, так что совмещение выборок некодированного сигнала и кодированного на основе формы сигналов сигнала является возможным.

Как уже упомянуто выше, тип применяемого обучения не ограничен. В варианте осуществления, на этапе (c), дополнительно восстановленный сигнал для сигнала источника может формироваться на основе параметрической функции для распределения вероятностей, и на этапе (d), параметры порождающей модели могут настраиваться на основе минимизации индикатора разности между восстановленным сигналом сигнала источника и исходным сигналом сигнала источника.

Порождающая модель также может обучаться на основе цели. В варианте осуществления, на этапе (d), параметры порождающей модели могут настраиваться на основе минимизации среднего значения по набору данных отрицательного логарифмического правдоподобия (NLL). NLL в силу этого может использоваться в качестве цели обучения. Порождающая модель в силу этого может дополнительно оптимизироваться для некоторого совпадения распределений.

Ссылаясь теперь на пример по фиг. 8, схематично проиллюстрирован пример способа обучения порождающей модели. Исходный сигнал X источника, 22, может кодироваться на основе формы сигналов, т.е. кодироваться и декодироваться на основе формы сигналов, 23, чтобы получать аппроксимацию формы сигнала для сигнала источника, , 24. Кодирование на основе формы сигналов может упрощаться в области, отличающейся от области, в которой обучается порождающая модель. Кодер на основе формы сигналов (предоставляющий совпадение на основе формы сигналов), оптимизированный для компромисса между доступной скоростью следования битов и искажением выборок (например, взвешенной квадратической ошибки), может использоваться. В варианте осуществления, порождающая модель может обучаться, чтобы работать в сигнальной области. Порождающая модель дополнительно может обучаться, чтобы восстанавливать категорию сигналов. Категория сигналов может включать в себя, неограничивающим способом, одно или более из речи, реверберирующей речи, аплодисментов и музыки. Альтернативно или дополнительно, порождающая модель дополнительно может обучаться относительно (целевой) рабочей скорости следования битов, например, речи на 16 Кбит/с или речи на 32 Кбит/с.

Аппроксимация формы сигнала для сигнала источника, , 24, и исходного сигнала X источника, 22, может вводиться в порождающую модель, 25. Порождающая модель, 25, может реализовывать функцию плотности распределения вероятностей, чтобы получать распределение вероятностей, на основе которого затем может получаться восстановленный сигнал для сигнала источника, , 26. Параметры порождающей модели, 25, могут настраиваться на основе качества восстановленного сигнала для сигнала источника, , 26, с учетом исходного сигнала X источника, 22.

Экспериментальные результаты

Эксперименты проведены с использованием примерной условной четырехуровневой sampleRNN-модели, описанной выше, с NLL в качестве цели обучения. Субъективная оценка двух задач кодирования выполнена. Первая задача содержит кодирование отрывков игры на фортепьяно. Вторая задача содержит кодирование речи. Результаты сравниваются с кодеками предшествующего уровня техники, которые имеют намерение представлять инструментальные средства кодирования источников, которые типично используются для конкретной категории сигналов, рассматриваемой в задачах кодирования.

В первом эксперименте, производительность оценивается для задачи кодирования звуков фортепьяно. Порождающая модель обучается с использованием набора данных Meastro (MIDI- и аудиофайлов, редактируемых для синхронизации и организации дорожек), причем набор данных состоит из более чем 200 часов виртуозных выступлений с игрой на фортепиано, захваченных с точным совмещением (в ~3 мс) между метками нот и формами аудиосигнала. Набор данных разделяется на неперекрывающиеся обучающие наборы, наборы для проверки достоверности и тестовые наборы. Размер кадра, используемый посредством первого уровня и второго уровня, равен 8, размер кадра третьего уровня равен 64, и размер кадра четвертого уровня равен 320. Число компонентов логистического смешения равно 1. Тест на основе прослушивания по принципу MUSHRA (множественных управляющих воздействий со скрытой ссылкой и привязкой), заданный посредством ITU-R BS.1534, проводится для элементов тестового набора и сравнивается с Opus- и AAC-кодеками и базовым кодером на основе формы сигналов, работающим при 16 Кбит/с. Условия также включают в себя скрытую ссылку (дискретизацию в 16 кГц) и привязку нижних частот в 3,5 кГц ("LP 3,5 кГц"). Результаты первого эксперимента показаны на фиг. 9. Можно видеть, что способ кодирования с использованием порождающей модели ("sRNN 16") значительно превосходит базовый кодер на основе формы сигналов ("форму 16 сигнала"), при конкурировании с AAC ("AAC 16") и Opus.

Во втором эксперименте, производительность для задачи кодирования речи оценивается. В этом случае, порождающая модель обучается с использованием набора данных WSJ0 (пилотного корпуса для распознавания слитной речи, или CSI-I). Набор данных включает в себя высокочастотные речевые записи 123 говорящих, читающих отрывки из Wall Street Journal. Набор данных разделен на обучающие наборы, наборы для проверки достоверности и тестовые наборы с неперекрывающимися говорящими. Размер кадра, используемый посредством первого уровня и второго уровня, равен 2, размер кадра третьего уровня равен 16, и размер кадра четвертого уровня равен 160. Число компонентов логистического смешения равно 10. MUSHRA-тест, аналогичный тесту, описанному выше, проводится, при этом элементы тестового набора сравниваются с Opus-аудиокодеком при 24 Кбит/с, кодеком AMR-WB (речевым кодеком по стандарту широкополосного адаптивного многоскоростного кодирования) при 23,05 Кбит/с и базовым кодером на основе формы сигналов, работающим при 16 Кбит/с. Результаты показаны на фиг. 10. Можно видеть, что способ кодирования с использованием порождающей модели ("sRNN 16") превосходит базовую линию формы сигнала ("форму 16 сигнала") на большой допустимый запас, при конкурировании с кодеками предшествующего уровня техники.

Значимое перцепционное преимущество способа кодирования с использованием порождающей модели по сравнению с базовой линией формы сигнала становится очевидным при проверке спектрограмм восстановленных сигналов. Например, фиг. 11a-c иллюстрируют спектрограммы для эксперимента кодирования звуков фортепьяно, причем фиг. 11a показывает эталон X, фиг. 11b показывает базовую линию формы сигнала, и фиг. 11c показывает восстановление способа кодирования с использованием порождающей модели .

Интерпретация

Если прямо не указано иное, как очевидно из нижеприведенных пояснений, следует принимать во внимание, что во всем раскрытии пояснения с использованием таких терминов, как "обработка", "вычисление", "вычисление", "определение", анализ" и т.п., означают действие и/или процессы компьютерной или вычислительной системы или аналогичных электронных вычислительных устройств, которые манипулируют и/или преобразуют данные, представленные в качестве физических, к примеру, электронных, величин, в другие данные, аналогично представленные в качестве физических величин.

Аналогичным образом, термин "процессор" может означать любое устройство или часть устройства, которое обрабатывает электронные данные, например, из регистров и/или запоминающего устройства, чтобы преобразовывать эти электронные данные в другие электронные данные, которые, например, могут сохраняться в регистрах и/или запоминающем устройстве. "Компьютер" или "вычислительная машина", или "вычислительная платформа" может включать в себя один или более процессоров.

Технологии, описанные в данном документе, в одном примерном варианте осуществления, могут выполняться посредством одного или более процессоров, которые разрешают считываемый компьютером (также называемый "машиночитаемым") код, содержащий набор инструкций, которые, при выполнении посредством одного или более процессоров, осуществляют, по меньшей мере, один из способов, описанных в данном документе. Любой процессор, допускающий выполнение набора инструкций (последовательных или нет), которые указывают действия, которые должны предприниматься, включается. Таким образом, один пример представляет собой типичную систему обработки, которая включает в себя один или более процессоров. Каждый процессор может включать в себя одно или более из CPU, графического процессора, тензорного процессора и программируемого DSP-модуля. Система обработки дополнительно может включать в себя запоминающую подсистему, включающую в себя основное RAM и/или статическое RAM, и/или ROM. Шинная подсистема может включаться для обмена данными между компонентами. Система обработки дополнительно может представлять собой систему распределенной обработки с процессорами, соединенными посредством сети. Если система обработки требует дисплея, такой дисплей может включаться, например, жидкокристаллический дисплей (ЖК-дисплей) или дисплей на электронно-лучевой трубке (CRT). Если ввод данных вручную требуется, система обработки также включает в себя устройство ввода, к примеру, одно или более из модуля буквенно-цифрового ввода, такого как клавиатура, указательного устройства управления, такого как мышь, и т.д. Система обработки также может охватывать систему хранения данных, такую как модуль накопителя на дисках. Система обработки в некоторых конфигурациях может включать в себя устройство звукового вывода и сетевое интерфейсное устройство. Запоминающая подсистема в силу этого включает в себя считываемый компьютером носитель, который переносит считываемый компьютером код (например, программное обеспечение), включающий в себя набор инструкций, чтобы инструктировать осуществление, при выполнении посредством одного или более процессоров, одного или более способов, описанных в данном документе. Следует отметить, что, когда способ включает в себя несколько элементов, например, несколько этапов, упорядочение таких элементов не подразумевается, если прямо не указано иное. Программное обеспечение может постоянно размещаться на жестком диске или также может постоянно размещаться, полностью или, по меньшей мере, частично, в RAM и/или в процессоре в ходе выполнения посредством компьютерной системы. Таким образом, запоминающее устройство и процессор также составляют считываемый компьютером носитель, переносящий считываемый компьютером код. Кроме того, считываемый компьютером носитель может формировать или включаться в компьютерный программный продукт.

В альтернативных примерных вариантах осуществления, один или более процессоров работают в качестве автономного устройства или могут соединяться, например, соединяться по сети с другим процессором(ами) в сетевом развертывании, один или более процессоров могут работать от лица сервера или пользовательской машины в серверно-пользовательском сетевом окружении либо в качестве равноправной машины в сетевом окружении с равноправными узлами или распределенном сетевом окружении. Один или более процессоров могут формировать персональный компьютер (PC), планшетный PC, персональное цифровое устройство (PDA), сотовый телефон, веб-прибор, сетевой маршрутизатор, коммутатор или мост либо любую машину, допускающую выполнение набора инструкций (последовательных или нет), которые указывают действия, которые должны предприниматься посредством этой машины.

Следует отметить, что термин "машина" должен также рассматриваться как включающий в себя любую совокупность машин, которые отдельно или совместно выполняют набор (или несколько наборов) инструкций, чтобы выполнять любые одну или более технологий, поясненных в данном документе.

Таким образом, один примерный вариант осуществления каждого из способов, описанных в данном документе, имеет форму считываемого компьютером носителя, переносящего набор инструкций, например, компьютерную программу, которая служит для выполнения на одном или более процессоров, например, на одном или более процессоров, которые представляют собой часть веб-серверной компоновки. Таким образом, специалисты в данной области техники должны принимать во внимание, что примерные варианты осуществления настоящего раскрытия могут осуществляться в качестве способа, устройства, к примеру, устройства специального назначения, такого устройства, как система обработки данных, или считываемого компьютером носителя, например, компьютерного программного продукта. Считываемый компьютером носитель переносит считываемый компьютером код, включающий в себя набор инструкций, которые, при выполнении на одном или более процессоров, инструктируют процессору или процессорам реализовывать способ. Соответственно, аспекты настоящего раскрытия могут принимать форму способа, полностью аппаратного примерного варианта осуществления, полностью программного примерного варианта осуществления или примерного варианта осуществления, комбинирующего программные и аппаратные аспекты. Кроме того, настоящее раскрытие может принимать форму носителя (например, компьютерного программного продукта на считываемом компьютером носителе данных), переносящего считываемый компьютером программный код, осуществленный в носителе.

Программное обеспечение дополнительно может передаваться или приниматься по сети через сетевое интерфейсное устройство. Хотя носитель в примерном варианте осуществления представляет собой один носитель, термин "носитель" должен рассматриваться как включающий в себя один носитель или несколько носителей (например, централизованную или распределенную базу данных и/или ассоциированные кэши и серверы), которые сохраняют один или более наборов инструкций. Термин "носитель" должен также рассматриваться как включающий в себя любой носитель, который допускает сохранение, кодирование или перенос набора инструкций для выполнения посредством одного или более процессоров, которые инструктируют одному или более процессоров выполнять любые одну или более технологий настоящего раскрытия. Носитель может принимать множество форм, в том числе, но не только, энергонезависимых носителей, энергозависимых носителей и передающей среды. Энергонезависимые носители включают в себя, например, оптические, магнитные диски и магнитооптические диски. Энергозависимые носители включают в себя динамическое запоминающее устройство, к примеру, основное запоминающее устройство. Передающие среды включают в себя коаксиальные кабели, медный провод и оптоволокно, включающие в себя провода, которые содержат шинную подсистему. Передающие среды также могут принимать форму акустических или световых волн, к примеру, сформированных в ходе радиоволнового и инфракрасного обмена данными. Например, термин "носитель" должен, соответственно, рассматриваться как включающий в себя, но не только, полупроводниковые запоминающие устройства, компьютерный продукт, осуществленный в оптических и магнитных носителях; носитель, переносящий распространяемый сигнал, обнаруживаемый, по меньшей мере, посредством одного процессора или одного или более процессоров и представляющий набор инструкций, которые при выполнении, реализуют способ; и передающую среду в сети, переносящую распространяемый сигнал, обнаруживаемый, по меньшей мере, посредством одного процессора одного или более процессоров и представляющий набор инструкций.

Следует понимать, что этапы поясненных способов выполняются в одном примерном варианте осуществления посредством соответствующего процессора (или процессоров) (например, компьютерной) системы обработки, выполняющей инструкции (считываемый компьютером код), сохраненные в устройстве хранения данных. Также следует понимать, что раскрытие не ограничено конкретными реализациями или технологиями программирования, и что раскрытие может реализовываться с использованием любых соответствующих технологий для реализации функциональности, описанной в данном документе. Раскрытие не ограничено конкретными языками программирования или операционными системами.

Ссылка в ходе этого раскрытия на "один примерный вариант осуществления", "некоторые примерные варианты осуществления" или "примерный вариант осуществления" означает то, что конкретный признак, структура или характеристика, описанная в связи с примерным вариантом осуществления, включается, по меньшей мере, в один примерный вариант осуществления настоящего раскрытия. Таким образом, вхождения фраз "в одном примерном варианте осуществления", "в некоторых примерных вариантах осуществления" или "в примерном варианте осуществления" в различных местах в ходе этого раскрытия не обязательно означают идентичный примерный вариант осуществления. Кроме того, конкретные признаки, структуры или характеристики могут комбинироваться любым подходящим способом, как должно быть очевидным для специалистов в данной области техники из этого раскрытия, в одном или более примерных вариантов осуществления.

При использовании в данном документе, если не указано иное, использование порядковых прилагательных "первый", "второй", "третий" и т.д. для того, чтобы описывать общий объект, указывает только то, что различные экземпляры подобных объектов упоминаются, и не имеет намерение подразумевать то, что объекты, описанные таким образом, должны находиться в данной последовательности, временно, пространственно, согласно ранжированию или любым другим способом.

В нижеприведенной формуле изобретения и в описании в данном документе, любой из терминов "содержащий", "состоящий из" или "который содержит" представляет собой многовариантный термин, который означает" включающий в себя, по меньшей мере, элементы/признаки, которые приводятся далее, но без исключения других". Таким образом, термин "содержащий" при использовании в формуле изобретения не должен интерпретироваться как ограничивающий средствами либо элементами или этапами, перечисленными ниже. Например, объем выражения "устройство, содержащее A и B" не должен быть ограничен устройствами, состоящими только из элементов A и B. Любые из терминов "включающий в себя" или "который включает в себя" или "который включает в себя", при использовании в данном документе, также представляют собой многовариантный термин, который также означает "включающий в себя, по меньшей мере, элементы/признаки, которые приводятся после термина, но без исключения других". Таким образом, "включающий в себя" является синонимичным и означает "содержащий".

Следует принимать во внимание, что в вышеприведенном описании примерных вариантов осуществления раскрытия, различные признаки раскрытия иногда группируются в одном примерном варианте осуществления, на чертеже либо в его описании для целей упрощения раскрытия и помощи в понимании одного или более различных изобретаемых аспектов. Тем не менее, этот способ раскрытия не должен интерпретироваться как отражающий намерение того, что формула изобретения требует большего числа признаков, чем явно изложено в каждом пункте формулы изобретения. Наоборот, прилагаемая формула изобретения отражает то, что изобретаемые аспекты заключаются не во всех признаках одного вышеприведенного раскрытого примерного варианта осуществления. Таким образом, формула изобретения после описания настоящим явно включается в это описание, при этом каждый пункт формулы изобретения непосредственно устанавливается в качестве отдельного примерного варианта осуществления этого раскрытия.

Кроме того, хотя некоторые примерные варианты осуществления, описанные в данном документе, включают в себя некоторые, но не включают в себя другие признаки, включенные в другие примерные варианты осуществления, комбинации признаков различных примерных вариантов осуществления имеют намерение находиться в пределах объема раскрытия и формировать различные примерные варианты осуществления, как должны понимать специалисты в данной области техники. Например, в нижеприведенной формуле изобретения, любой из заявленных примерных вариантов осуществления может использоваться в любой комбинации.

В описании, предусмотренном в настоящем документе, изложены многочисленные конкретные подробности. Тем не менее, следует понимать, что примерные варианты осуществления раскрытия могут осуществляться на практике без этих конкретных подробностей. В других случаях, хорошо известные способы, структуры и технологии подробно не показаны, с тем чтобы не затруднять понимание данного описания.

Таким образом, хотя описывается то, что считается оптимальными режимами раскрытия, специалисты в данной области техники должны признавать, что другие и дополнительные модификации могут вноситься в них без отступления от сущности раскрытия, и имеется намерение притязать на все такие изменения и модификации как на попадающие в пределы объема раскрытия. Например, любые формулы, приведенные выше, представляют только процедуры, которые могут использоваться. Функциональность может добавляться или удаляться из блок-схем, и операции могут меняться местами между функциональными блоками. Этапы могут добавляться или удаляться для описанных способов в пределах объема настоящего раскрытия.

Различные аспекты настоящего изобретения могут приниматься во внимание из следующих перечислимых примерных вариантов осуществления (EEE):

EEE 1. Способ декодирования на основе формы сигналов, причем способ включает в себя этапы:

(a) приема, посредством декодера на основе формы сигналов, потока битов, включающего в себя представление на конечной скорости следования битов сигнала источника;

(b) декодирования на основе формы сигналов представления на конечной скорости следования битов сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника;

(c) предоставления аппроксимации формы сигнала для сигнала источника в порождающую модель, которая реализует функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника; и

(d) формирования восстановленного сигнала для сигнала источника на основе распределения вероятностей.

EEE 2. Способ согласно EEE 1, в котором на этапе (d), восстановленный сигнал формируется посредством формирования случайной выборки согласно распределению вероятностей.

EEE 3. Способ согласно EEE 1, в котором на этапе (d), восстановленный сигнал формируется посредством усреднения выборок согласно распределению вероятностей.

EEE 4. Способ согласно любому из EEE 1-3, в котором на этапе (a), принимаемый поток битов дополнительно включает в себя один или более вспомогательных параметров, представленных на конечной скорости следования битов.

EEE 5. Способ согласно EEE 4, в котором один или более вспомогательных параметров включают в себя индикатор относительно энергии в расчете на полосу частот для по меньшей мере одной полосы частот и/или спектральной огибающей сигнала источника.

EEE 6. Способ согласно любому из EEE 1-5, в котором на этапе (a), принимаемый поток битов дополнительно включает в себя информацию, указывающую тип контента сигнала источника.

EEE 7. Способ согласно EEE 6, в котором этап (c) дополнительно включает в себя выбор порождающей модели из предварительно заданного набора порождающих моделей на основе информации, указывающей тип контента сигнала источника.

EEE 8. Способ согласно EEE 6 или EEE 7, при этом способ дополнительно включает в себя этап определения того, что аппроксимация формы сигнала для сигнала источника должна выводиться в качестве восстановленного сигнала для сигнала источника на основе информации, указывающей тип контента сигнала источника.

EEE 9. Способ согласно любому из EEE 1-8, в котором на этапе (a), принимаемый поток битов дополнительно включает в себя информацию, указывающую рабочую скорость следования битов схемы кодирования.

EEE 10. Способ согласно EEE 9, в котором этап (c) дополнительно включает в себя выбор порождающей модели из предварительно заданного набора порождающих моделей на основе информации, указывающей рабочую скорость следования битов схемы кодирования.

EEE 11. Способ согласно EEE 9 или EEE 10, при этом способ дополнительно включает в себя этап определения того, что аппроксимация формы сигнала для сигнала источника должна выводиться в качестве восстановленного сигнала для сигнала источника на основе информации, указывающей рабочую скорость следования битов схемы кодирования.

EEE 12. Способ согласно любому из EEE 1-11, в котором порождающая модель работает с упреждающим просмотром.

EEE 13. Способ согласно любому из EEE 1-12, в котором порождающая модель обучена с возможностью работать в сигнальной области.

EEE 14. Способ согласно любому из EEE 1-13, в котором порождающая модель работает авторегрессивным способом, либо при этом порождающая модель работает с возможностью восстанавливать весь кадр сигнала источника сразу.

EEE 15. Способ согласно EEE 14, в котором порождающая модель на этапе (c) представляет собой порождающую модель, которая реализует условную функцию плотности распределения вероятностей, и при этом порождающая модель обуславливается в отношении аппроксимации формы сигнала для сигнала источника.

EEE 16. Способ согласно EEE 15, в котором порождающая модель дополнительно обуславливается в отношении одного или более вспомогательных параметров.

EEE 17. Способ согласно EEE 15 или EEE 16, в котором порождающая модель представляет собой условную нейронную sampleRNN-сеть.

EEE 18. Способ согласно EEE 17, в котором условная нейронная sampleRNN-сеть представляет собой четырехуровневую sampleRNN с обуславливанием, предоставляемым для каждого уровня через сверточные слои.

EEE 19. Способ согласно любому из EEE 1-18, в котором представление на конечной скорости следования битов сигнала источника получается посредством кодера на основе формы сигналов, формирующего поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника.

EEE 20. Способ согласно EEE 19, в котором кодер на основе формы сигналов представляет собой детерминированный кодер на основе формы сигналов.

EEE 21. Способ согласно EEE 19 или EEE 20, в котором дополнительные один или более вспомогательных параметров предоставляются посредством кодера на основе формы сигналов и включаются в поток битов.

EEE 22. Способ согласно любому из EEE 19-21, в котором дополнительные один или более классификаторов источников, предоставляющих информацию, указывающую тип контента сигнала источника, предоставляются посредством кодера на основе формы сигналов и включаются в поток битов.

EEE 23. Способ согласно любому из EEE 19-22, в котором дополнительная информация, указывающая рабочую скорость следования битов схемы кодирования, предоставляется посредством кодера на основе формы сигналов и включается в поток битов.

EEE 24. Декодер на основе формы сигналов, включающий в себя:

(a) приемное устройство, выполненное с возможностью принимать поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника;

(b) базовый декодер на основе формы сигналов, выполненный с возможностью декодировать на основе формы сигналов представление на конечной скорости следования битов сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника;

(c) порождающую модель, выполненную с возможностью реализовывать функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника на основе аппроксимации формы сигнала для сигнала источника; и

(d) модуль дискретизации, выполненный с возможностью формировать восстановленный сигнал для сигнала источника на основе распределения вероятностей.

EEE 25. Декодер на основе формы сигналов согласно EEE 24, в котором модуль дискретизации выполнен с возможностью формировать восстановленный сигнал посредством формирования случайной выборки согласно распределению вероятностей.

EEE 26. Декодер на основе формы сигналов согласно EEE 24, в котором модуль дискретизации выполнен с возможностью формировать восстановленный сигнал посредством усреднения выборок согласно распределению вероятностей.

EEE 27. Декодер на основе формы сигналов согласно любому из EEE 24-26, в котором порождающая модель обуславливается в отношении аппроксимации формы сигнала для сигнала источника, и при этом порождающая модель выполнена с возможностью реализовывать условную функцию плотности распределения вероятностей, чтобы получать условное распределение вероятностей для восстановленного сигнала для сигнала источника.

EEE 28. Декодер на основе формы сигналов согласно EEE 27, в котором порождающая модель дополнительно обуславливается в отношении одного или более вспомогательных параметров, включенных в принимаемый поток битов.

EEE 29. Декодер на основе формы сигналов согласно любому из EEE 24-28, при этом декодер на основе формы сигналов включает в себя предварительно заданный набор порождающих моделей, и при этом декодер на основе формы сигналов дополнительно включает в себя модуль выбора моделей, выполненный с возможностью выбирать порождающую модель, чтобы реализовывать функцию плотности распределения вероятностей, из предварительно заданного набора порождающих моделей на основе информации, указывающей тип контента сигнала источника, включенного в принимаемый поток битов.

EEE 30. Декодер на основе формы сигналов согласно EEE 29, в котором модуль выбора моделей дополнительно выполнен с возможностью определять то, что аппроксимация формы сигнала для сигнала источника должна выводиться в качестве восстановленного сигнала для сигнала источника на основе информации, указывающей тип контента сигнала источника.

EEE 31. Декодер на основе формы сигналов согласно любому из EEE 24-30, в котором модуль выбора моделей дополнительно выполнен с возможностью выбирать порождающую модель, чтобы реализовывать функцию плотности распределения вероятностей, из предварительно заданного набора порождающих моделей на основе информации, указывающей рабочую скорость следования битов схемы кодирования, включенной в принимаемый поток битов.

EEE 32. Декодер на основе формы сигналов согласно EEE 31, в котором модуль выбора моделей дополнительно выполнен с возможностью определять то, что аппроксимация формы сигнала для сигнала источника должна выводиться в качестве восстановленного сигнала для сигнала источника на основе информации, указывающей рабочую скорость следования битов схемы кодирования.

EEE 33. Способ для кодирования на основе формы сигналов, причем способ включает в себя этапы:

(a) работы, посредством кодера на основе формы сигналов, с сигналом источника для того, чтобы получать поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника;

(b) приема, посредством декодера на основе формы сигналов, потока битов, включающего в себя представление на конечной скорости следования битов сигнала источника;

(c) декодирования на основе формы сигналов представления на конечной скорости следования битов сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника;

(d) предоставления аппроксимации формы сигнала для сигнала источника в порождающую модель, которая реализует функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника; и

(e) формирования восстановленного сигнала для сигнала источника на основе распределения вероятностей.

EEE 34. Система для кодирования на основе формы сигналов, при этом система включает в себя кодер на основе формы сигналов и декодер на основе формы сигналов, и при этом система выполнена с возможностью осуществлять способ согласно EEE 33.

EEE 35. Способ обучения порождающей модели, причем способ включает в себя этапы:

(a) предоставления исходного сигнала для сигнала источника;

(b) кодирования и декодирования на основе формы сигналов исходного сигнала для сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника;

(c) ввода аппроксимации формы сигнала для сигнала источника в порождающую модель, чтобы получать параметрическую функцию для распределения вероятностей; и

(d) настройки параметров порождающей модели, чтобы максимизировать правдоподобие исходного сигнала источника на основе распределения вероятностей, полученного из упомянутой порождающей модели.

EEE 36. Способ согласно EEE 35, в котором порождающая модель обуславливается в отношении аппроксимации формы сигнала для сигнала источника.

EEE 37. Способ согласно EEE 36, в котором порождающая модель дополнительно обуславливается в отношении одного или более вспомогательных параметров.

EEE 38. Способ согласно любому из EEE 35-37, в котором на этапе (d), параметры порождающей модели настраиваются на основе минимизации среднего значения по набору данных отрицательного логарифмического правдоподобия.

EEE 39. Способ согласно любому из EEE 35-37, в котором на этапе (c), дополнительно восстановленный сигнал для сигнала источника формируется на основе распределения вероятностей, и при этом на этапе (d), параметры порождающей модели настраиваются на основе минимизации индикатора разности между восстановленным сигналом сигнала источника и исходным сигналом сигнала источника.

EEE 40. Компьютерный программный продукт, содержащий считываемый компьютером носитель данных с инструкциями, адаптированными с возможностью инструктировать устройству осуществлять способ согласно любому из EEE 1-23 при выполнении посредством устройства, имеющего возможности обработки.

EEE 41. Компьютерный программный продукт, содержащий считываемый компьютером носитель данных с инструкциями, адаптированными с возможностью инструктировать устройству осуществлять способ согласно EEE 33 при выполнении посредством устройства, имеющего возможности обработки.

EEE 42. Компьютерный программный продукт, содержащий считываемый компьютером носитель данных с инструкциями, адаптированными с возможностью инструктировать устройству осуществлять способ согласно любому из EEE 35-39 при выполнении посредством устройства, имеющего возможности обработки.

Иллюстрации к изобретению RU 2 823 081 C1

Реферат патента 2024 года СПОСОБЫ И СИСТЕМА ДЛЯ КОДИРОВАНИЯ НА ОСНОВЕ ФОРМЫ СИГНАЛОВ АУДИОСИГНАЛОВ С ПОМОЩЬЮ ПОРОЖДАЮЩЕЙ МОДЕЛИ

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в обеспечении возможности декодирования аудиоданных на основе формы сигналов аудиосигналов с помощью порождающей модели. Технический результат достигается за счет этапов, на которых (a) принимают, посредством декодера на основе формы сигналов, поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника, и при этом принимаемый поток битов дополнительно включает в себя один или более вспомогательных параметров, представленных на конечной скорости следования битов; (b) декодируют на основе формы сигналов представление на конечной скорости следования битов сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника; (c) предоставляют аппроксимацию формы сигнала для сигнала источника в порождающую модель, которая реализует функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника; и (d) формируют восстановленный сигнал для сигнала источника на основе распределения вероятностей. 3 н. и 13 з.п. ф-лы, 13 ил.

Формула изобретения RU 2 823 081 C1

1. Способ декодирования на основе формы сигналов, при этом способ включает в себя этапы, на которых:

(a) принимают, посредством декодера на основе формы сигналов, поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника, и при этом принимаемый поток битов дополнительно включает в себя один или более вспомогательных параметров, представленных на конечной скорости следования битов;

(b) декодируют на основе формы сигналов представление на конечной скорости следования битов сигнала источника для того, чтобы получать аппроксимацию формы сигнала для сигнала источника;

(c) предоставляют аппроксимацию формы сигнала для сигнала источника в порождающую модель, которая реализует функцию плотности распределения вероятностей, чтобы получать распределение вероятностей для восстановленного сигнала для сигнала источника; и

(d) формируют восстановленный сигнал для сигнала источника на основе распределения вероятностей.

2. Способ по п. 1, в котором на этапе (d) восстановленный сигнал формируется посредством формирования случайной выборки согласно распределению вероятностей, или при этом на этапе (d) восстановленный сигнал формируется посредством усреднения выборок согласно распределению вероятностей.

3. Способ по п. 1 или 2, в котором на этапе (a) один или более вспомогательных параметров включают в себя индикатор относительно энергии в расчете на полосу частот для по меньшей мере одной полосы частот и/или спектральной огибающей сигнала источника.

4. Способ по любому из пп. 1-3, в котором на этапе (a), принимаемый поток битов дополнительно включает в себя информацию, указывающую тип контента сигнала источника, и/или при этом на этапе (a) принимаемый поток битов дополнительно включает в себя информацию, указывающую рабочую скорость следования битов схемы кодирования.

5. Способ по п. 4, в котором этап (c) дополнительно включает в себя этап, на котором выбирают порождающую модель из предварительно заданного набора порождающих моделей на основе информации, указывающей тип контента сигнала источника, и/или при этом этап (c) дополнительно включает в себя этап, на котором выбирают порождающую модель из предварительно заданного набора порождающих моделей на основе информации, указывающей рабочую скорость следования битов схемы кодирования.

6. Способ по п. 4 или 5, при этом способ дополнительно включает в себя этап, на котором определяют то, что аппроксимация формы сигнала для сигнала источника должна выводиться в качестве восстановленного сигнала для сигнала источника на основе информации, указывающей тип контента сигнала источника, и/или на основе информации, указывающей рабочую скорость следования битов схемы кодирования.

7. Способ по любому из пп. 1-6, в котором порождающая модель работает с упреждающим просмотром.

8. Способ по любому из пп. 1-7, в котором порождающая модель обучена с возможностью работать в сигнальной области.

9. Способ по любому из пп. 1-8, в котором порождающая модель работает авторегрессивным способом, либо при этом порождающая модель работает с возможностью восстанавливать весь кадр сигнала источника сразу.

10. Способ по п. 9, в котором порождающая модель на этапе (c) представляет собой порождающую модель, которая реализует условную функцию плотности распределения вероятностей, и при этом порождающая модель обуславливается в отношении аппроксимации формы сигнала для сигнала источника и опционально в отношении одного или более вспомогательных параметров.

11. Способ по п. 10, в котором порождающая модель представляет собой условную нейронную sampleRNN-сеть, и при этом опционально условная нейронная sampleRNN-сеть представляет собой четырехуровневую sampleRNN с обуславливанием, предоставляемым для каждого уровня через сверточные слои.

12. Способ по любому из пп. 1-11, в котором представление на конечной скорости следования битов сигнала источника получается посредством кодера на основе формы сигналов, формирующего поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника, и при этом опционально дополнительные один или более вспомогательных параметров предоставляются посредством кодера на основе формы сигналов и включаются в поток битов.

13. Способ по п. 12, в котором кодер на основе формы сигналов представляет собой детерминированный кодер на основе формы сигналов.

14. Способ по п. 12 или 13, в котором дополнительные один или более классификаторов источников, предоставляющих информацию, указывающую тип контента сигнала источника, предоставляются посредством кодера на основе формы сигналов и включаются в поток битов, и/или при этом дополнительная информация, указывающая рабочую скорость следования битов схемы кодирования, предоставляется посредством кодера на основе формы сигналов и включается в поток битов.

15. Декодер на основе формы сигналов, включающий в себя:

(a) приемное устройство, выполненное с возможностью принимать поток битов, включающий в себя представление на конечной скорости следования битов сигнала источника, при этом принимаемый поток битов дополнительно включает в себя один или более вспомогательных параметров, представленных на конечной скорости следования битов;

16. Считываемый компьютером носитель данных с инструкциями, адаптированными с возможностью инструктировать устройству осуществлять способ по любому из пп. 1-14 при выполнении посредством устройства, имеющего возможности обработки.

Документы, цитированные в отчете о поиске Патент 2024 года RU2823081C1

ADAPTIVE WAVELETS FOR SPEECH CODING, S
Kadambe et al., опубл
Видоизменение прибора с двумя приемами для рассматривания проекционные увеличенных и удаленных от зрителя стереограмм	1919	Кауфман А.К.	SU28A1
Fast dictionary learning for sparse representations of speech signals, Maria G
Jafari et al., опубл
Прибор для промывания газов	1922	Блаженнов И.В.	SU20A1

RU 2 823 081 C1

Авторы

Клейса, Януш

Бисвас, Арийит

Виллемоес, Ларс

Фейгин, Рой М.

Чжоу, Цун

Даты

2024-07-18—Публикация

2020-10-16—Подача

название	год	авторы	номер документа
СИСТЕМЫ, СПОСОБЫ И ОБОРУДОВАНИЕ ДЛЯ ПРЕОБРАЗОВАНИЯ ИЗ КАНАЛЬНО-ОРИЕНТИРОВАННОГО АУДИО В ОБЪЕКТНО-ОРИЕНТИРОВАННОЕ АУДИО	2020	Уорд, Майкл С. Санчес, Фредди Ферш, Кристоф	RU2793271C1
ПСИХОАКУСТИЧЕСКАЯ МОДЕЛЬ ДЛЯ АУДИООБРАБОТКИ	2020	Дэвидсон, Грант Э. Филдер, Луи Д. Винтон, Марк С.	RU2826044C1
СПОСОБЫ, УСТРОЙСТВО И СИСТЕМЫ ДЛЯ ПРЕДСТАВЛЕНИЯ, КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ ДИСКРЕТНЫХ ДАННЫХ НАПРАВЛЕННОСТИ	2020	Терентив, Леон Ферш, Криштоф Фишер, Дэниел	RU2812145C2
ГИБРИДНОЕ УСИЛЕНИЕ РЕЧИ С КОДИРОВАНИЕМ ФОРМЫ СИГНАЛА И ПАРАМЕТРИЧЕСКИМ КОДИРОВАНИЕМ	2014	Коппенс, Йерун Муеш, Ханнес	RU2639952C2
УСОВЕРШЕНСТВОВАННЫЙ КВАНТОВАТЕЛЬ	2021	Клейса, Януш Виллемоес, Ларс Хеделин, Пер	RU2823174C2
УСОВЕРШЕНСТВОВАННЫЙ КВАНТОВАТЕЛЬ	2017	Клейса, Януш Виллемоес, Ларс Хеделин, Пер	RU2752127C2
ФОРМАТ СО МНОЖЕСТВЕННЫМ ЗАПАЗДЫВАНИЕМ ДЛЯ КОДИРОВАНИЯ ЗВУКА	2020	Виллемоес, Ларс Лехтонен, Хайди-Мария Пурнхаген, Хейко Хеделин, Пер	RU2825309C2
ОБРАТНО СОВМЕСТИМАЯ ИНТЕГРАЦИЯ МЕТОДОВ ВЫСОКОЧАСТОТНОГО ВОССТАНОВЛЕНИЯ ДЛЯ АУДИОСИГНАЛОВ	2021	Черлинг, Кристофер Виллемоес, Ларс Пурнхаген, Хейко Экстранд, Пер	RU2831622C2
ОБРАТНО СОВМЕСТИМАЯ ИНТЕГРАЦИЯ МЕТОДОВ ВЫСОКОЧАСТОТНОГО ВОССТАНОВЛЕНИЯ ДЛЯ АУДИОСИГНАЛОВ	2019	Черлинг, Кристофер Виллемоес, Ларс Пурнхаген, Хейко Экстранд, Пер	RU2740688C1
ОБРАТНО СОВМЕСТИМАЯ ИНТЕГРАЦИЯ МЕТОДОВ ВЫСОКОЧАСТОТНОГО ВОССТАНОВЛЕНИЯ ДЛЯ АУДИОСИГНАЛОВ	2024	Черлинг, Кристофер Виллемоес, Ларс Пурнхаген, Хейко Экстранд, Пер	RU2837083C1