Показать метаданные Скрыть метаданные

(19)

(11)

2 825 309

(13)

(51)

МПК

G10L25/06(2013-01-01)

(21) (22)

Заявка

2022107245, 2020-08-18

(24)

Дата начала отсчета патента

2020-08-18

(22)

дата подачи заявки

2020-08-18

(45)

опубликовано

2024-08-23

(72)

авторы

Виллемоес, ЛарсЛехтонен, Хайди-МарияПурнхаген, ХейкоХеделин, Пер

(73)

патентообладатели

Долби Интернешнл Аб

(56)

Документы, цитированные в отчете о поиске

US 2009326931 A1, 31.12.2009US 2017076728 A1, 16.03.2017US 2018144751 A1, 24.05.2018.

ФОРМАТ СО МНОЖЕСТВЕННЫМ ЗАПАЗДЫВАНИЕМ ДЛЯ КОДИРОВАНИЯ ЗВУКА Российский патент 2024 года по МПК G10L25/06

Описание патента на изобретение RU2825309C2

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ

Данная заявка заявляет приоритет следующих приоритетных заявок: предварительной заявки США 62/889118 (ссылка: D19076USP1), поданной 20 августа 2019 г., и европейской заявки 19192552.8 (ссылка: D19076EP), поданной 20 августа 2019 г., которые включены в настоящий документ посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение в целом относится к способу кодирования звукового сигнала в закодированное представление и способу декодирования звукового сигнала из закодированного представления.

Хотя некоторые варианты осуществления будут описаны в настоящем документе с конкретной ссылкой на настоящее изобретение, следует понимать, что настоящее изобретение не ограничено такой областью использования и может быть применимо в более широких контекстах.

ПРЕДПОСЫЛКИ ИЗОБРЕТЕНИЯ

Любое обсуждение текущего уровня техники во всем настоящем описании никоим образом не следует рассматривать как допущение того, что данный уровень широко известен или образует часть общедоступных знаний в данной области техники.

В системах кодирования звука высокого качества большая часть информации обычно описывает подробные свойства волновых форм сигналов. Меньшая часть информации используется для описания более статистически задаваемых признаков, таких как энергии в полосах частот, или управляющих данных, предназначенных для формирования шума квантования согласно известным свойствам одновременного маскирования слуха (например, дополнительной информации в кодере формы сигнала на основе MDCT, которая передает размер шага квантования и информацию о диапазоне, необходимые для правильного деквантования данных, которые представляют форму сигнала, в декодере). Эти системы кодирования звука высокого качества, однако, требуют сравнительно больших объемов данных для кодирования звукового содержимого, т. е. характеризуются сравнительно низкой эффективностью кодирования.

Существует потребность в способах и устройстве кодирования звука, которые могут кодировать звуковые данные с повышенной эффективностью кодирования.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

В настоящем изобретении предоставляются способ кодирования звукового сигнала, способ декодирования звукового сигнала, кодер, декодер, компьютерная программа и машиночитаемый носитель данных.

Согласно первому аспекту настоящего изобретения предоставляется способ кодирования звукового сигнала. Кодирование может выполняться для каждой из множества последовательных частей (например, групп отсчетов, сегментов, кадров) звукового сигнала. В некоторых реализациях части могут перекрываться одна с другой. Закодированное представление может генерироваться для каждой такой части. Способ может включать генерирование множества звуковых сигналов поддиапазонов на основе звукового сигнала. Генерирование множества звуковых сигналов поддиапазонов на основе звукового сигнала может включать спектральное разложение звукового сигнала, которое может быть выполнено с помощью банка полосовых фильтров (BPF). Разрешающая способность по частоте банка фильтров может быть связана с разрешающей способностью по частоте слуховой системы человека. Например, фильтры BPF могут представлять собой комплекснозначные фильтры BPF. Альтернативно генерирование множества звуковых сигналов поддиапазонов на основе звукового сигнала может включать спектральное и/или временное сглаживание звукового сигнала, необязательно обработку методом окна сглаженного звукового сигнала с помощью оконной функции и спектральное разложение результирующего сигнала на множество звуковых сигналов поддиапазонов. Способ может дополнительно включать определение огибающей спектра звукового сигнала. Способ может дополнительно включать определение для звукового сигнала каждого поддиапазона автокорреляционной информации для звукового сигнала поддиапазона на основе автокорреляционной функции (ACF) звукового сигнала поддиапазона. Способ также может дополнительно включать генерирование закодированного представления звукового сигнала, при этом закодированное представление содержит представление огибающей спектра звукового сигнала и представление автокорреляционной информации для множества звуковых сигналов поддиапазонов. Например, закодированное представление может относиться к части битового потока. В некоторых реализациях закодированное представление может также содержать информацию о форме сигнала, относящуюся к форме сигнала звукового сигнала и/или одной или более формам сигнала звуковых сигналов поддиапазонов. Способ может дополнительно включать вывод закодированного представления.

Предложенный способ, выполненный как описано выше, предоставляет закодированное представление звукового сигнала, которое характеризуется чрезвычайно высокой эффективностью кодирования (т. е. требует очень низких битрейтов для кодирования звука), но в то же время содержит соответствующую информацию для достижения очень высокого тонального качества после восстановления. Это осуществляется посредством предоставления, в дополнение к огибающей спектра, еще и автокорреляционной информации для множества поддиапазонов звукового сигнала. В частности было показано, что для достижения высокого тонального качества достаточно двух значений на поддиапазон: одного значения запаздывания и одного значения автокорреляции.

В некоторых вариантах осуществления автокорреляционная информация для звукового сигнала данного поддиапазона может содержать значение запаздывания для звукового сигнала соответствующего поддиапазона и/или значение автокорреляции для звукового сигнала соответствующего поддиапазона. Предпочтительно автокорреляционная информация может включать как значение запаздывания для звукового сигнала соответствующего поддиапазона, так и значение автокорреляции для звукового сигнала соответствующего поддиапазона. В настоящем документе значение запаздывания может соответствовать значению задержки (например, абсциссе), при котором автокорреляционная функция достигает локального максимума, а значение автокорреляции может соответствовать указанному локальному максимуму (например, ординате).

В некоторых вариантах осуществления огибающая спектра может быть определена с первой частотой обновления, а автокорреляционная информация для множества звуковых сигналов поддиапазонов может быть определена со второй частотой обновления. В этом случае первая и вторая частоты обновления могут отличаться друг от друга. Частоты обновления также могут называться частотами дискретизации. В одном таком варианте осуществления первая частота обновления может быть выше второй частоты обновления. Кроме того, разные частоты обновления могут применяться к разным поддиапазонам, т. е. частоты обновления для автокорреляционной информации для звуковых сигналов разных поддиапазонов могут отличаться друг от друга.

Благодаря снижению частоты обновления автокорреляционной информации по сравнению с частотой обновления для огибающей спектра можно дополнительно повысить эффективность кодирования предложенного способа без воздействия на тональное качество восстановленного звукового сигнала.

В некоторых вариантах осуществления генерирование множества звуковых сигналов поддиапазонов может включать применение к звуковому сигналу спектрального и/или временного сглаживания. Генерирование множества звуковых сигналов поддиапазонов может дополнительно включать обработку методом окна сглаженного звукового сигнала с помощью оконной функции. Генерирование множества звуковых сигналов поддиапазонов также может дополнительно включать спектральное разложение обработанного методом окна сглаженного звукового сигнала на множество звуковых сигналов поддиапазонов. В этом случае спектральное и/или временное сглаживание звукового сигнала может включать, например, генерирование взвешенного с учетом восприятия остаточного сигнала LPC звукового сигнала.

В некоторых вариантах осуществления генерирование множества звуковых сигналов поддиапазонов может включать спектральное разложение звукового сигнала. Тогда определение автокорреляционной функции для звукового сигнала данного поддиапазона может включать определение огибающей поддиапазона звукового сигнала поддиапазона. Определение автокорреляционной функции может дополнительно включать сглаживание огибающей звукового сигнала поддиапазона на основе огибающей поддиапазона. Огибающая поддиапазона может быть определен путям взятия значений амплитуды обработанного методом окна звукового сигнала поддиапазона. Определение автокорреляционной функции может дополнительно включать обработку методом окна звукового сигнала поддиапазона со сглаженной огибающей с помощью оконной функции. Определение автокорреляционной функции также может дополнительно включать определение (например, вычисление) автокорреляционной функции обработанного методом окна звукового сигнала поддиапазона со сглаженной огибающей. Автокорреляционная функция может быть определена для вещественнозначного сигнала поддиапазона (обработанного методом окна, со сглаженной огибающей).

Другой аспект настоящего изобретения относится к способу декодирования звукового сигнала из закодированного представления звукового сигнала. Закодированное представление может включать представление огибающей спектра звукового сигнала и представление автокорреляционной информации для каждого из множества звуковых сигналов поддиапазонов (или сгенерированных из) звукового сигнала. Автокорреляционная информация для звукового сигнала данного поддиапазона может быть основана на автокорреляционной функции звукового сигнала поддиапазона. Способ может включать прием закодированного представления звукового сигнала. Способ может дополнительно включать извлечение огибающей спектра и (нескольких фрагментов) автокорреляционной информации из закодированного представления звукового сигнала. Способ также может дополнительно включать определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации. Восстановленный звуковой сигнал может быть определен так, чтобы автокорреляционная функция каждого из множества звуковых сигналов поддиапазонов (или сгенерированных из) восстановленного звукового сигнала удовлетворяла условию, полученному из автокорреляционной информации для звукового сигнала соответствующего поддиапазона (или сгенерированного из) звукового сигнала. Например, восстановленный звуковой сигнал может быть определен так, чтобы для звукового сигнала каждого поддиапазона восстановленного звукового сигнала значение автокорреляционной функции звукового сигнала поддиапазона (или сгенерированного из) восстановленного звукового сигнала при значении запаздывания (например, значении задержки), указанном автокорреляционной информацией для звукового сигнала соответствующего поддиапазона (или сгенерированного из) звукового сигнала, по существу совпадало со значением автокорреляции, указанным автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала. Это может предполагать, что декодер может определять автокорреляционную функцию звуковых сигналов поддиапазонов таким же образом, как это осуществляет кодер. Это может включать любое, некоторое или все из сглаживания, обработки методом окна и нормирования. В некоторых реализациях восстановленный звуковой сигнал может быть определен так, чтобы автокорреляционная информация для каждого из множества сигналов поддиапазонов (или сгенерированных из) восстановленного звукового сигнала поддиапазона по существу совпадала с автокорреляционной информацией для звукового сигнала соответствующего поддиапазона (или сгенерированного из) звукового сигнала. Например, восстановленный звуковой сигнал может быть определен так, что, например, для звукового сигнала каждого поддиапазона (или сгенерированного из) восстановленного звукового сигнала значение автокорреляции и значение запаздывания (например, значение задержки) автокорреляционной функции сигнала поддиапазона восстановленного звукового сигнала по существу совпадает со значением автокорреляции и значением запаздывания, указанными автокорреляционной информацией для звукового сигнала соответствующего поддиапазона (или сгенерированного из) звукового сигнала. Это может предполагать, что декодер может определять автокорреляционную информацию (т. е. значение запаздывания и значение автокорреляции) для сигнала каждого поддиапазона восстановленного звукового сигнала таким же образом, как это осуществляет кодер. Здесь термин «по существу совпадает» может означать, например, «совпадает до предварительно заданного предела». В тех реализациях, в которых закодированное представление содержит информацию о форме сигнала, восстановленный звуковой сигнал может быть определен дополнительно на основе информации о форме сигнала. Звуковые сигналы поддиапазонов могут быть получены, например, путем спектрального разложения соответствующего звукового сигнала (т.е. исходного звукового сигнала на стороне кодера или восстановленного звукового сигнала на стороне декодера), или они могут быть получены путем сглаживания, обработки методом окна и последующего спектрального разложения соответствующего звукового сигнала.

Таким образом, можно сказать, что декодер действует в соответствии с подходом «синтез через анализ» в том смысле, что он стремится найти восстановленный звуковой сигнал , который удовлетворял бы по меньшей мере одному условию, полученному из закодированного представления закодированного звукового сигнала или для которого закодированное представление по существу совпадало бы с закодированным представлением исходного звукового сигнала , где представляет собой кодирующее отображение, используемое кодером. Иными словами, можно сказать, что декодер находит такое декодирующее отображение , что . Как было обнаружено, такой подход «синтез через анализ» приводит к результатам, которые для восприятия очень близки к исходному звуковому сигналу, если закодированное представление, которое декодер пытается воспроизвести, содержит огибающие спектра и автокорреляционную информацию, как описано в настоящем изобретении.

В некоторых вариантах осуществления восстановленный звуковой сигнал может быть определен в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала и генерирует соответствующий промежуточный восстановленный звуковой сигнал на каждой итерации. На каждой итерации к промежуточному восстановленному звуковому сигналу может применяться отображение обновления для получения промежуточного восстановленного звукового сигнала для следующей итерации. Отображение обновления может быть приспособлено так, что автокорреляционные функции звуковых сигналов поддиапазонов (или сгенерированных из) промежуточного восстановления звукового сигнала становятся ближе к удовлетворению условия, полученного из автокорреляционной информации для соответствующих звуковых сигналов поддиапазонов (или сгенерированных из) звукового сигнала, и/или так, что разность между измеренными мощностями сигналов звуковых сигналов поддиапазонов (или сгенерированных из) восстановленного звукового сигнала и мощностями сигналов для звукового сигнала соответствующего поддиапазона (или сгенерированного из) звукового сигнала, которые указаны огибающей спектра, уменьшаются от одной итерации к следующей. Если рассматривать и автокорреляционную информацию, и огибающую спектра, можно определить соответствующую метрику разности для степени, в которой удовлетворяются эти условия, и разности между мощностями сигналов для звуковых сигналов поддиапазонов. В некоторых реализациях отображение обновления может быть приспособлено таким образом, что разность между закодированным представлением промежуточного восстановленного звукового сигнала и закодированным представлением звукового сигнала последовательно уменьшается от одной итерации к следующей. С этой целью можно определить и применить соответствующую метрику разности для закодированных представлений (включая огибающие спектра и/или автокорреляционную информацию). Автокорреляционная функция звуковых сигналов поддиапазонов (или сгенерированных из) промежуточного восстановленного звукового сигнала может быть определена таким же образом, как это осуществляет кодер для звуковых сигналов поддиапазонов (или сгенерированных из) звукового сигнала. Аналогично закодированное представление промежуточного восстановленного звукового сигнала может представлять собой закодированное представление, которое было бы получено в случае, если бы промежуточный восстановленный звуковой сигнал был подвергнут воздействию такой же методики кодирования, как та, которая привела к закодированному представлению звукового сигнала.

Такой итеративный способ обеспечивает возможность простой, но эффективной реализации вышеупомянутого подхода «синтез через анализ».

В некоторых вариантах осуществления определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации может включать применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит восстановленный звуковой сигнал. В тех реализациях, в которых закодированное представление содержит информацию о форме сигнала, порождающая модель на основе машинного обучения может дополнительно принимать в качестве входных данных информацию о форме сигнала. Это предполагает, что порождающая модель на основе машинного обучения может также быть подготовлена/обучена с использованием информации о форме сигнала.

Такой способ на основе машинного обучения обеспечивает возможность чрезвычайно эффективной реализации вышеупомянутого подхода «синтез через анализ» и может добиваться получения восстановленных звуковых сигналов, которые для восприятия очень близки к исходным звуковым сигналам.

Другой аспект настоящего изобретения относится к кодеру для кодирования звукового сигнала. Кодер может содержать процессор и запоминающее устройство, соединенное с процессором, при этом процессор приспособлен для выполнения этапов способа согласно любому из способов кодирования, описанных в настоящем изобретении.

Еще один аспект настоящего изобретения относится к декодеру для декодирования звукового сигнала из закодированного представления звукового сигнала. Декодер может содержать процессор и запоминающее устройство, соединенное с процессором, при этом процессор приспособлен для выполнения этапов способа согласно любому из способов декодирования, описанных в настоящем изобретении.

Еще один аспект относится к компьютерной программе, содержащей команды для вызова выполнения компьютером, исполняющим эти команды, этапов способа согласно любому из способов, описанных в настоящем изобретении.

Еще один аспект настоящего изобретения относится к машиночитаемому носителю данных, на котором хранится компьютерная программа согласно предыдущему аспекту.

КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ

Теперь будут описаны примерные варианты осуществления настоящего изобретения, только в качестве примера, со ссылкой на сопроводительные графические материалы, на которых:

фиг. 1 представляет собой структурную схему, иллюстрирующую пример кодера согласно вариантам осуществления настоящего изобретения,

фиг. 2 представляет собой блок-схему, иллюстрирующую пример способа кодирования согласно вариантам осуществления настоящего изобретения,

фиг. 3 представляет схематические изображения примеров форм сигналов, которые могут присутствовать в структуре способа кодирования согласно фиг. 2,

фиг. 4 представляет собой структурную схему, иллюстрирующую пример подхода «синтез через анализ» для определения декодирующей функции,

фиг. 5 представляет собой блок-схему, иллюстрирующую пример способа декодирования согласно вариантам осуществления настоящего изобретения,

фиг. 6 представляет собой блок-схему, иллюстрирующую пример этапа в способе декодирования согласно фиг. 5,

фиг. 7 представляет собой структурную схему, иллюстрирующую другой пример кодера согласно вариантам осуществления настоящего изобретения, и

фиг. 8 представляет собой структурную схему, иллюстрирующую пример декодера согласно вариантам осуществления настоящего изобретения.

ОПИСАНИЕ ПРИМЕРОВ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ

Введение

Системы кодирования звука высокого качества, как правило, требуют сравнительно больших объемов данных для кодирования звукового содержимого, т.е. характеризуются сравнительно низкой эффективностью кодирования. Несмотря на то, что развитие инструментальных средств, таких как заполнение шумом и восстановление высоких частот, показало, что данные, описывающие форму сигнала, можно частично заменить имеющим меньший размер набором управляющих данных, ни один кодек звука высокого качества не полагается в первую очередь на значимые для восприятия признаки. Однако увеличение вычислительной мощности и современные достижения в области машинного обучения повысили живучесть декодирования звука преимущественно из кодеров произвольных форматов. В настоящем изобретении предлагается пример кодера такого формата.

В более широком смысле, в настоящем изобретении предлагается формат кодирования на основе огибающих поддиапазонов, основывающихся на разрешающей способности слуха, и дополнительной информации. Дополнительная информация включает одно значение автокорреляции и одно значение запаздывания для каждого поддиапазона (и для каждого этапа обновления). Огибающие могут вычисляться с первой частотой обновления, а выборка дополнительной информации может осуществляться со второй частотой обновления. Например, декодирование формата кодирования может происходить с использованием подхода «синтез через анализ», который может быть реализован с помощью итеративных методов или методов на основе машинного обучения.

Кодирование

Формат кодирования (закодированное представление), предложенный в настоящем изобретении, может быть назван «форматом со множественным запаздыванием», поскольку он предусматривает одно запаздывание для каждого поддиапазона (и этапа обновления). На фиг. 1 представлена структурная схема, иллюстрирующая пример кодера 100 для генерирования формата кодирования согласно вариантам осуществления настоящего изобретения.

Кодер 100 принимает целевой звук 10, который соответствует звуковому сигналу, который нужно закодировать. Звуковой сигнал 10 может содержать множество последовательных или частично перекрывающихся частей (например, групп отсчетов, сегментов, кадров и т.д.), которые обрабатываются кодером. Звуковой сигнал 10 подвергается спектральному разложению на множество звуковых сигналов 20 поддиапазонов в соответствующих частотных поддиапазонах с помощью банка 15 фильтров. Банк 15 фильтров может представлять собой банк полосовых фильтров (bandpass filter, BPF), которые, например, могут представлять собой комплекснозначные BPF фильтры. Для звуковых сигналов естественным является использование банка фильтров BPF с разрешающей способностью по частоте, которая связана со слуховой системой человека.

Огибающая 30 спектра звукового сигнала 10 извлекается в блоке 25 извлечения огибающей. Для каждого поддиапазона мощность измеряется с предварительно определенными временными шагами в качестве базовой модели слуховой огибающей или схемы возбуждения улитки уха в результате входного звукового сигнала, чтобы таким образом определять огибающую 30 спектра звукового сигнала 10. То есть огибающая 30 спектра может быть определена на основе множества звуковых сигналов 20 поддиапазонов, например путем измерения (например, оценивания, вычисления) мощности соответствующего сигнала для каждого из множества звуковых сигналов 20 поддиапазонов. Однако огибающая 30 спектра может быть определена с помощью любого подходящего альтернативного инструментального средства, такого как, например, описание кодирования с линейным предсказанием (LPC). В частности, в некоторых реализациях огибающая спектра может быть определена из звукового сигнала перед спектральным разложением с помощью банка 15 фильтров.

Необязательно извлеченная огибающая 30 спектра может быть подвергнута понижающей дискретизации в блоке 35 понижающей дискретизации, и подвергнутая понижающей дискретизации огибающая 40 спектра (или огибающая 30 спектра) выводится как часть формата кодирования, или закодированного представления (соответствующей части), звукового сигнала 10.

Восстановленные сигналы, которые восстановлены только из огибающих спектра, могут по-прежнему характеризоваться недостаточным тональным качеством. Для решения этой проблемы в настоящем изобретении предлагается включение одного значения (т. е. ординаты и абсциссы) автокорреляционной функции сигнала (возможно, со сглаженной огибающей) для каждого поддиапазона, что ведет к значительному повышению качества звука. С этой целью, звуковые сигналы 20 поддиапазонов необязательно сглаживаются (подвергаются сглаживанию огибающей) в делителе 45 и вводятся в блок 55 автокорреляции. Блок 55 автокорреляции определяет автокорреляционную функцию (ACF) его входного сигнала и выводит соответствующие фрагменты автокорреляционной информации 50 для каждого из звуковых сигналов 20 поддиапазонов (т.е. для каждого из поддиапазонов) на основе ACF соответствующих звуковых сигналов 20 поддиапазонов. Автокорреляционная информация 50 для данного поддиапазона содержит представления 50 (т.е. состоит из представлений) значения запаздывания и значения автокорреляции. То есть для каждого поддиапазона в качестве автокорреляционной информации 50, которая является частью закодированного представления, выводятся (например, передаются) одно значение запаздывания и соответствующее (возможно, нормированное) значение автокорреляции (значение ACF). Здесь значение запаздывания соответствует значению задержки, при котором ACF достигает локального максимума, а значение автокорреляции соответствует указанному локальному максимуму. Иными словами, автокорреляционная информация для данного поддиапазона может содержать значение задержки (т.е. абсциссу) и значение автокорреляции (т.е. ординату) локального максимума ACF.

Таким образом, закодированное представление звукового сигнала содержит огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из поддиапазонов. Автокорреляционная информация для данного поддиапазона включает представления значения запаздывания и значения автокорреляции. Закодированное представление соответствует выходным данным кодера. В некоторых реализациях закодированное представление может дополнительно содержать информацию о форме сигнала, относящуюся к форме сигнала звукового сигнала и/или одной или более формам сигнала звуковых сигналов поддиапазонов.

С помощью вышеописанной процедуры определяется кодирующая функция (или кодирующее отображение), которая отображает входной звуковой сигнал в его закодированное представление.

Как отмечено выше, огибающая спектра и автокорреляционная информация для звуковых сигналов поддиапазонов могут быть определены и выведены на разных частотах обновления (частотах выборки). Например, огибающая спектра может быть определена с первой частотой обновления, а автокорреляционная информация для множества звуковых сигналов поддиапазонов может быть определена со второй частотой обновления, отличной от первой частоты обновления. Представление огибающей спектра и представления автокорреляционной информации (для всех поддиапазонов) могут быть записаны в битовый поток на соответствующих частотах обновления (частотах выборки). В этом случае закодированное представление может относиться к части битового потока, выводимого кодером. В этом отношении необходимо отметить, что для каждого момента времени текущая огибающая спектра и текущий набор фрагментов автокорреляционной информации (по одному для каждого поддиапазона) определены битовым потоком и могут быть взяты как закодированное представление. Альтернативно представление огибающей спектра и представления автокорреляционной информации (для всех поддиапазонов) могут быть обновлены в соответствующих единицах выходных данных кодера на соответствующих частотах обновления. В этом случае каждая единица выходных данных (например, закодированный кадр) кодера соответствует экземпляру закодированного представления. Представления огибающей спектра и автокорреляционной информации могут быть одинаковыми во всем ряду последовательных единиц выходных данных, в зависимости от соответствующих частот обновления.

Предпочтительно первая частота обновления выше второй частоты обновления. В одном примере первая частота обновления R₁ может быть равна R₁ = 1/(2,5 мс), а вторая частота обновления R₂ может быть равна R₂ = 1/(20 мс), так что обновленное представление огибающей спектра выводится каждые 2,5 мс, тогда как обновленные представления автокорреляционной информации выводятся каждые 20 мс. Что касается частей (например, кадров) звукового сигнала, огибающая спектра может быть определена для каждой n-й части (например, для каждой части), тогда как автокорреляционная информация может быть определена для каждой m-й части, где m > n.

Закодированное представление(-ия) может быть выведено в виде последовательности кадров с определенной длиной кадра. Среди прочих факторов, длина кадра может зависеть от первой и/или второй частот обновления. Если считать, что кадр характеризуется длиной, равной первому периоду L₁ (например, 2,5 мс), который соответствует первой частоте обновления R₁ (например, 1/(2,5 мс)), согласно L₁ = 1/R₁, то этот кадр будет включать одно представление огибающей спектра и представление одного набора фрагментов автокорреляционной информации (по одному фрагменту на звуковой сигнал поддиапазона). Для первой и второй частот обновления, равных, соответственно, 1/(2,5 мс) и 1/(20 мс), автокорреляционная информация будет одинаковой для восьми последовательных кадров закодированных представлений. В целом, автокорреляционная информация была бы одинаковой для R₁/R₂ последовательных кадров закодированных представлений, с учетом того, что R₁ и R₂ надлежащим образом выбраны так, чтобы давать целочисленное отношение. С другой стороны, принимая, что кадр имеет длину, равную второму периоду L₂ (например, 20 мс), который соответствует второй частоте обновления R₂ (например, 1/(20 мс)), согласно L₂ = 1 / R₂, этот кадр будет содержать представление одного набора фрагментов автокорреляционной информации, и R₁ь/R₂ (например, восемь) представлений огибающих спектра.

В некоторых реализациях разные частоты обновления могут применяться даже к разным поддиапазонам, т.е. автокорреляционная информация для разных звуковых сигналов поддиапазонов может генерироваться и выводиться на разных частотах обновления.

На фиг. 2 представлена блок-схема, иллюстрирующая пример способа 200 кодирования согласно вариантам осуществления настоящего изобретения. Способ, который может быть реализован кодером 100, описанным выше, принимает звуковой сигнал в качестве входных данных.

На этапе S210 на основе звукового сигнала генерируют множество звуковых сигналов поддиапазонов. Данный этап может включать спектральное разложение звукового сигнала, и в этом случае данный этап может быть выполнен в соответствии с действием вышеописанного банка 15 фильтров. Альтернативно он может включать спектральное и/или временное сглаживание звукового сигнала, необязательно обработку методом окна сглаженного звукового сигнала с помощью оконной функции и спектральное разложение результирующего сигнала на множество звуковых сигналов поддиапазонов.

На этапе S220 определяют (например, вычисляют) огибающую спектра звукового сигнала. Этот этап может выполняться в соответствии с действием вышеописанного блока 25 извлечения огибающей.

На этапе S230 для звукового сигнала каждого поддиапазона автокорреляционную информацию определяют для звукового сигнала поддиапазона на основе ACF звукового сигнала поддиапазона. Этот этап может выполняться в соответствии с действием вышеописанного блока 55 автокорреляции.

На этапе S240 генерируют закодированное представление звукового сигнала. Закодированное представление содержит представление огибающей спектра звукового сигнала и представление автокорреляционной информации для каждого из множества звуковых сигналов поддиапазонов.

Ниже будут описаны примеры с подробностями реализации этапов способа 200.

Например, как отмечено выше, генерирование множества звуковых сигналов поддиапазонов может включать спектральное разложение (или являться эквивалентным спектральному разложению) звукового сигнала, например, с помощью банка фильтров. В этом случае определение автокорреляционной функции для звукового сигнала данного поддиапазона может включать определение огибающей поддиапазона для звукового сигнала поддиапазона. Огибающая поддиапазона может быть определена путем взятия значений амплитуды звукового сигнала поддиапазона. Сама ACF может быть вычислена для вещественнозначного сигнала поддиапазона (обработанного методом окна, со сглаженной огибающей).

Полагая, что характеристики фильтров поддиапазонов являются комплекснозначными, при этом преобразования Фурье по существу поддерживаются в отношении положительных частот, сигналы поддиапазонов становятся комплекснозначными. Тогда огибающая поддиапазона может быть определена путем взятия амплитуды комплекснозначного сигнала поддиапазона. Эта огибающая поддиапазона содержит столько же отсчетов, как и сигнал поддиапазона, и может по-прежнему являться в некоторой мере колебательной. Необязательно огибающая поддиапазона может быть подвергнута понижающей дискретизации, например путем вычисления взвешенной с помощью треугольного окна суммы квадратов огибающей в сегментах определенной длины (например, длины 5 мс, с возрастанием на 2,5 мс, падением на 2,5 мс) для каждого сдвига на половину определенной длины (например, 2,5 мс) вдоль сигнала, а затем взятия квадратного корня этой последовательности для получения подвергнутой понижающей дискретизации огибающей поддиапазона. Можно сказать, что она соответствует определению «среднеквадратичной огибающей». Треугольное окно может быть нормировано так, что постоянная огибающая со значением, равным единице, дает последовательность единиц. Также выполнимыми являются другие способы определения огибающей поддиапазона, такие как, например, в случае вещественнозначного сигнала поддиапазона, однополупериодное выпрямление, за которым следует низкочастотная фильтрация. В любом случае можно сказать, что огибающие поддиапазонов несут информацию об энергии в сигналах поддиапазонов (на выбранной частоте обновления).

Тогда звуковой сигнал поддиапазона может быть подвергнут сглаживанию огибающей на основании огибающей поддиапазона. Например, для получения сигнала с мелкой структурой (несущего), на основе которого вычисляют данные ACF, путем линейной интерполяции подвергнутых понижающей дискретизации значений и деления исходных (комплекснозначных) сигналов поддиапазонов на их линейно интерполированную огибающую можно создать новый сигнал огибающей с полной частотой выборки.

Звуковой сигнал поддиапазона со сглаженной огибающей может затем быть обработан методом окна с помощью подходящей оконной функции. Наконец, определяют (например, вычисляют) ACF обработанного методом окна звукового сигнала поддиапазона со сглаженной огибающей. В некоторых реализациях определение ACF для звукового сигнала данного поддиапазона может дополнительно включать нормирование ACF обработанного методом окна звукового сигнала поддиапазона со сглаженной огибающей с помощью автокорреляционной функции оконной функции.

На фиг. 3 кривая 310 на верхней панели указывает вещественное значение обработанного методом окна сигнала поддиапазона со сглаженной огибающей, которое используется для вычисления ACF. Сплошная кривая 320 на нижней панели указывает вещественные значения комплексной ACF.

Главной идеей теперь является нахождение наибольшего локального максимума ACF сигнала поддиапазона среди тех локальных максимумов, которые лежат выше ACF абсолютного значения импульсной характеристики (комплекснозначного) фильтра поддиапазонов (т.е. соответствующего BPF из банка фильтров). На этом этапе для ACF сигнала поддиапазона, которая является комплекснозначной, можно рассматривать вещественные значения ACF. Нахождение наибольшего локального максимума выше ACF абсолютного значения импульсной характеристики может быть необходимым во избежание захвата запаздываний, связанных с центральной частотой поддиапазона, а не со свойствами входного сигнала. В качестве последнего уточнения, это максимальное значение может быть разделено на максимальное значение ACF оконной функции, использованной для окна ACF поддиапазона (полагая, что сама ACF сигнала поддиапазона была нормирована, например так, что значение автокорреляции для нулевой задержки нормировано на единицу). Это приводит к лучшему использованию интервала между 0 и 1, где является максимальной тональностью.

Соответственно, определение автокорреляционной информации для звукового сигнала данного поддиапазона на основе ACF звукового сигнала поддиапазона может дополнительно включать сравнение ACF звукового сигнала поддиапазона с ACF абсолютного значения импульсной характеристики соответствующего полосового фильтра, связанного со звуковым сигналом поддиапазона. ACF абсолютного значения импульсной характеристики соответствующего полосового фильтра, связанного со звуковым сигналом поддиапазона, указано сплошной кривой 330 на нижней панели фиг. 3. Автокорреляционную информацию затем определяют на основе наивысшего локального максимума ACF сигнала поддиапазона выше ACF абсолютного значения импульсной характеристики соответствующего полосового фильтра, связанного со звуковым сигналом поддиапазона. На нижней панели фиг. 3 локальные максимумы ACF указаны крестами, а выбранный наивысший локальный максимум ACF сигнала поддиапазона выше ACF абсолютного значения импульсной характеристики соответствующего полосового указан кругом. Необязательно выбранный локальный максимум ACF может быть нормирован посредством значения ACF для ACF оконной функции (полагая, что сама ACF была нормирована, например так, что значение автокорреляции для нулевой задержки нормировано на единицу). Нормированный выбранный наивысший локальный максимум ACF указан звездочкой на нижней панели фиг. 3, а штриховая кривая 340 указывает ACF оконной функции.

Автокорреляционная информация, определенная на этом этапе, может содержать значение автокорреляции и значение задержки (т.е. ординату и абсциссу) выбранного (нормированного) высшего локального максимума ACF звукового сигнала поддиапазона.

Подобный формат кодирования может быть определен в структуре вокодера на основе LPC. Также в этом случае автокорреляционная информация извлекается из сигнала поддиапазона, на который оказывает влияние по меньшей мере некоторая степень спектрального и/или временного сглаживания. В отличие от вышеупомянутого примера, это осуществляется путем создания (взвешенного с учетом восприятия) остаточного сигнала LPC, его обработки методом окна и его разложения на поддиапазоны для получения множества звуковых сигналов поддиапазонов. За этим следует вычисление ACF и извлечение значения запаздывания и значения автокорреляции для звукового сигнала каждого поддиапазона.

Например, генерирование множества звуковых сигналов поддиапазонов может включать применение спектрального и/или временного сглаживания к звуковому сигналу (например, путем генерирования взвешенного с учетом восприятия остаточного сигнала LPC на основе звукового сигнала с использованием фильтра LPC). За этим может следовать обработка методом окна сглаженного звукового сигнала с помощью оконной функции и спектральное разложение обработанного методом окна сглаженного звукового сигнала на множество звуковых сигналов поддиапазонов. Как отмечено выше, результат временного и/или спектрального сглаживания может соответствовать взвешенному с учетом восприятия остаточному сигналу LPC, который затем подвергают обработке методом окна и спектральному разложению на поддиапазоны. Взвешенный с учетом восприятия остаточный сигнал LPC может представлять собой, например, «розовый» остаточный сигнал LPC.

Декодирование

Настоящее изобретение относится к декодированию звука, которое основано на подходе «синтез через анализ». На наиболее абстрактном уровне предполагается, что задано кодирующее отображение из сигналов в обусловленную восприятием область, так, что исходный звуковой сигнал представляется как . В лучшем случае, хорошим предсказанием субъективной разности, измеренной с помощью совокупности слушателей, является простой критерий искажения, подобный наименьшим квадратам, в области восприятия.

Одной остающейся проблемой является построение декодера , выполняющего отображение из (закодированной и декодированной версии) в звуковой сигнал . С этой целью может использоваться концепция «синтез через анализ», которая включает «нахождение формы сигнала, которая находится ближе всего к генерированию заданной картины». Целью является то, что и должны звучать похоже, так что декодер должен решать обратную задачу . Что касается составления отображений, должна аппроксимировать левую обратную функцию , это означает, что . Эта обратная задача часто является некорректно поставленной в том смысле, что она имеет множество решений. Возможность реализации значительной экономии битрейта заключается в том наблюдении, что большое количество разных форм сигналов будет создавать одинаковое впечатление от звука.

На фиг. 4 представлена структурная схема, иллюстрирующая пример подхода «синтез через анализ» для определения декодирующей функции (или декодирующего отображения) , при заданной кодирующей функции (или кодирующем отображении) . Исходный звуковой сигнал 410, подвергается воздействию кодирующего отображения , 415, что дает закодированное представление , 420, где . Закодированное представление может быть определено в области восприятия. Целью является нахождение декодирующей функции (декодирующего отображения) , 425, которая отображает закодированное представление в восстановленный звуковой сигнал , 430, свойством которого является то, что применение кодирующего отображения , 435, к восстановленному звуковому сигналу давало бы закодированное представление , 440, по существу совпадающее с закодированным представлением . Здесь термин «по существу совпадает» может означать, например, «совпадает до предварительно заданного предела». Иными словами, при заданном кодирующем отображении целью является нахождение такого декодирующего отображения , что .

На фиг. 5 представлена блок-схема, иллюстрирующая пример способа 500 декодирования в соответствии с подходом «синтез через анализ» согласно вариантам осуществления настоящего изобретения. Способ 500 представляет собой способ декодирования звукового сигнала из закодированного представления (исходного) звукового сигнала. Предполагается, что закодированное представление включает представление огибающей спектра исходного звукового сигнала и представление автокорреляционной информации для каждого из множества звуковых сигналов поддиапазонов исходного звукового сигнала. Автокорреляционная информация для звукового сигнала данного поддиапазона основана на ACF звукового сигнала поддиапазона.

На этапе S510 принимают закодированное представление звукового сигнала.

На этапе S520 из закодированного представления звукового сигнала извлекают огибающую спектра и автокорреляционную информацию.

На этапе S530 на основе огибающей спектра и автокорреляционной информации определяют восстановленный звуковой сигнал. Здесь восстановленный звуковой сигнал определяют так, чтобы автокорреляционная функция каждого из множества сигналов поддиапазонов восстановленного звукового сигнала (по существу) удовлетворяла условию, полученному из автокорреляционной информации для звуковых сигналов соответствующих поддиапазонов звукового сигнала. Это условие может заключаться, например, в том, что для звукового сигнала каждого поддиапазона восстановленного звукового сигнала значение ACF звукового сигнала поддиапазона восстановленного звукового сигнала при значении запаздывания (например, значении задержки), указанном автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала, по существу совпадает со значением автокорреляции, указанным автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала. Это может предполагать, что декодер может определять ACF звуковых сигналов поддиапазонов таким же образом, как это осуществляет кодер. Это может включать любое, некоторое или все из сглаживания, обработки методом окна и нормирования. В одной реализации восстановленный звуковой сигнал может быть определен так, что для звукового сигнала каждого поддиапазона восстановленного звукового сигнала значение автокорреляции и значение запаздывания (например, значение задержки) ACF сигнала поддиапазона восстановленного звукового сигнала по существу совпадают со значением автокорреляции и значением запаздывания, указанными автокорреляционной информацией для звукового сигнала соответствующего поддиапазона исходного звукового сигнала. Это может предполагать, что декодер может определять автокорреляционную информацию для сигнала каждого поддиапазона восстановленного звукового сигнала таким же образом, как это осуществляет кодер. В тех реализациях, в которых закодированное представление также включает информацию о форме сигнала, восстановленный звуковой сигнал может быть определен дополнительно на основе информации о форме сигнала. Звуковые сигналы поддиапазонов восстановленного звукового сигнала могут быть сгенерированы таким же образом, как это осуществляет кодер. Например, это может включать спектральное разложение или последовательность из сглаживания, обработки методом окна и спектрального разложения.

Предпочтительно определение восстановленного звукового сигнала на этапе S530 также учитывает огибающую спектра исходного звукового сигнала. Тогда восстановленный звуковой сигнал может быть дополнительно определен так, что для звукового сигнала каждого поддиапазона восстановленного звукового сигнала поддиапазона измеренная (например, оценочная или вычисленная) мощность сигнала для звукового сигнала поддиапазона восстановленного звукового сигнала по существу совпадает с мощностью сигнала для звукового сигнала соответствующего поддиапазона исходного звукового сигнала, которая указана огибающей спектра.

Как видно из вышесказанного, можно сказать, что предложенный способ 500 основан на подходе «синтез через анализ» в том смысле, что он стремится найти восстановленный звуковой сигнал , который (по существу) удовлетворяет по меньшей мере одному условию, полученному из закодированного представления исходного звукового сигнала , где представляет собой кодирующее отображение, используемое кодером. В некоторых реализациях даже можно сказать, что предложенный способ действует в соответствии с подходом «синтез через анализ» в том смысле, что он стремится найти восстановленный звуковой сигнал , для которого закодированное представление по существу совпадало бы с закодированным представлением исходного звукового сигнала . Иными словами, можно сказать, что способ декодирования находит такое декодирующее отображение , что . Ниже будут описаны два неограничивающих примера реализаций способа 500.

Пример 1 реализации: параметрический синтез или итерации для каждого сигнала

Обратную задачу можно решить с помощью итеративных способов при заданном отображении обновления , которое модифицирует так, что находится ближе к , чем Например, начальная точка итерации (т. е. исходный кандидат для восстановленного звукового сигнала) или может представлять собой случайный шумовой сигнал (например, белый шум), или может быть определена на основе закодированного представления звукового сигнала (например, выполненного вручную нулевого приближения). В последнем случае исходный кандидат для восстановленного звукового сигнала может относиться к обоснованному предположению, которое сделано на основе огибающей спектра и/или автокорреляционной информации для множества звуковых сигналов поддиапазонов. В тех реализациях, в которых закодированное представление включает информацию о форме сигнала, обоснованное предположение может быть сделано дополнительно на основе информации о форме сигнала.

Более подробно, восстановленный звуковой сигнал в этом примере реализации определяют в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала и на каждой итерации генерирует соответствующий промежуточный восстановленный звуковой сигнал. На каждой итерации к промежуточному восстановленному звуковому сигналу применяют отображение обновления для получения промежуточного восстановленного звукового сигнала для следующей итерации. Отображение обновления выбирают так, что разность между закодированным представлением промежуточного восстановленного звукового сигнала и закодированным представлением исходного звукового сигнала последовательно уменьшается от одной итерации к следующей. С этой целью, для оценивания разности может быть определена и применена соответствующая метрика разности для закодированных представлений (например, огибающей спектра, автокорреляционной информации). Закодированное представление промежуточного восстановленного звукового сигнала может представлять собой закодированное представление, которое было бы получено в случае, если бы промежуточный восстановленный звуковой сигнал был подвергнут воздействию такой же схемы кодирования, как та, которая привела к закодированному представлению звукового сигнала.

В случае, когда в процедуре производят поиск восстановленного звукового сигнала, который удовлетворяет по меньшей мере одному условию, полученному из (нескольких фрагментов) автокорреляционной информации, отображение обновления может быть выбрано так, что автокорреляционные функции звуковых сигналов поддиапазонов промежуточного восстановления звукового сигнала становятся ближе к удовлетворению соответствующих условий, полученных из автокорреляционной информации для соответствующих звуковых сигналов поддиапазонов звукового сигнала, и/или так, что разность между измеренными мощностями сигналов звуковых сигналов поддиапазонов восстановленного звукового сигнала и мощностями сигналов для звукового сигнала соответствующего поддиапазона звукового сигнала, которые указаны огибающей спектра, уменьшаются от одной итерации к следующей. Если учитывать и автокорреляционную информацию, и огибающую спектра, можно определить соответствующую метрику разности для степени, в которой удовлетворяются эти условия, и разность между мощностями сигналов для звуковых сигналов поддиапазонов.

Пример 2 реализации: порождающие модели на основе машинного обучения

Другой возможностью, которую обеспечивают современные способы машинного обучения, является обучение порождающей модели на основе машинного обучения (или, коротко, порождающей модели) для звукового сигнала , подготавливаемой на данных . То есть при наличии большого набора примеров , где , обучается параметрическое условное распределение от до . Тогда алгоритм декодирования может состоять в выборке отсчетов из распределения .

Было найдено, что эта возможность является особенно преимущественной для случая, в котором представляет речевой вокодер и определено с помощью последовательной порождающей модели использующей отсчеты рекуррентной нейронной сети (RNN). Однако соответствующими этой задаче также являются другие порождающие модели, такие как вариационные автокодировщики или порождающие состязательные модели. Таким образом, без предполагаемого ограничения, порождающая модель на основе машинного обучения может представлять собой одно из рекуррентной нейронной сети, вариационного автокодировщика или порождающей состязательной модели (например, Порождающей состязательной сети (GAN)).

В этом примере реализации определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации включает применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит восстановленный звуковой сигнал. В тех реализациях, в которых закодированное представление также содержит информацию о форме сигнала, порождающая модель на основе машинного обучения может дополнительно принимать в качестве входных данных информацию о форме сигнала.

Как описано выше, порождающая модель на основе машинного обучения может содержать параметрическое условное распределение , которое связывает закодированные представления звуковых сигналов и соответствующие звуковые сигналы с соответствующими вероятностями . Тогда определение восстановленного звукового сигнала может включать выборку отсчетов из параметрического условного распределения для закодированного представления звукового сигнала.

На этапе обучения перед декодированием порождающая модель на основе машинного обучения может быть подготовлена/обучена на наборе данных множества звуковых сигналов и соответствующих закодированных представлений звуковых сигналов. Если закодированное представление также содержит информацию о форме сигнала, то порождающая модель на основе машинного обучения может быть также подготовлена/обучена с использованием информации о форме сигнала.

На фиг. 6 представлена блок-схема, иллюстрирующая примерную реализацию 600 этапа S530 способа 500 декодирования согласно фиг. 5. В частности, реализация 600 относится к реализации этапа S530 для каждого поддиапазона.

На этапе 610 на основе огибающей спектра и автокорреляционной информации определяют множество восстановленных звуковых сигналов поддиапазонов. Здесь множество восстановленных звуковых сигналов поддиапазонов определяют так, чтобы для каждого восстановленного звукового сигнала поддиапазона автокорреляционная функция восстановленного звукового сигнала поддиапазона удовлетворяла условию, полученному из автокорреляционной информации для звукового сигнала соответствующего поддиапазона звукового сигнала. В некоторых реализациях множество восстановленных звуковых сигналов поддиапазонов определяют так, чтобы для каждого восстановленного звукового сигнала поддиапазона автокорреляционная информация для восстановленного звукового сигнала поддиапазона по существу совпадала с автокорреляционной информацией для звукового сигнала соответствующего поддиапазона.

Предпочтительно определение множества восстановленных звуковых сигналов поддиапазонов на этапе S610 также учитывает огибающую спектра исходного звукового сигнала. Тогда множество восстановленных звуковых сигналов поддиапазонов дополнительно определяют так, что для восстановленного звукового сигнала каждого поддиапазона измеренная (например, оценочная, вычисленная) мощность сигнала восстановленного звукового сигнала поддиапазона по существу совпадает с мощностью сигнала для звукового сигнала соответствующего поддиапазона, которая указана огибающей спектра.

На этапе S620 определяют восстановленный звуковой сигнал на основе множества восстановленных звуковых сигналов поддиапазонов с помощью спектрального синтеза.

Вышеописанные Примеры 1 и 2 реализации также могут применяться в реализации этапа S530 для каждого поддиапазона. Для Примера 1 реализации каждый восстановленный звуковой сигнал поддиапазона может быть определен в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала поддиапазона и генерирует соответствующий промежуточный восстановленный звуковой сигнал поддиапазона на каждой итерации. На каждой итерации к промежуточному восстановленному звуковому сигналу поддиапазона может применяться отображение обновления для получения промежуточного восстановленного звукового сигнала поддиапазона для следующей итерации, таким образом, что разность между автокорреляционной информацией для промежуточного восстановленного звукового сигнала поддиапазона и автокорреляционной информацией для звукового сигнала соответствующего поддиапазона последовательно уменьшается от одной итерации к следующей, или таким образом, что восстановленные звуковые сигналы поддиапазонов в большей степени удовлетворяют соответствующим условиям, полученным из автокорреляционной информации для соответствующих звуковых сигналов соответствующих поддиапазонов звукового сигнала.

И снова, на этом этапе может также учитываться огибающая спектра. То есть отображение обновления может быть таким, что (совокупная) разность между соответствующими мощностями сигналов звуковых сигналов поддиапазонов и между соответствующими элементами автокорреляционной информации последовательно уменьшается. Это может предполагать определение соответствующей метрики разности для оценивания (совокупной) разности. В остальном к этому случаю применимы такие же разъяснения, как приведенные выше для Примера 1 реализации.

При применении Примера 2 в реализации этапа S530 для каждого поддиапазона определение множества восстановленных звуковых сигналов поддиапазонов на основе огибающей спектра и автокорреляционной информации может включать применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит множество восстановленных звуковых сигналов поддиапазонов. В остальном к этому случаю применимы такие же разъяснения, как приведенные выше для Примера 2 реализации.

Настоящее изобретение дополнительно относится к кодерам для кодирования звукового сигнала, которые выполнены с возможностью и приспособлены для выполнения способов кодирования, описанных в настоящем раскрытии. Пример такого кодера 700 схематически проиллюстрирован на фиг. 7 в форме структурной схемы. Кодер 700 содержит процессор 710 и запоминающее устройство 720, соединенное с процессором 710. Процессор 710 приспособлен для выполнения этапов способа согласно любому из способов кодирования, описанных в настоящем изобретении. С этой целью запоминающее устройство 720 может содержать соответствующие команды для исполнения процессором 710. Кодер 700 может дополнительно содержать интерфейс 730 для приема входного звукового сигнала 740, подлежащего кодированию, и/или вывода закодированного представления 750 звукового сигнала.

Настоящее изобретение дополнительно относится к декодерам для декодирования звукового сигнала из закодированного представления звукового сигнала, которые выполнены с возможностью и приспособлены для выполнения способов декодирования, описанных в настоящем раскрытии. Пример такого декодера 800 схематически проиллюстрирован на фиг. 8 в форме структурной схемы. Декодер 800 содержит процессор 810 и запоминающее устройство 820, соединенное с процессором 810. Процессор 810 приспособлен для выполнения этапов способа согласно любому из способов декодирования, описанных в настоящем раскрытии. С этой целью запоминающее устройство 820 может содержать соответствующие команды для исполнения процессором 810. Декодер 800 может дополнительно содержать интерфейс 830 для приема входного закодированного представления 840 звукового сигнала, подлежащего декодированию, и/или вывода декодированного (т.е. восстановленного) звукового сигнала 850.

Настоящее изобретение дополнительно относится к компьютерным программам, содержащим команды для вызова выполнения компьютером, исполняющим эти команды, способов кодирования или декодирования, описанных в настоящем изобретении.

Наконец, настоящее изобретение также относится к машиночитаемому носителю данных, на котором хранятся вышеописанные компьютерные программы.

Толкования

Если прямо не заявлено иное, как очевидно из следующих обсуждений, следует понимать, что во всем настоящем описании обсуждения, в которых используются такие термины, как «обработка», «вычисление», «расчет», «определение», «анализ» или т. п., относятся к действию и/или процессам компьютера, или вычислительной системы, или аналогичных электронных вычислительных устройств, которые совершают манипуляции и/или преобразование данных, представленных в виде физических, например электронных, величин, в другие данные, аналогично представленные в виде физических величин.

Сходным образом, термин «процессор» может относиться к любому устройству или части устройства, которая обрабатывает электронные данные, например из регистров и/или запоминающего устройства, с целью преобразования этих электронных данных в другие электронные данные, которые, например, могут храниться в регистрах и/или в запоминающем устройстве. «Компьютер», или «вычислительная машина», или «вычислительная платформа» может содержать один или более процессоров.

Методологии, описанные в настоящем документе, в одном примерном варианте осуществления приспособлены для выполнения одним или более процессорами, принимающими читаемый компьютером (также называемый машиночитаемым) код, содержащий набор команд, которые при исполнении одним или более процессорами осуществляют по меньшей мере один из способов, описанных в настоящем документе. Включен любой процессор, приспособленный для (последовательного или иного) исполнения набора команд, которые определяют предпринимаемые действия. Так, одним из примеров является типичная система обработки, которая содержит один или более процессоров. Каждый процессор может содержать одно или более из ЦПУ (центрального процессорного устройства), графического процессора и программируемого блока ЦПОС. Система обработки может дополнительно содержать подсистему запоминающих устройств, содержащую основное ОЗУ (оперативное запоминающее устройство), и/или статическое ОЗУ, и/или ПЗУ (постоянное запоминающее устройство). Для обеспечения связи между компонентами может быть включена подсистема шин. Система обработки дополнительно может представлять собой распределенную систему обработки с процессорами, связанными посредством сети. Если для системы обработки требуется дисплей, такой дисплей может включать, например, жидкокристаллический дисплей (LCD) или дисплей с катодно-лучевой трубкой (CRT). Если требуется ввод данных вручную, система обработки также содержит устройство ввода, такое как одно или более из буквенно-цифрового блока ввода, такого как клавиатура, координатно-указательного устройства, такого как мышь, и т.д. Система обработки может также охватывать систему хранения данных, такую как блок дисковода. Система обработки в некоторых конфигурациях может содержать устройство вывода звука и устройство сетевого интерфейса. Таким образом, подсистема запоминающих устройств содержит машиночитаемый носитель данных, несущий машиночитаемый код (например, программное обеспечение), который содержит набор команд для вызова выполнения, при исполнении одним или более процессорами, одного или более способов, описанных в настоящем документе. Следует отметить, что если способ включает несколько элементов, например несколько этапов, то, если это не отмечено специально, никакое упорядочение этих элементов не подразумевается. Программное обеспечение может находиться на жестком диске или может также находиться, полностью или по меньшей мере частично, в ОЗУ и/или в процессоре во время его исполнения компьютерной системой. Таким образом, запоминающее устройство и процессор также составляют машиночитаемый носитель данных, несущий машиночитаемый код. Кроме того, машиночитаемый носитель данных может образовывать компьютерный программный продукт или может содержаться в нем.

В альтернативных примерных вариантах осуществления один или более процессоров действуют как автономное устройство или могут быть соединены, например посредством сети, с другим процессором (процессорами) в объединенную в сеть развернутую систему, причем один или более процессоров могут работать в качестве сервера или клиентской машины в сетевой среде типа клиент-сервер или в качестве одноранговой машины в одноранговой или распределенной сетевой среде. Один или более процессоров могут образовывать персональный компьютер (ПК), планшетный ПК, персональный цифровой помощник (PDA), сотовый телефон, устройство веб-интерфейса, сетевой маршрутизатор, коммутатор, или мост, или любую машину, выполненную с возможностью исполнять набор команд (последовательный или другой), которые задают действия, которые должны быть предприняты этой машиной.

Следует отметить, что термин «машина» следует воспринимать как включающий любой набор машин, которые вместе или по отдельности исполняют набор (или несколько наборов) команд с целью выполнения любой одной или более методологий, описанных в настоящем документе.

Таким образом, один примерный вариант осуществления каждого из способов, описанных в настоящем документе, имеет форму машиночитаемого носителя данных, несущего набор команд, например компьютерную программу, которая предназначена для исполнения на одном или более процессорах, например на одном или более процессорах, которые составляют часть компоновки веб-сервера. Поэтому, как будет понятно специалистам в данной области техники, примерные варианты осуществления настоящего изобретения могут быть осуществлены как способ, устройство, такое как устройство специального назначения, устройство, такое как система обработки данных, или машиночитаемый носитель данных, например компьютерный программный продукт. Машиночитаемый носитель данных несет машиночитаемый код, содержащий набор команд, которые при исполнении на одном или более процессорах вызывают реализацию способа процессором или процессорами. Соответственно, аспекты настоящего изобретения могут принимать форму способа, полностью аппаратного примерного варианта осуществления, полностью программного примерного варианта осуществления или примерного варианта осуществления, сочетающего аспекты программного и аппаратного обеспечения. Кроме того, настоящее изобретение может принимать форму носителя данных (например, компьютерного программного продукта на машиночитаемом носителе данных), несущего машиночитаемый программный код, реализованный на носителе.

Программное обеспечение может дополнительно передаваться или приниматься по сети с помощью устройства сетевого интерфейса. Несмотря на то что носитель данных в примерном варианте осуществления представляет собой единственный носитель данных, термин «носитель данных» следует воспринимать как включающий единственный носитель данных или множество носителей данных (например, централизованную или распределенную базу данных и/или связанные устройства кэш-памяти и сервера), которые хранят один или более наборов команд. Термин «носитель данных» также следует воспринимать как включающий любой носитель данных, приспособленный для хранения, кодирования или переноса набора команд, предназначенных для исполнения одним или более процессорами и вызывающих выполнение одним или более процессорами любой одной или более методологий настоящего изобретения. Носитель данных может принимать множество форм, включая в качестве неограничивающих примеров энергонезависимые носители данных, энергозависимые носители данных и среды передачи данных. Энергонезависимые носители данных включают, например, оптические, магнитные диски и магнитооптические диски. Энергозависимые носители данных включают динамическое запоминающее устройство, такое как основное запоминающее устройство. Среды передачи данных включают коаксиальные кабели, медный провод и оптоволоконные кабели, включая провода, которые содержат подсистему шин. Среды передачи данных могут также принимать форму акустических или световых волн, таких как волны, которые генерируются во время радиоволновой и инфракрасной передач данных. Например, термин «носитель данных» следует, соответственно, воспринимать как включающий, но без ограничения, твердотельные запоминающие устройства, компьютерный продукт, реализованный на оптическом и магнитном носителях; среду, переносящую распространяющийся сигнал, обнаруживаемый по меньшей мере одним процессором или одним или более процессорами и представляющий собой набор команд, которые при исполнении реализуют способ; и среду передачи данных в сети, переносящую распространяющийся сигнал, обнаруживаемый по меньшей мере одним процессором из одного или более процессоров и представляющий собой набор команд.

Следует понимать, что обсужденные этапы способов выполняются в одном примерном варианте осуществления надлежащим процессором (или процессорами) системы обработки (например, компьютерной системы), исполняющей команды (машиночитаемый код), хранящиеся в хранилище данных. Также следует понимать, что настоящее изобретение не ограничивается никакой конкретной реализацией или программным техническим решением и что настоящее изобретение можно реализовать с использованием любых надлежащих технических решений для реализации функциональных возможностей, описанных в настоящем документе. Настоящее изобретение не ограничивается никакими конкретными языком программирования или операционной системой.

Отсылка в данном описании к «одному примерному варианту осуществления», «некоторым примерным вариантам осуществления» или «примерному варианту осуществления» означает, что конкретные признак, конструкция или характеристика, описанные в связи с примерным вариантом осуществления, включены в по меньшей мере один примерный вариант осуществления настоящего изобретения. Поэтому появления фраз «в одном примерном варианте осуществления», «в некоторых примерных вариантах осуществления» или «в примерном варианте осуществления» в различных местах данного описания не обязательно относятся к одному и тому же примерному варианту осуществления. Кроме того, конкретные признаки, конструкции или характеристики могут комбинироваться в одном или более примерных вариантах осуществления любым подходящим образом, что должно быть очевидно из данного описания для специалиста в данной области техники.

В контексте настоящего документа, если на указано иное, использование порядковых числительных «первый», «второй», «третий» и т. д. для описания обычного объекта просто указывает на то, что производится ссылка на различные экземпляры сходных объектов, и они не предназначены для обозначения того, что объекты, описанные таким образом, должны находиться в данной последовательности будь то во времени, в пространстве, по рангу или в ином смысле.

В приведенной ниже формуле изобретения и в настоящем описании любой из терминов «содержащий», «состоящий из» или «который содержит» является открытым термином, что означает включение по меньшей мере следующих за ним элементов/признаков, но не исключение остальных. Поэтому термин «содержащий» при его использовании в формуле изобретения не следует интерпретировать как ограничивающий в отношении средств, или элементов, или этапов, перечисляемых после него. Например, объем выражения «устройство, содержащее А и В» не следует ограничивать устройствами, состоящими только из элементов А и В. Любой из используемых в настоящем документе терминов «включающий» или «который включает» также представляет собой открытый термин, который также означает включение по меньшей мере элементов/признаков, следующих за этим термином, но не исключение остальных. Таким образом, «включающий» является синонимом и означает «содержащий».

Следует понимать, что в приведенном выше описании примерных вариантов осуществления настоящего изобретения различные признаки настоящего изобретения иногда группируются вместе в один примерный вариант осуществления, фигуру или их описание с целью выбора оптимального пути описания и для обеспечения понимания одного или более различных аспектов изобретения. Такой способ раскрытия, однако, не следует интерпретировать как отражающий намерение того, что формула изобретения требует большего количества признаков, чем те, которые явно перечислены в каждом пункте формулы изобретения. Вместо этого, как отражает нижеследующая формула изобретения, аспекты изобретения заключаются менее чем во всех признаках одного вышеописанного примерного варианта осуществления. Поэтому формула изобретения, следующая за разделом «Описание», таким образом явно включена в этот раздел «Описание», причем каждый пункт формулы изобретения самостоятельно представляет собой отдельный примерный вариант осуществления настоящего изобретения.

Кроме того, несмотря на то, что некоторые примерные варианты осуществления, описанные в настоящем документе, включают одни, а не другие признаки, включенные в другие примерные варианты осуществления, комбинации признаков из различных примерных вариантов осуществления подразумеваются как находящиеся в пределах объема настоящего изобретения и образующие другие примерные варианты осуществления, как должно быть понятно специалистам в данной области техники. Например, в нижеследующей формуле изобретения любые заявленные примерные варианты осуществления могут применяться в любой комбинации.

В приведенном в настоящем документе описании изложено множество конкретных деталей. Однако следует понимать, что примерные варианты осуществления настоящего изобретения могут применяться на практике без этих конкретных деталей. В других случаях хорошо известные способы, конструкции и технологии не показаны подробно, чтобы не затруднять понимание данного описания.

Таким образом, в то время как здесь описано то, что рассматривается как лучшие варианты осуществления настоящего изобретения, специалистам в данной области будет понятно, что в них могут вноситься другие и дополнительные модификации без отступления от идеи настоящего изобретения, и подразумевается, что все указанные изменения и модификации заявляются как находящиеся в пределах объема настоящего изобретения. Например, любые приведенные выше формулы являются только примерами процедур, которые могут использоваться. Функциональные возможности могут добавляться к структурным схемам или исключаться из них, а операции могут быть подвержены взаимному обмену между функциональными блоками. Этапы могут добавляться к способам или исключаться из способов, описанных в пределах объема настоящего изобретения.

Различные аспекты и реализации настоящего изобретения можно понять из перечисленных ниже пронумерованных примерных вариантов осуществления (ППВО).

ППВО1. Способ кодирования звукового сигнала, включающий:

генерирование множества звуковых сигналов поддиапазонов на основе звукового сигнала;

определение огибающей спектра звукового сигнала;

генерирование закодированного представления звукового сигнала, при этом закодированное представление содержит представление огибающей спектра звукового сигнала и представление автокорреляционной информации для множества звуковых сигналов поддиапазонов.

ППВО 2. Способ согласно ППВО 1, в котором огибающую спектра определяют на основе множества звуковых сигналов поддиапазонов.

ППВО 3. Способ согласно ППВО 1 или 2, в котором автокорреляционная информация для звукового сигнала данного поддиапазона содержит значение запаздывания для звукового сигнала соответствующего поддиапазона и/или значение автокорреляции для звукового сигнала соответствующего поддиапазона.

ППВО 4. Способ согласно предыдущему ППВО, в котором значение запаздывания соответствует значению задержки, при котором автокорреляционная функция достигает локального максимума, и при этом значение автокорреляции соответствует указанному локальному максимуму.

ППВО 5. Способ согласно любому из предыдущих ППВО, в котором огибающую спектра определяют с первой частотой обновления, а автокорреляционную информацию для множества звуковых сигналов поддиапазонов определяют со второй частотой обновления; и

при этом первая и вторая частоты обновления отличаются друг от друга.

ППВО 6. Способ согласно предыдущему ППВО, в котором первая частота обновления выше второй частоты обновления.

ППВО 7. Способ согласно любому из предыдущих ППВО, в котором генерирование множества звуковых сигналов поддиапазонов включает:

применение спектрального и/или временного сглаживания к звуковому сигналу;

обработку методом окна сглаженного звукового сигнала; и

спектральное разложение обработанного методом окна сглаженного звукового сигнала на множество звуковых сигналов поддиапазонов.

ППВО 8. Способ согласно любому из ППВО 1–6,

в котором генерирование множества звуковых сигналов поддиапазонов включает спектральное разложение звукового сигнала; и

при этом определение автокорреляционной функции для звукового сигнала данного поддиапазона включает:

определение огибающей спектра звукового сигнала поддиапазона;

сглаживание огибающей звукового сигнала поддиапазона на основе огибающей поддиапазона;

обработку методом окна звукового сигнала поддиапазона со сглаженной огибающей с помощью оконной функции; и

определение автокорреляционной функции обработанного методом окна звукового сигнала поддиапазона со сглаженной огибающей.

ППВО 9. Способ согласно ППВО 7 или 8, в котором определение автокорреляционной функции для звукового сигнала данного поддиапазона дополнительно включает:

нормирование автокорреляционной функции обработанного методом окна звукового сигнала поддиапазона со сглаженной огибающей с помощью автокорреляционной функции оконной функции.

ППВО 10. Способ согласно любому из предыдущих ППВО, в котором определение автокорреляционной информации для звукового сигнала данного поддиапазона на основе автокорреляционной функции звукового сигнала поддиапазона включает:

сравнение автокорреляционной функции звукового сигнала поддиапазона с автокорреляционной функцией абсолютного значения импульсной характеристики соответствующего полосового фильтра, связанного со звуковым сигналом поддиапазона; и

определение автокорреляционной информации на основе наивысшего локального максимума автокорреляционной функции сигнала поддиапазона выше автокорреляционной функции абсолютного значения импульсной характеристики соответствующего полосового фильтра, связанного со звуковым сигналом поддиапазона.

ППВО 11. Способ согласно любому из предыдущих ППВО, в котором определение огибающей спектра включает измерение мощности сигнала для каждого из множества звуковых сигналов поддиапазонов.

ППВО 12. Способ декодирования звукового сигнала из закодированного представления звукового сигнала, причем закодированное представление содержит представление огибающей спектра звукового сигнала и представление автокорреляционной информации для каждого из множества звуковых сигналов поддиапазонов, сгенерированных из звукового сигнала, при этом автокорреляционная информация для звукового сигнала данного поддиапазона основана на автокорреляционной функции звукового сигнала поддиапазона, при этом способ включает:

прием закодированного представления звукового сигнала;

извлечение огибающей спектра и автокорреляционной информации из закодированного представления звукового сигнала; и

определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации,

при этом восстановленный звуковой сигнал определяют так, чтобы автокорреляционная функция для каждого из множества сигналов поддиапазонов, сгенерированных из восстановленного звукового сигнала, удовлетворяла условию, полученному из автокорреляционной информации для звуковых сигналов соответствующих поддиапазонов, сгенерированных из звукового сигнала.

ППВО 13. Способ согласно предыдущему ППВО, в котором восстановленный звуковой сигнал дополнительно определяют так, что для звукового сигнала каждого поддиапазона восстановленного звукового сигнала измеренная мощность сигнала звукового сигнала поддиапазона восстановленного звукового сигнала по существу совпадает с мощностью сигнала для звукового сигнала соответствующего поддиапазона звукового сигнала, которая указана огибающей спектра.

ППВО 14. Способ согласно ППВО 12 или 13,

в котором восстановленный звуковой сигнал определяют в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала и генерирует соответствующий промежуточный восстановленный звуковой сигнал на каждой итерации; и

при этом на каждой итерации к промежуточному восстановленному звуковому сигналу применяют отображение обновления для получения промежуточного восстановленного звукового сигнала для следующей итерации, таким образом, что разность между закодированным представлением промежуточного восстановленного звукового сигнала и закодированным представлением звукового сигнала последовательно уменьшается от одной итерации к другой.

ППВО 15. Способ согласно ППВО 14, в котором исходного кандидата для восстановленного звукового сигнала определяют на основе закодированного представления звукового сигнала.

ППВО 16. Способ согласно ППВО 14, в котором исходным кандидатом для восстановленного звукового сигнала является белый шум.

ППВО 17. Способ согласно ППВО 12 или 13, в котором определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации включает применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит восстановленный звуковой сигнал.

ППВО 18. Способ согласно предыдущему ППВО, в котором порождающая модель на основе машинного обучения содержит параметрическое условной распределение, которое связывает закодированные представления звуковых сигналов и соответствующие звуковые сигналы с соответствующими вероятностями; и

при этом определение восстановленного звукового сигнала включает выборку отсчетов из параметрического условного распределения для закодированного представления звукового сигнала.

ППВО 19. Способ согласно ППВО 17 или 18, на этапе обучения дополнительно включающий обучение порождающей модели на основе машинного обучения на наборе данных множества звуковых сигналов и соответствующих закодированных представлений звуковых сигналов.

ППВО 20. Способ согласно любому из ППВО 17–19, в котором порождающая модель на основе машинного обучения представляет собой одно из рекуррентной нейронной сети, вариационного автокодировщика и порождающей состязательной модели.

ППВО 21. Способ согласно ППВО 12, в котором определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации включает:

определение множества восстановленных звуковых сигналов поддиапазонов на основе огибающей спектра и автокорреляционной информации; и

определение восстановленного звукового сигнала на основе множества восстановленных звуковых сигналов поддиапазонов с помощью спектрального синтеза,

при этом множество восстановленных звуковых сигналов поддиапазонов определяют так, чтобы для каждого восстановленного звукового сигнала поддиапазона автокорреляционная функция восстановленного звукового сигнала поддиапазона удовлетворяла условию, полученному из автокорреляционной информации для звукового сигнала соответствующего поддиапазона.

ППВО 22. Способ согласно предыдущему ППВО, в котором множество восстановленных звуковых сигналов поддиапазонов дополнительно определяют так, что для каждого восстановленного звукового сигнала поддиапазона измеренная мощность сигнала восстановленного звукового сигнала поддиапазона по существу совпадает с мощностью сигнала для звукового сигнала соответствующего поддиапазона, которая указана огибающей спектра.

ППВО 23. Способ согласно ППВО 21 или 22,

в котором каждый восстановленный звуковой сигнал поддиапазона определяют в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала поддиапазона и генерирует соответствующий промежуточный восстановленный звуковой сигнал поддиапазона на каждой итерации; и

при этом на каждой итерации к промежуточному восстановленному звуковому сигналу поддиапазона применяют отображение обновления для получения промежуточного восстановленного звукового сигнала поддиапазона для следующей итерации, таким образом, что разность между автокорреляционной информацией для промежуточного восстановленного звукового сигнала поддиапазона и автокорреляционной информацией для звукового сигнала соответствующего поддиапазона последовательно уменьшается от одной итерации к другой.

ППВО 24. Способ согласно ППВО 21 или 22, в котором определение множества восстановленных звуковых сигналов поддиапазонов на основе огибающей спектра и автокорреляционной информации включает применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит множество восстановленных звуковых сигналов поддиапазонов.

ППВО 25. Кодер для кодирования звукового сигнала, содержащий процессор и запоминающее устройство, соединенное с процессором, при этом процессор приспособлен для выполнения этапов способа согласно любому из ППВО 1–11.

ППВО 26. Декодер для декодирования звукового сигнала из закодированного представления звукового сигнала, содержащий процессор и запоминающее устройство, соединенное с процессором, при этом процессор приспособлен для выполнения этапов способа согласно любому из ППВО 12–24.

ППВО 27. Компьютерная программа, содержащая команды для вызова выполнения компьютером, при исполнении этих команд, способа согласно любому из ППВО 1–24.

ППВО 28. Машиночитаемый носитель данных, на котором хранится компьютерная программа согласно предыдущему ППВО.

Иллюстрации к изобретению RU 2 825 309 C2

Реферат патента 2024 года ФОРМАТ СО МНОЖЕСТВЕННЫМ ЗАПАЗДЫВАНИЕМ ДЛЯ КОДИРОВАНИЯ ЗВУКА

В настоящем документе описан способ кодирования звукового сигнала. Способ включает: генерирование множества звуковых сигналов поддиапазонов на основе звукового сигнала; определение огибающей спектра звукового сигнала; определение, для звукового сигнала каждого поддиапазона, автокорреляционной информации для звукового сигнала поддиапазона на основе автокорреляционной функции звукового сигнала поддиапазона; и генерирование закодированного представления звукового сигнала, при этом закодированное представление содержит представление огибающей спектра звукового сигнала и представление автокорреляционной информации для множества звуковых сигналов поддиапазонов. Технический результат заключается в повышении эффективности кодирования при снижении объемов данных для кодирования звукового содержимого. 5 н. и 27 з.п. ф-лы, 8 ил.

Формула изобретения RU 2 825 309 C2

1. Способ кодирования звукового сигнала, включающий:

генерирование множества звуковых сигналов поддиапазонов на основе звукового сигнала;

определение огибающей спектра звукового сигнала;

определение, для звукового сигнала каждого поддиапазона, автокорреляционной информации для звукового сигнала поддиапазона на основе автокорреляционной функции звукового сигнала поддиапазона, при этом автокорреляционная информация содержит значение автокорреляции для звукового сигнала поддиапазона; и

кодирование в закодированное представление звукового сигнала огибающей спектра звукового сигнала и автокорреляционной информации для множества звуковых сигналов поддиапазонов,

при этом автокорреляционная информация для звукового сигнала данного поддиапазона дополнительно содержит значение запаздывания для звукового сигнала соответствующего поддиапазона.

2. Способ по п. 1, отличающийся тем, что дополнительно включает вывод битового потока, определяющего закодированное представление.

3. Способ по п. 1 или 2, отличающийся тем, что огибающую спектра определяют на основе множества звуковых сигналов поддиапазонов.

4. Способ по любому из пп. 1–3, отличающийся тем, что значение запаздывания соответствует значению задержки, при котором автокорреляционная функция достигает локального максимума, и при этом значение автокорреляции соответствует указанному локальному максимуму.

5. Способ по любому из предыдущих пунктов, отличающийся тем, что огибающую спектра определяют с первой частотой обновления, а

автокорреляционную информацию для множества звуковых сигналов поддиапазонов определяют со второй частотой обновления; и

при этом первая и вторая частоты обновления отличаются друг от друга.

6. Способ по п. 5, отличающийся тем, что первая частота обновления выше второй частоты обновления.

7. Способ по любому из предыдущих пунктов, отличающийся тем, что генерирование множества звуковых сигналов поддиапазонов включает:

применение спектрального и/или временного сглаживания к звуковому сигналу;

обработку методом окна сглаженного звукового сигнала; и

8. Способ по любому из пп. 1–6,

отличающийся тем, что генерирование множества звуковых сигналов поддиапазонов включает спектральное разложение звукового сигнала; и

при этом определение автокорреляционной функции для звукового сигнала данного поддиапазона включает:

определение огибающей спектра звукового сигнала поддиапазона;

сглаживание огибающей звукового сигнала поддиапазона на основе огибающей поддиапазона;

обработку методом окна звукового сигнала поддиапазона со сглаженной огибающей с помощью оконной функции; и

9. Способ по п. 7 или 8, отличающийся тем, что определение автокорреляционной функции для звукового сигнала данного поддиапазона дополнительно включает:

10. Способ по любому из предыдущих пунктов, отличающийся тем, что определение автокорреляционной информации для звукового сигнала данного поддиапазона на основе автокорреляционной функции звукового сигнала поддиапазона включает:

11. Способ по любому из предыдущих пунктов, отличающийся тем, что определение огибающей спектра включает измерение мощности сигнала для каждого из множества звуковых сигналов поддиапазонов.

12. Способ декодирования звукового сигнала из закодированного представления звукового сигнала, причем закодированное представление содержит огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов, сгенерированных из звукового сигнала, при этом автокорреляционная информация для звукового сигнала данного поддиапазона основана на

автокорреляционной функции звукового сигнала поддиапазона, при этом способ включает:

прием закодированного представления звукового сигнала;

при этом автокорреляционная информация для звукового сигнала данного поддиапазона содержит значение автокорреляции для звукового сигнала поддиапазона и значение запаздывания для звукового сигнала соответствующего поддиапазона.

13. Способ по п. 12, отличающийся тем, что восстановленный звуковой сигнал определяют так, что автокорреляционная функция для каждого из множества сигналов поддиапазонов, сгенерированных из восстановленного звукового сигнала, удовлетворяет условию, полученному из автокорреляционной информации для звуковых сигналов соответствующих поддиапазонов, сгенерированных из звукового сигнала.

14. Способ по п. 12 или 13, отличающийся тем, что восстановленный звуковой сигнал определяют так, что автокорреляционная информация для каждого из множества сигналов поддиапазонов восстановленного звукового сигнала совпадает, до предварительно заданного предела, с автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала.

15. Способ по п. 12 или 13, отличающийся тем, что восстановленный звуковой сигнал определяют так, что для звукового сигнала каждого поддиапазона восстановленного звукового сигнала значение автокорреляционной функции звукового сигнала поддиапазона

восстановленного звукового сигнала при значении запаздывания, указанном автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала, совпадает, до предварительно заданного предела, со значением автокорреляции, указанным автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала.

16. Способ по любому из пп. 12–15, отличающийся тем, что восстановленный звуковой сигнал дополнительно определяют так, что для звукового сигнала каждого поддиапазона восстановленного звукового сигнала измеренная мощность сигнала звукового сигнала поддиапазона восстановленного звукового сигнала совпадает, до предварительно заданного предела, с мощностью сигнала для звукового сигнала соответствующего поддиапазона звукового сигнала, которая указана огибающей спектра.

17. Способ по любому из пп. 12–16,

отличающийся тем, что восстановленный звуковой сигнал определяют в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала и генерирует соответствующий промежуточный восстановленный звуковой сигнал на каждой итерации; и

при этом на каждой итерации к промежуточному восстановленному звуковому сигналу применяют отображение обновления для получения промежуточного восстановленного звукового сигнала для следующей итерации таким образом, что разность между закодированным представлением промежуточного восстановленного звукового сигнала и закодированным представлением звукового сигнала последовательно уменьшается от одной итерации к другой.

18. Способ по п. 17, отличающийся тем, что исходного кандидата для восстановленного звукового сигнала определяют на основе закодированного представления звукового сигнала.

19. Способ по п. 17, отличающийся тем, что исходным кандидатом для восстановленного звукового сигнала является белый шум.

20. Способ по любому из пп. 12–16, отличающийся тем, что определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации включает применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит восстановленный звуковой сигнал.

21. Способ по п. 20, отличающийся тем, что порождающая модель на основе машинного обучения содержит параметрическое условное распределение, которое связывает закодированные представления звуковых сигналов и соответствующие звуковые сигналы с соответствующими вероятностями; и

22. Способ по п. 20 или 21, отличающийся тем, что на этапе обучения дополнительно включает обучение порождающей модели на основе машинного обучения на наборе данных множества звуковых сигналов и соответствующих закодированных представлений звуковых сигналов.

23. Способ по любому из пп. 20–22, отличающийся тем, что порождающая модель на основе машинного обучения представляет собой одно из рекуррентной нейронной сети, вариационного автокодировщика и порождающей состязательной модели.

24. Способ по п. 13, отличающийся тем, что определение восстановленного звукового сигнала на основе огибающей спектра и автокорреляционной информации включает:

при этом множество восстановленных звуковых сигналов поддиапазонов определяют так, что для каждого восстановленного звукового сигнала поддиапазона автокорреляционная функция восстановленного звукового сигнала поддиапазона удовлетворяет условию, полученному из автокорреляционной информации для звукового сигнала соответствующего поддиапазона звукового сигнала.

25. Способ по п. 24, отличающийся тем, что множество восстановленных звуковых сигналов поддиапазонов определяют так, что автокорреляционная информация для каждого восстановленного звукового сигнала поддиапазона совпадает, до предварительно заданного предела, с автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала.

26. Способ по п. 24, отличающийся тем, что множество восстановленных звуковых сигналов поддиапазонов определяют так, что для каждого восстановленного звукового сигнала поддиапазона значение автокорреляционной функции восстановленного звукового сигнала поддиапазона при значении запаздывания, указанном автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала, совпадает, до предварительно заданного предела, со значением автокорреляции, указанным автокорреляционной информацией для звукового сигнала соответствующего поддиапазона звукового сигнала.

27. Способ по любому из пп. 24–26, отличающийся тем, что множество восстановленных звуковых сигналов поддиапазонов дополнительно определяют

так, что для каждого восстановленного звукового сигнала поддиапазона измеренная мощность сигнала восстановленного звукового сигнала поддиапазона совпадает, до предварительно заданного предела, с мощностью сигнала для звукового сигнала соответствующего поддиапазона, которая указана огибающей спектра.

28. Способ по любому из пп. 24–27,

отличающийся тем, что каждый восстановленный звуковой сигнал поддиапазона определяют в итеративной процедуре, которая начинается с исходного кандидата для восстановленного звукового сигнала поддиапазона и генерирует соответствующий промежуточный восстановленный звуковой сигнал поддиапазона на каждой итерации; и

при этом на каждой итерации к промежуточному восстановленному звуковому сигналу поддиапазона применяют отображение обновления для получения промежуточного восстановленного звукового сигнала поддиапазона для следующей итерации таким образом, что разность между автокорреляционной информацией для промежуточного восстановленного звукового сигнала поддиапазона и автокорреляционной информацией для звукового сигнала соответствующего поддиапазона последовательно уменьшается от одной итерации к другой.

29. Способ по любому из пп. 24–27, отличающийся тем, что определение множества восстановленных звуковых сигналов поддиапазонов на основе огибающей спектра и автокорреляционной информации включает применение порождающей модели на основе машинного обучения, которая принимает в качестве входных данных огибающую спектра звукового сигнала и автокорреляционную информацию для каждого из множества звуковых сигналов поддиапазонов звукового сигнала и генерирует и выводит множество восстановленных звуковых сигналов поддиапазонов.

30. Кодер для кодирования звукового сигнала, содержащий процессор и запоминающее устройство, соединенное с процессором, при этом процессор приспособлен для выполнения этапов способа по любому из пп. 1–11.

31. Декодер для декодирования звукового сигнала из закодированного представления звукового сигнала, содержащий процессор и запоминающее устройство, соединенное с процессором, при этом процессор приспособлен для выполнения этапов способа по любому из пп. 12–29.

32. Машиночитаемый носитель данных, на котором хранится компьютерная программа, содержащая команды для вызова выполнения компьютером, при исполнении команд, способа по любому из пп. 1–29.

Документы, цитированные в отчете о поиске Патент 2024 года RU2825309C2

Очаг для массовой варки пищи, выпечки хлеба и кипячения воды	1921	Богач Б.И.	SU4A1
Печь для непрерывного получения сернистого натрия	1921	Настюков А.М. Настюков К.И.	SU1A1
Ротационный фильтр-пресс для отжатия торфяной массы, подвергшейся коагулированию, и т.п. работ	1924	Кирпичников В.Д. Классон Р.Э. Стадников Г.Л.	SU204A1
US 2009326931 A1, 31.12.2009
US 2017076728 A1, 16.03.2017
US 2018144751 A1, 24.05.2018.

RU 2 825 309 C2

Авторы

Виллемоес, Ларс

Лехтонен, Хайди-Мария

Пурнхаген, Хейко

Хеделин, Пер

Даты

2024-08-23—Публикация

2020-08-18—Подача

название	год	авторы	номер документа
УСТРОЙСТВО И СПОСОБ ДЛЯ ОБРАБОТКИ АУДИОСИГНАЛА ДЛЯ ПОЛУЧЕНИЯ ОБРАБОТАННОГО АУДИОСИГНАЛА С ИСПОЛЬЗОВАНИЕМ ЦЕЛЕВОЙ ОГИБАЮЩЕЙ ВО ВРЕМЕННОЙ ОБЛАСТИ	2016	Диттмар Кристиан Мюллер Майнард Диш Саша	RU2679254C1
ПАРАМЕТРИЧЕСКОЕ СОВМЕСТНОЕ КОДИРОВАНИЕ АУДИОИСТОЧНИКОВ	2006	Фаллер Кристоф	RU2376654C2
ИНТЕГРАЦИЯ МЕТОДИК РЕКОНСТРУКЦИИ ВЫСОКИХ ЧАСТОТ С СОКРАЩЕННОЙ ЗАДЕРЖКОЙ ПОСТОБРАБОТКИ	2019	Чоэрлинг, Кристофер Виллемоес, Ларс Пурнхаген, Хейко Экстранд, Пер	RU2832544C2
ПЕРЕДАЮЩАЯ СИСТЕМА НА ПРИНЦИПАХ РАЗЛИЧНОГО КОДИРОВАНИЯ	1994	Фридхельм Вупперманн Фринсискус Маринус Йозефус Де Бонт	RU2144261C1
СИСТЕМЫ И СПОСОБЫ ДЛЯ ВКЛЮЧЕНИЯ ИДЕНТИФИКАТОРА В ПАКЕТ, АССОЦИАТИВНО СВЯЗАННЫЙ С РЕЧЕВЫМ СИГНАЛОМ	2007	Раджендран Вивек Кандхадай Анантхападманабхан А.	RU2421828C2
ИНТЕГРАЦИЯ МЕТОДИК РЕКОНСТРУКЦИИ ВЫСОКИХ ЧАСТОТ С СОКРАЩЕННОЙ ЗАДЕРЖКОЙ ПОСТОБРАБОТКИ	2019	Чоэрлинг, Кристофер Виллемоес, Ларс Пурнхаген, Хейко Экстранд, Пер	RU2758199C1
КВАНТОВАНИЕ И ЭНТРОПИЙНОЕ КОДИРОВАНИЕ ПАРАМЕТРОВ ДЛЯ АУДИОКОДЕКА С НИЗКОЙ ЗАДЕРЖКОЙ	2021	Макграт, Дэвид С. Тяги, Ришаб Браун, Стефани Торрес, Хуан Феликс	RU2838373C1
ИНТЕГРАЦИЯ МЕТОДИК РЕКОНСТРУКЦИИ ВЫСОКИХ ЧАСТОТ ЗВУКА	2019	Чоэрлинг, Кристофер Виллемоес, Ларс Пурнхаген, Хейко Экстранд, Пер	RU2792114C2
СИСТЕМЫ, СПОСОБЫ И УСТРОЙСТВА ДЛЯ ОБНАРУЖЕНИЯ ИЗМЕНЕНИЯ СИГНАЛОВ	2007	Раджендран Вивек Кандхадай Анантхападманабхан А.	RU2417456C2
КОДИРОВАНИЕ ЗВУКА ВЫСОКОГО РАЗРЕШЕНИЯ	2020	Гао, Ян	RU2800626C2