ГЕНЕРАТОР АУДИОДАННЫХ И СПОСОБЫ ФОРМИРОВАНИЯ АУДИОСИГНАЛА И ОБУЧЕНИЯ ГЕНЕРАТОРА АУДИОДАННЫХ Российский патент 2024 года по МПК G10L13/02 

Описание патента на изобретение RU2823016C1

Вводные примечания

Ниже описаны различные варианты осуществления и аспекты согласно изобретению. Кроме того, дополнительные варианты осуществления определены прилагаемой формулой изобретения. Следует отметить, что любые варианты осуществления, определяемые формулой изобретения, могут быть дополнены любыми из подробностей (признаков и функциональностей), приведенных в данном описании.

Кроме того, варианты осуществления, приведенные в данном описании, могут использоваться по отдельности, а также могут дополняться любыми из признаков в данном документе или любым признаком, включенным в формулу изобретения.

Кроме того, следует отметить, что отдельные аспекты, описанные в данном документе, могут использоваться по отдельности или в сочетании. Таким образом, подробности могут быть добавлены в каждый из упомянутых отдельных аспектов без добавления подробностей в другой из упомянутых аспектов.

Также следует отметить, что в настоящем описании явно или неявно описаны признаки, применимые в генераторе аудиоданных и/или в способе и/или в компьютерном программном продукте. Таким образом, любой из признаков, описанных в данном документе, может использоваться в контексте устройства, способа и/или компьютерного программного продукта.

Кроме того, признаки и функциональности, раскрытые в данном документе по отношению к способу, также могут использоваться в устройстве (выполненном с возможностью реализации такой функциональности). Кроме того, любые признаки и

функциональности, раскрытые в данном документе в отношении устройства, также могут использоваться в соответствующем способе. Другими словами, способы, раскрытые в данном документе, могут быть дополнены любыми из признаков и функциональностей, описанных в отношении устройств.

Кроме того, любые из признаков и функциональностей, описанных в данном документе, могут быть реализованы в аппаратных средствах или в программном обеспечении либо с использованием сочетания аппаратных средств и программного обеспечения, как описано в разделе «Альтернативные варианты реализации».

Альтернативные варианты реализации

При том, что некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют собой описание соответствующего способа, при этом признак соответствует этапу способа либо признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего признака соответствующего устройства. Некоторые или все этапы способа могут выполняться аппаратным устройством, таким как, например, микропроцессор, программируемый компьютер либо электронная схема (или с их использованием). В некоторых вариантах осуществления один или более из самых важных этапов способа могут выполняться этим устройством.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя данных, например гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, E PROM, EEPROM или флэш-памяти, имеющего сохраненные считываемые электронными средствами управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может сохраняться, например, на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления способа согласно изобретению, таким образом, этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа выполняется на компьютере.

Следовательно, дополнительный вариант осуществления способов согласно изобретению представляет собой носитель данных (цифровой носитель данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель данных или носитель с записанными данными обычно является материальным и/или постоянным.

Следовательно, дополнительный вариант осуществления способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнен с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное или адаптированное с возможностью осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передачи (например, электронными или оптическими средствами) компьютерной программы для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления может использоваться программируемое логическое устройство (например, программируемая пользователем вентильная матрица) для того, выполнения части или всех из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем случае, способы предпочтительно осуществляются любым аппаратным устройством.

Устройства, описанные в данном документе, могут быть реализованы с использованием аппаратного устройства либо с использованием компьютера, либо с использованием сочетания аппаратного устройства и компьютера.

Устройства, описанные в данном документе, или любые компоненты устройств, описанных в данном документе, могут быть реализованы по меньшей мере частично в аппаратных средствах и/или в программном обеспечении.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием сочетания аппаратного устройства и компьютера.

Способы, описанные в данном документе или любая часть способов, описанных в данном документе, могут выполняться по меньшей мере частично аппаратными средствами и/или программным обеспечением.

Вышеописанные варианты осуществления являются лишь иллюстрацией принципов настоящего изобретения. Следует понимать, что специалистам в данной области техники должны быть очевидны модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, но не конкретными подробностями, представленными в данном документе в качестве описания и пояснения вариантов осуществления.

Область техники, к которой относится изобретение

Изобретение относится к области техники формирования аудиоданных.

Варианты осуществления изобретения относятся к генератору аудиоданных, выполненному с возможностью формирования аудиосигнала из входного сигнала и целевых данных, причем целевые данные представляют аудиосигнал. Дополнительные варианты осуществления относятся к способам формирования аудиосигнала и к способам обучения генератора аудиоданных. Дополнительные варианты осуществления относятся к компьютерному программному продукту.

Уровень техники

В последние годы, нейронные вокодеры превосходят классические подходы к синтезу речи с точки зрения естественности и воспринимаемого качества синтезированных речевых сигналов. Наилучшие результаты могут достигаться посредством вычислительно емких нейронных вокодеров, таких как WaveNet и WaveGlow, тогда как легкие архитектуры на основе генеративно-состязательных сетей, например, MelGAN и Parallel WaveGAN, по-прежнему являются низкокачественными с точки зрения воспринимаемого качества.

Генеративные модели с использованием глубокого обучения для формирования форм аудиосигнала, такие как WaveNet, LPCNet и WaveGlow, обеспечивают существенные усовершенствования в естественно звучащем синтезе речи. Эти генеративные модели, называемые в вариантах применения для преобразования текста в речь (TTS) «нейронными вокодерами», превосходят способы как параметрического, так и конкатенативного синтеза. Они могут обусловливаться с использованием сжатых представлений целевой речи (например, мел-спектрограммы) для воспроизведения определенного говорящего и определенного речевого фрагмента.

Предыдущие работы продемонстрировали, что кодирование речи на очень низкой скорости передачи битов для чистой речи может достигаться с использованием таких генеративных моделей на стороне декодера. Это может осуществляться посредством обуславливания нейронных вокодеров с параметрами из классического речевого кодера с низкой скоростью передачи битов.

Нейронные вокодеры также используются для задач улучшения речи, таких как очистка от шума или дереверберация речи.

Основная проблема этих глубоких генеративных моделей обычно заключается в высоком числе требуемых параметров и результирующей сложности в ходе обучения и синтеза (логического вывода). Например, WaveNet, рассматриваемый в качестве уровня техники для качества синтезированной речи, формирует последовательно аудиовыборки одну за другой. Этот процесс является очень медленным и вычислительно емким и не может выполняться в реальном времени.

В последнее время, легкие состязательные вокодеры на основе генеративно-состязательных сетей (GAN), такие как MelGAN и Parallel WaveGAN, предложены для быстрого образования форм сигналов. Тем не менее, сообщенное воспринимаемое качество речи, сформированной с использованием этих моделей, значительно ниже стандарта нейронных вокодеров, таких как WaveNet и WaveGlow. Для ликвидации этого разрыва в качестве предложена GAN для преобразования текста в речь (GAN-TTS), но она все же сопряжена с высокими вычислительными затратами.

Существует огромное множество нейронных вокодеров, все из которых имеют недостатки. Авторегрессивные вокодеры, например, WaveNet и LPCNet, могут иметь очень высокое качество и быть подходящими для оптимизации для логического вывода на CPU, но они не являются подходящими для использования на GPU, поскольку их обработка не может параллелизоваться легко, и они не могут предлагать обработку не в реальном времени без ухудшения качества.

Нормализующие потоковые вокодеры, например, WaveGlow, также могут иметь очень высокое качество и быть подходящими для логического вывода на GPU, но они содержат очень сложную модель, для обучения и оптимизации которой требуется длительное время; она также является неподходящей для встроенных устройств.

Вокодеры GAN, например, MelGAN и Parallel WaveGAN, могут быть пригодными для логического вывода на GPU и легкими, но их качество ниже авторегрессивных моделей.

В общих словах, по-прежнему отсутствует решение с низкой сложностью, которое обеспечивало бы высококачественную речь. GAN представляет собой наиболее изученный подход для решения такой задачи. Настоящее изобретение представляет собой эффективное решение для этой проблемы.

Задача настоящего изобретения состоит в создании решения на основе легкого нейронного вокодера, который формирует речь с очень высоким качеством и является обучаемым при ограниченных вычислительных ресурсах.

Краткое описание чертежей

Ниже описаны варианты осуществления согласно настоящему изобретению с обращением к сопровождающим чертежам, на которых:

На Фиг. 1 показана архитектура генератора аудиоданных согласно вариантам осуществления настоящего изобретения,

На Фиг. 2 показана структура дискриминатора, который может использоваться для обучения генератора аудиоданных согласно настоящему изобретению,

На Фиг. 3 показана структуруа части генератора аудиоданных согласно вариантам осуществления настоящего изобретения,

На Фиг. 4 показана структура части генератора аудиоданных согласно вариантам осуществления настоящего изобретения, и

На Фиг. 5 показаны результаты экспертного теста MUSHRA на основе прослушивания различных моделей.

На Фиг. 6 показана архитектура генератора аудиоданных согласно вариантам осуществления настоящего изобретения.

На Фиг. 7 показаны операции, которые выполняются для сигналов согласно изобретению.

На чертежах аналогичные ссылочные позиции обозначают аналогичные элементы и признаки.

Раскрытие изобретения

В числе прочего, предложен генератор аудиоданных (например, 10), выполненный с возможностью формирования аудиосигнала (например, 16) из входного сигнала (например, 14) и целевых данных (например, 12), причем целевые данные (например, 12), представляют аудиосигнал (например, 16), содержащий по меньшей мере одно из следующего:

- первый блок обработки (например, 40, 50, 50a-50h), выполненный с возможностью приема первых данных (например, 15, 59а), извлекаемых из входного сигнала (например, 14), и вывода первых выходных данных (например, 69), при этом первые выходные данные (например, 69) содержат множество каналов (например, 47), и

- второй блок обработки (например, 45), выполненный с возможностью приема первых выходных данных (например, 69) или данных, извлекаемых из первых выходных данных (например, 69), в качестве вторых данных.

Первый блок обработки (например, 50) может содержать, для каждого канала первых выходных данных:

- обуславливающий набор обучаемых слоев (например, 71, 72, 73), выполненных с возможностью обработки целевых данных (например, 12) для получения параметров обуславливающих признаков (например, 74, 75); и

- стилизующий элемент (например, 77), выполненный с возможностью применения параметров обуславливающих признаков (например, 74, 75) к первым данным (например, 15, 59а) или к нормализованным первым данным (например, 59, 76').

Второй блок обработки (например, 45) может быть выполнен с возможностью комбинирования множества каналов (например, 47) вторых данных (например, 69) для получения аудиосигнала (например, 16).

Также предложен способ, например, формирования аудиосигнала (например, 16) посредством генератора аудиоданных (например, 10) из входного сигнала (например, 14) и целевых данных (например, 12), причем целевые данные (например, 12), представляют аудиосигнал (например, 16), содержащий:

- прием первым блоком обработки (например, 50, 50a-50h) первых данных (например, 16559, 59а, 59b), извлекаемых из входного сигнала (например, 14);

- для каждого канала первых выходных данных (например, 59b, 69):

- обработку целевых данных (например, 12) обуславливающим набором обучаемых слоев (например, 71, 72, 73) первого блока обработки (например, 50) для получения параметров обуславливающих признаков (например, 74, 75); и

- применение параметров обуславливающих признаков (например, 74, 75) стилизующим элементом (например, 77) первого блока обработки (например, 50) к первым данным (например, 15, 59) или к нормализованным первым данным (например, 76');

- вывод первым блоком обработки (например, 50) первых выходных данных (например, 69), содержащих множество каналов (например, 47);

- прием вторым блоком обработки (например, 45) первых выходных данных (например, 69) или данных, извлекаемых из первых выходных данных (например, 69), в качестве вторых данных; и

- комбинирование множества каналов (например, 47) вторых данных посредством второго блока обработки (например, 45) для получения аудиосигнала (например, 16).

Также предложен способ обучения нейронной сети для формирования аудиоданных, при этом нейронная сеть:

- выводит аудиовыборки с определенным временным шагом из входной последовательности (например, 14), представляющей аудиоданные (например, 16), которые должны формироваться,

- выполнена с возможностью формирования шумового вектора (например, 14) для создания выходных аудиовыборок (например, 16) с использованием входной репрезентативной последовательности (например, 12), и

- обучение конфигурировано с возможностью оптимизации функции потерь (например, 140).

Также предложен способ формирования аудиосигнала (например, 16), содержащего математическую модель, при этом математическая модель выполнена с возможностью вывода аудиовыборок с определенным временным шагом из входной последовательности (например, 12), представляющей аудиоданные (например, 16), которые должны формироваться. Математическая модель может формировать шумовой вектор (например, 14) для создания выходных аудиовыборок с использованием входной репрезентативной последовательности (например, 12).

Именно в этом контексте предложена StyleMelGAN (например, генератор 10 аудиоданных), легкий нейронный вокодер, обеспечивающий синтез высококачественной речи с низкой вычислительной сложностью. StyleMelGAN представляет собой полностью сверточную модель с прямой связью, которая использует временную адаптивную денормализацию (TADE) (например, 60а и 60b на фиг. 4 и 60 на фиг. 3), чтобы стилизовать (например, на 77) низкоразмерный шумовой вектор (например, вектор 128×1) через акустические признаки целевой формы речевого сигнала. Архитектура обеспечивает возможность высокопараллелизуемого формирования, в несколько раз быстрее, чем в реальном времени как на центральных процессорах (CPU), так и на графических процессорах (GPU). Для эффективного и быстрого обучения, можно использовать потери на спектральное восстановление с множеством масштабов вместе с состязательными потерями, вычисленными посредством множества дискриминаторов (например, 132a-132d), оценивающих речевой сигнал 16 во множестве полос частот и со случайным кодированием со взвешиванием (например, в окнах 105а, 105b, 105с, 105d кодирования со взвешиванием). Тесты MUSHRA и Р.800 на основе прослушивания показывают, что StyleMelGAN (например, генератор 10 аудиоданных) превосходит известные существующие нейронные вокодеры в сценариях синтеза с копированием и в сценариях TTS.

В настоящей заявке предложен, в числе прочего, нейронный вокодер для формирования высококачественной речи 16, который может быть основан на генеративно-состязательной сети (GAN). Решение, называемое в данном документе "StyleMelGAN" (и, например, реализованное в генераторе 10 аудиоданных), представляет собой легкий нейронный вокодер, обеспечивающий синтез высококачественной речи 16 при низкой вычислительной сложности. StyleMelGAN представляет собой полностью сверточную модель с прямой связью, которая использует временную адаптивную денормализацию (TADE) для стилизации (например, в блоке 77) скрытого шумового представления (например, 69) с использованием, например, мел-спектрограммы (12) целевой формы речевого сигнала. Это обеспечивает возможность высокопараллелизуемого формирования, которое выполняется в несколько раз быстрее, чем в реальном времени как на CPU, так и на GPU. Для обучения, можно использовать потери на спектральное восстановление с множеством масштабов с последующими состязательными потерями. Это позволяет получать модель, которая может синтезировать высококачественные выводы менее чем через 2 дня после обучения на одном GPU.

Потенциальные варианты применения и преимущества изобретения заключаются в следующем:

Изобретение может применяться для преобразования текста в речь, и результирующее качество, т.е. сформированное качество речи для TTS и синтеза с копированием, находится близко к WaveNet и естественной речи. Оно также обеспечивает быстрое обучение, так что модель легко и быстро переобучается и персонализируется. Оно использует меньший объем памяти, поскольку оно представляет собой относительно небольшую нейронную сетевую модель. И в завершение, предложенное изобретение обеспечивает выгоду с точки зрения сложности, т.е. оно предусматривает очень хороший компромисс между качеством/сложностью.

Изобретение также может применяться для улучшения речи, причем оно может обеспечивать надежное решение с низкой сложностью для формирования чистой речи из зашумленной.

Изобретение также может применяться для кодирования речи, причем оно может значительно понижать скорость передачи битов посредством передачи только параметров, необходимых для обуславливания нейронного вокодера. Кроме того, в этой заявке решение на основе легкого нейронного вокодера является подходящим для встроенных систем и, в частности, подходящим для планируемого к выпуску (конечного) абонентского устройства (UE), оснащенного GPU или нейронным процессором (NPU).

Варианты осуществления настоящей заявки относятся к генератору аудиоданных, выполненному с возможностью формирования аудиосигнала из входного сигнала и целевых данных, причем целевые данные представляют аудиосигнал, содержащему первый блок обработки, выполненный с возможностью приема первых данных, извлекаемых из входного сигнала, и вывода первых выходных данных, при этом первые выходные данные содержат множество каналов, и второй блок обработки, выполненный с возможностью приема первых выходных данных или данных, извлекаемых из первых выходных данных, в качестве вторых данных, при этом первый блок обработки содержит для каждого канала первых выходных данных обуславливающий набор обучаемых слоев, выполненных с возможностью обработки целевых данных для получения параметров обуславливающих признаков; и стилизующий элемент, выполненный с возможностью применения параметров обуславливающих признаков к первым данным или к нормализованным первым данным; и при этом второй блок обработки выполнен с возможностью комбинирования множества каналов вторых данных для получения аудиосигнала.

Согласно одному варианту осуществления, обуславливающий набор обучаемых слоев состоит из одного или двух сверточных слоев.

Согласно одному варианту осуществления, первый сверточный слой выполнен с возможностью свертывания целевых данных или дискретизированных с повышением целевых данных для получения первых свернутых данных с использованием первой активирующей функции.

Согласно одному варианту осуществления, обуславливающий набор обучаемых слоев и стилизующий элемент представляют собой часть слоя весовых коэффициентов в остаточном блоке нейронной сети, содержащей один или более остаточных блоков.

Согласно одному варианту осуществления, генератор аудиоданных дополнительно содержит нормализующий элемент, который выполнен с возможностью нормализации первых данных. Например, нормализующий элемент может нормализовать первые данные в нормальное распределение нулевого среднего и единичной дисперсии.

Согласно одному варианту осуществления, аудиосигнал представляет собой голосовой аудиосигнал.

Согласно одному варианту осуществления, целевые данные дискретизируются с повышением, предпочтительно посредством нелинейной интерполяции, на коэффициент 2 или кратный 2, или степень 2. В некоторых примерах вместо этого может использоваться коэффициент больше 2.

Согласно одному варианту осуществления первый блок обработки дополнительно содержит дополнительный набор обучаемых слоев, выполненных с возможностью обработки данных, извлекаемых из первых данных, с использованием второй активирующей функции, при этом вторая активирующая функция представляет собой стробированную активирующую функцию.

Согласно одному варианту осуществления, дополнительный набор обучаемых слоев состоит из одного или двух сверточных слоев.

Согласно одному варианту осуществления, вторая активирующая функция представляет собой стробированную гиперболическую тангенсную (TanH) функцию мягкого максимума.

Согласно одному варианту осуществления, первая активирующая функция представляет собой функцию на основе текучих единиц линейной ректификации (текучих ReLu).

Согласно одному варианту осуществления, операции свертки выполняются с максимальным коэффициентом растяжения в 2.

Согласно одному варианту осуществления, генератор аудиоданных содержит восемь первых блоков обработки и один второй блок обработки.

Согласно одному варианту осуществления, первые данные имеют более низкую степень размерности, чем аудиосигнал. Первые данные могут иметь первую размерность или по меньшей мере на одну размерность ниже, чем аудиосигнал. Первые данные могут иметь на одну размерность ниже, чем аудиосигнал, но число каналов, большее, чем аудиосигнал. Первые данные могут иметь общее число выборок по всем размерностям ниже, чем в аудиосигнале.

Согласно одному варианту осуществления, целевые данные представляют собой спектрограмму, предпочтительно мел-спектрограмму или поток битов.

Согласно одному варианту осуществления, целевые данные извлекаются из текста, целевые данные представляют собой сжатое представление аудиоданных, или целевые данные представляют собой ухудшенный аудиосигнал.

Дополнительные варианты осуществления относятся к способу формирования аудиосигнала посредством генератора аудиоданных из входного сигнала и целевых данных, причем целевые данные представляют аудиосигнал, содержащему прием, посредством первого блока обработки, первых данных, извлекаемых из входного сигнала; для каждого канала первых выходных данных, обработку, посредством обуславливающего набора обучаемых слоев первого блока обработки, целевых данных для получения параметров обуславливающих признаков; и применение стилизующим элементом первого блока обработки параметров обуславливающих признаков к первым данным или к нормализованным первым данным; вывод, посредством первого блока обработки, первых выходных данных, содержащих множество каналов; прием, посредством второго блока обработки, в качестве вторых данных, первых выходных данных или данных, извлекаемых из первых выходных данных; и комбинирование вторым блоком обработки множества каналов вторых данных для получения аудиосигнала.

Нормализация может включать в себя, например, нормализацию первых данных в нормальное распределение нулевого среднего и единичной дисперсии.

В способе также может быть предусмотрен любой признак или сочетание признаков генератора аудиоданных.

Дополнительные варианты осуществления относятся к способу обучения генератора аудиоданных, как изложено выше, при этом обучение содержит повторение этапов любого из способов таким образом, как изложено выше, один или более раз.

Согласно одному варианту осуществления, способ обучения дополнительно содержит оценку сформированного аудиосигнала по меньшей мере посредством одного модуля оценки, который предпочтительно представляет собой нейронную сеть, и адаптацию весовых коэффициентов генератора аудиоданных согласно результатам оценки.

Согласно одному варианту осуществления, способ обучения дополнительно содержит адаптацию весовых коэффициентов модуля оценки согласно результатам оценки.

Согласно одному варианту осуществления, обучение содержит оптимизацию функции потерь.

Согласно одному варианту осуществления, оптимизация функции потерь содержит вычисление фиксированного показателя между сформированным аудиосигналом и опорным аудиосигналом.

Согласно одному варианту осуществления, вычисление фиксированного показателя содержит вычисление одного или более спектральных искажений между сформированным аудиосигналом и опорным сигналом.

Согласно одному варианту осуществления, вычисление одного или более спектральных искажений выполняется для абсолютной величины или логарифмической абсолютной величины спектрального представления сформированного аудиосигнала и опорного сигнала и/или для различных временных или частотных разрешений.

Согласно одному варианту осуществления, оптимизация функции потерь содержит извлечение одного или более состязательных показателей посредством случайной подачи и оценки представления сформированного аудиосигнала или представления опорного аудиосигнала посредством одного или более модулей оценки, при этом оценка содержит классификацию подаваемого аудиосигнала на заданное число классов, указывающее предварительно обученный уровень классификации естественности аудиосигнала.

Согласно одному варианту осуществления, оптимизация функции потерь содержит вычисление фиксированного показателя и извлечение состязательного показателя посредством одного или более модулей оценки.

Согласно одному варианту осуществления, генератор аудиоданных сначала обучается с использованием фиксированного показателя.

Согласно одному варианту осуществления, четыре модуля оценки извлекают четыре состязательных показателя.

Согласно одному варианту осуществления, модули оценки работают после разложения представления сформированного аудиосигнала или представления опорного аудиосигнала посредством гребенки фильтров.

Согласно одному варианту осуществления, каждый из модулей оценки принимает в качестве ввода одну или более частей представления сформированного аудиосигнала или представления опорного аудиосигнала.

Согласно одному варианту осуществления, части сигнала формируются посредством дискретизации случайных окон кодирования со взвешиванием из входного сигнала, с использованием случайных функций кодирования со взвешиванием.

Согласно одному варианту осуществления, дискретизация случайного окна кодирования со взвешиванием повторяется многократно для каждого модуля оценки.

Согласно одному варианту осуществления, число раз, когда случайное окно кодирования со взвешиванием дискретизируется для каждого модуля оценки, является пропорциональным длине представления сформированного аудиосигнала или представления опорного аудиосигнала.

Дополнительные варианты осуществления относятся к компьютерному программному продукту, включающему в себя программу для обрабатывающего устройства, содержащую элементы программного кода для выполнения этапов способов, описанных в данном документе, когда программа выполняется на обрабатывающем устройстве.

Согласно одному варианту осуществления, компьютерный программный продукт содержит машиночитаемый носитель, на котором сохраняются элементы программного кода, при этом программа является непосредственно загружаемой во внутреннее запоминающее устройство обрабатывающего устройства.

Дополнительные варианты осуществления относятся к способу формирования аудиосигнала, содержащего математическую модель, при этом математическая модель выполнена с возможностью вывода аудиовыборок с определенным временным шагом из входной последовательности, представляющей аудиоданные, которые должны формироваться, при этом математическая модель выполнена с возможностью формирования шумового вектора для создания выходных аудиовыборок с использованием входной репрезентативной последовательности.

Согласно одному варианту осуществления математическая модель обучается с использованием аудиоданных. Согласно одному варианту осуществления, математическая модель представляет собой нейронную сеть. Согласно одному варианту осуществления, сеть представляет собой сеть с прямой связью. Согласно одному варианту осуществления, сеть представляет собой сверточную сеть.

Согласно одному варианту осуществления, шумовой вектор может иметь более низкую степень размерности, чем аудиосигнал, который должен формироваться. Первые данные могут иметь первую размерность или по меньшей мере на одну размерность ниже, чем аудиосигнал. Первые данные могут иметь общее число выборок по всем размерностям ниже, чем аудиосигнал. Первые данные могут иметь на одну размерность ниже, чем аудиосигнал, но число каналов, большее, чем аудиосигнал.

Согласно одному варианту осуществления, технология временной адаптивной денормализации (TADE) используется для обуславливания математической модели с использованием входной репрезентативной последовательности и в силу этого для формирования шумового вектора.

Согласно одному варианту осуществления, модифицированная стробированная TanH мягкого максимума активирует каждый слой нейронной сети.

Согласно одному варианту осуществления, операции свертки выполняются с максимальным коэффициентом растяжения в 2.

Согласно одному варианту осуществления, шумовой вектор, а также входная репрезентативная последовательность дискретизируются с повышением для получения выходных аудиоданных с целевой частотой дискретизации.

Согласно одному варианту осуществления, повышающая дискретизация выполняется последовательно в различных слоях математической модели.

Согласно одному варианту осуществления, коэффициент повышающей дискретизации для каждого слоя равен 2 или кратному 2, например, степени 2. В некоторых примерах, значения коэффициента повышающей дискретизации могут, если обобщать, быть больше 2.

Согласно одному варианту осуществления, сформированный аудиосигнал используется при применении преобразования текста в речь, при этом входная репрезентативная последовательность извлекается из текста.

Согласно одному варианту осуществления, сформированный аудиосигнал используется в аудиодекодере, при этом входная репрезентативная последовательность представляет собой сжатое представление исходных аудиоданных, которые следует передать или сохранить.

Согласно одному варианту осуществления, сформированный аудиосигнал используется для повышения качества звучания ухудшенного аудиосигнала, при этом входная репрезентативная последовательность извлекается из ухудшенного сигнала.

Дополнительные варианты осуществления относятся к способу обучения нейронной сети для формирования аудиоданных, при этом нейронная сеть выводит аудиовыборки с определенным временным шагом из входной последовательности, представляющей аудиоданные, которые должны формироваться, при этом нейронная сеть выполнена с возможностью формирования шумового вектора для создания выходных аудиовыборок с использованием входной репрезентативной последовательности, при этом нейронная сеть конфигурирована, как изложено выше, и при этом обучение конфигурировано с возможностью оптимизации функции потерь.

Согласно одному варианту осуществления, функция потерь содержит фиксированный показатель, вычисленный между сформированным аудиосигналом и опорным аудиосигналом.

Согласно одному варианту осуществления, фиксированный показатель представляет собой одно или более спектральных искажений, вычисленных между сформированным аудиосигналом и опорным сигналом.

Согласно одному варианту осуществления, одно или несколько спектральных искажений вычисляются для абсолютной величины или логарифмической абсолютной величины спектрального представления сформированного аудиосигнала и опорного сигнала.

Согласно одному варианту осуществления, одно или несколько спектральных искажений, формирующих фиксированный показатель, вычисляются для различных временных или частотных разрешений.

Согласно одному варианту осуществления, функция потерь содержит состязательный показатель, извлекаемый посредством дополнительных дискриминативных нейронных сетей, при этом дискриминативные нейронные сети принимают в качестве ввода представление сформированных или опорных аудиосигналов, и при этом дискриминативные нейронные сети выполнены с возможностью оценки того, насколько реалистичными являются сформированные аудиовыборки.

Согласно одному варианту осуществления, функция потерь содержит как фиксированный показатель, так и состязательный показатель, извлекаемые посредством дополнительных дискриминативных нейронных сетей.

Согласно одному варианту осуществления, нейронная сеть, формирующая аудиовыборки, сначала обучается с использованием только фиксированного показателя.

Согласно одному варианту осуществления, состязательный показатель извлекается посредством 4 дискриминативных нейронных сетей.

Согласно одному варианту осуществления, дискриминативные нейронные сети работают после разложения входного аудиосигнала посредством гребенки фильтров.

Согласно одному варианту осуществления, каждая дискриминативная нейронная сеть принимает в качестве ввода одну или несколько случайных кодированных со взвешиванием версий входного аудиосигнала.

Согласно одному варианту осуществления, дискретизация случайного окна кодирования со взвешиванием повторяется многократно для каждой дискриминативной нейронной сети.

Согласно одному варианту осуществления, число раз, когда случайное окно кодирования со взвешиванием дискретизируется для каждой дискриминативной нейронной сети, является пропорциональным длине входных аудиовыборок.

Осуществление изобретения

На Фиг. 6 показан пример генератора 10 аудиоданных, который может формировать (например, синтезировать) аудиосигнал 16 (выходной сигнал), например, согласно StyleMelGAN. Выходной аудиосигнал 16 может формироваться на основе входного сигнала 14 (также называемого «скрытым сигналом», который может представлять собой шум, например, белый шум) и целевых данных 12 (также называемых «входной последовательностью»). Целевые данные 12, например, могут содержать (например, представлять собой) спектрограмму (например, мел-спектрограмму), причем мел-спектрограмма обеспечивает преобразование, например, последовательности временных выборок в мел-шкалу. Помимо этого или альтернативно, целевые данные 12 могут содержать (например, представлять собой) поток битов. Например, целевые данные могут представлять собой или включать в себя текст, который должен воспроизводиться в аудиоданных (например, преобразование текста в речь). В общем случае целевые данные 12 должны обрабатываться для получения речевого звука, распознаваемого слушателем-человеком как естественный звук. Входной сигнал 14 может представлять собой шум (который как таковой не переносит полезную информацию), например, белый шум, но, в генераторе 10, шумовой вектор, извлеченный из шума, стилизуется (например, в позиции 77) таким образом, что он имеет шумовой вектор с акустическими признаками, обусловленными посредством целевых данных 12. В конечном итоге выходной аудиосигнал 16 должен пониматься слушателем-человеком как речь. Шумовой вектор 14 может представлять собой, аналогично фиг. 1, вектор 128×1 (одну отдельную выборку, например, выборки временной области или выборки частотной области и 128 каналов). Другая длина шумового вектора 14 может использоваться в других примерах.

Первый блок 50 обработки показан на фиг. 6. Как показано (например, на фиг. 1), первый блок 15 обработки может подвергаться созданию экземпляра посредством каждого из множества блоков (на фиг. 1, посредством блоков 50а, 50b, 50с, 50d, 50е, 50f, 50g, 50h). Блоки 50a-50h могут пониматься как формирующие один отдельный блок 40. Показано, что в первом блоке 40, 50 обработки, обуславливающий набор обучаемых слоев (например, 71, 72, 73) может использоваться для обработки целевых данных 12 и/или входного сигнала 14. Соответственно, параметры 74, 75 обуславливающих признаков (также называемые «гамма, γ» и «бета, β», на фиг. 3) могут быть получены, например, посредством свертки во время обучения. Обучаемые слои 71-73 могут в силу этого представлять собой часть слоя весовых коэффициентов обучающей сети или, если обобщать, другой обучающей структуры. Первый блок 40, 50 обработки может включать в себя по меньшей мере один стилизующий элемент 77. По меньшей мере, один стилизующий элемент 77 может выводить первые выходные данные 69. По меньшей мере, один стилизующий элемент 77 может применять параметры 74, 75 обуславливающих признаков к входному сигналу 14 (скрытому) либо к первым данным 15, полученным из входного сигнала 14.

Первые выходные данные 69 в каждом блоке 50 находятся во множестве каналов. Генератор 10 аудиоданных может включать в себя второй блок 45 обработки (на фиг. 1 показан как включающий в себя блоки 42, 44, 46). Второй блок 45 обработки может быть выполнен с возможностью комбинирования множества каналов 47 первых выходных данных 69 (введенных в качестве вторых входных данных или вторых данных) таким образом, чтобы получить выходной аудиосигнал 16 в одном отдельном канале, но в последовательности выборок.

«Каналы» следует понимать не в контексте стереозвука, а в контексте нейронных сетей (например, сверточных нейронных сетей). Например, входной сигнал 14 (например, скрытый шум) может находиться в 128 каналах (в представлении во временной области), поскольку предусмотрена последовательность каналов. Например, когда сигнал имеет 176 выборок и 64 канала, он может пониматься в качестве матрицы из 176 столбцов и 64 строк, тогда как, когда сигнал имеет 352 выборки и 64 канала, он может пониматься в качестве матрицы из 352 столбцов и 64 строк (другие схематизации являются возможными). Следовательно, сформированный аудиосигнал 16 (который на фиг. 1 приводит к матрице-строке 1×22528) может пониматься как моносигнал. В случае если стереосигналы должны формироваться, то раскрытая технология должна просто повторяться для каждого стереоканала, с тем чтобы получать несколько аудиосигналов 16, которые впоследствии микшируются.

По меньшей мере исходный входной сигнал 14 и/или сформированная речь 16 могут представлять собой вектор. Наоборот, вывод каждого из блоков 30 и 50a-50h, 42, 44 имеет, в общем, различную степень размерности. Первые данные могут иметь первую размерность или по меньшей мере на одну размерность ниже размерности аудиосигнала. Первые данные могут иметь общее число выборок по всем размерностям ниже, чем аудиосигнал. Первые данные могут иметь на одну размерность ниже, чем аудиосигнал, но число каналов, большее, чем аудиосигнал. В каждом блоке 30 и 50a-50h, сигнал, меняющийся от шума 14 до речи 16, может подвергаться повышающей дискретизации. Например, в блоке 30 повышающей дискретизации перед первым блоком 50а из блоков 50а-50h, выполняется 88-кратная повышающая дискретизация. Пример повышающей дискретизации может включать в себя, например, следующую последовательность: 1) повторение одинакового значения, 2) вставка нулей, 3) еще одно повторение или вставка нулей+линейная фильтрация и т.д.

Сформированный аудиосигнал 16, в общем, может представлять собой одноканальный сигнал (например, 1×22528). В случае если требуются несколько аудиоканалов (например, для воспроизведения стереозвука), то заявленная процедура, в принципе, должна итеративно выполняться многократно.

Аналогичным образом, также целевые данные 12, в принципе, могут находиться в одном отдельном канале (например, если они представляют собой текст) или в нескольких каналах (например, в спектрограммах). В любом случае, они могут быть дискретизированы с повышением (например, на коэффициент два, степень 2, число, кратное 2 или значение больше 2) для адаптации к размерностям сигнала (59а, 15, 69), эволюционирующего вдоль последующих слоев (50a-50h, 42), например, таким образом, чтобы получить параметры 74, 75 обуславливающих признаков с размерностями, адаптированными к размерностям сигнала.

Когда для первого блока 50 обработки создаются экземпляры во множестве блоков 50a-50h, число каналов, например, может оставаться одинаковым для множества блоков 50a-50h. Первые данные могут иметь первую размерность или по меньшей мере на одну размерность ниже размерности аудиосигнала. Первые данные могут иметь общее число выборок по всем размерностям ниже, чем аудиосигнал. Первые данные могут иметь на одну размерность ниже, чем аудиосигнал, но число каналов, большее, чем аудиосигнал.

Сигнал в последующих блоках может иметь различные размерности относительно друг друга. Например, выборка может дискретизироваться с повышением все большее число раз для достижения, например, от 88 выборок до 22528 выборок в последнем блоке 50h. Аналогичным образом, также целевые данные 12 дискретизируются с повышением в каждом блоке 50 обработки. Соответственно, параметры 74, 75 обуславливающих признаков могут адаптироваться к числу выборок сигнала, который должен обрабатываться. Соответственно, семантическая информация, обеспечиваемая целевыми данными 12, не теряется в последующих слоях 50a-50h.

Следует понимать, что примеры могут выполняться согласно парадигмам генеративно-состязательных сетей (GAN). GAN включает в себя генератор 11 GAN (фиг. 1) и дискриминатор 100 GAN (фиг. 2). Генератор 11 GAN стремится сформировать аудиосигнал 16, который является максимально близким к реальному сигналу. Дискриминатор 100 GAN должен распознавать, является ли сформированный аудиосигнал реальным (таким как реальный аудиосигнал 104 на фиг. 2) или поддельным (таким как сформированный аудиосигнал 16). Как генератор 11 GAN, так и дискриминатор 100 GAN могут быть получены в виде нейронных сетей. Генератор 11 GAN должен минимизировать потери (например, через способ градиентов или другие способы) и обновлять параметры 74, 7 5 обуславливающих признаков путем учета результатов в дискриминаторе 100 GAN. Дискриминатор 100 GAN должен уменьшать собственные дискриминационные потери (например, через способ градиентов или другие способы) и обновлять собственные внутренние параметры. Соответственно, генератор GAN 11 обучается для обеспечения всех лучших аудиосигналов 16, тогда как дискриминатор 100 GAN обучается для распознавания реальных сигналов 16 из поддельных аудиосигналов, сформированных генератором 11 GAN. В общих чертах, очевидно, что генератор 11 GAN может включать в себя функциональности генератора 10 по меньшей мере без функциональностей дискриминатора 100 GAN. Следовательно, в большей части вышеуказанного, очевидно, что генератор 11 GAN и генератор 10 аудиоданных могут иметь в той или иной степени одинаковые признаки, отличные от признаков дискриминатора 100. Генератор 10 аудиоданных может включать в себя дискриминатор 100 в качестве внутреннего компонента. Следовательно, генератор 11 GAN и -дискриминатор 100 GAN могут вместе составлять генератор 10 аудиоданных. В примерах, в которых дискриминатор 100 GAN отсутствует, генератор 10 аудиоданных может состоять только из -генератора 11 GAN.

Как поясняет формулировка «обуславливающий набор обучаемых слоев», генератор 10 аудиоданных может быть получен в соответствии с парадигмами условных GAN, например, на основании условной информации. Например, условная информация может состоять из целевых данных 12 (либо их дискретизированной с повышением версии), на которых обучается обуславливающий набор слоев 71-73 (слой весовых коэффициентов), и получаются параметры 74, 75 обуславливающих признаков. Следовательно, стилизующий элемент 77 обуславливается посредством обучаемых слоев 71-73.

Примеры могут быть основаны на сверточных нейронных сетях. Например, небольшая матрица (например, фильтр или ядро), которая может представлять собой матрицу 3×3 (или матрицу 4×4 и т.д.), сворачивается (свертывается) вдоль большей матрицы (например, канал × дискретизирует скрытый или входной сигнал и/или спектрограмму, и/или спектрограмму или дискретизированную с повышением спектрограмму либо, в общем случае, целевые данные 12), например, что подразумевает комбинирование (например, умножение и сумму произведений; произведение с точкой и т.д.) между элементами фильтра (ядра) и элементами большей матрицы (активационной картой или активационной сигнала). Во время обучения, получаются (обучаются) элементы фильтра (ядра), которые представляют собой элементы, которые минимизируют потери. Во время логического вывода, используются элементы фильтра (ядра), которые получены во время обучения. Примеры сверток приводятся в блоках 71-73, 61а, 61b, 62а, 62b (см. ниже). Если блок является условным (например, блок 60 по фиг. 3), то свертка не обязательно применяется к сигналу, эволюционирующему из входного сигнала 14, к аудиосигналу 16 через промежуточные сигналы 59а (15), 69 и т.д., но может применяться к целевому сигналу 14. В других случаях (например, в блоках 61а, 61b, 62а, 62b), свертка может быть не условной и, например, может непосредственно применяться к сигналу 59а (15), 69 и т.д., эволюционирующему из входного сигнала 14, к аудиосигналу 16. Как видно из фиг. 3 и 4, могут выполняться условные и безусловные свертки.

Можно иметь, в некоторых примерах, активирующие функции ниже свертки (ReLu, TanH, функцию мягкого максимума и т.д.), которые могут отличаться в соответствии с намеченным эффектом. ReLu может преобразовывать максимум между 0 и значением, полученным в свертке (на практике она сохраняет одинаковое значение, если оно является положительным, и выводит 0 в случае отрицательного значения). Текучая ReLu может выводить х, если х>0, и 0,1*х, если х≤0, причем х является значением, полученным посредством свертки (вместо 0,1, другое значение, например, заданное значение в 0,1+0,05, может использоваться в некоторых примерах). TanH (которая может быть реализована, например, в блоке 63а и/или 63b) может обеспечивать гиперболический тангенс значения, полученного в свертке, например:

TanH(х)=(ех-е-х)/(ех+е-х),

причем х является значением, полученным в свертке (например, в блоке 61а и/или 61b). Функция мягкого максимума (например, применяемая, например, в блоке 64а и/или 64b) может применять экспоненциал к каждому элементу из элементов результата свертки (например, полученному в блоке 62а и/или 62b) и нормализовать его посредством деления на сумму экспоненциалов. Функция мягкого максимума (например, в 64а и/или 64b) может обеспечивать распределение вероятностей для записей, которые находятся в матрице, которая получается в результате свертки (например, как предусмотрено в 62а и/или 62b). После применения активирующей функции, этап объединения в пул может выполняться (не показан на чертежах) в некоторых примерах, но в других примерах он может исключаться.

Фиг. 4 показывает, что также можно иметь стробированную функцию TanH мягкого максимума, например, посредством умножения (например, в 65а и/или 65b) результата функции TanH (например, полученного в 63а и/или 63b) на результат функции мягкого максимума (например, полученный в 64а и/или 64b).

Несколько слоев сверток (например, обуславливающий набор обучаемых слоев) могут располагаться друг за другом и/или параллельно друг другу, с тем чтобы увеличивать эффективность. Если предусмотрено применение активирующей функции и/или объединения в пул, они также могут повторяться в различных слоях (либо, например, могут быть предусмотрены различные активирующие функции, которые могут применяться к различным слоям).

Входной сигнал 14 (например, шум) обрабатывается, на различных этапах, так что он становится сформированным аудиосигналом 16 (например, при условиях, заданных посредством обуславливающих наборов обучаемых слоев 71-73, и для параметров 74, 75, обученных посредством обуславливающих наборов обучаемых слоев 71-73). Следовательно, входной сигнал должен пониматься как эволюционирующий в направлении обработки (от 14 к 16 на фиг. 6) в сторону становления сформированным аудиосигналом 16 (например, речью). Условия фактически формируются на основе целевого сигнала 12 и на основе обучения (с тем чтобы достигать самого предпочтительного набора параметров 74, 75).

Также следует отметить, что может считаться, что несколько каналов входного сигнала (либо любой из его эволюций) имеют набор обучаемых слоев и стилизующий элемент, ассоциированный с ними. Например, каждая строка матриц 74 и 75 ассоциирована с конкретным каналом входного сигнала (либо одной из его эволюций) и в силу этого получается из конкретного обучаемого слоя, ассоциированного с конкретным каналом. Аналогичным образом, можно считать, что стилизующий элемент 77 формируется посредством множества стилизующих элементов (каждый из которых предназначен для каждой строки входного сигнала х, с, 12, 76, 76', 59, 59а, 59b и т.д.).

Фиг. 1 показывает пример генератора 10 аудиоданных (который может осуществлять генератор 10 аудиоданных по фиг. 6), который также может содержать (например, представлять собой) генератор 11 GAN. Целевые данные 12 указываются в качестве мел-спектрограммы, входной сигнал 14 может представлять собой скрытый шум, и вывод сигнала 16 может представлять собой речь (тем не мене, другие примеры являются возможными, как пояснено выше). Как можно видеть, входной сигнал 14 имеет только одну выборку и 128 каналов. Шумовой вектор 14 может получаться в векторе с 128 каналами (но другие числа являются возможными) и может иметь нормальное распределение нулевого среднего. Шумовой вектор может придерживаться формулы z~N (0, I128). Шумовой вектор может представлять собой случайный шум размерности 128 со сформированным средним значением 0 и с автокорреляционной матрицей (квадратом 128×128), равной единичному элементу I (можно осуществлять другой выбор). Следовательно, в примерах, сформированный шум может полностью декоррелироваться между каналами и иметь дисперсию 1 (энергию). N(0,I128) может реализован в каждых 22528 сформированных выборок (либо для других примеров могут быть выбраны другие числа); размерность может в силу этого быть равна 1 на временной оси и 128 на канальной оси.

Показано, что шумовой вектор 14 пошагово обрабатывается (например, в блоках 50a-50h, 42, 44, 46 и т.д.) таким образом, чтоб он эволюционирует, например, из шума 14, например, в речь 16 (эволюционирующий сигнал должен указываться, например, с помощью различных сигналов 15, 59а, х, с, 76', 79, 79а, 59b, 79b, 69 и т.д.).

В блоке 30, входной сигнал 14 (шум) может дискретизироваться с повышением таким образом, что он имеет 88 выборок (возможны различные числа) и 64 канала (возможны различные числа).

Как можно видеть, восемь блоков 50а, 50b, 50с, 50d, 50е, 50f, 50g, 50h обработки (все из которых осуществляют первый блок 50 обработки по фиг. 6) могут увеличивать число выборок посредством выполнения повышающей дискретизации (например, максимум 2-кратной повышающей дискретизации). Число каналов может всегда оставаться одинаковым (например, 64) вдоль блоков 50а, 50b, 50с, 50d, 50е, 50f, 50g, 50h. Выборки, например, могут составлять число выборок в секунду (или другую единицу времени): можно получать, в выводе блока 50h, звук при более чем 22 кГц.

Каждый из блоков 50a-50h (50) также может представлять собой остаточный блок TADE (остаточный блок в контексте TADE, временной адаптивной денормализации). В частности, каждый блок 50a-50h может обусловливаться посредством целевых данных 12 (например, мел-спектрограммы).

Во втором блоке 45 обработки (фиг. 1 и 6), может получаться только один отдельный канал, и несколько выборок получаются в одной отдельной размерности. Как можно видеть, используется другой остаточный блок 42 TADE (помимо блоков 50a-50h) (который уменьшается в один отдельный канал). Затем сверточный слой 44 и активирующая функция (которая, например, может представлять собой TanH 46) могут выполняться. После этого, речь 16 получается (и, возможно, сохраняется, подготавливается посредством рендеринга, кодируется и т.д.).

По меньшей мере один из блоков 50a-50h (или каждый из них, в конкретных примерах), например, может представлять собой остаточный блок. Остаточный блок управляет прогнозированием только для остаточного компонента сигнала, эволюционирующего из входного сигнала 14 (например, шума) в выходной аудиосигнал 16. Остаточный сигнал представляет собой только часть (остаточный компонент) основного сигнала. Например, несколько остаточных сигналов могут суммироваться между собой, с тем чтобы получать конечный выходной аудиосигнал 16.

На Фиг. 4 показан пример одного из блоков 50a-50h (50). Как можно видеть, в каждый блок 50 вводятся первые данные 59а, которые представляют собой либо входной сигнал 14 (или его дискретизированную с повышением версию, например, версию, выводимую посредством блока 30 повышающей дискретизации), либо вывод из предшествующего блока. Например, в блок 50b может вводиться вывод блока 50а; в блок 50 с может вводиться вывод блока 50b и т.д.

На фиг. 4, в силу этого можно видеть, что обрабатываются первые данные 59а, переданные в блок 50 (50a-50h), и его вывод представляет собой выходной сигнал 69 (который должен передаваться в качестве ввода в следующий блок). Как указано посредством линии 59а', основной компонент первых данных 59а, введенных в первый блок 50a-50h (50) обработки, фактически обходит большую часть обработки первого блока 50a-50h (50) обработки. Например, блоки 60а, 61а, 62а, 63а, 65а, 60b, 61b, 62b, 63b, 64b and 65b обходятся посредством обходной линии 59а'. Первые данные 59а затем должны суммироваться с остаточной частью 64b' в сумматоре 65 с (который указывается на фиг. 4, но не показан). Эта обходная линия 59а' и суммирование в сумматоре 65с могут пониматься как создающие экземпляр такого факта, что каждый блок 50 (50a-50h) обрабатывает операции с остаточными сигналами, которые затем суммируются с основной частью сигнала. Следовательно, каждый из блоков 50a-50h может считаться остаточным блоком.

В частности, суммирование в сумматоре 65с не обязательно должно выполняться в остаточном блоке 50 (50a-50h). Одно суммирование множества остаточных сигналов 65b' (каждый из которых выводится посредством каждого из остаточных блоков 50а-50h) может выполняться (например, в блоке суммирования, например, во втором блоке 45 обработки). Соответственно, различные остаточные блоки 50a-50h могут работать параллельно друг другу.

В примере по фиг. 4, каждый блок 50 может повторять свои сверточные слои дважды (например, сначала в реплике 600, включающей в себя по меньшей мере один из блоков 60а, 61а, 62а, 63а, 64а, 65а и получающей сигнал 59b; затем в реплике 601, включающей в себя по меньшей мере один из блоков 60b, 61b, 62b, 63b, 64b, 65b и получающей сигнал 65b', который может суммироваться с основным компонентом 59а').

Для каждой реплики (600, 601), обуславливающий набор обучаемых слоев 71-73 и стилизующий элемент 77 применяются (например, дважды для каждого блока 50) к сигналу, эволюционирующему из входного сигнала 16 в выходной аудиосигнал 16. Первая временная адаптивная денормализация (TADE) выполняется в блоке 60а TADE для первых данных 59а в первой реплике 600. Блок 60а TADE выполняет модуляцию первых данных 59а (входного сигнала или, например, обработанного шума) при условиях, заданных посредством целевых данных 12. В первом блоке 60а TADE в блоке 70 повышающей дискретизации может выполняться повышающая дискретизация целевых данных 12 для получения дискретизированной с повышением версии 12' целевых данных 12. Повышающая дискретизация может получаться через нелинейную интерполяцию, например, с использованием коэффициента 2, степени 2, кратного двух либо другого значения, большего 2. Соответственно, в некоторых примерах спектрограмма 12' может иметь равные размерности (например, соответствует) с сигналом (76, 76', х, с, 59, 59а, 59b и т.д.), который должен обусловливаться посредством спектрограммы. Применение стилистической информации к обработанному шуму (76, 76', х, с, 59, 59а, 59b и т.д.) (первым данным) может выполняться в блоке 77 (в стилизующем элементе). В следующей реплике 601 к выводу 59b первой реплики 600 может применяться другой блок 60b TADE. Пример блока 60 TADE (60а, 60b) приведен на фиг. 3 (см. также ниже). После модуляции первых данных 59а, выполняются свертки 61а и 62а. Затем, активирующие функции TanH и мягкого максимума (например, составляющие стробированную функцию TanH мягкого максимума) также выполняются (63а, 64а). Выводы активирующих функций 63а и 64а умножаются в блоке 65а умножения (например, чтобы создавать экземпляр стробирования), с тем чтобы получать результат 59b. В случае использования двух различных реплик 600 и 601 (либо в случае использования более чем двух реплик), проходы блоков 60а, 61а, 62а, 63а, 64а, 65а, повторяются.

В примерах, первая и вторая свертки в 61b и 62b, соответственно, ниже блока 60а и 60b TADE, могут выполняться при равном числе элементов в ядре (например, 9, например, 3×3). Тем не менее, вторые свертки 61b и 62b могут иметь коэффициент растяжения в 2. В примерах максимальный коэффициент растяжения для сверток может быть равным 2 (двум).

На Фиг. 3 показан пример блока 60 TADE (60а, 60b). Как можно видеть, целевые данные 12 могут дискретизироваться с повышением, например, таким образом, чтобы соответствовать входному сигналу (либо сигналу, эволюционирующему из него, например, 59, 59а, 76', также называемому «скрытым сигналом» или «активационным сигналом»). Здесь могут выполняться свертки 71, 72, 73 (промежуточное значение целевых данных 12 указано позицией 71') для получения параметров γ (гамма, 74) и β (бета, 75). Для свертки в любом из 71, 72, 73 также может быть необходима единица линейной ректификации (ReLu) или может выпрямляться текучая единица линейной ректификации (текучая ReLu). Параметры γ и β могут иметь одинаковую размерность активационного сигнала (причем сигнал обрабатывается таким образом, что он эволюционирует из входного сигнала 14 в сформированный аудиосигнал 16, который здесь представляется в качестве х, 59 или 76' в нормализованной форме). Следовательно, когда активационный сигнал (х, 59, 76') имеет две размерности, также γ и β (74 и 75) имеют две размерности, и каждый из них является наложимым на активационный сигнал (длина и ширина γ и β может быть равной длине и ширине активационного сигнала). В стилистическом элементе 77, параметры 74 и 75 обуславливающих признаков применяются к активационному сигналу (который представляет собой первые данные 59а или 59b, выводимые посредством умножителя 65а). Тем не менее, следует отметить, что активационный сигнал 76' может представлять собой нормализованную версию (10 в блоке 76 нормализации по экземплярам) первых данных 59, 59а, 59b (15). Также следует отметить, что формула, показанная в стилистическом элементе 77 (γx+β), может представлять собой поэлементное произведение, а не сверточное произведение или произведение с точкой.

После стилистического элемента 77, сигнал выводится. Свертки 72 и 73 не обязательно имеют активирующую функцию ниже них. Также следует отметить, что параметр γ (74) может пониматься как дисперсия, а β (75) как смещение. Кроме того, блок 42 по фиг. 1 может подвергаться созданию экземпляра в качестве блока 50 по фиг. 3. Затем, например, сверточный слой 44 должен уменьшить число каналов до 1, и после этого выполняется TanH 56 для получения речи 16.

На Фиг. 7 показан пример эволюции в одной из реплики 600 и 601 одного из блоков 50a-50h:

- целевые данные 14 (например, мел-спектрограмма); и

- скрытый шум с (12), также указываемый с помощью 59а или в качестве сигнала, эволюционирующего из входного сигнала 12 к сформированному аудиосигналу 16.

Может выполняться следующая процедура:

1) Спектрограмма 12 подвергается по меньшей мере одному из следующих этапов:

a. Повышающая дискретизация в блоке 7 0 повышающей дискретизации для получения дискретизированной с повышением спектрограммы 12';

b. В сверточных слоях 71-73 (часть слоя весовых коэффициентов) выполняются свертки (например, ядро 12а сворачивается вдоль дискретизированной с повышением спектрограммы 12');

c. Получаются (обучаются) γ (74) и β (75);

о!. Применяются γ (74) и β (75) (например, посредством свертки) к скрытому сигналу 59а (15), эволюционирующему из входного сигнала 14 и сформированного аудиосигнала 16.

Дискриминатор GAN

Дискриминатор 100 GAN по фиг. 2 может использоваться во время обучения для получения, например, параметров 74 и 75, которые должны применяться к входному сигналу 12 (либо к его обработанной и/или нормализованной версии). Обучение может выполняться до логического вывода, и параметры 74 и 75, например, могут сохраняться в постоянном запоминающем устройстве и использоваться впоследствии (тем не менее, в некоторых примерах также возможно то, что параметры 74 или 75 вычисляются в процессе работы).

Дискриминатор 100 GAN выполняет роль при обучении распознаванию сформированных аудиосигналов (например, аудиосигнала 16, синтезированного так, как пояснено выше) из реальных входных сигналов 104 (например, реальной речи). Следовательно, роль дискриминатора 100 GAN проявляется главным образом во время обучения (например, для обучающих параметров 72 и 73) и рассматривается как противоположная по отношению к роли генератора 11 GAN (который может рассматриваться в качестве генератора 10 аудиоданных без дискриминатора 100 GAN).

В общих чертах, в дискриминатор 100 GAN может вводиться как аудиосигнал 16, синтезированный и сформированный генератором 10 GAN, так и реальный аудиосигнал 104 (например, реальная речь), полученный, например, через микрофон, и он может обрабатывать сигналы для получения показателя (например, потерь), который должен минимизироваться. Реальный аудиосигнал 104 также может считаться опорным аудиосигналом. Во время обучения, например, операции, такие как операции, поясненные выше для синтеза речи 16, могут повторяться, например, многократно, с тем чтобы получать параметры 74 и 75.

В примерах, вместо анализа целого опорного аудиосигнала 104 и/или целого сформированного аудиосигнала 16, можно анализировать только его часть (например, фрагмент, срез, окно кодирования со взвешиванием и т.д.). Получаются части сигнала, сформированные в случайных окнах (105а-105d) кодирования со взвешиванием, дискретизированных из сформированного аудиосигнала 16 и из опорного аудиосигнала 104. Например, случайные функции кодирования со взвешиванием могут использоваться, так что априори не задается предварительно то, какое окно 105а, 105b, 105с, 105d кодирования со взвешиванием используется. Кроме того, число окон кодирования со взвешиванием не обязательно равно четырем, оно может варьироваться.

В окнах (105а-105d) кодирования со взвешиванием, может применяться гребенка 110 псевдоквадратурных зеркальных фильтров (PQMF). Следовательно, подполосы 120 частот получаются. Соответственно, разложение (110) представления сформированного аудиосигнала (16) или представления опорного аудиосигнала (104) получается.

Для выполнения оценок может быть использован блок 130 оценки. Может использоваться множество модулей 132а, 132b, 132с, 132d оценки (указываемых вместе позицией 132) (может использоваться и другое количество). В общем случае, в соответствующий модуль 132а, 132b, 132с, 132d оценки может вводиться каждое окно 105а, 105b, 105с, 105d кодирования со взвешиванием. Дискретизация случайного окна (105а-105d) кодирования со взвешиванием может повторяться многократно для каждого модуля (132а-132d) оценки. В примерах, число раз, когда случайное окно (105а-105d) кодирования со взвешиванием дискретизируется для каждого модуля (132а-132d) оценки, может быть пропорциональным длине представления сформированного аудиосигнала или представления опорного аудиосигнала (104). Соответственно, каждый из модулей (132а-132d) оценки может принимать в качестве ввода одну или более частей (105а-105d) представления сформированного аудиосигнала (16) или представления опорного аудиосигнала (104).

Каждый модуль 132а-132d оценки может представлять собой непосредственно нейронную сеть. Каждый модуль 132а-132d оценки, в частности, может придерживаться парадигм сверточных нейтральных сетей. Каждый модуль 132а-132d оценки может представлять собой остаточный модуль оценки. Каждый модуль 132а-132d оценки может иметь параметры (например, весовые коэффициенты), которые адаптируются во время обучения (например, способом, аналогичным одному из способов, поясненных выше).

Как показано на фиг. 2, каждый модуль 132а-132d оценки также выполняет понижающую дискретизацию (например, на 4 либо на другой коэффициент понижающей дискретизации). Число каналов увеличивается для каждого модуля 132а-132d оценки (например, на 4 или, в некоторых примерах, на число, которое является равным коэффициенту понижающей дискретизации).

Выше и/или ниже модулей оценки могут быть предусмотрены сверточные слои 131 и/или 134. Вышележащий сверточный слой 131 может иметь, например, ядро с размерностью 15 (например, 5×3 или 3×5). Нижележащий сверточный слой 134 может иметь, например, ядро с размерностью 3 (например, 3×3).

Во время обучения может быть оптимизирована функция 140 потерь (состязательные потери). Функция 140 потерь может включать в себя фиксированный показатель (например, полученный во время этапа предварительного обучения) между сформированным аудиосигналом (16) и опорным аудиосигналом (104). Фиксированный показатель может получаться посредством вычисления одного или нескольких спектральных искажений между сформированным аудиосигналом (16) и опорным аудиосигналом (104). Искажение может измеряться с учетом:

- абсолютной величины или логарифмической абсолютной величины спектрального представления сформированного аудиосигнала (16) и опорного аудиосигнала (104), и/или

- различных временных или частотных разрешений.

В примерах, состязательные потери могут получаться посредством случайной подачи и оценки представления сформированного аудиосигнала (16) или представления опорного аудиосигнала (104) посредством одного или более модулей (132) оценки. Оценка может содержать классификацию подаваемого аудиосигнала (16, 132) на заданное число классов, указывающее предварительно обученный уровень классификации естественности аудиосигнала (14, 16). Заданное число классов, например, может быть «реальным» или «поддельным».

Примеры потерь могут получаться следующим образом:

- где:

x является реальной речью 104,

z является скрытым шумом 14 (либо, если обобщать, входным сигналом или первым данным, или скрытым),

s является мел-спектрограммой x (либо, обобщенно, целевым сигналом 12).

D(…) является выводом модулей оценки с точки зрения распределения вероятности (при этом D(…)=0 означает «наверняка ложный», D(…)=1 означает «наверняка реальный»).

Потери на спектральное восстановление по-прежнему используются для регуляризации, с тем чтобы предотвращать появление состязательный артефактов. Конечные потери, например, могут быть следующими:

где каждое i является долей в каждом модуле 132a-132d оценки (например, в каждом модуле 132a-132d оценки, обеспечивающем различное Di), и является предварительно обученными (фиксированными) потерями.

Во время обучения, предусмотрен поиск минимального значения которое может выражаться, например, следующим образом:

Другие виды минимизаций могут выполняться.

В общих чертах, минимальные состязательные потери 140 ассоциированы с наилучшими параметрами (например, 74, 75), которые должны применяться к стилистическому элементу 77.

Пояснение

Ниже по тексту подробно описаны примеры настоящего изобретения с использованием прилагаемого описания. В нижеприведенном описании описано множество подробностей для обеспечения более полного пояснения примеров изобретения. Тем не менее, специалистам в данной области техники должно быть очевидно, что другие примеры могут быть реализованы без этих конкретных подробностей. Признаки различных описанных примеров могут быть объединены друг с другом, если только признаки соответствующего сочетания не являются взаимоисключающими, или такое сочетание не исключено в явном виде.

Следует отметить, что одинаковые или аналогичные элементы либо элементы, которые имеют одинаковую функциональность, могут содержать одинаковые или аналогичные номера ссылочных позиций или обозначаются одинаково, при этом повторное описание элементов, которые содержат одинаковые или аналогичные номера ссылочных позиций либо являются одинаковыми, как правило, не приводится. Описание элементов, которые имеют одинаковые или аналогичные номера ссылочных позиций либо указаны как одинаковые, является взаимозаменяемым.

Было обнаружено, что нейронные вокодеры превосходят классические подходы в синтезе естественной высококачественной речи во многих вариантах применения, таких как преобразование текста в речь, кодирование речи и улучшение речи. Разработана первая инновационная генеративная нейронная сеть, которая синтезирует высококачественную речь, WaveNet, и вскоре после этого множество других подходов. Эти модели предлагают качество уровня техники, но зачастую при очень высоких вычислительных затратах и очень медленном синтезе. Огромное количество моделей, формирующих речь с низкими вычислительными затратами, представлено в последние годы. Некоторые из них представляют собой оптимизированные версии существующих моделей, тогда как другие используют интеграцию с классическими способами. Кроме того, также введено множество абсолютно новых подходов, зачастую с базированием на GAN. Большинство вокодеров GAN предлагают очень быстрое формирование на GPU, но за счет ухудшения качества синтезированной речи.

Одна из основных задач данной работы состоит в том, чтобы предложить архитектуру GAN, которая называется "StyleMelGAN" (и может быть реализована, например, в генераторе 10 аудиоданных), которая может синтезировать очень высококачественную речь 16 при низких вычислительных затратах и при быстром обучении. Генеративная сеть StyleMelGAN может содержать 3,86М обучаемых параметров и синтезировать речь при 22,05 кГц примерно в 2,6 раз быстрее, чем в реальном времени, на CPU и более чем в 54 раза на GPU. Модель может состоять, например, из восьми блоков повышающей дискретизации, которые постепенно преобразуют низкоразмерный шумовой вектор (например, 30 на фиг. 1) в форму необработанного речевого сигнала (например, 16). Синтез может обусловливаться в отношении мел-спектрограммы целевой речи (либо, если обобщать, посредством целевых данных 12), которая может вставляться в каждый блок (50a-50h) генератора через слой (60, 60а, 60b) временной адаптивной денормализации (TADE). Этот подход для вставки обуславливающих признаков является очень эффективным и, насколько известно, новым в аудиообласти. Состязательные потери вычисляются (например, через структуру по фиг. 2 в дискриминаторе 100 GAN) посредством ансамбля из четырех дискриминаторов 132a-132d (но в некоторых примерах возможно другое число дискриминаторов), каждый из которых работает после дифференцируемой гребенки 110 псевдоквадратурных зеркальных фильтров (PQMF). Это позволяет анализировать различные полосы частот речевого сигнала (104 или 16) во время обучения. Чтобы сделать обучение более надежным и способствовать обобщению, дискриминаторы (например, четыре дискриминатора 132а-132d) не обусловливаются в отношении входных акустических признаков, используемых генератором 10, и речевой сигнал (104 или 16) дискретизируется с использованием случайных окон кодирования со взвешиванием (например, 105a-105d).

В общем случае, предложена StyleMelGAN, которая представляет собой GAN с низкой сложностью для синтеза высококачественной речи, обусловленную в отношении мел-спектрограммы (например, 12) через слои TADE (например, 60, 60а, 60b). Генератор 10 может быть высокопараллелизуемым. Генератор 10 может быть абсолютно сверточным. Вышеуказанный генератор 10 может обучаться состязательно с помощью ансамбля дискриминаторов случайных окон кодирования с множественной дискретизацией PQMF со взвешиванием (например, 132a-132d), которые могут регуляризоваться посредством потерь на спектральное восстановление с множеством масштабов. Качество сформированной речи 16 может оцениваться с использованием объективных (например, количественных показателей Фреше) и/или субъективных оценок. Проведено два теста на основе прослушивания - тест MUSHRA для сценария синтеза с копированием и тест Р.800 ACR для сценария TTS, при этом оба из них подтверждают, что StyleMelGAN достигает качества речи из уровня техники.

Существующие нейронные вокодеры обычно синтезируют речевые сигналы непосредственно во временной области, посредством моделирования амплитуды конечной формы сигнала. Большинство этих моделей представляют собой генеративные нейронные сети, т.е. они моделируют распределение вероятностей речевых выборок, наблюдаемых в естественных речевых сигналах. Они могут разделяться на авторегрессивные, которые явно факторизуют распределение на произведение условных распределений, и неавторегрессивные или параллельные, которые вместо этого моделируют объединенное распределение непосредственно. Сообщается, что авторегрессивные модели, такие как WaveNet, SampleRNN и WaveRNN, синтезируют речевые сигналы высокого воспринимаемого качества. Большое семейство неавторегрессивных моделей представляет собой семейство нормализующих потоков, например, WaveGlow. Гибридный подход заключается в использовании обратных авторегрессивных потоков, которые используют факторизованное преобразование между шумовым скрытым представлением и распределением целевой речи. Вышеприведенные примеры главным образом относятся к авторегрессивным нейронным сетям.

Ранние варианты применения GAN для аудиоданных включают в себя WaveGAN для необусловленного формирования речи и Gan-Synth для формирования музыки. MelGAN изучает преобразование между мел-спектрограммой речевых сегментов и их соответствующими формами сигналов временной области. Она обеспечивает формирование быстрее, чем в реальном времени, и использует состязательное обучение дискриминаторов с множеством масштабов, регуляризованных посредством потерь на спектральное восстановление. GAN-TTS представляет собой первый вокодер GAN, который использует уникальное состязательное обучение для формирования речи, обусловленного в отношении акустических признаков. Его состязательные потери вычисляются посредством ансамбля из условных и безусловных дискриминаторов случайных окон кодирования со взвешиванием. Parallel WaveGAN использует генератор, аналогичный WaveNet по структуре, обученный с использованием необусловленного дискриминатора, регуляризованного посредством потерь на спектральное восстановление с множеством масштабов. Аналогичные идеи используются в Multiband-MelGAN, которая формирует каждую подполосу частот целевой речи отдельно, что позволяет уменьшать вычислительную мощность, и затем получает конечную форму сигнала с использованием синтезирующей PQMF. Ее дискриминаторы с множеством масштабов оценивают форму речевого сигнала полной полосы частот и регуляризуются с использованием потерь на спектральное восстановление с множеством масштабов. Исследования в данной области техники проводятся очень активно, и можно упомянуть самые последние вокодеры GAN, такие как VocGan и HooliGAN.

Фиг. 1 показывает архитектуру генератора StyleMelGAN, реализованную в генераторе 10 аудиоданных. Модель генератора преобразует шумовой вектор (указываемый с помощью 30 на фиг. 1) в форму 16 речевого сигнала (например, при 22050 Гц) посредством прогрессивной повышающей дискретизации (например, в блоках 50a-50h) обусловленную в отношении мел-спектрограмм 12 (либо, если обобщать, целевых данный). Она использует временную адаптивную денормализацию (TADE) (см. блоки 60, 60а, 60b), которая может представлять собой обуславливание на основе признаков на основе линейной модуляции нормализованный активационный карт (76' на фиг. 3). Параметры модуляции γ (гамма, 74 на фиг. 3) и β (бета, 75 на фиг. 3) адаптивно обучаются из обуславливающих признаков, и в одном примере имеют одинаковую размерность со скрытым сигналом. Это доставляет обуславливающие признаки во все слои модели генератора, в силу этого сохраняя структуру сигналов во всех каскадах повышающей дискретизации. Б формуле 128 является числом каналов для скрытого шума (различные числа могут выбираться в других примерах). Б силу этого может формироваться случайный шум размерности 128 со средним значением 0 и с автокорреляционной матрицей (квадрат 128 на 128), равной единичному элементу I. Следовательно, в примерах сформированный шум может считаться полностью декоррелированным между каналами и имеющим дисперсию 1 (энергию). N(0,I128) может быть реализован в каждых 22528 сформированных выборках (либо для других примеров могут быть выбраны другие числа); размерность может в силу этого быть равна 1 на временной оси и 128 на канальной оси.

Фиг. 3 показывает структуру части генератора 10 аудиоданных и иллюстрирует структуру блока 60 TADE (60а, 60b). Входная активация с (76') адаптивно модулируется через где указывает поэлементное умножение (а именно, γ и β имеют одинаковую размерность активационной карты; также следует отметить, что с является нормализованной версией х по фиг. 3, и в силу этого является нормализованной версией хγ+β, которая также может указываться с помощью ). Перед модуляцией в блоке 77, используется слой 76 нормализации по экземплярам. Слой 76 (нормализующий элемент) может нормализовать первые данные в нормальное распределение нулевого среднего и единичной дисперсии. Могут использоваться стробированные активирующие функции TanH мягкого максимума (например, первая, экземпляр которой создается блоками 63а-64а-65а, и вторая, экземпляр которой создается блоками 63b-64b-65b в фиг. 4), которые, по некоторым данным, работают лучше функций на основе единиц линейной ректификации (ReLu). Стробирование на основе функции мягкого максимума (например, полученное посредством умножений 65а и 65b) обеспечивает возможность меньшего количества артефактов при образовании форм аудиосигналов.

На Фиг. 4 показана структура части генератора 10 аудиоданных и иллюстрирует остаточный блок 50 TADE (который может представлять собой любой из блоков 50a-50h), который представляет собой базовый компоновочный блок модели генератора. Полная архитектура показана на фиг. 1. Она включает в себя восемь каскадов 50a-50h повышающей дискретизации (в других примерах, другие числа являются возможными), состоящих, например, из остаточного блока TADE и слоя 601, дискретизирующего с повышением сигнал 79b на коэффициент два, плюс один конечный активационный модуль 46 (на фиг. 1). Конечная активация содержит один остаточный блок 42 TADE, после которого следует сверточный слой 44 изменения канала, например, с нелинейностью 46 TanH. Это проектирование позволяет использовать, например, глубину канала в 64 для операций свертки, в силу этого снижая сложность. Кроме того, эта процедура повышающей дискретизации позволяет поддерживать коэффициент растяжения ниже 2.

На Фиг. 2 показана архитектура дискриминаторов случайных окон кодирования со взвешиванием на основе гребенки фильтров (FB-RWD). StyleMelGAN может использовать множество (например, четыре) дискриминаторов 132a-132d для ее состязательного обучения, при этом в примерах архитектура дискриминаторов 132а-132d не имеет понижающей дискретизации с объединением в пул по среднему. Кроме того, каждый дискриминатор (132a-132d) может работать со случайным окном (105a-105d) кодирования со взвешиванием, отрезанным от формы (104 или 16) сигнала входной речи. Наконец, каждый дискриминатор (132a-132d) может анализировать подполосы 120 частот входного речевого сигнала (104 или 16), полученного посредством аналитической PQMF (например, 110). Более точно, можно использовать, в примерах, 1, 2, 4 и 8 подполос частот, вычисленных, соответственно, из избранных случайных сегментов, соответственно, по 512, 1024, 2048 и 4096 выборок, извлекаемых из формы сигнала одной секунды. Это обеспечивает состязательную оценку с переменным разрешением речевого сигнала (104 или 16) во временной и частотной областях.

Известно, что обучающие GAN являются сложными. При использовании случайной инициализации весовых коэффициентов (например, 74 и 75), состязательные потери (например, 140) могут приводить к серьезным аудиоартефактам и нестабильному обучению. Чтобы исключать эту проблему, генератор 10 может сначала предварительно обучаться только с использованием потерь на спектральное восстановление, состоящих из оценок ошибок спектральной сходимости и логарифмической абсолютной величины, вычисленной из различного STFT-анализа. Генератор, полученный этим способом, может формировать очень тональные сигналы, хотя и с существенным размыванием на высоких частотах. Тем не менее, это представляет собой хорошую начальную точку для состязательного обучения, которое затем может извлекать выгоду из лучшей гармонической структуры, чем если оно начинается непосредственно с полного случайного шумового сигнала. Состязательное обучение после этого приводит формирование к естественности за счет удаления тональных эффектов и заострения размытых полос частот. Кусочно-линейные потери 14 0 используются для оценки состязательного показателя, как можно видеть в нижеприведенном уравнении 1:

где х является реальной речью 104, z является скрытым шумом 14 (либо, если обобщать, входным сигналом), и s является мел-спектрограммой х (либо, если обобщать, целевым сигналом 12). Следует отметить, что потери на спектральное восстановление (140) по-прежнему используются для регуляризации, с тем чтобы предотвращать появление состязательный артефактов. Конечные потери (140) задаются согласно уравнению 2, которое приводится ниже:

Нормализация весовых коэффициентов может применяться ко всем операциям свертки в G (либо, более точно, в генераторе 11 GAN) и в D (либо, более точно, в дискриминаторе 100). В экспериментах StyleMelGAN обучается с использованием одного GPU NVIDIA Tesla V100 в корпусе LJSpeech при 22050 Гц. Мел-спектрограммы на основе логарифмической абсолютной величины вычисляются для 80 мел-полос частот и нормализуются таким образом, что они имеют нулевое среднее и единичную дисперсию. Конечно, это представляет собой только один вариант; другие значения являются в равной степени возможными. Генератор предварительно обучается в течение 100000 этапов с использованием оптимизатора Адама с темпом обучения в 10-4, В начале состязательного обучения, темп обучения G задается равным 5*10-5 и использует FB-RWD с оптимизатором Адама с темпом обучения дискриминатора в 2*10-4 и с равным β. FB-RWD повторяют случайное кодирование со взвешиванием в течение 1 c/window_length, т.е. одной секунды в расчете на длину окна кодирования со взвешиванием, раз на каждом этапе обучения, чтобы поддерживать модель с достаточными обновлениями градиента. Размер пакета в 32 и сегменты с длиной в 1 с, т.е. в одну секунду, для каждой выборки в пакете используются. Обучение длится приблизительно полтора миллиона этапов, т.е. 1500000 этапов.

Далее перечислены модели, используемые в экспериментах:

- WaveNet для целевых экспериментов в синтезе с копированием и в преобразовании текста в речь,

- WGAN для целевых экспериментов в синтезе с копированием и в преобразовании текста в речь,

- MelGAN для целевых экспериментов в синтезе с копированием с объективной оценкой,

- WaveGlow для целевых экспериментов в синтезе с копированием,

- Transformer.v3 для целевых экспериментов в преобразовании текста в речь

Объективные и субъективные оценки StyleMelGAN относительно предварительно обученных вокодерных моделей на основе базовой линии, перечисленных выше, выполнены. Субъективное качество аудиовыводов TTS через тест Р.800 на основе прослушивания, выполняемый слушателями, оценивается в управляемом окружении. Тестовый набор содержит невидимые речевые фрагменты, записанные одним и тем же говорящим и случайно выбранные из онлайнового корпуса LibriVox. Эти речевые фрагменты тестируют характеристики обобщения моделей, поскольку они записаны при немного отличающихся условиях и с присутствующей варьирующейся просодией. Исходные речевые фрагменты повторно синтезируются с использованием алгоритма Гриффина-Лима, и они используются вместо обычного привязочного условия. При этом предпочитается использование всей рейтинговой шкалы.

Традиционные объективные показатели, такие как PESQ и POLQA, не являются надежными для оценки форм речевого сигнала, сформированных нейронными вокодерами. Вместо этого используются условные глубокие речевые расстояния Фреше (cFDSD). Следующие количественные показатели cFDSD для различных нейронных вокодеров показывают, что StyleMelGAN значительно превосходит другие модели.

- Обучение cFDSD MelGAN 0,235 Тест cFDSD 0,227

- Обучение cFDSD WGAN 0,122 Тест cFDSD 0,101

- Обучение cFDSD WaveGlow 0,099 Тест cFDSD 0,078

- Обучение cFDSD WaveNet 0,176 Тест cFDSD 0,140

- Обучение cFDSD StyleMelGAN 0,044 Тест cFDSD 0,068

Можно видеть, что эта StyleMelGAN превосходит другие состязательные и несостязательные вокодеры.

Проведен тест MUSHRA на основе прослушивания с группой из 15 слушателей-экспертов. Этот тип теста выбран, поскольку он позволяет более точно оценивать качество сформированной речи. Привязка формируется с использованием реализации Py-Torch алгоритма Гриффина-Лима с 32 итерациями. Фиг. 5 показывает результат теста MUSHRA. Можно видеть, что StyleMelGAN значительно превосходит другие вокодеры приблизительно на 15 баллов MUSHRA. Результаты также показывают то, что WaveGlow, формирует выводы сравнимого качества с WaveNet, при нахождении на одном уровне с Parallel WaveGAN.

Субъективное качество аудиовыводов TTS может оцениваться через тест Р.800 ACR на основе прослушивания, выполняемый 31 слушателем в управляемом окружении. Для формирования мел-спектрограмм переложений тестового набора может использоваться модель Trans former.v3 ESPNET. Также может быть добавлена одинаковая привязка Гриффина-Лима, поскольку при этом предпочтительно использование всей рейтинговой шкалы.

Следующие средние экспертные оценки (MOS) Р800 для различных систем TTS показывают такие аналогичные выявленные сведения, что StyleMelGAN явно превосходит другие модели:

- GriffinLim Р800 MOS: 1,33+/-0,04

- Transformer+Parallel WaveGAN P800 MOS: 3,19+/-0,07

- Transformer+WaveNet P800 MOS: 3,82+/-0,07

- Transformer+StyleMelGAN P800 MOS: 4,00+/-0,07

- Recording P800 MOS: 4,29+/-0,06

Далее показана скорость формирования в коэффициенте реального времени (RTF) с числом параметров различных параллельных вокодерных моделей. StyleMelGAN обеспечивает четкий компромисс между качеством формирования и скоростью логического вывода.

Здесь приведено число параметров и коэффициентов реального времени для формирования на CPU (например, Intel Core i7 6700 3,40 ГГц) и на GPU (например, Nvidia GeForce GTX1060) для различных изучаемых моделей.

- Параметры Parallel WaveGAN: 1,44М CPU: 0,8х GPU: 17х

- Параметры MelGAN: 4,26М CPU: 7х GPU: 110х

- Параметры StyleMelGAN: 3,86М CPU: 2,6х GPU: 54х

- Параметры WaveGlow: 80М GPU: 5х

В завершение, на фиг. 5 показаны результаты экспертного теста MUSHRA на основе прослушивания. Можно видеть, что StyleMelGAN превосходит модели из уровня техники.

Заключение

Данная работа представляет StyleMelGAN, легкий и эффективный состязательный вокодер для синтеза высококачественной речи. Модель использует временную адаптивную нормализацию (TADE) для обеспечения достаточного и точного обуславливания для всех слоев формирования вместо простой подачи обуславливания в первый слой. Для состязательного обучения генератор конкурирует с дискриминаторами случайных окон кодирования со взвешиванием на основе гребенки фильтров, которые обеспечивает представления речевого сигнала с множеством масштабов во временной и частотной областях. StyleMelGAN работает как на CPU, так и на GPU на порядок абсолютной величины быстрее, чем в реальном времени. Экспериментальные объективные и субъективные результаты показывают, что StyleMelGAN значительно превосходит уже существующие состязательные вокодеры, а также авторегрессивные, потоковые и рассеянные вокодеры, обеспечивая новый стандарт в уровне техники для нейронного образования форм сигналов.

В качестве вывода, варианты осуществления, описанные в данном документе, могут быть при необходимости дополнены любым из важных моментов или аспектов, описанных в данном документе. Тем не менее, следует отметить, что важные моменты и аспекты, описанные в данном документе, могут использоваться по отдельности или в сочетании и могут быть введены в любой из вариантов осуществления, описанных в данном документе, как по отдельности, так и в сочетании.

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом устройство или его часть соответствует этапу способа либо признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего устройства либо части устройства, либо элемента или признака соответствующего устройства. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, один или более из самых важных этапов способа могут выполняться посредством этого устройства.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может осуществляться с использованием цифрового носителя данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, E PROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель данных может быть машиночитаемым.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.

В общем, варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может сохраняться, например, на машиночитаемом носителе.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.

Другими словами, вариант осуществления способа согласно изобретению, таким образом, представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа выполняется на компьютере.

Следовательно, дополнительный вариант осуществления способов согласно изобретению представляет собой носитель данных (цифровой носитель данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель данных или носитель с записанными данными обычно является материальным и/или постоянным.

Следовательно, дополнительный вариант осуществления способа согласно изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передачи (например, электронными или оптическими средствами) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.

В некоторых вариантах осуществления для выполнения части или всех из функциональностей способов, описанных в данном документе, может использоваться программируемое логическое устройство (например, программируемая пользователем вентильная матрица). В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем случае, способы предпочтительно осуществляются любым аппаратным устройством.

Устройство, описанное в данном документе, может быть реализовано с использованием аппаратного устройства или с использованием компьютера, либо с использованием сочетания аппаратного устройства и компьютера. Устройство, описанное в данном документе, или любые компоненты устройства, описанного в данном документе, могут быть реализованы по меньшей мере частично в аппаратных средствах и/или в программном обеспечении. Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием сочетания аппаратного устройства и компьютера. Способы, описанные в данном документе, либо любые части способов, описанных в данном документе, могут выполняться по меньшей мере частично аппаратными средствами и/или программным обеспечением.

Вышеописанные варианты осуществления являются лишь иллюстрацией принципов настоящего изобретения. Следует понимать, что специалистам в данной области техники должны быть очевидными модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, но не конкретными подробностями, представленными в данном документе в качестве описания и пояснения вариантов осуществления.

Библиография

A. van den Oord, S. Dieleman, H. Zen, K. Simonyan и другие "WaveNet: A Generative Model for Raw Audio", arXiv:1609.03499, 2016 год.

R. Prenger, R. Valle и В. Catanzaro "Waveglow: A Flow-based Generative Network for Speech Synthesis", in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019 год, стр. 3617-3621.

S. Mehri, K. Kumar, I. Gulrajani, R. Kumar и другие "SampleRNN: An Unconditional End-to-End Neural Audio Generation Model", arXiv:1612.07837, 2016 год.

N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury и другие "Efficient neural audio synthesis", arXiv:1802.08435, 2018 год.

A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan и другие "Parallel WaveNet: Fast High-Fidelity Speech Synthesis", in Proceedings of the 35th ICML, 2018 год, стр. 3918-3926.

J. Valin и J. Skoglund "LPCNET: Improving Neural Speech Synthesis through Linear Prediction", in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019 год, стр. 5891-5895.

K. Kumar, R. Kumar, de T. Boissiere, L. Gestin и другие "MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis", in Advances in NeurIPS 32, стр. 14910-14921, 2019 год.

R. Yamamoto, E. Song и J. Kim "Parallel Wavegan: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram", in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020 год, стр. 6199-6203.

M. Binkowski, J. Donahue, S. Dieleman, A. Clark и другие "High Fidelity Speech Synthesis with Adversarial Networks", arXiv:1909.11646, 2019 год.

Т. Park, M.Y. Liu, Т.C. Wang и J.Y. Zhu "Semantic Image Synthesis With Spatially-Adaptive Normalization", in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019 год.

P. Govalkar, J. Fischer, F. Zalkow и С. Dittmar "A Comparison of Recent Neural Vocoders for Speech Signal Reconstruction", in Proceedings of the ISCA Speech Synthesis Workshop, 2019 год, стр. 7-12.

I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu и другие "Generative Adversarial Nets", in Advances in NeurlPS 27, стр. 2672-2680, 2014 год.

C. Donahue, J. McAuley и M. Puckette "Adversarial Audio Synthesis", arXiv:1802.04208, 2018 год.

J. Engel, K.K. Agrawal, S. Chen, I. Gulrajani и другие "GANSynth: Adversarial Neural Audio Synthesis", arXiv:1902.08710, 2019 год.

G. Yang, S. Yang, K. Liu, P. Fang и другие "Multiband MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech", arXiv:2005.05106, 2020 год.

J. Yang, J. Lee, Y. Kim, H. Cho и I. Kim "VocGAN: A High-Fidelity Real-time Vocoder with the Hierarchically-nested Adversarial Network", arXiv:2007.15256, 2020 год.

Jungil Kong, Jaehyeon Kim и Jaekyoung Bae "Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis", arXiv preprint arXiv:2010.05646, 2020 год.

D. Ulyanov, A. Vedaldi и V. Lempitsky "Instance normalization: The missing ingredient for fast stylization", arXiv:1607.08022, 2016 год.

A. Mustafa, A. Biswas, C. Bergler, J. Schottenhamml и A. Maier "Analysis by Adversarial Synthesis - A Novel Approach for Speech Vocoding", in Proc. Inter-speech, 2019 год, стр. 191-195.

Т.Q. Nguyen, "Near-perfect-reconstruction pseudo-QMF banks", IEEE Transactions on Signal Processing, издание 42, номер 1, стр. 65-76, 1994 год.

Т. Salimans и D.P. Kingma "Weight normalization: A simple reparameterization to accelerate training of deep neural networks", in Advances in NeurIPS, 2016 год, стр. 901-909.

K. Ito и L. Johnson "The LJ Speech Dataset", https://keithito.com/LJ-Speech-Dataset/, 2017 год.

D.P. Kingma и J. Ba "Adam: A method for stochastic optimization", arXiv:1412.6980, 2014 год.

Т. Hayashi, R. Yamamoto, K. Inoue, T. Yoshimura и другие "Espnet-tts: Unified, reproducible and integratable open source end-to-end text-to-speech toolkit", in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, 2020 год, стр. 7654-7658.

A. Gritsenko, T. Salimans, R. van den Berg, J. Snoek и N. Kalchbrenner "A Spectral Energy Distance for Parallel Speech Synthesis", arXiv:2008.01160, 2020 год.

"P.800: Methods for subjective determination of transmission quality", Standard, International Telecommunication Union, 1996 год.

Похожие патенты RU2823016C1

название год авторы номер документа
ГЕНЕРАТОР АУДИОДАННЫХ И СПОСОБЫ ФОРМИРОВАНИЯ АУДИОСИГНАЛА И ОБУЧЕНИЯ ГЕНЕРАТОРА АУДИОДАННЫХ 2021
  • Ахмед, Ахмед Мустафа Махмуд
  • Пиа, Никола
  • Фукс, Гийом
  • Мультрус, Маркус
  • Корсе, Срикантх
  • Гупта, Кишан
  • Бюте, Ян
RU2823015C1
СПОСОБ И СЕРВЕР ДЛЯ ГЕНЕРИРОВАНИЯ ВОЛНОВОЙ ФОРМЫ 2021
  • Кириченко Владимир Владимирович
  • Молчанов Александр Александрович
  • Черненьков Дмитрий Михайлович
  • Бабенко Артем Валерьевич
  • Алиев Владимир Андреевич
  • Баранчук Дмитрий Александрович
RU2803488C2
СПОСОБ И УСТРОЙСТВО УЛУЧШЕНИЯ РЕЧЕВОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ БЫСТРОЙ СВЕРТКИ ФУРЬЕ 2022
  • Щекотов Иван Сергеевич
  • Андреев Павел Константинович
  • Аланов Айбек Арстанбекович
  • Иванов Олег Юрьевич
  • Ветров Дмитрий Петрович
RU2795573C1
Неконтролируемое восстановление голоса с использованием модели безусловной диффузии без учителя 2023
  • Андреев Павел Константинович
  • Ященко Анастасия Сергеевна
  • Щекотов Иван Сергеевич
  • Бабаев Николас Андреевич
RU2823017C1
УСТРОЙСТВО, СПОСОБ ИЛИ КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ ГЕНЕРАЦИИ АУДИОСИГНАЛА С РАСШИРЕННОЙ ПОЛОСОЙ С ИСПОЛЬЗОВАНИЕМ ПРОЦЕССОРА НЕЙРОННОЙ СЕТИ 2018
  • Шмидт, Константин
  • Уле, Кристиан
  • Эдлер, Бернд
RU2745298C1
СИСТЕМЫ И СПОСОБЫ ВЫРАБОТКИ АУДИОСИГНАЛА 2019
  • Чжоу, Мэйлинь
  • Ляо, Фэнгюнь
  • Ци, Синь
RU2804933C2
Способ улучшения речевого сигнала с низкой задержкой, вычислительное устройство и считываемый компьютером носитель, реализующий упомянутый способ 2023
  • Бабаев Николас Андреевич
  • Андреев Павел Константинович
  • Сагинбаев Азат Рустамович
  • Щекотов Иван Сергеевич
RU2802279C1
АДАПТИВНОЕ УЛУЧШЕНИЕ АУДИО ДЛЯ РАСПОЗНАВАНИЯ МНОГОКАНАЛЬНОЙ РЕЧИ 2016
  • Ли, Бо
  • Вайсс, Рон Дж.
  • Баккьяни, Михил А.У.
  • Сайнат, Тара Н.
  • Уилсон, Кевин Уилльям
RU2698153C1
ОБУЧЕНИЕ GAN (ГЕНЕРАТИВНО-СОСТЯЗАТЕЛЬНЫХ СЕТЕЙ) СОЗДАНИЮ ПОПИКСЕЛЬНОЙ АННОТАЦИИ 2019
  • Галеев Данил Фанильевич
  • Софиюк Константин Сергеевич
  • Рухович Данила Дмитриевич
  • Конушин Антон Сергеевич
  • Романов Михаил Викторович
RU2735148C1
УСТРОЙСТВО И СПОСОБ ОТДЕЛЕНИЯ ИСТОЧНИКОВ С ИСПОЛЬЗОВАНИЕМ ОЦЕНКИ И УПРАВЛЕНИЯ КАЧЕСТВОМ ЗВУКА 2019
  • Уле, Кристиан
  • Торколи, Маттео
  • Диш, Саша
  • Паулус, Йоуни
  • Херре, Юрген
  • Хелльмут, Оливер
  • Фукс, Харальд
RU2782364C1

Иллюстрации к изобретению RU 2 823 016 C1

Реферат патента 2024 года ГЕНЕРАТОР АУДИОДАННЫХ И СПОСОБЫ ФОРМИРОВАНИЯ АУДИОСИГНАЛА И ОБУЧЕНИЯ ГЕНЕРАТОРА АУДИОДАННЫХ

Группа изобретений относится к акустике. Генератор (10) аудиоданных может формировать аудиосигнал (16) из входного сигнала (14) и целевых данных (12), представляющих аудиосигнал (16). Он содержит первый блок (40, 50, 50a-50h) обработки, принимающий первые данные (15, 59а), извлекаемые из входного сигнала (14), и выводящий первые выходные данные (69), второй блок (45) обработки, принимающий, в качестве вторых данных, первые выходные данные (69) или данные, извлекаемые из первых выходных данных (69). Первый блок (50) обработки содержит обуславливающий набор обучаемых слоев (71, 72, 73), выполненных с возможностью обработки целевых данных (12) для получения параметров (74, 75) обуславливающих признаков, и стилизующий элемент (77), выполненный с возможностью применения параметров (74, 75) обуславливающих признаков к первым данным (15, 59а) или к нормализованным первым данным (59, 76). Технический результат – повышение качества генерируемого аудиосигнала. 4 н. и 34 з.п. ф-лы, 7 ил.

Формула изобретения RU 2 823 016 C1

1. Генератор (10) аудиоданных, выполненный с возможностью формирования аудиосигнала (16) из входного сигнала (14) и целевых данных (12), причем целевые данные (12) представляют аудиосигнал (16), содержащий:

- первый блок (40, 50, 50a-50h) обработки, выполненный с возможностью приема первых данных (15, 59а), извлекаемых из входного сигнала (14), и вывода первых выходных данных (69), при этом первые выходные данные (69) содержат множество каналов (47), и

- второй блок (45) обработки, выполненный с возможностью приема первых выходных данных (69) или данных, извлекаемых из первых выходных данных (69), в качестве вторых данных,

- при этом первый блок (50) обработки содержит для каждого канала первых выходных данных:

- обуславливающий набор обучаемых слоев (71, 72, 73), выполненных с возможностью обработки целевых данных (12) для получения параметров (74, 75) обуславливающих признаков; и

- стилизующий элемент (77), выполненный с возможностью применения параметров (74, 75) обуславливающих признаков к первым данным (15, 59а) или к нормализованным первым данным (59, 76'); и

- при этом второй блок (45) обработки выполнен с возможностью комбинирования множества каналов (47) вторых данных (69) для получения аудиосигнала (16),

- при этом первый блок (40, 50, 50а-50k) обработки дополнительно содержит:

- дополнительный набор обучаемых слоев (61а, 62а, 61b, 62b), выполненных с возможностью обработки данных, извлекаемых из первых данных (15, 59, 59а, 59b), с использованием второй активирующей функции (63а, 64а, 63b, 64b),

- при этом вторая активирующая функция (63а, 64а, 63b, 64b) представляет собой стробированную активирующую функцию.

2. Генератор аудиоданных по п. 1, в котором обуславливающий набор обучаемых слоев состоит из одного или по меньшей мере двух сверточных слоев (71-73).

3. Генератор аудиоданных по п. 2, в котором первый сверточный слой (71-73) выполнен с возможностью свертывания целевых данных (12) или дискретизированных с повышением целевых данных для получения первых свернутых данных (71') с использованием первой активирующей функции.

4. Генератор аудиоданных по любому из пп. 1-3, в котором обуславливающий набор обучаемых слоев (71-73) и стилизующий элемент (77) представляют собой часть слоя весовых коэффициентов в остаточном блоке (50, 50a-50h) нейронной сети, содержащей один или более остаточных блоков (50, 50a-50h).

5. Генератор аудиоданных по любому из пп. 1-4, при этом генератор (10) аудиоданных дополнительно содержит нормализующий элемент (76), который выполнен с возможностью нормализации первых данных (59а, 15).

6. Генератор аудиоданных по любому из пп. 1-5, в котором аудиосигнал (16) представляет собой голосовой аудиосигнал.

7. Генератор аудиоданных по любому из пп. 1-6, в котором целевые данные (12) дискретизируются с повышением на коэффициент по меньшей мере 2.

8. Генератор аудиоданных по п. 7, в котором целевые данные (12) дискретизируются (70) с повышением посредством нелинейной интерполяции.

9. Генератор аудиоданных по любому из предшествующих пунктов, в котором дополнительный набор обучаемых слоев (61а, 62а, 61b, 62b) состоит из одного, или двух, или более сверточных слоев.

10. Генератор аудиоданных по любому из предшествующих пунктов, в котором вторая активирующая функция (63а, 63b) представляет собой стробированную гиперболическую тангенсную (TanH) функцию мягкого максимума.

11. Генератор аудиоданных по п. 3, в котором первая активирующая функция представляет собой функцию на основе текучих единиц линейной ректификации (текучих ReLu).

12. Генератор аудиоданных по любому из пп. 1-11, в котором операции (61а, 61b, 62а, 62b) свертки выполняются с максимальным коэффициентом растяжения, равным 2.

13. Генератор аудиоданных по любому из пп. 1-12, в котором первые данные (15, 59, 59а, 59b) имеют более низкую степень размерности, чем аудиосигнал.

14. Генератор аудиоданных по любому из пп. 1-13, в котором целевые данные (12) представляют собой спектрограмму.

15. Генератор аудиоданных по любому из пп. 1-14, в котором целевые данные (12) представляют собой мел-спектрограмму.

16. Генератор аудиоданных по любому из пп. 1-15, в котором целевые данные (12) представляют собой поток битов.

17. Генератор аудиоданных по любому из пп. 1-16, в котором целевые данные (12) представляют собой ухудшенный аудиосигнал.

18. Генератор аудиоданных по любому из предшествующих пунктов, в котором целевые данные (12) представляют собой сжатое представление аудиоданных.

19. Генератор аудиоданных по любому из пп. 4-10, в котором обуславливающий набор обучаемых слоев состоит из одного или по меньшей мере двух сверточных слоев (71-73), причем первый сверточный слой (71-73) выполнен с возможностью свертывания целевых данных (12) или дискретизированных с повышением целевых данных для получения первых свернутых данных (71') с использованием первой активирующей функции, причем первая активирующая функция представляет собой функцию на основе текучих единиц линейной ректификации (текучих ReLu).

20. Генератор (10) аудиоданных, выполненный с возможностью формирования аудиосигнала (16) из входного сигнала (14) и целевых данных (12), причем целевые данные (12) представляют аудиосигнал (16), содержащий:

- первый блок (40, 50, 50a-50h) обработки, выполненный с возможностью приема первых данных (15, 59а), извлекаемых из входного сигнала (14), и вывода первых выходных данных (69), при этом первые выходные данные (69) содержат множество каналов (47), и

- второй блок (45) обработки, выполненный с возможностью приема первых выходных данных (69) или данных, извлекаемых из первых выходных данных (69), в качестве вторых данных,

- при этом первый блок (50) обработки содержит для каждого канала первых выходных данных:

- обуславливающий набор обучаемых слоев (71, 72, 73), выполненных с возможностью обработки целевых данных (12) для получения параметров (74, 75) обуславливающих признаков; и

- стилизующий элемент (77), выполненный с возможностью применения параметров (74, 75) обуславливающих признаков к первым данным (15, 59а) или к нормализованным первым данным (59, 76'); и

- при этом второй блок (45) обработки выполнен с возможностью комбинирования множества каналов (47) вторых данных (69) для получения аудиосигнала (16), и содержащий восемь первых блоков (50a-50h) обработки и один второй блок (45) обработки.

21. Способ формирования аудиосигнала (16) посредством генератора (10) аудиоданных из входного сигнала (14) и целевых данных (12), причем целевые данные (12) представляют аудиосигнал (16), содержащий этапы, на которых:

- принимают посредством первого блока (50, 50a-50h) обработки первые данные (16559, 59а, 59b), извлекаемые из входного сигнала (14);

- для каждого канала первых выходных данных (59b, 69):

- обрабатывают целевые данные (12) посредством обуславливающего набора обучаемых слоев (71, 72, 73) первого блока (50) обработки для получения параметров (74, 75) обуславливающих признаков; и

- применяют параметры (74, 75) обуславливающих признаков к первым данным (15, 59) или к нормализованным первым данным (76') посредством стилизующего элемента (77) первого блока (50) обработки;

- выводят первые выходные данные (69), содержащие множество каналов (47), посредством первого блока (50) обработки;

- принимают первые выходные данные (69) или данные, извлекаемые из первых выходных данных (69), посредством второго блока (45) обработки в качестве вторых данных; и

- комбинируют множество каналов (47) вторых данных посредством второго блока (45) обработки для получения аудиосигнала (16),

причем способ дополнительно содержит этап, на котором:

- обрабатывают данные, извлекаемые из первых данных (15, 59а), посредством дополнительного набора обучаемых слоев (61а, 62а, 61b, 62b) первого блока (50) обработки с использованием второй активирующей функции (63а, 64а, 63b, 64b),

- при этом вторая активирующая функция (63а, 64а, 63b, 64b) представляет собой стробированную активирующую функцию.

22. Способ формирования аудиосигнала по п. 21, в котором обуславливающий набор обучаемых слоев (71-73) состоит из одного или двух сверточных слоев.

23. Способ формирования аудиосигнала по п. 22, в котором обработка посредством обуславливающего набора обучаемых слоев (71-73) содержит этап, на котором свертывают целевые данные (12) или дискретизированные с повышением целевые данные посредством первого сверточного слоя (71) для получения первых свернутых данных (71') с использованием первой активирующей функции.

24. Способ формирования аудиосигнала по любому из пп. 21-23, в котором обуславливающий набор обучаемых слоев (71-73) и стилизующий элемент (77) представляют собой часть слоя весовых коэффициентов в остаточном блоке (50, 50a-50h) нейронной сети, содержащей один или более остаточных блоков (50, 50a-50h).

25. Способ формирования аудиосигнала по любому из пп. 21-24, при этом способ дополнительно содержит этап, на котором нормализуют, посредством нормализующего элемента (76), первые данные (15, 59).

26. Способ формирования аудиосигнала по любому из пп. 21-25, в котором аудиосигнал (16) представляет собой голосовой аудиосигнал.

27. Способ формирования аудиосигнала по любому из пп. 21-26, в котором целевые данные (12) дискретизируются (70) с повышением на коэффициент 2.

28. Способ формирования аудиосигнала по любому из пп. 21-27, в котором целевые данные (12) дискретизируются (70) с повышением посредством нелинейной интерполяции.

29. Способ формирования аудиосигнала по любому из пп. 21-28, в котором дополнительный набор обучаемых слоев (61а, 62а, 61b, 62b) состоит из одного или двух сверточных слоев.

30. Способ формирования аудиосигнала по любому из пп. 21-29, в котором вторая активирующая функция (63а, 64а, 63b, 64b) представляет собой стробированную гиперболическую тангенсную (TanH) функцию мягкого максимума.

31. Способ формирования аудиосигнала по любому из пп. 21-30, в котором первая активирующая функция представляет собой функцию на основе текучих единиц линейной ректификации (текучих ReLu).

32. Способ формирования аудиосигнала по любому из пп. 21-31, в котором операции (61а, 62а, 61b, 62b) свертки выполняются с максимальным коэффициентом растяжения в 2.

33. Способ формирования аудиосигнала по любому из пп. 21-32, содержащий этап, на котором выполняют этапы первого блока (50, 50a-50h) обработки восемь раз и этапы второго блока (45) обработки один раз.

34. Способ формирования аудиосигнала по любому из пп. 21-33, в котором первые данные (15, 59) имеют более низкую степень размерности, чем аудиосигнал.

35. Способ формирования аудиосигнала по любому из пп. 21-34, в котором целевые данные (12) представляют собой спектрограмму или поток битов.

36. Способ по п. 35, в котором спектрограмма представляет собой мел-спектрограмму.

37. Способ формирования аудиосигнала по любому из пп. 21-36, в котором целевые данные представляют собой сжатое представление аудиоданных или целевые данные представляют собой ухудшенный аудиосигнал.

38. Постоянный носитель данных, на котором сохранены инструкции, которые при выполнении компьютером побуждают компьютер выполнять способ по любому из пп. 21-37.

Документы, цитированные в отчете о поиске Патент 2024 года RU2823016C1

CN 110060690 A, 26.07.2019
US 10068557 B1, 04.09.2018
CN 107220604 A, 29.09.2019
https://web.archive.org/web/20190216163625/https://en.wikipedia.org/wiki/Rectifier_(neural_networks)
Станок для придания концам круглых радиаторных трубок шестигранного сечения 1924
  • Гаркин В.А.
SU2019A1
US 2019065959 A1, 28.02.2019
US 20180338212 A1, 22.11.2018
Yusuf Dibal, P., Onwuka, E., Agajo, J., & Alenoghena, C
Станок для придания концам круглых радиаторных трубок шестигранного сечения 1924
  • Гаркин В.А.
SU2019A1
Analysis of Wavelet Transform

RU 2 823 016 C1

Авторы

Ахмед, Ахмед Мустафа Махмуд

Пиа, Никола

Фукс, Гийом

Мультрус, Маркус

Корсе, Срикантх

Гупта, Кишан

Бюте, Ян

Даты

2024-07-17Публикация

2021-10-13Подача