METHODS OF TRAINING MODEL AND VOICE CONVERSION AND DEVICE, OTHER DEVICE AND DATA MEDIUM Russian patent published in 2024 - IPC G10L13/02 G10L15/18

Abstract RU 2830834 C2

FIELD: computer engineering.

SUBSTANCE: invention relates to computer engineering for processing audio data. Result is achieved by steps of obtaining a first voice characteristic from any audio sample fragment using a voice extraction network in an initial voice conversion model; obtaining a first semantic characteristic based on a first voice characteristic and a linear spectrogram corresponding to the audio data sample using a voice removal network in the original voice conversion model, wherein the first semantic characteristic is a characteristic of the audio data sample, which is not associated with the speaker’s voice, but with semantic information; obtaining synthesized audio data based on a first semantic characteristic and a second voice characteristic of the target audio data corresponding to the audio data sample using a vocoder in the original voice conversion model; and obtaining a trained voice conversion model by training the initial voice conversion model based on the target audio data and the synthesized audio data corresponding to each audio data sample fragment.

EFFECT: high accuracy of content information of an initial audio signal during voice conversion.

18 cl, 8 dwg

Similar patents RU2830834C2

Title	Year	Author	Number
METHODS AND SERVERS FOR TRAINING MODEL TO DETECT SPEAKER CHANGE	2024	Gritskevich Evgenii Marianovich	RU2841235C1
UNCONTROLLED VOICE RESTORATION USING UNCONDITIONED DIFFUSION MODEL WITHOUT TEACHER	2023	Andreev Pavel Konstantinovich Iashchenko Anastasia Sergeevna Shchekotov Ivan Sergeevich Babaev Nicholas Andrew	RU2823017C1
AUDIO DATA GENERATOR AND METHODS OF GENERATING AUDIO SIGNAL AND TRAINING AUDIO DATA GENERATOR	2021	Ahmed, Ahmed Mustafa Mahmoud Pia, Nicola Fuchs, Guillaume Multrus, Markus Korse, Srikanth Gupta, Kishan Buethe, Jan	RU2823015C1
METHOD FOR SPEECH SYNTHESIS WITH TRANSMISSION OF ACCURATE INTONATION OF THE CLONED SAMPLE	2020	Tagunov Petr Vladimirovich Gonta Vladislav Aleksandrovich	RU2754920C1
AUDIO DATA GENERATOR AND METHODS OF GENERATING AUDIO SIGNAL AND TRAINING AUDIO DATA GENERATOR	2021	Ahmed, Ahmed Mustafa Mahmoud Pia, Nicola Fuchs, Guillaume Multrus, Markus Korse, Srikanth Gupta, Kishan Buethe, Jan	RU2823016C1
METHOD FOR DETERMINING PARKINSONIAN SIGNS BY VOICE USING ARTIFICIAL INTELLIGENCE	2023	Khasanova Diana Magomedovna Khasanov Ildar Akramovich Zalialova Zuleikha Abdullazianovna Sukhachev Pavel Sergeevich Smirnova Anna Sergeevna	RU2841464C2
TEXT-DEPENDENT VOICE CONVERSION METHOD	2010	Bredikhin Aleksandr Jur'Evich Petrovskij Aleksandr Aleksandrovich Sergejchev Nikolaj Evgen'Evich	RU2427044C1
METHOD FOR AUDIOVISUAL RECOGNITION OF PERSONAL PROTECTION EQUIPMENT ON HUMAN FACE	2022	Riumina Elena Vitalevna Markitantov Maksim Viktorovich Riumin Dmitrii Aleksandrovich Karpov Aleksei Anatolevich	RU2791415C1
METHOD AND SERVER FOR GENERATING MODIFIED AUDIO FOR VIDEO	2022	Kirichenko Vladimir Vladimirovich Petrenko Darya Pavlovna Panasyuk Artem Andreevich	RU2832236C2
METHOD AND SERVER FOR SPEECH SYNTHESIS IN TEXT	2015	Edrenkin Ilya Vladimirovich	RU2632424C2

RU 2 830 834 C2

Authors

Huang, Jiahong

Li, Yule

Xiang, Wei

Dates

2024-11-26—Published

2022-12-20—Filed