Предлагаемое изобретение относится к области выделения первичных признаков сигнала, в частности к области выделения основного тона речевого сигнала.
Известны способы выделения основного тона по временной или спектральной функции исходного сигнала.
В фильтровом методе выделения основного тона [М. А. Сапожков. Речевой сигнал в кибернетике и связи. - М.: Связьиздат, 1963. - 472 с.] исходный сигнал ограничивают фильтром нижних частот или полосовым фильтром так, что сигнал после фильтрации содержит, в основном, только основную гармонику сигнала. По отфильтрованному сигналу определяют главные максимумы, соответствующие моментам возбуждения речевого тракта. Метод не отслеживает быстрые изменения частоты основного тона, например на переходах между вокализированными и невокализированными звуками, требует точной установки частоты среза предварительного фильтра низких частот или полосового фильтра.
В методе Рабинера - Голда [В. Gold, L. Rabiner. Parallel processing techniques for estimating pitch period of speech in the time domain // J. Acoustic Soc. Am., 1969 - 46.- N 2 (Pt. 2). - P. 442 - 448] речевой сигнал ограничивают фильтром нижних частот с частотой среза в диапазоне 600 - 800 Гц, в отфильтрованном сигнале определяют расстояния между всеми максимумами сигнала, расстояния между всеми минимумами сигнала, расстояния между разностями минимумов и максимумов и затем определяют период по наибольшему количеству совпадений выделенных расстояний. Метод не определяет моменты возбуждения речевого тракта, имеет увеличенное количество ошибок при быстрых изменениях речевого сигнала.
В кепстральном методе выделения основного тона [A.М. Noll. Short-Time spectrum and "Cepstrum" techniques for vocal-pitch detection // J. Acoustic. Soc. Am. - 36. - N 2, 1955] получают широкополосный спектр сигнала путем прямого преобразования Фурье, логарифмируют спектр, выполняют обратное преобразование Фурье логарифмированного спектра по пику, полученного после обратного преобразования Фурье сигнала, расположенного в области допустимых значений периода основного тона, определяют период основного тона. Метод требует большого количества вычислений, он не определяет моменты возбуждения речевого тракта, имеет большое количество ошибок при резких изменениях входного сигнала, в том числе на переходах между вокализированными и невокализированными звуками, чувствителен к широкополосным помехам.
В автокорреляционном методе выделения основного тона [А. А. Пирогов. Устройство для автоматического выделения основного тона. - А. с. N 129 739 СССР. - Приор, от 08.06.58. - НКИ 21е 1/20 42е] определяют автокорреляционную функцию входного сигнала, по максимумам которой принимают решение о периоде основного тона. Автокорреляционный метод чувствителен к изменениям формы огибающей временной функции исходного сигнала, к изменениям формы сигнала от периода к периоду основного тона, имеет сбои на гармоники и субгармоники основного тона, не определяет моменты возбуждения речевого тракта, требует большого количества вычислений.
В алгоритме ЛЛК (Лобанова - Левин - Коваль) [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. С. Петербург. - С. Петербург, 1997. - С. 279] сначала определяют автокорреляцию сигнала, по ней находят наиболее вероятное значение периода основного тона, после этого пиковым методом определяют максимумы сигнала с учетом значения наиболее вероятного периода основного тона. Данный метод дает повышенное количество ошибок при резких изменениях основного тона, особенно на участках переходов между вокализированными и невокализированными звуками.
Из известных способов наиболее близким по технической сущности является пиковый способ выделения основного тона [L. О. Dolansky. Instantaneous pitch period indicator // J.Acoust. Sos. Am. - 27. - N 11, 1955. - P. 67 - 72], в котором определяют главные максимумы исходного сигнала путем последовательного поиска главного максимума, после определения главного максимума устанавливают интервал блокировки, в течение которого поиск максимума не производят, по окончании времени блокировки генерируют спадающий относительно последнего найденного главного максимума сигнал, в момент превышения исходным сигналом спадающего сигнала начинают поиск следующего главного максимума исходного сигнала, после чего процесс повторяется.
Указанный пиковый способ обладает рядом существенных недостатков. Он дает большие ошибки (сбои) в момент появления ложных максимумов после времени блокировки, сравнимых по величине с главными максимумами. Появление ложных максимумов объясняется следующими основными причинами:
1. Речевой сигнал есть нестационарный процесс. Если на стационарных участках его структура более или менее регулярна, то на переходных участках между фонемами, между паузами и речью он изменяется как по форме, так и по интенсивности. Количество ложных максимумов на нестационарных участках по сравнению со стационарными возрастает [Вокодерная телефония / Под ред. А.А. Пирогова. - М. : Связь, 1974. - 536 с.] из-за изменений спектра источника, из-за изменений формы речевого тракта и из-за нелинейных эффектов в источнике и речевом тракте.
2. Передаточная характеристика речевого тракта может подчеркивать высшие гармоники основного тона. Так фонема/и/ имеет максимум передаточной характеристики в области первой форманты F1 = 240 Гц. Если частота основного тона лежит в диапазоне 100 - 120 Гц, то вторая гармоника основного тона попадает в область первой форманты и подчеркивается. Подчеркнутая вторая гармоника вызывает сбои на удвоенную частоту основного тона.
3. В процессе речеобразования возможно появление дополнительных возбуждений речевого тракта внутри периода основного тона [J.N. Holmes. An investigation of the volume velocity waveform at the larinx during speech by means of inverse filter // Proc. Speech Cmmun. Seminar. - Stockholm, 1962. - Vol 1. - B4].
4. Ложные максимумы могут появляться из-за фазовых сдвигов между частотами формант [В. Б. Гитлин и др. Выбор интервала измерений частоты и ширины формант // Автоматическое распознавание слуховых образов: Тез. докл. и сообщ. 10 Всесоюзн. школы-семинара. - Тбилиси: Мецниереба, 1978. - С. 20 - 21].
5. Ложные максимумы могут появляться из-за внешних аддитивных помех.
Наличие ложных максимумов приводит к тому, что надежность выделения основного тона пиковым способом зависит от формы речеобразующего тракта. При изменениях формы исходного сигнала, в частности, на переходах между фонемами, на переходах между вокализированными и невокализированными звуками, на переходах от паузы к речи, количество ошибочных решений возрастает. Надежность выделения основного тона пиковым способом чувствительна к аддитивному шуму. Метод требует предварительной оценки наличия вокализации в исходном сигнале. Надежность метода снижается при наличии нелинейных ограничений типа предельного ограничения (клиппирования).
Целью предлагаемого изобретения является повышение надежности выделения основного тона исходного сигнала путем более надежного выделения главных максимумов, соответствующих основному возбуждению, когда форма исходного сигнала претерпевает существенные искажения формы, в том числе из-за появления ложных максимумов внутри периода основного тона.
Поставленная цель достигается тем, что в известном способе, в котором выделяют основные максимумы временной функции, после выделенного максимума в течение интервала блокировки поиск нового максимума не производят, а после интервала блокировки поиск нового максимума выполняют с использованием сигнала, снижающегося относительно выделенного максимума, для поиска каждого последующего максимума генерируют спадающий сигнал, максимальное значение которого в момент окончания времени блокировки превышает абсолютный максимум исходного сигнала на соответствующем периоде основного тона.
Кроме того, с целью упрощения генерации спадающего сигнала, исходный сигнал предварительно, до поиска максимумов, логарифмируют, а спадающий сигнал строят в виде линейно снижающегося сигнала. Время блокировки и скорость снижения спадающего сигнала адаптируют к текущему периоду основного тона. Исходный сигнал до логарифмирования сглаживают при помощи фильтра низких частот или полосового фильтра.
С целью обеспечения устойчивости корреляционного метода линейного предсказания, анализ речи корреляционным методом выполняют синхронно с основным тоном, интервал анализа определяют как интервал между отмеченными предлагаемым методом выделения основного тона главными максимумам исходного сигнала, а исходный сигнал на анализируемом интервале между выделенными максимумами умножают на спадающую экспоненту.
При принятии решения о наличии вокализации анализ исходного сигнала ведут внутри интервала между выделенными предлагаемым методом максимумами исходного сигнала.
Предлагаемый способ поясняется чертежами, где
на фиг. 1 приведена временная диаграмма, поясняющая алгоритм работы предлагаемого способа поиска основных максимумов исходного сигнала;
на фиг. 2 представлен перечень операций по предлагаемому способу;
на фиг. 3 приведена осциллограмма предложения с транскрипцией "Не видали мы такого невода", произнесенная диктором мужчиной VBG;
на фиг. 4 показан эталонный контур основного тона, полученный путем ручной обработки осциллограммы, представленной на фиг. 3;
на фиг. 5 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный пиковым методом при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 6 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный фильтровым методом при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 7 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный методом Рабинера - Голда при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 8 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный кепстральным методом при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 9 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный автокорреляционным методом при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 10 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный методом ЛЛК при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 11 показан контур основного тона осциллограммы, представленной на фиг. 3, полученный предлагаемым методом при стандартном наборе параметров, соответствующих мужскому голосу;
на фиг. 12 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого";
на фиг. 13 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный пиковым методом после подстройки параметров метода;
на фиг. 14 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный фильтровым методом после подстройки параметров метода;
на фиг. 15 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный методом Рабинера - Голда после подстройки параметров метода;
на фиг. 16 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный кепстральным методом после подстройки параметров метода;
на фиг. 17 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный методом ЛЛК после подстройки параметров метода;
на фиг. 18 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный автокорреляционным методом после подстройки параметров метода;
на фиг. 19 показан контур основного тона осциллограммы, представленной на фиг. 12, полученный предлагаемым методом с ручной корректировкой пауз;
на фиг. 20 приведена осциллограмма предложения с транскрипцией "Не видали мы такого невода", произнесенная диктором женщиной IGF;
на фиг. 21 показан эталонный контур основного тона, полученный путем ручной обработки осциллограммы, представленной на фиг. 20;
на фиг. 22 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный пиковым методом;
на фиг. 23 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный фильтровым методом;
на фиг. 24 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный методом Рабинера - Голда;
на фиг. 25 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный кепстральным методом;
на фиг. 26 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный автокорреляционным методом;
на фиг. 27 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный методом ЛЛК;
на фиг. 28 показан контур основного тона осциллограммы, представленной на фиг. 20, полученный предлагаемым методом;
на фиг. 29 приведена осциллограмма изолировано произнесенного слова "три", диктор мужчина VBG;
на фиг. 30 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный пиковым методом;
на фиг. 31 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный фильтровым методом;
на фиг. 32 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный методом Рабинера - Голда;
на фиг. 33 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный кепстральным методом;
на фиг. 34 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный автокорреляционным методом;
на фиг. 35 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный методом ЛЛК;
на фиг. 36 показан контур основного тона осциллограммы, представленной на фиг. 29, полученный предлагаемым методом;
на фиг. 37 приведена в увеличенном во времени масштабе осциллограмма перехода от смычки /т/ к звонкой /р/ - начало гласной /и/ для слова "три", показанного на фиг. 29;
на фиг. 38 показан контур основного тона осциллограммы, представленной на фиг. 37, полученный предлагаемым методом;
на фиг. 39 приведена в увеличенном во времени масштабе осциллограмма стационарного участка гласной /и/ для слова "три", показанного на фиг. 29;
на фиг. 40 показан контур основного тона осциллограммы, представленной на фиг. 39, полученный предлагаемым методом;
на фиг. 41 приведена в увеличенном во времени масштабе осциллограмма окончания гласной /и/ для слова "три", показанного на фиг. 29;
на фиг. 42 показан контур основного тона осциллограммы, представленной на фиг. 41, полученный предлагаемым методом;
на фиг. 43 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 40 дБ;
на фиг. 44 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный пиковым методом;
на фиг. 45 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный фильтровым методом;
на фиг. 46 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный методом Рабинера - Голда;
на фиг. 47 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный кепстральным методом;
на фиг. 48 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный автокорреляционным методом;
на фиг. 49 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный методом ЛЛК;
на фиг. 50 показан контур основного тона осциллограммы, представленной на фиг. 43, полученный предлагаемым методом;
на фиг. 51 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 30 дБ;
на фиг. 52 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный пиковым методом;
на фиг. 53 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный фильтровым методом;
на фиг. 54 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный методом Рабинера - Голда;
на фиг. 55 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный кепстральным методом;
на фиг. 56 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный автокорреляционным методом;
на фиг. 57 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный методом ЛЛК;
на фиг. 58 показан контур основного тона осциллограммы, представленной на фиг. 51, полученный предлагаемым методом;
на фиг. 59 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 20 дБ;
на фиг. 60 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный пиковым методом;
на фиг. 61 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный фильтровым методом;
на фиг. 62 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный методом Рабинера - Голда;
на фиг. 63 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный кепстральным методом;
на фиг. 64 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный автокорреляционным методом;
на фиг. 65 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный методом ЛЛК;
на фиг. 66 показан контур основного тона осциллограммы, представленной на фиг. 59, полученный предлагаемым методом;
на фиг. 67 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 10 дБ;
на фиг. 68 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный пиковым методом;
на фиг. 69 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный фильтровым методом;
на фиг. 70 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный методом Рабинера - Голда;
на фиг. 71 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный кепстральным методом;
на фиг. 72 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный автокорреляционным методом;
на фиг. 73 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный методом ЛЛК;
на фиг. 74 показан контур основного тона осциллограммы, представленной на фиг. 67, полученный предлагаемым методом;
на фиг. 75 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 5 дБ;
на фиг. 76 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный пиковым методом;
на фиг. 77 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный фильтровым методом;
на фиг. 78 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный методом Рабинера - Голда;
на фиг. 79 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный кепстральным методом;
на фиг. 80 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный автокорреляционным методом;
на фиг. 81 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный методом ЛЛК;
на фиг. 82 показан контур основного тона осциллограммы, представленной на фиг. 75, полученный предлагаемым методом;
на фиг. 83 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 0 дБ;
на фиг. 84 показан контур основного тона осциллограммы, представленной на фиг. 83, полученный пиковым методом;
на фиг. 85 показан контур основного тона осциллограммы, представленной на фиг. 83, полученный фильтровым методом;
на фиг. 86 показан контур основного тона осциллограммы, представленной на фиг. 83, полученный методом Рабинера - Голда;
на фиг. 87 показан контур основного тона осциллограммы, представленной на фиг. 83, полученный предлагаемым методом;
на фиг. 88 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого", отфильтрованая фильтром нижних частот с частотой среза 800 Гц;
на фиг. 89 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого" при соотношении сигнал / шум 0 дБ;
на фиг. 90 показан контур основного тона осциллограммы, представленной на фиг. 89, полученный предлагаемым методом;
на фиг. 91 приведена в увеличенном во времени масштабе осциллограмма перехода от смычки /д/ к гласной /а/ для слова "не видали", показанного на фиг. 88;
на фиг. 92 показан контур основного тона осциллограммы, представленной на фиг. 91, полученный предлагаемым методом;
на фиг. 93 приведена в увеличенном во времени масштабе осциллограмма перехода от гласной /а/ к сонорной /л/ и далее к гласной /и/ для слова "невидали", показанного на фиг. 88;
на фиг. 94 показан контур основного тона осциллограммы, представленной на фиг. 93, полученный предлагаемым методом;
на фиг. 95 приведена в увеличенном во времени масштабе осциллограмма перехода от сонорной /м/ к гласной /ы/ для слова "мы", показанного на фиг. 88;
на фиг. 96 показан контур основного тона осциллограммы, представленной на фиг. 95, полученный предлагаемым методом;
на фиг. 97 приведена в увеличенном во времени масштабе осциллограмма перехода от смычки /т/ к гласной /а/ и далее к смычке /к/ для слова "такого", показанного на фиг. 88;
на фиг. 98 показан контур основного тона осциллограммы, представленной на фиг. 97, полученный предлагаемым методом;
на фиг. 99 приведена в увеличенном во времени масштабе осциллограмма перехода от гласной /о/ к смычке /д/ для слова "невода", показанного на фиг. 88;
на фиг. 100 показан контур основного тона осциллограммы, представленной на фиг. 99, полученный предлагаемым методом;
на фиг. 101 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого";
на фиг. 102 показан контур основного тона осциллограммы, представленной на фиг. 101, полученный предлагаемым методом;
на фиг. 103 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого", сигнал ограничен на уровне 100 отсчетов;
на фиг. 104 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный пиковым методом;
на фиг. 105 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный фильтровым методом;
на фиг. 106 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный методом Рабинера - Голда;
на фиг. 107 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный кепстральным методом;
на фиг. 108 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный автокорреляционным методом;
на фиг. 109 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный методом ЛЛК;
на фиг. 110 показан контур основного тона осциллограммы, представленной на фиг. 103, полученный предлагаемым методом;
на фиг. 111 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого", сигнал ограничен на уровне 50 отсчетов;
на фиг. 112 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный пиковым методом;
на фиг. 113 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный фильтровым методом;
на фиг. 114 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный методом Рабинера - Голда;
на фиг. 115 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный кепстральным методом;
на фиг. 116 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный автокорреляционным методом;
на фиг. 117 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный методом ЛЛК;
на фиг. 118 показан контур основного тона осциллограммы, представленной на фиг. 111, полученный предлагаемым методом;
на фиг. 119 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т и /к/ в слове "такого", сигнал ограничен на уровне 10 отсчетов;
на фиг. 120 показан контур основного тона осциллограммы, представленной на фиг. 119, полученный предлагаемым методом;
на фиг. 121 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого", сигнал ограничен на уровне 5 отсчетов;
на фиг. 122 показан контур основного тона осциллограммы, представленной на фиг. 121, полученный предлагаемым методом;
на фиг. 123 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной VBG с марками пауз на интервалах смычек взрывных глухих фонем /т/ и /к/ в слове "такого", сигнал ограничен на уровне 1 отсчета;
на фиг. 124 показан контур основного тона осциллограммы, представленной на фиг. 123, полученный предлагаемым методом;
на фиг. 125 приведена в увеличенном во времени масштабе осциллограмма смычки /д/ для слова "не видали", показанного на фиг. 101;
на фиг. 126 приведена осциллограмма предложения "Не видали мы такого невода", произнесенная диктором мужчиной AIO;
на фиг. 127 приведена осциллограмма ресинтезированного сигнала фиг. 126 с использованием контура основного тона, полученного предлагаемым методом и параметрами, определяемыми корреляционным методом на периоде основного тона без умножения на окно;
на фиг. 128 приведена осциллограмма ресинтезированного сигнала фиг. 126 с использованием контура основного тона, полученного предлагаемым методом и параметрами, определяемыми корреляционным методом на периоде основного тона с умножением сигнала на экспоненциальное окно;
на фиг. 129 приведена картина формантных траекторий для сигнала, показанного на фиг. 126;
на фиг. 130 приведена картина формантных траекторий для сигнала, показанного на фиг. 127;
на фиг. 131 приведена картина формантных траекторий для сигнала, показанного на фиг. 128;
на фиг. 132 приведена осциллограмма слова "четыре", произнесенная диктором мужчиной AIO;
на фиг. 133 показан эталонный контур основного тона, полученный ручным способом, для осциллограммы, показанной на фиг. 132;
на фиг. 134 представлена осциллограмма сигнала, приведенного на фиг. 132 совместно с белым шумом при соотношении сигнал / шум С/Ш = 5 дБ;
на фиг. 135 приведена осциллограмма сигнала, показанного на фиг. 132, сглаженная секансным окном;
на фиг. 136 представлен контур основного тона, полученный предлагаемым методом по сглаженному сигналу, показанному на фиг. 135; на фиг. 137 приведена временная функция секансного окна;
на фиг. 138 приведена осциллограмма сигнала с шумом, показанная на фиг. 134, сглаженная секансным окном;
на фиг. 139 представлен контур основного тона, полученный предлагаемым методом по сглаженному сигналу, показанному на фиг. 138, при синхронном с основным тоном формированием признака ТОН/НЕ_ТОН;
на фиг. 140 представлен контур основного тона, полученный предлагаемым методом по сглаженному сигналу, показанному на фиг. 138, при асинхронном с основным тоном формировании признака ТОН/НЕ_ТОН;
на фиг. 141 показан контур основного тона осциллограммы, представленной на фиг. 134, полученный пиковым методом;
на фиг. 142 показан контур основного тона осциллограммы, представленной на фиг. 134, полученный кепстральным методом;
на фиг. 143 показан контур основного тона осциллограммы, представленной на фиг. 134, полученный методом Рабинера - Голда;
на фиг. 144 показан контур основного тона осциллограммы, представленной на фиг. 134, полученный фильтровым методом;
на фиг. 145 показан контур основного тона осциллограммы, представленной на фиг. 134, полученный методом ЛЛК;
на фиг. 146 показана осциллограмма сигнала, показанного на фиг. 132, после ограничения в полосе частот 300 - 3300 Гц (телефонный канал);
на фиг. 147 показана осциллограмма сигнала, полученного после сглаживания секансным окном сигнала, показанного на фиг. 146;
на фиг. 148 представлен контур основного тона, полученный предлагаемым методом по сглаженному сигналу, показанному на фиг. 147, при синхронном с основным тоном принятии решения ТОН/НЕ_ТОН;
на фиг. 149 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный пиковым методом;
на фиг. 150 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный кепстральным методом;
на фиг. 151 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный методом Рабинера - Голда;
на фиг. 152 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный фильтровым методом;
на фиг. 153 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный автокорреляционным методом;
на фиг. 154 показан контур основного тона осциллограммы, представленной на фиг. 146, полученный методом ЛЛК;
Работа алгоритма по предлагаемому способу пояснена на фиг. 1. Перечень операций по предлагаемому способу показан на фиг. 2. Исходный сигнал пропускают через фильтр низких частот (ФНЧ) с частотой среза в диапазоне от 600 до 1500 Гц (операция 1). ФНЧ повышает надежность выделения основного тона, хотя для ряда голосов не является обязательным.
Положительные значения исходного сигнала логарифмируют (операция 2). В предположении, что спадающий сигнал, путем сравнения с которым принимают решение о поиске следующего максимума, имеет экспоненциальный характер, операция логарифмирования входного сигнала позволяет выполнить операцию генерирования спадающего сигнала в виде линейно понижающегося сигнала. Переход к линейной форме спадающего сигнала позволяет упростить процедуру изменения параметров этого сигнала в процессе его адаптации к исходному входному сигналу. Основание логарифма выбирают так, чтобы обеспечить нормализацию прологарифмированного сигнала в пределах допустимого диапазона значений устройств обработки сигнала. Логарифм положительных значений исходного сигнала показан на фиг. 1 сплошными толстыми линиями.
При выполнении операции 3 ищут первый максимум исходного сигнала, который на фиг. 1 обозначен как A1. Этому максимуму соответствует маркер M1 на оси времени, отмечающий положение максимума A1 во времени.
На следующей операции 4 оценивают время блокировки поиска максимума по формуле
Tбл = Q*T0,
где Tбл - время блокировки принятия решений,
Q - коэффициент, меньший единицы и определяющий какую долю от периода основного тона должно составлять время блокировки,
T0 - период основного тона, оцененный на предшествующих этапах алгоритма.
При поиске первого максимума в качестве T0 принимают средний период основного тона исходного сигнала T0ср, оцененный, например, так, как это осуществлено в методе ЛЛК.
Операция 5. Оценивают положение и значение максимума спадающего сигнала. Положение максимума спадающего сигнала находят как
Bk=Mk+Tбл k,
где Bk - положение во времени максимума спадающего сигнала на k-м периоде основного тона,
Mk - марка k-го периода основного тона,
Tбл k - время блокировки k-го периода основного тона.
Максимумы спадающего сигнала определяют по формуле
Gmax k = Ak + D,
где Gmax k - максимумы спадающего сигнала на k-м периоде основного тона,
Ak - значение максимума сигнала, соответствующего марке Mk на k-м периоде основного тона,
D - значение приращения максимума спадающего сигнала, обеспечивающее надежное выделение последующего основного максимума исходного сигнала.
Значение приращения D определяют из статистики исходного сигнала на этапе предварительных экспериментов.
Операция 6. Определяют наклон спадающего сигнала. Для этого сначала находят наклон на участке Tбл, при предположении линейного нарастания сигнала от Ak до Gk:
Rk = D/Tбл k,
где Rk - наклон линейного нарастания на интервале Tбл k k-го периода основного тона.
Наклон спадающего сигнала на участке снижения определяют как
Lk = Rk*As,
где Lk наклон спадающего сигнала на участке снижения k-го периода основного тона,
As - коэффициент асимметрии, определяемый на основе статистики измерений периода основного тона в ходе предварительных экспериментов.
Операция 7. Генерируют спадающий сигнал в соответствии с формулой
Gk(t) = Gmax k - Lk(t - Bk),
где Gk (t) - значение спадающего сигнала в момент времени t,
t - текущее время,
Bk - положение во времени максимума спадающего сигнала на k-м периоде основного тона.
Операция 8. На каждом шаге определения спадающего сигнала проверяют условие
Gk(t) ≥ loga(s(t)),
где s(t) - исходный сигнал,
а - основание логарифма.
Если указанное условие выполнено, то продолжают определять Gk(t) для последующих значений t. Если указанное условие нарушено, то переходят к поиску следующего максимума. На фиг. 1 точка, соответствующая нарушению указанного условия для первого периода основного тона обозначена как C1, для второго - C2.
Операция 9. После оценки нарушения указанного выше условия переходят к поиску следующего основного максимума исходного сигнала. Для второго периода основного тона эта точка на фиг. 1 обозначена как A2, ей соответствует временная марка М2. По разности
Mk+1 - Мk = T0 k
определяют значение k-го периода основного тона. Если значение T0 k не выходит за допустимые пределы изменений периода основного тона, т.е. если
T
где Δ - допустимое относительное изменение периода основного тона, определяемое на основе статистики исходного сигнала в ходе предварительных экспериментов,
то при определении длительности времени блокировки для (k+1)-го периода основного тона Tбл k+1 значение T0 заменяют на T0 k, в противном случае значение T0 в формуле для определения Tбл оставляют неизменным.
Далее переходят к операции 4, и процесс оценки нового периода основного тона повторяется.
На фиг. 3 - 143 приведены результаты сравнительного анализа выделения основного тона предлагаемым методом и расматриваемыми аналогами (пиковый метод, фильтровой метод, метод Рабинера - Голда, кепстральный метод, автокорреляционный метод, метод ЛЛК). Методы-аналоги реализованы на установке STC-D 106.1 с использованием системы программного обеспечения SIS 4.0, разработанных и изготовленных фирмой "Центр речевых технологий" г. С. Петербург [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами /Центр речевых технологий. - С. Петербург, 1997] . Предлагаемый метод реализован в виде программ, написанных на языке Турбо- Паскаль, СИ и СИ++.
Во всех экспериментах использована частота квантования 10000 Гц. Все методы-аналоги работают по следующей схеме:
1. Отсечение низкоэнергетических участков сигнала. Для этого производится вычисление на каждом заданном по длительности кадре анализа сигнала среднего значения амплитуды сигнала и сопоставление вычисленного значения с порогом, задаваемым пользователем. Участки, среднее значение амплитуды на которых не превышает порог, принимают за паузы.
2. Отсечение высокочастотных шумовых участков сигнала. Для этого на каждом кадре анализа вычисляют среднее значение частоты пересечения нуля и сопоставляют вычисленное значение с порогом, задаваемым пользователем. Участки, среднее значение частоты пересечений нуля на которых превышает заданный порог, принимают за шум.
3. Определение значения периода основного тона.
4. Проверка степени периодичности сигнала для данного периода основного тона.
5. Принятие решения Тон/Не_тон.
6. Переход к следующему кадру.
Предлагаемый метод выделяет основной тон по сигналу без предварительного разделения сигнала на участки с низкой и высокой энергией, на участки шума и участки речи. Решение ТОН/НЕ_ТОН может быть принято после выделения контура основного тона, что позволяет дополнительно учесть информацию, имеющуюся в контуре основного тона и тем самым повысить надежность принятия решения ТОН/НЕ_ТОН.
В пиковом методе выделения основного тона, реализованном в программе SIS, на исходном сигнале выделяют кадры длительностью, например, 20 мс. Начало каждого следующего кадра анализа смещают на текущий период основного тона по сравнению с предыдущим кадром. На первом вокализированном сегменте речи ищут значение периода основного тона и начало каждого периода по максимуму амплитуды. Далее в области, отстоящей от максимума на текущее значение периода основного тона, ищут следующий максимум. Расстояние между максимумами принимают за новое значение основного тона на данном шаге. Для полученного значения основного тона считают коэффициент автокорреляции исходного сигнала и сравнивают с порогом. Если он превышает порог, то кадр считается вокализированным и основной тон полагают определенным, если нет, то шумовым. Метод очень чувствителен к установкам параметров [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 276].
В фильтровом методе сигнал до начала анализа пропускают через узкополосный фильтр. Для мужских голосов полоса пропускания фильтра составляет 50 - 250 Гц, для женских - 70 - 450 Гц. Далее выполняют анализ, аналогичный пиковому методу. Метод часто не работоспособен для сигналов с подавленным диапазоном низких частот [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 278].
Краткое описание алгоритма Рабинера - Голда дано выше. При этом проводят отбрасывание слишком маленьких пиков в окрестности больших и проводят оценку пиков временного сигнала по ширине и амплитуде для поиска только достаточно похожих пиков. Полученные три текущие оценки длительности периодов основного тона рассматривают совместно для текущего, предыдущего и последующего периодов основного тона. Все оценки сравнивают и за оценку текущего периода основного тона принимают ту, которая чаще всего встречается в данной совокупности оценок основного тона. Схема работы алгоритма соответствует схеме пикового метода [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 278].
В кепстральном методе выделения основного тона для определения кепстра выполняют обратное преобразование Фурье комплексного логарифма спектра мощности сигнала на кадре анализа на основе алгоритма БПФ. Длительность анализируемого кадра должна превышать длительность по крайней мере двух наиболее длинных периодов основного тона и быть кратной степени двух, что для мужских голосов обычно составляет 51,2 мс и для женских 25,6 мс. Исходный сигнал умножают на окно Ханна или Хэминга. Сдвиг кадра анализа задают в пределах 1/16 - 1/4 длины кадра анализа. Для повышения надежности выделения основного тона может быть использовано подчеркивание кепстра в области больших его значений. Для каждого анализируемого кадра полученный кепстр исследуется с целью поиска пика в области возможных значений основного тона. В отличие от пикового метода основной тон определяется в среднем для кадра анализа, что приводит к сглаженности траектории основного тона. В остальном схема работы алгоритма соответствует схеме пикового метода [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 276].
В автокорреляционном методе выделения основного тона в области предполагаемого значения периода основного тона вычисляют автокорреляционную функцию и ищут ее максимум. Величину максимума сравнивают с порогом и принимают решение о действительной вокализированности сегмента. В случае положительного решения положение максимума автокорреляционной функции принимают за значение периода основного тона. В остальном схема работы алгоритма соответствует схеме пикового метода [Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 277].
При выделении основного тона по методу ЛЛК для вокализированных участков вычисляют автокорреляцию с окном 20 мс. По 15 последовательно вычисленным значениям автокорреляции делают предположение о величине периода основного тона. Зная предполагаемое значение периода основного тона пиковый выделитель основного тона формирует окончательный результат Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. - С. Петербург, 1997. - С. 279].
При выделении основного тона методами-аналогами в программе SIS использованы следующие параметры для сигнала и шума.
Параметры для сигнала.
а). Размер кадра - требуемая длительность кадра анализа в отсчетах.
б). Начальная частота основного тона (F) - значение частоты основного тона на каждом переходе от шумового участка к вокализированному. Первое значение частоты основного тона при каждом переходе от шумового участка к вокализированному ищут на интервале от F-ID до F+ID, где ID - значение начальной гладкости.
в). Гладкость мелодической кривой (в отсчетах) - устанавливает максимально возможный интервал изменения текущего периода основного тона по отношению к предыдущему периоду.
г). Начальная гладкость мелодической кривой (в отсчетах) - устанавливает максимально возможный интервал, в котором ищут первое значение основного тона на каждом переходе от шумового участка к вокализированному.
д). Абсолютный минимум частоты основного тона (Гц) - значение основного тона, ниже которого основной тон не ищут.
е). Абсолютный максимум частоты основного тона - значение основного тона, выше которого основной тон не ищут.
Параметры для шума и паузы.
а). Размер кадра для анализа шума и пауз - определяет длину кадра анализа при принятии решения (по энергии и частоте пересечений нуля) является ли кадр вокализированным, шумом или паузой.
б). Сдвиг кадра для анализа шума и пауз - устанавливает размер сдвига кадра во времени при классификации кадра как шумного или паузы.
в). Порог для определения паузы - определяет пороговое значение амплитуды. Кадр с амплитудой ниже порога относят к паузе.
г). Порог для определения частоты пересечения нуля для определения шума (Гц). Сигнал в кадре анализа с частотой пересечения нулевого уровня выше порога считают шумом.
д). Параметр выраженности автокорреляции. При вычислении основного тона для каждого полученного значения основного тона вычисляют коэффициент автокорреляции и сравнивают с порогом. Если он превышает порог, то кадр относят к вокализированным и основной тон считают определенным, если нет - то кадр считают шумовым.
Указанные параметры требуют предварительного анализа исходного сигнала и во многих случаях форма полученного контура основного тона критична к выбору параметров для шума и паузы.
На фиг. 3 приведена осциллограмма предложения "Не видали мы такого невода", произнесенного диктором мужчиной (VBG), на фиг. 4 эталонный контур основного тона для указанной фразы. Эталонный контур получен ручным способом по осциллограмме. За начало периода основного тона брали момент пересечения нуля главным лепестком, соответствующим началу возбуждения речевого тракта. Такой подход позволяет более точно определить начало периода основного тона, поскольку часто главный максимум на периоде основного тона выражен не очень определенно.
На фиг. 5 - 10 показаны контуры основного тона, выделенные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом и методом ЛЛК соответственно при стандартном для мужчин наборе параметров. Стандартный набор параметров для мужского голоса приведен в табл. 1. Видно, что лишь метод ЛЛК обеспечил удовлетворительное качество выделения траектории основного тона.
На фиг. 11 показана траектория основного тона, полученная предлагаемым методом при следующих параметрах: частота среза фильтра низких частот 1500 Гц, начальная частота основного тона 120 Гц, допустимое изменение периода основного тона Δ = 0,5, величина приращения спадающего сигнала относительно выделенного максимума D = 200 при условии нормировки сигнала на уровне не более 2048 отсчетов, коэффициент времени блокировки Q = 0,5, коэффициент асимметрии As = 1.8, допустимая максимальная частота основного тона Fmax = 500 Гц. В последующих экспериментах указанные параметры оставались неизменными, за исключением некоторых случаев, которые будут указаны отдельно. Выделение пауз выполнено вручную. Из фиг. 11 видно, что предлагаемый метод обеспечивает качественное выделение траектории основного тона для мужского голоса, не худшее, чем в методе ЛЛК.
На фиг. 12 показана та же осциллограмма, что и на фиг. 3, но с уточненным положением марок, соответствующих паузам.
На фиг. 13 - 19 приведены контуры основного тона указанного предложения, выделенные после подстройки параметров пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры, полученные после подстройки, показаны в табл.2. Параметры предлагаемого метода не изменялись.
После подстройки параметров удалось добиться существенного повышения качества выделенных контуров. Наилучшее выделение контуров среди методов-аналогов получено для кепстрального метода и метода ЛЛК. Качество выделения контура основного тона предлагаемым методом не хуже, чем в методах-аналогах. Ни один из методов аналогов не обеспечил правильного выделения траектории основного тона для короткой гласной /а/, расположенной между смычками /т/ и /к/ в слове "такого".
На фиг. 20 приведено произнесение предложения "Не видали мы такого невода" диктором женщиной (ИГФ). На фиг. 21 представлен эталонный контур основного тона, полученный ручным способом по осциллограмме. На фиг. 22 - 28 показаны контуры основного тона указанного предложения, выделенные после подстройки параметров пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры, полученные после подстройки, показаны в табл. 3. Параметры предлагаемого метода не изменялись кроме начальной частоты основного тона, которая взята равной 240 Гц. Выводы относительно качества выделения основного тона методами-аналогами и предлагаемым методом аналогичны выводам, сделанным для мужского голоса. На фиг. 29 приведена осциллограмма слова "три", произнесенного изолированно диктором мужчиной (VBG). На фиг. 30 - 36 показаны контуры основного тона указанного слова, выделенные после подстройки параметров пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры, полученные после подстройки, показаны в табл. 4. Параметры предлагаемого метода соответствуют параметрам, использованным при выделении основного тона предложения "Не видали мы такого невода", произнесенного диктором VBG.
Анализ полученных на фиг. 30 - фиг. 36 контуров показывает, что ни один из методов-аналогов не обеспечил правильного выделения контура основного тона на переходе от смычки /т/ к звонкой /р/. Для доказательства соответствия контура основного тона, полученного предлагаемым методом, истинному контуру основного тона на фиг. 37, фиг. 39 и фиг. 41 представлены в увеличенном во времени масштабе отфильтрованные фильтром низких частот с частотой среза 1500 Гц осциллограммы отдельных участков слова "три", а на фиг. 38, фиг. 40 и фиг. 42 - соответствующие им контуры основного тона, полученные предлагаемым методом. Из этих фигур видно, что предлагаемый метод обеспечил правильную простановку марок в началах возбуждения речевого тракта, как на переходных, так и на стационарных участках произнесения.
На фиг. 43 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 40 дБ. Соотношение определяли на участках сигнала с максимальной энергией. На фиг. 44 - 50 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 40 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для произнесения без шума, показаны в табл. 5. Параметры методов-аналогов, полученные после подстройки для произнесения с добавленным шумом при С/Ш = 40 дБ, показаны в табл. 6 Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись. Выводы относительно качества выделения основного тона методами-аналогами и предлагаемым методом аналогичны выводам, сделанным для произнесения без шума при анализе осциллограммы, показанной на фиг. 3.
На фиг. 51 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 30 дБ. На фиг. 52 - 58 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 30 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для произнесения с шумом при С/Ш = 30 дБ, показаны в табл. 7. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись.
Можно отметить появление ошибок при определении основного тона всеми без исключения методами. Наихудшие результаты показал автокорреляционный метод (фиг. 57). Лучше всего работали кепстральный метод (фиг. 55), метод ЛЛК (фиг. 57) и предлагаемый метод (фиг. 58). И в этом случае можно отдать предпочтение предлагаемому методу. Его ошибки, в основном, расположены в области фонемы /а/ между двумя смычками /т/ и /к/ слова "такого". Указанный участок методами-аналогами во всех случаях обработан с ошибками.
На фиг. 59 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 20 дБ. На фиг. 60 - 66 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 20 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для произнесения с шумом при С/Ш = 20 дБ, показаны в табл. 8. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись.
Количество ошибок во всех методах по сравнению с произнесением при С/Ш = 30 дБ возросло, но незначительно. Снова наихудшие результаты показал автокорреляционный метод (фиг. 64). Из фиг. 66 следует, что и при С/Ш = 20 дБ можно отдать предпочтение предлагаемому методу, хотя и можно отметить появление небольшого количества дополнительных ошибок на интервале смычки /д/ в слове "невода".
На фиг. 67 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 10 дБ. На фиг. 68 - 74 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 10 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для произнесения с шумом при С/Ш = 10 дБ, показаны в табл. 9. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись кроме частоты среза фильтра низких частот, которая взята равной 800 Гц.
Количество ошибок во всех методах по сравнению с произнесением при отсутствии шума возросло. Во всех методах-аналогах потерян участок окончания произнесения, появились ошибки на фонеме /н/ в слове "невода". В пиковом, фильтровом, автокорреляционном методе и в методе ЛЛК есть ошибки на переходе от /и/ к /м/ в сочетании слов "не видали мы". Во всех методах аналогах участок короткой /а/ между смычными /т/ и /к/ обработан с большими ошибками. Изрезанность контура основного тона, полученного предлагаемым методом, возросла, количество ошибок на участке смычки /д/ из слова "не видали" также увеличилось. Однако только предлагаемый метод в целом правильно получил траекторию основного тона, в том числе и на участке окончания произнесения и на короткой /а/ между смычками /т/ и /к/.
На фиг. 75 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 5 дБ. На фиг. 76 - 82 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 5 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для произнесения с шумом при С/Ш = 5 дБ, показаны в табл. 10. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись кроме частоты среза фильтра низких частот, которая взята равной 800 Гц.
Количество ошибок во всех методах по сравнению с произнесением при отсутствии шума существенно возросло. Во всех методах-аналогах потеряны участки начала и окончания произнесения, имеются многочисленные ошибки на переходах между фонемами.
Количество ошибок выделения основного тона предлагаемым методом также возросло, можно отметить переход на половинную частоту основного тона в начале произнесения, повышенную изрезанность и повышенное количество ошибок в конце произнесения. Однако предлагаемый метод в целом обеспечил правильное слежение за траекторией основного тона на протяжении всего произнесения.
На фиг. 83 приведено произнесение предложения "Не видали мы такого невода" диктором VBG с добавленным белым шумом при соотношении сигнал/шум С/Ш = 0 дБ. На фиг. 84 - 87 показаны контуры основного тона указанного произнесения с шумом при С/Ш = 0 дБ, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда и предлагаемым методом соответственно. Кепстральный метод, автокорреляционный метод и метод ЛЛК оказались полностью неработоспособны. Параметры методов-аналогов, полученные после подстройки для произнесения с шумом при С/Ш = 0 дБ, показаны в табл. 11. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и не изменялись кроме частоты среза фильтра низких частот, которая взята равной 800 Гц.
Количество ошибок выделения основного тона предлагаемым методом по сравнению со случаем соотношения С/Ш = 5 дБ возросло особенно в конце произнесения. Однако предлагаемый метод, в целом, несмотря на столь низкое соотношение С/Ш, обеспечил приемлемое слежение за траекторией основного тона на протяжении всего произнесения, в то время как методы-аналоги оказались практически неработоспособны.
Для доказательства правильности работы предлагаемого метода при соотношении С/Ш = 0 дБ на фиг. 88 показан исходный сигнал после фильтра низких частот с частотой среза 800 Гц, на фиг. 89 - исходный сигнал с шумом при С/Ш = 0 дБ, на фиг. 90 - контур основного тона, полученный для зашумленного сигнала при С/Ш = 0 дБ, на фиг. 91 - 100 - осциллограммы сигнала, показанного на фиг. 88, и контура основного тона, показанного на фиг. 90, в увеличенном во времени масштабе.
На фиг. 91 и 92 показана осциллограмма перехода от смычки /д/ к гласной /а/ и стационарная часть /а/ из слова "не видали" и соответствующий контур основного тона, полученный предлагаемым методом по зашумленному сигналу. Во всех случаях марки соответствуют моментам возбуждения речевого тракта.
На фиг. 93 и 94 показана осциллограмма перехода от к гласной /а/ к сонорной /л/ далее к гласной /и/ из слова "не видали" и соответствующий контур основного тона, полученный предлагаемым методом по зашумленному сигналу. Можно отметить ошибки простановки марок на /л/, имеющей относительно низкий уровень интенсивности. Однако переход к /и/ вновь обработан правильно.
На фиг. 95 и 96 показана осциллограмма перехода от сонорной /м/ к гласной /ы/ из слова "мы" и соответствующий контур основного тона, полученный предлагаемым методом по зашумленному сигналу. Можно отметить две ошибки простановки марок на /м/, что дало подъем контура основного тона. Из фиг. 95 видно, что даже на незашумленном сигнале на периоде основного тона в /м/ имеются повторные максимумы, сравнимые по амплитуде с основными, что и привело к сбоям на сигнале с шумом. Однако на переходе к /ы/ марки проставлены правильно.
На фиг. 97 и 98 показана осциллограмма гласной /а/, расположенной между смычками /т/ и /к/ в слове "такого" и соответствующий контур основного тона, полученный предлагаемым методом по зашумленному сигналу. Во всех случаях марки на гласной /а/ проставлены правильно. На фиг. 99 и 100 показана осциллограмма перехода от гласной /о/ к смычке /д/ в слове "невода" и соответствующий контур основного тона, полученный предлагаемым методом по зашумленному сигналу. Видно, что несмотря на то, что марки не везде соответствуют моментам возбуждения речевого тракта, периодичность основного тона на рассматриваемом участке произнесения сохранена.
При дальнейшем снижении соотношения С/Ш предлагаемый метод оказался неработоспособным. В целом можно утверждать, что предлагаемый метод обеспечивает выделение траектории основного тона при соотношении С/Ш не менее чем на 5 дБ ниже по сравнению с методами аналогами.
На фиг. 101 и 102 показана осциллограмма произнесения диктором VBG предложения "Не видали мы такого невода" и контур основного тона, полученный предлагаемым методом, соответственно.
Данный контур в приводимых ниже экспериментах принят за эталонный. Максимальный уровень сигнала на фиг. 101 равен 819 отсчетов.
На фиг. 103 представлена осциллограмма сигнала, полученного из сигнала, показанного на фиг. 101, путем ограничения последнего на уровне 100 отсчетов. На фиг. 104 - 110 показаны контуры основного тона указанного произнесения при ограничении на уровне 100 отсчетов, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для сигнала, ограниченного на уровне 100 отсчетов, показаны в табл. 12. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и оставались неизменными. Из фиг. 104 - 110 следует, что все представленные методы для сигнала, ограниченного на уровне 100 отсчетов, обеспечили удовлетворительное качество выделения основного тона.
На фиг. 111 представлена осциллограмма сигнала, полученного из сигнала, показанного на фиг. 101, путем ограничения последнего на уровне 50 отсчетов. На фиг. 112 - 118 показаны контуры основного тона указанного произнесения при ограничении на уровне 50 отсчетов, полученные пиковым методом, фильтровым методом, методом Рабинера - Голда, кепстральным методом, автокорреляционным методом, методом ЛЛК и предлагаемым методом соответственно. Параметры методов-аналогов, полученные после подстройки для сигнала, ограниченного на уровне 50 отсчетов, показаны в табл. 13. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и оставались неизменными. Из фиг. 112 - 117 следует, что все представленные методы, кроме автокорреляционного, обеспечили удовлетворительное качество выделения основного тона. Можно отметить появление отдельных ошибок на всех методах, кроме кепстрального. Предлагаемый метод (фиг. 118) сохранил свой контур неизменным.
При дальнейшем снижении уровня ограничения методы-аналоги оказались неработоспособными. Предлагаемый метод, тем не менее обеспечил надежное выделение контура основного тона вплоть до предельного уровня ограничения в 1 отсчет. На фиг. 119 -124 показаны осциллограммы сигналов и соответствующие им контуры основного тона, полученные предлагаемым методом для уровней ограничения 10 отсчетов, 5 отсчетов и 1 отсчет. Для иллюстрации наличия периодичности основного тона на участке смычки /д/ из слова "не видали" на фиг. 125 показан исходный сигнал в увеличенном во времени масштабе. Во всех случаях параметры предлагаемого метода оставались неизменными.
Предлагаемый метод относится к локальным методам, т.е. он определяет момент возбуждения на каждом периоде основного тона. Указанное свойство предлагаемого метода позволяет вести анализ речевого сигнала на периоде основного тона и получить дополнительные полезные эффекты.
Известно [Дж. Д. Маркел, А.X. Грэй. Линейное предсказание речи. - М.: Связь, 1980. - 308 с.], что корреляционный метод линейного предсказания не обеспечивает устойчивости решения в процессе вычисления коэффициентов линейного предсказания. На фиг. 126 приведена осциллограмма произнесения предложения "Не видали мы такого невода", произнесенного диктором мужчиной AIO. На указанной осциллограмме предлагаемым методом проставлены марки начал возбуждений речевого тракта. Параметры предлагаемого метода основного тона полностью идентичны параметрам, использованным при выделении сигнала, показанного на фиг. 3 (диктор VBG). После простановки марок синхронно с основным тоном выполнен анализ корреляционным методом линейного предсказания 12 порядка. Число отсчетов в каждой рамке анализа соответствует длине одного периода основного тона (от одной марки до следующей). Ресинтезированный сигнал указанного произнесения показан на фиг. 127. На фиг. 127 отчетливо видны моменты неустойчивых решений в моменты перехода от смычных к вокализированным звукам.
Предлагаемый метод позволяет устранить указанный недостаток. Для этой цели каждый период основного тона в пределах между двумя последовательными марками умножают на экспоненциально затухающее окно. Показатель степени затухания экспоненты выбирают так, чтобы обеспечить устойчивость решения корреляционного метода. На этапе ресинтеза, с целью восстановления сигнала, полученный на основе коэффициентов линейного предсказания ресинтезированный сигнал умножают на нарастающую экспоненту с соответствующим этапу анализа показателем степени. Пример ресинтезированного таким образом сигнала представлен на фиг. 128. Из фиг. 128 следует, что предлагаемый метод обработки сигнала обеспечивает устойчивость решения при использовании корреляционного метода линейного предсказания.
Эксперименты по прослушиванию ресинтезированного сигнала показали, что он обладает хорошим качеством и разборчивостью. На фиг. 129, 130 и 131 представлены траектории формант исходного сигнала, ресинтезированного без умножения на экспоненту сигнала и ресинтезированного с использованием умножения на экспоненту сигнала соответственно. Можно отметить, что на большей части произнесения формантная структура в целом сохранена для обоих типов ресинтезированного сигнала.
Сигнал, смешанный с шумом, в значительной степени теряет свою периодичность, связанную с основным тоном. Для подчеркивания указанной периодичности предлагается методом скользящего среднего сглаживать сигнал, умноженный на временное окно. В качестве временного окна использовано окно sch(t). На фиг. 135 - 138 показаны осциллограмма слова "четыре", произнесенная диктором мужчиной AIO; эталонный контур основного тона, для указанного слова, построенный ручным способом; осциллограмма сигнала этого слова с добавленным шумом при С/Ш = 5 дБ; осциллограмма сглаженного секансным окном и нормализованного сигнала без шума; контур основного тона, построенный по сглаженному сигналу без шума предлагаемым методом; временная функция секансного окна и сглаженный секансным окном сигнал с шумом. Ширина секансного окна по уровню 0,05 от максимума взята равной 0,67 от среднего периода основного тона. Параметры предлагаемого метода оставались неизменными.
Из сравнения фиг. 132 и 135, фиг. 134 и 138 видно, что сглаживание секансным окном обеспечивает подчеркивание периодичности, связанной с основным тоном при одновременном упрощении формы обрабатываемого сигнала. Контур основного тона, полученный для сглаженного сигнала без шума (фиг. 136), соответствует эталонному контуру (фиг. 133).
Предлагаемый метод проставляет марки в моменты времени, соответствующие моментам возбуждения речевого тракта. Простановка этих марок позволяет вести анализ признаков речевого сигнала синхронно с основным тоном в пределах одного периода основного тона. Параметры речеобразующего тракта на одном периоде основного тона существенно не меняются, что позволяет повысить точность и надежность измерения этих параметров. Проведены эксперименты по оценке точности принятия решения ТОН/НЕ_ТОН на основе поведения трех признаков: 1) энергия, 2) частота пересечения нуля и 3) первый коэффициент линейного предсказания. Решение принимали синхронно и асинхронно с основным тоном. В случае принятия решения синхронно с основным тоном указанные параметры измеряли на сигнале между двумя последовательными марками и по превышению экспериментально установленных порогов совместно по трем признакам принимали решение о наличии или отсутствии вокализации на данном интервале времени. В случае асинхронного анализа решение ТОН/НЕ_ТОН принимали на кадре анализа длительностью 20 мс. Далее кадр анализа сдвигали на 1 мс и вновь выполняли процедуру принятия решения ТОН/НЕ_ТОН. Построенные предлагаемым методом контуры основного тона по сглаженному зашумленному сигналу (фиг. 138) в случае синхронного и асинхронного принятия решения ТОН/НЕ_ТОН показаны на фиг. 139 и 140 соответственно. Из сравнения этих контуров с эталонным контуром основного тона (фиг. 133) видно, что синхронное с основным тоном принятие решения ТОН/НЕ_ТОН обеспечивает меньшее количество ошибок.
На фиг. 141 - 145 представлены контуры основного тона сигнала с шумом, показанного на фиг. 134, полученные пиковым методом, кепстральным методом, методом Рабинера - Голда, фильтровым методом и методом ЛЛК соответственно. Параметры методов-аналогов, полученные после подстройки для сигнала с шумом при С/Ш = 5 дБ, показаны в табл. 14. Параметры предлагаемого метода соответствуют произнесению мужского голоса (фиг. 3) и оставались неизменными кроме коэффициента асимметрии As, который повысили с 1,8 до 2.0. Из фиг. 141 - 145 следует, что все представленные методы обеспечили худшее качество принятия решения ТОН/НЕ_ТОН по сравнению с синхронным с основным тоном принятием решения ТОН/НЕ_ТОН на основе предлагаемого метода. Автокорреляционный метод вообще оказался неработоспособным.
На фиг. 146 показан сигнал телефонного канала, полученный путем пропускания сигнала, показанного на фиг. 132, через полосовой фильтр с частотами среза 300 - 3300 Гц. В качестве полосового фильтра использован фильтр Баттерворта восьмого порядка. Из фиг. 146 видно, что подавление диапазона первой гармоники основного тона приводит к подавлению информации об основном тоне в сигнале.
Операция сглаживания секансным окном телефонного сигнала позволяет восстановить информацию об основном тоне. Как и для зашумленного сигнала, сглаживание секансным окном выполнено после операции фильтрации перед операцией логарифмирования. Ширина секансного окна по уровню 0,05 от максимума взята равной 0,67 от среднего периода основного тона. Нормализованный и сглаженный секансным окном телефонный сигнал показан на фиг. 147. Из фиг. 147 видно, что сглаживание секансным окном действительно позволяет в существенной мере восстановить информацию об основном тоне.
Контур основного тона, полученный по телефонному сигналу, сглаженному секансным окном (фиг. 147), показан на фиг. 148. Решение ТОН/НЕ_ТОН выполнено синхронно с основным тоном. Параметры предлагаемого метода оставались неизменными, кроме коэффициента асимметрии, который взят равным 2,6. Из сравнения с эталонным контуром (фиг. 133) видно, что и в этом случае предлагаемый метод обеспечил удовлетворительное качество выделения основного тона, хотя можно отметить ошибки в начале и в конце вокализации.
На фиг. 149 - 154 представлены контуры основного тона для телефонного сигнала, показанного на фиг. 146, полученные пиковым методом, кепстральным методом, методом Рабинера - Голда, фильтровым методом, автокорреляционным методом и методом ЛЛК соответственно. Параметры методов-аналогов для телефонного сигнала, показаны в табл. 15. Из сравнения с эталоном (фиг. 133) контуров, показанных на фиг. 149 - 151, видно, что пиковый метод, кепстральный метод и метод Рабинера - Голда обеспечили удовлетворительное качество выделения основного тона по телефонному сигналу, хотя некоторые особенности контура и были потеряны. И в этих условиях контур, полученный предлагаемым методом, является предпочтительным. Фильтровой метод, автокорреляционный метод и метод ЛЛК (фиг. 152 - 154) показали довольно большое количество ошибок.
ЛИТЕРАТУРА
1. М. А. Сапожков. Речевой сигнал в кибернетике и связи. - М.: Связьиздат, 1963. - 472 с.
2. В. Gold, L. Rabiner. Parallel processing techniques for estimating pitch period of speech in the time domain // J. Acoustic Soc. Am., 1969 - 46. - N 2 (Pt. 2). - P. 442 - 448.
3. A.М. Noll. Short-Time spectrum and "Cepstrum" techniques for vocal-pitch detection // J. Acoustic. Soc. Am. - 36. - N 2, 1955.
4. А.А. Пирогов. Устройство для автоматического выделения основного тона. - А.с. N 129739 СССР. - Приор. от 08.06.58. - НКИ 21е 1/20 42е.
5. Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами / Центр речевых технологий. С. Петербург. - С. Петербург, 1997. - 394 с.
6. L.О. Dolansky. Instantaneous pitch period indicator // J.Acoust. Sos. Am. - 27. - N 11, 1955. - P. 67 - 72 (прототип).
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ ГИБРИДНОЙ ГЕНЕРАТИВНО-ДИСКРИМИНАТИВНОЙ СЕГМЕНТАЦИИ ДИКТОРОВ В АУДИО-ПОТОКЕ | 2013 |
|
RU2530314C1 |
СПОСОБ ВЕРИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ НА ОСНОВЕ АНАТОМИЧЕСКИХ ПАРАМЕТРОВ ЧЕЛОВЕКА | 2010 |
|
RU2421699C1 |
СИСТЕМА И СПОСОБ РАСПОЗНАВАНИЯ РЕЧИ | 2011 |
|
RU2466468C1 |
СПОСОБ ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО ПО ФОНОГРАММАМ ПРОИЗВОЛЬНОЙ УСТНОЙ РЕЧИ НА ОСНОВЕ ФОРМАНТНОГО ВЫРАВНИВАНИЯ | 2009 |
|
RU2419890C1 |
СПОСОБ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД УПРАВЛЕНИЯ | 2003 |
|
RU2271578C2 |
Способ дикторонезависимого распознавания фонемы в речевом сигнале | 2021 |
|
RU2763124C1 |
СПОСОБ (ВАРИАНТЫ) ОПРЕДЕЛЕНИЯ ПСИХОФИЗИОЛОГИЧЕСКОГО СОСТОЯНИЯ | 2014 |
|
RU2546559C1 |
СПОСОБ ЗАЩИТЫ ЦЕННЫХ ДОКУМЕНТОВ ОТ ПОДДЕЛКИ | 1999 |
|
RU2151069C1 |
ЛАЗЕРНЫЙ ИМПУЛЬСНЫЙ ДАЛЬНОМЕР | 2004 |
|
RU2288449C2 |
УСТРОЙСТВО И СПОСОБ ОПРЕДЕЛЕНИЯ ПОКАЗАТЕЛЕЙ ЖИЗНЕДЕЯТЕЛЬНОСТИ СУБЪЕКТА | 2014 |
|
RU2669616C2 |
Изобретение относится к технике речевого анализа. Его использование для выделения основного тона речевых сигналов позволяет достичь технического результата в виде повышения надежности выделения основного тона исходного речевого сигнала. Способ заключается в том, что выделяют основные максимумы временной функции исходного сигнала, после выделенного максимума в течение интервала блокировки блокируют поиск максимума, после интервала блокировки генерируют спадающий сигнал, снижающийся относительно выделенного максимума. Технический результат достигается благодаря тому, что спадающий сигнал генерируют с максимальным значением, которое в момент окончания времени блокировки превышает абсолютный максимум исходного сигнала на анализируемом периоде основного тона. 6 з.п.ф-лы, 15 табл., 154 ил.
Вокодерная телефония | |||
Методы и проблемы | |||
/Под ред | |||
А.А | |||
Пирогова | |||
- М.: Связь, 1974, с | |||
Способ получения продукта конденсации бетанафтола с формальдегидом | 1923 |
|
SU131A1 |
Переносная печь для варки пищи и отопления в окопах, походных помещениях и т.п. | 1921 |
|
SU3A1 |
СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА ИЗ РЕЧЕВОГО СИГНАЛА | 1991 |
|
RU2007763C1 |
Устройство для автоматического определения частоты основного тона | 1958 |
|
SU129739A1 |
СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА | 0 |
|
SU222036A1 |
US 3852535 A, 03.12.1971 | |||
US 4890328 A, 26.12.1989 EP 0303312 А1, 15.02.1989 | |||
Видоизменение прибора для получения стереоскопических впечатлений от двух изображений различного масштаба | 1919 |
|
SU54A1 |
МИХАЙЛОВ В.Г., ЗЛАТОУСТОВА Л.В | |||
Измерения параметров речи.-М.: Радио и связь, 1987, с.113, рис | |||
Кипятильник для воды | 1921 |
|
SU5A1 |
Методические рекомендации по практическому использованию программы SIS при работе с речевыми сигналами | |||
Светоэлектрический измеритель длин и площадей | 1919 |
|
SU106A1 |
С.-П.: Центр речевых технологий, 1997, с | |||
ТЕЛЕФОННЫЙ АППАРАТ, ОТЗЫВАЮЩИЙСЯ ТОЛЬКО НА ВХОДЯЩИЕ ТОКИ | 1921 |
|
SU275A1 |
Авторы
Даты
2001-10-10—Публикация
1998-05-12—Подача