СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА ИЗ РЕЧЕВОГО СИГНАЛА Российский патент 2002 года по МПК G10L15/00 G10L101/02 

Описание патента на изобретение RU2184399C2

Изобретение относится к анализу речи и может быть использовано для выделения мгновенной частоты основного тона речевого сигнала в задачах распознавания речи, идентификации диктора по его голосу, определения эмоционального состояния говорящего.

Известен способ выделения частоты основного тона [1], основанный на преобразовании речевых колебаний в импульсную последовательность. Каждый импульс соответствует переходу через ноль речевого колебания (берется однополярный переход). Используется свойство, что на периоде основного тона последовательности межимпульсных интервалов повторяются.

Однако данный способ обладает существенным недостатком, который связан с пропусками интервалов, обладающих основным тоном, при смене одной фонемы другой. Это происходит благодаря тому, что при смене одной звучащей фонемы другой между двумя соседними периодами основного тона изменения межимпульсных интервалов становятся значительными.

Известен также способ выделения частоты основного тона с помощью узкополосного фильтра [2], следящего за изменением частоты первой гармоники речевого сигнала, причем ширина полосы итерационно подстраивается под среднюю частоту основного тона, рассчитываемую на основании выходной функции этого фильтра и передаваемую на фильтр благодаря обратной связи.

Данный способ проявляет хорошую работоспособность при условии, что фильтр подстраивается под диктора в течение нескольких минут. Однако способ не пригоден для выявления частоты основного тона в коротких сообщениях, длительность которых составляет несколько секунд.

Наиболее близким к предлагаемому является способ выделения основного тона, предложенный в работе [3], принятый за прототип, заключающийся в предварительной записи речевого сигнала и его последующей обработке. В прототипе используется трехканальный метод обработки речевого сигнала. В первом канале проводится амплитудная селекция по схеме Голда, во втором канале используется аппроксимация первой гармоники основного тона экспоненциальной функцией и в третьем канале проводится вычисление корреляционной функции по схеме Медана. Считается, что частота основного тона найдена, если разность между полученными значениями оценок частоты основного тона для различных каналов не превышает заданную величину.

Недостатком данного способа является низкая точность, которая связана с сильной зависимостью схемы в целом от точности каждого алгоритма, входящего в его состав.

Технический результат, получаемый от внедрения изобретения, заключается в повышении точности определения частоты основного тона.

Данный технический результат достигается за счет того, что в описываемом способе выделения частоты основного тона из речевого сигнала, заключающемся в предварительной записи речевого сигнала и его последующей обработке, обработку речевого сигнала ведут путем его разложения в последовательность спектров Фурье на интервалах длительностью не менее 0,2 с с последующим интегрированием каждого из этих спектров с множеством сумм параметрических функций Лапласа и нахождением абсолютного максимума результатов проведенного интегрирования, последующим вычислением среднего значения аргумента последовательности полученных максимумов, по полученному значению которого осуществляют предварительную оценку средней частоты основного тона исследуемого речевого сигнала, затем используя результаты предварительной оценки средней частоты основного тона с помощью трех видов выделителей параллельно проводят амплитудную селекцию сигналов по схеме Голда, вычисление значений определителя автокорреляционной матрицы с последующей фильтрацией этих значений низкочастотным фильтром Баттерворта с частотой среза, равной найденной средней частоте основного тона, и фильтрацию речевого сигнала полосовым фильтром Чебышева со средней частотой полосы пропускания, равной найденной средней частоте основного тона, и шириной полосы пропускания, равной 100 Гц, затем определяют моменты времени появления максимальных значений выходных функций перечисленных трех выделителей и проводят формирование из них единичных импульсов в найденные моменты времени, после чего осуществляют проверку синхронности появления этих импульсов от трех выделителей и формирование выходной последовательности единичных импульсов, соответствующих событиям синхронности, и вычисление длительности межимпульсных интервалов, по обратной величине которых проводят оценку мгновенной частоты основного тона речевого сигнала.

Кроме того, дополнительно проводят аппроксимацию полученных длительностей межимпульсных интервалов квадратичной функцией и вычисление ошибки аппроксимации, по значению которой судят о достоверности определения текущего межимпульсного интервала основного тона исследуемого речевого сигнала.

Согласно предлагаемому способу выделения мгновенной частоты основного тона все операции обработки речи можно разделить на три класса: а) операции предварительной оценки средней частоты основного тона; б) операции предварительной оценки мгновенной частоты основного тона; с) операции принятия решения о текущей частоте основного тона.

Предварительная оценка средней частоты основного тона включает в себя следующие операции обработки речевого сигнала: определение спектра Фурье на сегментах речи длительностью не менее 0,2 с, интегрирование произведения спектра Фурье и множества сумм параметрических функций Лапласа, нахождение абсолютного максимума этого множества интегралов, получение предварительной оценки средней частоты основного тона на основе известного значения максимума.

Множество предварительных оценок мгновенной частоты основного тона использует три вида выделителей основного тона, выполняющих следующие операции: амплитудную селекцию по схеме Голда, вычисление значений определителя автокорреляционной матрицы с последующей фильтрацией этих значений низкочастотным фильтром Баттерворта с частотой среза, равной найденной средней частоте основного тона, фильтрацию речевого сигнала полосовым фильтром Чебышева со средней частотой полосы, равной найденной средней частоте основного тона, определение моментов времени появления максимальных значений выходных функций выделителей и формирование единичных импульсов в эти моменты времени, проверка синхронности появления этих импульсов у всех трех выделителей, формирование выходной последовательности единичных импульсов, соответствующих событиям синхронности, вычисление длительности межимпульсных интервалов, обратная величина которой соответствует предварительной оценке мгновенной частоты основного тона.

Принятие окончательного решения о текущей частоте основного тона включает в себя следующие операции: аппроксимацию длительностей межимпульсных интервалов квадратичной функцией, вычисление ошибки аппроксимации, на основании которой принимается решение о том, является ли текущий межимпульсный интервал основным тоном.

Изобретение поясняется чертежом, на котором представлена блок-схема устройства для реализации способа.

Устройство включает в себя блок вычисления спектра Фурье (блок 1), см., например, [4].

Блок 2 (интегратор, см., например, [5]) проводит интегрирование полученного спектра Фурье с суммой функций Лапласа, зависящих от параметра τ в соответствии с формулой

где F(w)-cneктp Фурье, Аргумент максимума данного интеграла используется в дальнейшем, как среднее значение частоты основного тона, т. е. ωот = argτmax(γ(τ)). Далее происходит подстройка параметров каждого из выделителей в соответствии с полученной средней частотой основного тона.

Блок 3 соответствует выделителю основного тона по схеме Голда, описанному в [6]. Этот блок подстраивается под вычисленную среднюю частоту основного тона. Такая подстройка соответствует тому, что анализироваться будут только межимпульсные интервалы, длительность которых d удовлетворяет условию

где Δd - допустимое отклонение длительности межимпульсных интервалов.

Работа блока 4 основана на вычислении значений определителя автокорреляционной матрицы (см., например, [7]) с последующей фильтрацией этих значений низкочастотным фильтром Баттерворта (см., например, [8]), такая подстройка соответствует тому, что срез фильтра Баттерворта устанавливается равным средней частоте основного тона.

В блоке 5 для выделения основного тона используется полосовой фильтр Чебышева, описанный в [9] , для которого устанавливается средняя частота полосы пропускания, равная найденной средней частоте основного тона, и ширина полосы пропускания, равная 100 Гц.

После подстройки параметров выделителей основного тона, с целью получения множества мгновенных оценок частоты основного тона на вход каждого из выделителей подается речевой сигнал. Каждый i-ый выделитель генерирует на своем выходе единичные импульсы

в те моменты времени t'j, когда либо выходные функции фильтров испытывают максимальные значения (для фильтров Баттерворта и Чебышева) либо принимается решение об окончании одного импульса основного тона и начале другого импульса (для схемы Голда). Величина обратная скважности выходных импульсов каждого выделителя является оценкой мгновенной частоты основного тона.

Блок 6 (см., например, [10]) предназначен для проверки синхронности появления импульсов на выходе выделителей. Эта проверка происходит на основе решения неоднородного дифференциального уравнения звена первого порядка с правой частью, равной сумме выходных функций выделителей основного тона

как только для решения уравнения выполняется условие вида ϕ(t) = Q, то принимается решение о синхронности выходных импульсов выделителей, где Q -порог, который принимает значение 2,3.

События синхронности импульсов порождают новую последовательность единичных импульсов. Последовательность скважностей {Li} этих импульсов разбивается на подпоследовательности по R штук. В блоке 7 эти подпоследовательности аппроксимируются квадратичной функцией (см., например, [11])

Если ошибка аппроксимации меньше пороговой величины, т.е. Fk(a,b,c) <QF, то принимается решение о том, что импульсы этой последовательности соответствуют основному тону.

Источники информации
1. Патент РФ 2007763 С1, кл.G 10 L 5/00, G 10 L 9/12.

2. Вокодерная телефония. Под ред. А.А. Пирогова. М.: Связь, 1974.

3. М.Е. Hernandez-Diaz Huici and J.V. Lorenzo Ginori Combined algorithm for pitch detection of speech signals // Electronics Letters 5-th January 1995 Vol. 31, No. 1, pp. 15-16 - прототип.

4. Ж. Макс. Методы и техника обработки сигналов при физических измерениях, в 2-х томах. М.: Мир, том 2, стр. 85.

5. Алексенко А.Г. и др. Применение прецизионных аналоговых микросхем/ А. Г. Алексенко, Е.А. Коломбет, Г.И. Стародуб. - 2-е изд. перераб. и доп. - М.: Радио и связь, 1985, стр. 102.

6. Л. Рабинер, Б.Голд. Теория и применение цифровой обработки сигналов. М.: Мир, 1978, стр. 745.

7. Патент РФ 95122722 А.

8. У.М. Сиберт. Цепи, сигналы, системы: В 2-х ч. Ч. 1. Пер. с англ. - М. : Мир, 1988, стр.115.

9. Р.В.Хемминг. Цифровые фильтры. Пер. с англ./ Под ред. А.М. Трахтмана. - М.: Сов. Радио, 1980, стр.202.

10. Патент РФ 2092899 С1, кл. 6 G 06 G 7/38.

11. Патент РФ 98103390 А, кл. 7 Н 04 J 13/02.

Похожие патенты RU2184399C2

название год авторы номер документа
СИСТЕМА ГОЛОСОВОЙ ИДЕНТИФИКАЦИИ ДИКТОРА 2009
  • Зыков Александр Павлович
  • Леднов Дмитрий Анатольевич
  • Меркулов Максим Николаевич
RU2385272C1
СПОСОБ ОПРЕДЕЛЕНИЯ ПАРАМЕТРОВ ЛИНЕЙЧАТЫХ СПЕКТРОВ ВОКАЛИЗОВАННЫХ ЗВУКОВ И СИСТЕМА ДЛЯ ЕГО РЕАЛИЗАЦИИ 2007
  • Котов Михаил Андреевич
  • Леднов Дмитрий Анатольевич
  • Мельников Сергей Юрьевич
  • Федюкин Михаил Владимирович
  • Широкова Анна Михайловна
RU2364957C1
СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА 1998
  • Архипов И.О.
  • Веркиенко Ю.В.
  • Гитлин В.Б.
  • Казаков В.С.
RU2174714C2
СПОСОБ ОЦЕНКИ ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА 2012
  • Голубинский Андрей Николаевич
  • Булгаков Олег Митрофанович
  • Гущина Анастасия Александровна
  • Иванов Иван Иванович
  • Николаенков Юрий Кимович
RU2546311C2
СПОСОБ ОБНАРУЖЕНИЯ ИСТОЧНИКОВ РАДИОИЗЛУЧЕНИЙ СО СКАЧКООБРАЗНЫМ ИЗМЕНЕНИЕМ ЧАСТОТЫ 2004
  • Вертоградов Геннадий Георгиевич
  • Викулов Петр Николаевич
  • Иванов Николай Макарович
  • Шевченко Валерий Николаевич
RU2285936C2
СПОСОБ КОМПРЕССИИ РЕЧЕВОГО СИГНАЛА 2007
  • Поляков Андрей Николаевич
RU2380765C2
СПОСОБ РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ РЕЧИ С АДАПТАЦИЕЙ К ДИКТОРУ 1994
  • Сорокин Виктор Николаевич
RU2047912C1
СПОСОБ ВЕРИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ НА ОСНОВЕ АНАТОМИЧЕСКИХ ПАРАМЕТРОВ ЧЕЛОВЕКА 2010
  • Леонов Борис Иванович
  • Макаров Илья Сергеевич
  • Чепелев Дмитрий Николаевич
RU2421699C1
СИСТЕМА ИСКАЖЕНИЯ ГОЛОСА ДИКТОРА 2009
  • Котов Михаил Андреевич
  • Леднов Дмитрий Анатольевич
  • Меркулов Максим Николаевич
  • Хацкевич Андрей Валентинович
RU2403627C1
СПОСОБ КОДИРОВАНИЯ СТИМУЛИРУЮЩЕГО СИГНАЛА В КОХЛЕАРНОМ ИМПЛАНТЕ 2017
  • Белов Олег Александрович
  • Таварткиладзе Георгий Абелович
RU2657941C1

Реферат патента 2002 года СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА ИЗ РЕЧЕВОГО СИГНАЛА

Изобретение относится к анализу речи и может быть использовано в средствах для распознавания речи. Техническим результатом является повышение точности. Способ основан на разложении речевого сигнала в последовательность спектров Фурье, нахождении абсолютного максимума, вычислении среднего значения аргумента последовательности полученных максимумов, оценке средней частоты основного тона исследуемого речевого сигнала, амплитудной селекции сигналов, вычислении значений определителя автокорреляционной матрицы и фильтрации этих значений. 1 з.п. ф-лы, 1 ил.

Формула изобретения RU 2 184 399 C2

1. Способ выделения частоты основного тона из речевого сигнала, заключающийся в предварительной записи речевого сигнала и его последующей обработке, отличающийся тем, что обработку речевого сигнала ведут путем его разложения в последовательность спектров Фурье на интервалах длительностью не менее 0,2 с с последующим интегрированием каждого из этих спектров с множеством сумм параметрических функций Лапласа и нахождением абсолютного максимума результатов проведенного интегрирования, последующим вычислением среднего значения аргумента последовательности полученных максимумов, по полученному значению которого осуществляют предварительную оценку средней частоты основного тона исследуемого речевого сигнала, затем, используя результаты предварительной оценки средней частоты основного тона с помощью трех видов выделителей параллельно проводят амплитудную селекцию сигналов по схеме Голда, вычисление значений определителя автокорреляционной матрицы с последующей фильтрацией этих значений низкочастотным фильтром Баттерворта с частотой среза, равной найденной средней частоте основного тона, и фильтрацию речевого сигнала полосовым фильтром Чебышева со средней частотой полосы пропускания, равной найденной средней частоте основного тона, и шириной полосы пропускания, равной 100 Гц, затем определяют моменты времени появления максимальных значений выходных функций перечисленных трех выделителей и проводят формирование из них единичных импульсов в найденные моменты времени, после чего осуществляют проверку синхронности появления этих импульсов от трех выделителей и формирование выходной последовательности единичных импульсов, соответствующих событиям синхронности, и вычисление длительности межимпульсных интервалов, по обратной величине которых проводят оценку мгновенной частоты основного тона речевого сигнала. 2. Способ по п. 1, отличающийся тем, что дополнительно проводят аппроксимацию полученных длительностей межимпульсных интервалов квадратичной функцией и вычисление ошибки аппроксимации, по значению которой судят о достоверности определения текущего межимпульсного интервала основного тона исследуемого речевого сигнала.

Документы, цитированные в отчете о поиске Патент 2002 года RU2184399C2

HERNANDEZ-DIAZ M.E
etc
Combiner algoritm for pitch detection of speech signals
Electrinics Letters
Кипятильник для воды 1921
  • Богач Б.И.
SU5A1
СПОСОБ ВЫДЕЛЕНИЯ ОСНОВНОГО ТОНА ИЗ РЕЧЕВОГО СИГНАЛА 1991
  • Дедков Г.В.
RU2007763C1
Вокодерная телефония
/Под ред
ПИРОГОВА А.А
- М.: Связь, 1974, с.49
Способ идентификации говорящего 1989
  • Рамишвили Гурам Соломонович
  • Майсурадзе Борис Гивиевич
SU1629917A1
Способ опознания говорящего и устройство для его осуществления 1983
  • Беликов Авенир Павлович
  • Карасев Игорь Алексеевич
  • Мулюкин Николай Васильевич
  • Тунис Константин Викторович
SU1117687A1
RU 98107313 A1, 10.02.2000
Способ обработки магнитных изделий 1976
  • Мышенкова Мариана Павловна
  • Радченко Марта Пантелеевна
  • Шестакова Юлия Михайловна
  • Фирсенков Анатолий Иванович
SU645756A1
US 4811404 A, 07.03.1989.

RU 2 184 399 C2

Авторы

Аграновский А.В.

Леднов Д.А.

Потапенко А.М.

Репалов С.А.

Сулима П.М.

Даты

2002-06-27Публикация

2000-09-22Подача