Изобретение относится к области цифровой обработки речевых данных и может быть использовано в различных приложениях, например в IР-телефонии.
Известен способ обнаружения пауз в речевом сигнале [1], использующий различие спектральных характеристик сигнала речи от сигнала в паузе, и устройство его реализующее, в котором определение спектрального отклонения сигнала речи от сигнала в паузе осуществляется с применением оценивания параметров модели авторегрессии, сравнением суммы энергий сигнала речи и сигнала в паузе с порогом, а вынесение решения о наличии на входе паузы принимают, если уровень суммы энергий сигнала речи и сигнала в паузе ниже порогового уровня. Однако недостатком этого способа является низкая достоверность обнаружения пауз в речевом сигнале и большое время их обнаружения за счет использования метода обучения, так как определение характеристик отрезка сигнала в паузе происходит в режиме молчания диктора.
Из известных технических решений наиболее близким является способ обнаружения пауз в речевом сигнале, использующий различие спектральных характеристик сигнала речи от сигнала в паузе, и устройство его реализующее, описанное в [2], которое и выбрано за прототип.
Известный способ осуществляют путем определения спектрального отклонения сигнала речи от сигнала в паузе, для чего сначала:
- осуществляют дискретизацию с шагом Δt и разбиение на квантованные отсчеты сигналов, поступающих с выхода микрофона,
- разделяют поток квантованных отсчетов отрезка определенной длины речевого сигнала на ряд участков длиной R,
- разделяют диапазон (1/Δt) энергетического спектра Фурье каждого из этих участков длиной R на ряд частотных интервалов (i=1, …, N),
- вычисляют для каждого участка длиной R в каждом из N частотных интервалов значения долей энергии квантованных отсчетов отрезка речевого сигнала Рi.
В данном известном способе обнаружение пауз проводят путем сравнения максимального значения max (Pi/Pi пауза ср) со значением порога h, который определяют в схеме вычисления порога и при значении max (Pi/Pi пауза ср), меньше или равно порогу h, принимают решение о наличии паузы, при этом значение Pi пауза ср обновляется с учетом текущего значения Pi пауза, обнаруженные паузы кодируют, при этом код каждой паузы содержит информацию о моменте начала и продолжительности паузы. Это повышает достоверность обнаружения пауз в речевом сигнале за счет большей чувствительности к присутствию долей энергии отсчетов сигнала речи, которые неравномерно распределены по частотным интервалам, кроме этого, в решающей функции предложенного способа отсутствуют мертвые зоны, что повышает вероятность обнаружения отсчетов сигнала в паузе и, соответственно, уменьшает вероятность искажения речевых данных. Однако обнаружение паузы в речевом сигнале, как и в аналоге, осуществляется с использованием метода обучения, т.е. определение средних значений долей энергии отсчетов отрезка определенной длины сигнала в паузе в каждом частотном интервале для всего потока отсчетов отрезка сигнала в паузе происходит в режиме молчания диктора. Продолжительность указанной процедуры не позволяет эффективно использовать способ, описанный в [2], для обнаружения пауз в системах, где временные задержки на обработку речевых данных строго ограничены, например, в системах IР-телефонии.
Известно техническое решение, осуществляющее техническую реализацию указанного способа, также описанное в [2]. В состав устройства [2] входят схема вычисления порога, пороговый обнаружитель, алгоритмический модуль, включающий аналого-цифровой преобразователь, устройство записи, запоминающее устройство, считывающее устройство, устройство вычисления энергии спектра, причем первый вход алгоритмического модуля подключен к выходу микрофона, первый вход порогового обнаружителя подключен к первому выходу алгоритмического модуля, а второй вход подключен к выходу схемы вычисления порога, выход порогового обнаружителя подключен ко второму входу алгоритмического модуля.
Недостатки данного устройства соответствуют недостаткам способа, который на нем реализован.
Задачей предлагаемых изобретений является создание способа и устройства обнаружения пауз в речевом сигнале, обеспечивающих возможность их использования в системах IP-телефонии, где временные задержки на обработку речевых данных строго ограничены.
Техническим результатом использования предложенных изобретений является уменьшение времени обнаружения пауз, возможность обработки речевого сигнала в режиме реального времени с обеспечением достоверности обнаружения пауз не хуже, чем в прототипе.
Поставленная задача достигается тем, что обнаружение пауз в речевом сигнале производят, определяя спектральное отклонение сигнала речи от сигнала в паузе, посредством оценивания различий в распределении частотных энергетических составляющих спектра сигнала речи от спектра сигнала в паузе в диапазоне частот от 0 до 1/Δt энергетического спектра Фурье, т.е. с учетом характерной особенности сосредоточения энергетических составляющих спектра звуков речи в малом количестве достаточно узких частотных интервалов, в то время, как энергетические составляющие спектра паузы распределены равномерно во всем анализируемом диапазоне частот.
Для этого в способе обнаружения пауз в речевых сигналах, включающем определение спектрального отклонения сигнала речи от сигнала в паузе, дискретизацию с шагом Δt и разбиение на квантованные отсчеты сигналов, поступающих с выхода микрофона, разделение потока квантованных отсчетов отрезка сигнала определенной длины на ряд участков длиной R, разделение диапазона (1/Δt) энергетического спектра Фурье каждого из этих участков на ряд интервалов (i=1, …, N), вычисления для каждого участка длиной R в каждом из N частотных интервалов значений долей энергии квантованных отсчетов отрезка определенной длины речевого сигнала Рi, кодирование каждой обнаруженной паузы, при этом код каждой паузы содержит информацию о моменте начала и продолжительности паузы, в отличие от известного оценку определения спектрального отклонения сигнала речи от сигнала в паузе осуществляют, выполняя следующие действия:
- после вычисления Pi определяют значение энергии отсчетов отрезка определенной длины речевого сигнала Рсум на каждом анализируемом участке длиной R путем суммирования всех значений долей энергии отсчетов отрезка определенной длины речевого сигнала, соответствующих каждому i-ому частотному интервалу Рi;
- производят «сортировку» по убыванию вычисленных значений долей энергии отсчетов отрезка определенной длины речевого сигнала, соответствующих каждому i-ому частотному интервалу Рi;
- осуществляют пошаговое сложение для J=1, 2, …, N, отсортированных по убыванию вычисленных значений долей энергии отсчетов отрезка определенной длины речевого сигнала , соответствующих каждому i-ому частотному интервалу следующим образом ;
- определяют на каждом шаге значения отношений (PJ/Рсум) и (J/N);
- выносят решение о принадлежности анализируемого отрезка определенной длины речевого сигнала к паузе при значениях отношений (PJ/Рсум) меньше выбранной величины порога h и (J/N) больше выбранной величины порога q;
- выносят решение о принадлежности анализируемого отрезка определенной длины речевого сигнала к речи в случае, если значение отношения (PJ/Рсум) будет больше или равно выбранной величине порога h и отношение J/N будет меньше или равно выбранной величине порога q.
Критериям «новизна» и «изобретательский уровень» предложенный способ соответствует благодаря наличию следующих признаков:
- определение значения энергии отсчетов отрезка определенной длины речевого сигнала Рсум на каждом анализируемом участке длиной R путем суммирования всех значений долей энергии отсчетов отрезка определенной длины речевого сигнала, соответствующих каждому i-ому частотному интервалу Рi;
- «сортировка» по убыванию вычисленных значений долей энергии отсчетов отрезка определенной длины речевого сигнала, соответствующих каждому i-ому частотному интервалу Рi;
- пошаговое сложение для J=1, 2,…,N отсортированных по убыванию вычисленных значений долей энергии отсчетов отрезка определенной длины речевого сигнала , соответствующих каждому i-ому частотному интервалу следующим образом ;
- определение на каждом шаге значения отношения (PJ/Рсум) и (J/N), где J - значения пошагового сложения отсортированных по убыванию вычисленных значений долей энергии отсчетов отрезка речевого сигнала на каждом анализируемом участке длиной R, N - количество частотных интервалов;
- принятие решения о принадлежности анализируемого отрезка определенной длины речевого сигнала к паузе при значениях отношений (PJ/Рсум) меньше выбранной величины порога h и (J/N) больше выбранной величины порога q;
- принятие решения о принадлежности анализируемого отрезка определенной длины речевого сигнала к речи, в случае, если значение отношения (PJ/Рсум) будет больше или равно выбранной величине порога h и отношение (J/N) будет меньше или равно выбранной величине порога q.
Вышеперечисленные признаки позволяют принимать решения о наличии паузы в течение длительности отрезка определенной длины речевого сигнала на каждом участке длиной R без использования метода обучения за счет учета характерной особенности сосредоточения энергетических составляющих спектра звуков речи в малом количестве достаточно узких частотных интервалов (Фиг.1а, б), в отличие от сигнала в паузе (Фиг.1в).
Устройство, предложенное для осуществления заявленного способа, включающее алгоритмический модуль, первый вход которого подключен к выходу микрофона, пороговый обнаружитель, первый вход которого подключен к первому выходу алгоритмического модуля, а второй вход - к выходу схемы вычисления порога, выход порогового обнаружителя подключен ко второму входу алгоритмического модуля, отличается от прототипа составом алгоритмического модуля, в состав которого кроме аналого-цифрового преобразователя, устройства записи, запоминающего устройства, считывающего устройства, устройства вычисления энергии спектра, устройства кодирования, дополнительно входит:
- устройство вычисления всей энергии Рсум квантованных отсчетов отрезка речевого сигнала на каждом анализируемом участке длиной R;
- устройство «сортировки» по убыванию вычисленных значений долей энергии отсчетов речевого сигнала на каждом анализируемом участке длиной R;
- счетчик значений J пошагового сложения отсортированных по убыванию вычисленных значений долей энергии отсчетов отрезка речевого сигнала на каждом анализируемом участке длиной R;
- две схемы «И»;
- схема делителя J/N, где J - значения пошагового сложения отсортированных по убыванию вычисленных значений долей энергии отсчетов отрезка речевого сигнала на каждом анализируемом участке длиной R, N - количество частотных интервалов;
- схема пошагового сложения для вычисления PJ по формуле
;
- схема вычисления порога q;
- пороговый обнаружитель с порогом q;
- схема делителя (PJ/Рсум).
Перечисленные признаки в совокупности позволяют получить заявленный технический результат и из уровня техники неизвестны, так же как и влияние наличия этих признаков на уменьшение времени обнаружения пауз, что дает возможность признать их соответствующими критериям «новизна» и «изобретательский уровень».
Сущность изобретений поясняется чертежами.
Фиг.1а - Распределение энергетических составляющих спектра звука речи «о» в выбранных частотных интервалах.
Фиг.1б - Распределение энергетических составляющих спектра звука речи «у» в выбранных частотных интервалах.
Фиг.1в - Распределение энергетических составляющих спектра шума в выбранных частотных интервалах.
Фиг.1г - Распределение по убыванию значений энергетических составляющих спектра звука речи «о» в выбранных частотных интервалах.
Фиг.1д - Распределение по убыванию значений энергетических составляющих спектра звука речи «у» в выбранных частотных интервалах.
Фиг.1е - Распределение по убыванию значений энергетических составляющих спектра шума в выбранных частотных интервалах.
Фиг.2 - блок-схема заявляемого устройства.
Фиг.3 - блок-схема алгоритмического модуля.
Устройство для реализации предложенного способа состоит (Фиг.2) из алгоритмического модуля 1, порогового обнаружителя 2, схемы 3 вычисления порога h.
Первый вход алгоритмического модуля 1 подключен к выходу микрофона 4. Первый выход алгоритмического модуля 1 подключен к первому входу порогового обнаружителя 2, выход которого подключен ко второму входу алгоритмического модуля 1, выход схемы 3 вычисления порога h подключен ко второму входу порогового обнаружителя 2. Второй выход алгоритмического модуля при необходимости может быть подключен либо к устройству для хранения либо к устройству передачи сжатой (кодированной) речи (на фиг.2 не показаны).
В состав алгоритмического модуля 1 (Фиг.3) входит аналого-цифровой преобразователь 5, устройство записи 6, запоминающее устройство 7, считывающее устройство 8, устройство 9 вычисления энергии спектра, устройство кодирования 10, устройство 11 вычисления всей энергии отсчетов отрезка определенной длины речевого сигнала Рсум, устройство 12 «сортировки» по убыванию вычисленных значений долей энергии отсчетов речевого сигнала на каждом анализируемом участке длиной R, первая схема 13 «И», схема 14 пошагового сложения для определения на каждом шаге значений PJ по формуле , схема 15 делителя (PJ/Pсум), вторая схема 16 «И», счетчик 17 значений J пошагового сложения отсортированных по убыванию вычисленных значений долей энергии отсчетов отрезка определенной длины речевого сигнала, схема 18 делителя J/N, где J - значения пошагового сложения отсортированных по убыванию вычисленных значений долей энергии отсчетов отрезка речевого сигнала на каждом анализируемом участке длиной R, N - количество частотных интервалов, пороговый обнаружитель 19 и схема 20 вычисления порога q.
При этом к первому выходу устройства 9 вычисления энергии спектра параллельно подключены устройство 11 вычисления Рсум и устройство 12 «сортировки» Pi по убыванию вычисленных значений долей энергии отсчетов отрезка определенной длины речевого сигнала, первый выход которого через первую схему 13 «И» (приямой вход), первый вход схемы 14 пошагового сложения и схему 15 делителя (PJ/Рсум) связан с первым входом порогового обнаружителя 2 порога h, выход которого связан с инверсным входом первой схемы 13 «И» и с первым входом второй схемы 16 «И». Второй выход устройства 12 «сортировки» Pi через счетчик 17 значений J связан с первым входом схемы 18 делителя J/N, второй вход которого связан со вторым выходом устройства 9 вычисления спектра. Выход схемы 18 делителя J/N связан с первым входом порогового обнаружителя 19 с порогом q, второй вход которого связан со схемой 20 вычисления порога q, а выход с вторым входом второй схемы 16 «И». Инверсный выход второй схемы 16 «И» связан с запоминающим устройством 7, а второй выход последнего связан с устройством кодирования 10, которое может быть подключено либо к устройству для хранения либо к устройству передачи сжатой (кодированной) речи (на фиг.3 не показаны).
Предложенный способ реализуют на данном устройстве следующим образом: прежде всего сигнал с выхода микрофона 4 подают на первый вход алгоритмического модуля 1 (Фиг.3), в котором производят дискретизацию с шагом Δt и квантование входного воздействия с помощью аналого-цифрового преобразователя 5, с первого выхода которого параллельно на вход записывающего устройства 6 и считывающего устройства 8 поступает информация о номере обрабатываемого отсчета речевого сигнала, данные со второго выхода аналого-цифрового преобразователя 5 при помощи записывающего устройства 6 поступают в запоминающее устройство 7, затем, если число отсчетов, поступающих на вход считывающего устройства 8 становится равным R, то участки длиной R потока отсчетов отрезка речевого сигнала считываются из устройства 7 при помощи считывающего устройства 8 в устройство 9 вычисления энергии спектра, в котором вычисляют значения долей энергии Pi квантованных отсчетов отрезка речевого сигнала длиной R в каждом из частотных интервалов (i=1, …, N), на которые разделяют частотный диапазон (1/Δt) энергетического спектра Фурье каждого из участков длиной R. Затем, вычисленные значения Рi с первого выхода устройства 9 вычисления энергии спектра параллельно поступают на первые входы устройства 11 вычисления Рсум и устройства 12 «сортировки» Рi по убыванию, с первого выхода которого отсортированные по убыванию значения Pсортi в пошаговом режиме через прямой вход первой схемы 13 «И» поступают на первый вход схемы 14 пошагового сложения , откуда вычисленные по формуле значения PJ поступают на первый вход схемы 15 делителя (PJ/Pcум), а на второй ее вход поступает значение Рсум с выхода устройства 11 вычисления Рсум. С выхода схемы 15 делителя (PJ/Рсум,) полученное значение отношения поступает на первый вход порогового обнаружителя 2, на второй вход которого поступает значение порога h с выхода схемы 3 вычисления порога h. Если значение отношения (PJ/Pсум) больше или равно выбранной величине порога h, то с выхода порогового устройства 2 сигнал поступает как на инверсный вход первой схемы 13 «И», запрещая прохождение сигнала с выхода устройства 12 «сортировки» через первую схему 13 «И», на вход схемы 14 пошагового сложения , так и на первый вход второй схемы 16 «И». Со второго выхода устройства 12 «сортировки» Рi по убыванию, синхронно с прохождением сигналов по первой описанной цепи, через счетчик 17 текущее значение J отсортированных по убыванию вычисленных значений долей энергии отсчетов отрезка определенной длины речевого сигнала , поступает на первый вход схемы 18 делителя J/N, на второй вход которого поступает значение N со второго выхода устройства 9 вычисления энергии спектра. С выхода схемы 18 делителя J/N сигнал поступает на первый вход порогового обнаружителя 19, на второй вход которого поступает значение q с выхода схемы 20 вычисления порога q. Если значение отношения J/N будет меньше или равно выбранной величине порога q, то с выхода порогового обнаружителя 19 сигнал поступает на второй вход схемы 16 «И». Если сигнал на одном из входов второй схемы 16 «И» отсутствует, то это свидетельствует о наличии паузы в отрезке квантованных отсчетов речевого сигнала длиной R, тогда на ее инверсном выходе постоянно будет сигнал, разрешающий считывание этого отрезка в устройство 10 кодирования пауз с запоминающего устройства 7. При одновременном наличии сигналов на двух входах второй схемы 16 «И» на ее инверсном выходе разрешающий сигнал будет отсутствовать, что свидетельствует о наличии звука речи в отрезке квантованных отсчетов речевого сигнала длиной R и считывание этого отрезка в устройство 10 кодирования пауз с запоминающего устройства 7 будет запрещено.
В результате использования предложенных технических решений, благодаря учету характерной особенности сосредоточения энергетических составляющих спектра звуков речи в малом количестве достаточно узких частотных интервалов, обеспечивается высокая степень достоверности отличия их от пауз, энергетические составляющие спектра которых распределены равномерно во всем анализируемом диапазоне частот, а также осуществляется принятие решения о наличии паузы в течение длительности речевого сигнала на одном участке длиной R без использования метода обучения, что приводит к уменьшению времени обнаружения пауз и возможности обработки речевого сигнала в режиме реального времени для использования в системах IР-телефонии.
Использованная литература
1. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи / Под ред. О.И.Шелухина - М: Радио и связь, 2000. - 456 с: ил.
2. Белов С.П., Белов А. С, Е.Г. Жиляков, Е.И. Прохоренко. Способ обнаружения пауз в речевых сигналах и устройство его реализующее. Патент России № 2317595 от 20 февраля 2008 года
Изобретения относятся к области цифровой обработки речевых данных и могут быть использованы в различных приложениях, например в IP-телефонии. Технический результат - уменьшение времени обнаружения пауз, возможность обработки речевого сигнала в режиме реального времени. Устройство содержит микрофон (4), алгоритмический модуль (1), в котором производят дискретизацию с шагом Δt и квантование поступающих сигналов и который включает аналого-цифровой преобразователь (5), записывающее устройство (6), считывающее устройство (8), запоминающее устройство (7), устройство (9) вычисления энергии спектра, устройство (11) вычисления всей энергии отсчетов отрезка определенной длины речевого сигнала и устройство (12) «сортировки» по убыванию, первую схему И (13), схему (14) пошагового сложения, схему (15) делителя, вторую схему И (16), счетчик (17) значений, схему (18) делителя, пороговый обнаружитель (19), схему (20) вычисления порога, устройство (10) кодирования пауз, пороговое устройство (2), схему (3) вычисления порога. 2 н. и 1 з.п. ф-лы, 3 ил.
1. Способ обнаружения пауз в речевых сигналах, включающий определение спектрального отклонения сигнала речи от сигнала в паузе путем дискретизации с шагом Δt и разбиения на квантованные отсчеты сигналов, поступающих с выхода микрофона, разделения потока квантованных отсчетов отрезка сигнала определенной длины на ряд участков длиной R, разделения диапазона (1/Δt) энергетического спектра Фурье каждого из этих участков на ряд интервалов (i=1, …, N), вычисления для каждого участка длиной R в каждом из N частотных интервалов значений долей энергии квантованных отсчетов отрезка определенной длины речевого сигнала Рi, кодирование каждой обнаруженной паузы, при этом код каждой паузы содержит информацию о моменте начала и продолжительности паузы, отличающийся тем, что после вычисления Pt определяют значение энергии отсчетов отрезка определенной длины речевого сигнала Рсум на каждом анализируемом участке длиной R путем суммирования всех значений долей энергии отсчетов отрезка определенной длины речевого сигнала, соответствующих каждому i-му частотному интервалу Рi; производят «сортировку» по убыванию вычисленных значений долей энергии отсчетов отрезка определенной длины речевого сигнала, соответствующих каждому i-му частотному интервалу Рi; осуществляют пошаговое сложение для J=1, 2, …, N отсортированных по убыванию вычисленных значений долей энергии отсчетов отрезка определенной длины речевого сигнала , соответствующих каждому i-му частотному интервалу следующим образом ; опрделяют на каждом шаге значения отношения (Pj/Рсум) и (J/N), где J - значения пошагового сложения отсортированных по убыванию вычисленных значений долей энергии отсчетов отрезка речевого сигнала на каждом анализируемом участке длиной R, а N - количество частотных интервалов, выносят решение о принадлежности анализируемого отрезка определенной длины речевого сигнала к паузе в случае значения отношений (PJ/Рсум) меньше выбранной величины порога h, и (J/N) больше выбранной величины порога q.
2. Способ по п.1, отличающийся тем, что в случае, если значение отношения (PJ/Рсум) будет больше или равно выбранной величине порога h, и отношение (J/N) будет меньше или равно выбранной величине порога q, выносят решение о принадлежности анализируемого отрезка определенной длины речевого сигнала к речи.
3. Устройство обнаружения пауз в речевых сигналах, включающее алгоритмический модуль, первый вход которого подключен к выходу микрофона, пороговый обнаружитель, первый вход которого подключен к первому выходу алгоритмического модуля, а второй вход - к выходу схемы вычисления порога, выход порогового обнаружителя подключен ко второму входу алгоритмического модуля, причем в состав алгоритмического модуля входит аналого-цифровой преобразователь, устройство записи, запоминающее устройство, считывающее устройство, устройство вычисления энергии спектра, устройство кодирования, отличающееся тем, что в состав алгоритмического модуля дополнительно входят: подключенные параллельно к первому выходу устройства вычисления энергии спектра устройство вычисления Рсум квантованных участков отрезка речевого сигнала на каждом анализируемом участке длиной R и устройство «сортировки» Рi по убыванию вычисленных значений долей энергии отсчетов речевого сигнала на каждом анализируемом участке длиной R, первый выход которого через прямой вход первой схемы «И», первый вход схемы пошагового сложения и первый вход делителя {PJ/Рсум) связан с первым входом порогового обнаружителя порога с порогом h, выход которого связан с инверсным входом первой схемы «И» и с первым входом второй схемы «И»; кроме того, второй выход устройства «сортировки» Рi через счетчик значений пошагового сложения J связан с первым входом схемы делителя J/N, второй вход которого связан со втором выходом устройства вычисления спектра, а выход схемы делителя J/N связан с первым входом порогового обнаружителя с порогом q, второй вход которого связан со схемой вычисления порога q, а выход со вторым входом второй схемы «И», инверсный выход которой связан с запоминающим устройством, а последнее связано с устройством кодирования.
СПОСОБ ОБНАРУЖЕНИЯ ПАУЗ В РЕЧЕВЫХ СИГНАЛАХ И УСТРОЙСТВО ЕГО РЕАЛИЗУЮЩЕЕ | 2006 |
|
RU2317595C1 |
Устройство для обнаружения пауз речи в вокодерном тракте | 1991 |
|
SU1809461A1 |
Способ обнаружения речевых сигналов и их границ и устройство для его осуществления | 1989 |
|
SU1674226A1 |
Устройство для обнаружения пауз речи | 1984 |
|
SU1233290A1 |
RU 210671 C1, 27.10.1999 | |||
ОБНАРУЖИТЕЛЬ ПАУЗ РЕЧИ В СИСТЕМАХ С ДЕЛЬТА-МОДУЛЯЦИЕЙ | 1992 |
|
RU2010440C1 |
Способ обнаружения пауз в речевомСигНАлЕ | 1979 |
|
SU836656A1 |
US 6049765 A, 11.04.2000 | |||
US 5742930 A, 23.04.1998. |
Авторы
Даты
2010-09-10—Публикация
2008-11-19—Подача