ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящая заявка, без ограничения указанными применениями, относится к области связи.
УРОВЕНЬ ТЕХНИКИ
При выполнении обычных речевых вызовов пользователь некоторое время говорит и некоторое время слушает абонента. В это время в процессе обработки вызова может обнаруживаться фаза речевой неактивности. Обычно суммарная длительность фазы речевой неактивности обеих сторон вызова превышает 50% всего временного периода кодирования этих сторон. В течение фазы речевой неактивности существует только фоновый шум, в котором отсутствует полезная информация. С учетом этого факта в процессе обработки речевого сигнала активная и неактивная речь обнаруживается с помощью алгоритма обнаружения речевой активности (сокращенно VAD, Voice Activity Detection) и, соответственно, обрабатывается с использованием различных способов. Множество стандартов кодирования, например адаптивное многоскоростное (AMR, Adaptive Multi-Rate) и адаптивное многоскоростное широкополосное (AMR-WB, Adaptive Multi-Rate Wideband) кодирование, поддерживают функцию VAD. С точки зрения эффективности, VAD этих кодеров не обладает хорошей производительностью для всех типовых фоновых шумов. Эффективность VAD этих кодеров становится особенно низкой при наличии нестабильного шума. Для музыкальных сигналов в процессе VAD иногда происходит ошибочное обнаружение, в результате чего значительно снижается качество соответствующего алгоритма обработки.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Далее приводится обзор вариантов осуществления изобретения, подробно описываемых в этой заявке. Этот обзор не предназначен для ограничения формулы изобретения.
В рамках вариантов осуществления настоящего изобретения предлагается способ получения количества модифицированных кадров для активного звука и способ и устройство обнаружения речевой активности (VAD) для решения проблемы, связанной с низкой точностью обнаружения речевой активности.
С помощью вариантов осуществления настоящего изобретения предлагается способ получения количества модифицированных кадров для активного звука, включающий:
получение результата принятия решения об обнаружения речевой активности (VAD) для текущего кадра;
получение количества кадров затягивания (hangover frames) для активного звука;
получение количества обновлений фонового шума и
получение количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
В соответствии с примером осуществления настоящего изобретения получение результата принятия решения об обнаружении речевой активности для текущего кадра включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области текущего кадра в соответствии с сигналами поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудами спектра;
вычисление отношения сигнал/шум (SNR, Signal-To-Noise Ratio) текущего кадра в соответствии с энергией фонового шума, рассчитанной на основе предшествующего кадра, энергетического параметра кадра и энергии поддиапазонов SNR текущего кадра;
вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности и
вычисление результата принятия решения VAD в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра.
Согласно примеру осуществления настоящего изобретения
энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;
характеристика спектрального центроида представляет собой отношений взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации этого отношения;
характеристика стабильности во временной области представляет собой требуемое отношение дисперсии амплитудных накопленных значений и квадрата амплитудных накопленных значений, или является произведением этого отношения на коэффициент;
характеристика спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд сглаженного спектра, или является произведением этого отношения на коэффициент; и
характеристика тональности выводится путем вычисления значения корреляции коэффициентов внутрикадровых спектральных различий двух сигналов смежных кадров, или выводится посредством продолжения выполнения сглаживающей фильтрации значения корреляции.
Согласно примеру осуществления настоящего изобретения вычисление результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра включает:
получение долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума для предшествующего кадра;
получение усредненного общего SNR всех поддиапазонов путем вычисления среднего значения SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру;
получение порогового значения SNR для принятия решения VAD в соответствии с характеристикой спектрального центроида, долговременным SNR, количеством непрерывных активных кадров и количеством непрерывных кадров шума;
получение начального решения VAD в соответствии с пороговым значением SNR для VAD и параметром SNR и
получение результата принятия решения VAD путем обновления начального решения VAD в соответствии с сигнальным флагом тональности, усредненным общим SNR всех поддиапазонов, характеристикой спектрального центроида и долговременным SNR.
Согласно примеру осуществления настоящего изобретения получение количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука включает:
если результат принятия решения VAD указывает на то, что текущий кадр является активным и количество обновлений фонового шума меньше предварительно установленного порогового значения, выбор в качестве количества модифицированных кадров для активного звука максимального из следующих двух значений: величина константы и количество кадров затягивания для активного звука.
В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:
установку начального значения кадров затягивания для активного звука.
В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов и получение количества кадров затягивания для активного звука путем обновления текущего количества кадров затягивания для активного звука в соответствии с результатами принятия решения VAD для множества предшествующих кадров, долговременным SNR, усредненным общим SNR всех поддиапазонов и результатом принятия решения VAD для текущего кадра.
Согласно примеру осуществления настоящего изобретения вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов включает:
вычисление долговременного SNR с использованием отношения средней энергии кадров долговременной активности и средней энергии долговременного фонового шума, вычисляемого с помощью кадра, предшествующего текущему кадру; и вычисление среднего значения SNR всех поддиапазонов множества кадров, ближайших к текущему кадру, для получения усредненного общего SNR всех поддиапазонов.
Согласно примеру осуществления настоящего изобретения предварительным условием для модификации текущего количества кадров затягивания для активного звука является флаг обнаружения речевой активности, указывающий на то, что текущий кадр является активным.
В соответствии с примером осуществления настоящего изобретения обновление текущего количества кадров затягивания для активного звука с целью получения количества кадров затягивания для активного звука включает:
при получении количества кадров затягивания для активного звука, если количество непрерывных активных кадров меньше установленного первого порогового значения и долговременное SNR меньше установленного первого порогового значения, обновление количества кадров затягивания для активного звука путем вычитания количества непрерывных активных кадров из минимального количества непрерывных активных кадров; и если усредненное общее SNR всех поддиапазонов больше установленного порогового значения и количество непрерывных активных кадров больше установленного второго порогового значения, установку значения количества кадров затягивания для активного звука в соответствии со значением долговременного SNR.
Согласно примеру осуществления настоящего изобретения получение количества обновлений фонового шума включает:
получение флага обновления фонового шума и
вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума.
Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:
установку начального значения количества обновлений фонового шума.
Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:
если флаг обновления фонового шума указывает на то, что текущий кадр является фоновым шумом и количество обновлений фонового шума меньше установленного порогового значения, добавление к количеству обновлений фонового шума единицы.
Согласно примеру осуществления настоящего изобретения получение флага обновления фонового шума включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра; и
обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума.
Согласно примеру осуществления настоящего изобретения энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;
характеристика спектрального центроида представляет собой отношение взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации отношения;
характеристика стабильности во временной области представляет собой требуемое отношение дисперсии энергетических амплитуд кадра и квадрата амплитудных накопленных значений, или является произведением отношения на коэффициент; и
параметр спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд спектра или является произведением этого отношения на коэффициент.
Согласно примеру осуществления настоящего изобретения обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума включает:
установку флага обновления фонового шума в качестве первого предварительно установленного значения;
определение того, что текущий кадр не является сигналом шума, и установку флага обновления фонового шума в качестве второго предварительно установленного значения, если истинно любое из следующих условий:
характеристика стабильности во временной области превышает установленное пороговое значение;
значение характеристики спектрального центроида, к которому применена сглаживающая фильтрация, больше установленного порогового значения, и значение характеристики стабильности во временной области также превышает установленное пороговое значение;
значение характеристики тональности или значение характеристики тональности, к которой применена сглаживающая фильтрация, больше установленного порогового значения, и значение характеристики стабильности во временной области превышает установленное пороговое значение;
значение характеристики спектральной неравномерности каждого поддиапазона или значение характеристики спектральной неравномерности каждого поддиапазона, к которому применена сглаживающая фильтрация, меньше соответствующего установленного порогового значения; или
значение энергетического параметра кадра превышает установленное пороговое значение.
С помощью вариантов осуществления настоящего изобретения предлагается способ обнаружения речевой активности, включающий:
получение первого результата принятия решения об обнаружении речевой активности;
получение количества кадров затягивания для активного звука; получение количества обновлений фонового шума;
вычисление количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука;
получение второго результата принятия решения об обнаружении речевой активности и
вычисление результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности.
Согласно примеру осуществления настоящего изобретения вычисление результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности включает:
если второй результат принятия решения об обнаружении речевой активности указывает на то, что текущий кадр является неактивным и количество модифицированных кадров для активного звука больше 0, установку результата принятия решения об обнаружении речевой активности в качестве активного кадра и уменьшение количества модифицированных кадров на единицу.
В соответствии с примером осуществления настоящего изобретения получение первого результата принятия решения об обнаружении речевой активности включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области текущего кадра в соответствии с сигналом поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра;
вычисление отношения сигнал/шум текущего кадра в соответствии с энергией фонового шума, полученной на основе предшествующего кадра, энергетическим параметром кадра и энергией поддиапазона отношения сигнал/шум;
вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности и
вычисление первого результата принятия решения о речевой активности в соответствии с сигнальным флагом тональности, отношением сигнал/шум, характеристикой спектрального центроида и энергетическим параметром кадра.
Согласно примеру осуществления настоящего изобретения энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;
характеристика спектрального центроида представляет собой отношение взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации отношения;
характеристика стабильности во временной области представляет собой требуемое отношение дисперсии амплитудных накопленных значений и квадрата амплитудных накопленных значений, или является произведением этого отношения на коэффициент;
характеристика спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд спектра, или является произведением этого отношения на коэффициент; и
характеристика тональности выводится путем вычисления значения корреляции коэффициентов внутрикадровых спектральных различий двух сигналов смежных кадров или выводится посредством продолжения выполнения сглаживающей фильтрации значения корреляции.
Согласно примеру осуществления настоящего изобретения вычисление первого результата принятия решения о речевой активности в соответствии с сигнальным флагом тональности, отношением сигнал/шум, характеристикой спектрального центроида и энергетическим параметром кадра включает:
вычисление долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума, вычисленной в предшествующем кадре;
вычисление средней величины SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру, с целью получения усредненного общего SNR всех поддиапазонов;
получение порогового значения для принятия решения об обнаружении речевой активности в соответствии с характеристикой спектрального центроида, долговременным SNR, количеством непрерывных активных кадров и количеством непрерывных кадров шума;
вычисление начального результата принятия решения об обнаружении речевой активности в соответствии с пороговым значением для принятия решения об обнаружении речевой активности и отношением сигнал/шум и
модификацию начального результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, усредненным общим SNR всех поддиапазонов, характеристикой спектрального центроида и долговременным SNR с целью получения первого результата принятия решения об обнаружении речевой активности.
В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:
установку начального значения кадров затягивания для активного звука.
В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра и
вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналами поддиапазонов и модификацию текущего количества кадров затягивания для активного звука в соответствии с результатами принятия решения об обнаружении речевой активности для множества предшествующих кадров, долговременным SNR, усредненным общим SNR всех поддиапазонов и первым результатом принятия решения об обнаружении речевой активности.
Согласно примеру осуществления настоящего изобретения вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов включает:
вычисление долговременного SNR с использованием отношения средней энергии кадров долговременной активности и средней энергии долговременного фонового шума, вычисляемой с помощью кадра, предшествующего текущему кадру; и вычисление средней величины SNR всех поддиапазонов множества кадров, ближайших к текущему кадру, для получения усредненного общего SNR всех поддиапазонов.
Согласно примеру осуществления настоящего изобретения предварительным условием для коррекции текущего количества кадров затягивания для активного звука является флаг речевой активности, указывающий на то, что текущий кадр является активным.
В соответствии с примером осуществления настоящего изобретения модификация количества кадров затягивания для активного звука включает:
если количество непрерывных речевых кадров меньше установленного первого порогового значения, долговременное SNR меньше установленного порогового значения, количество кадров затягивания для активного звука равно минимальному количеству непрерывных активных кадров минус количество непрерывных активных кадров, и если усредненное общее SNR всех поддиапазонов больше установленного второго порогового значения, и количество непрерывных активных кадров больше установленного порогового значения, установку значения количества кадров затягивания для активного звука в соответствии с размером долговременного SNR.
Согласно примеру осуществления настоящего изобретения получение количества обновлений фонового шума включает:
получение флага обновления фонового шума и
вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума.
Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:
установку начального значения количества обновлений фонового шума.
Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:
если флаг обновления фонового шума указывает на то, что текущий кадр является фоновым шумом и количество обновлений фонового шума меньше установленного порогового значения, добавление к количеству обновлений фонового шума единицы.
Согласно примеру осуществления настоящего изобретения получение флага обновления фонового шума включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление значений энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление значений характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра; и
обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума.
Согласно примеру осуществления настоящего изобретения энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;
характеристика спектрального центроида представляет собой отношение взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации отношения;
характеристика стабильности во временной области представляет собой требуемое отношение дисперсии энергетических амплитуд кадра и квадрата амплитудных накопленных значений, или является произведением этого отношения на коэффициент; и
параметр спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд спектра или является произведением этого отношения на коэффициент.
Согласно примеру осуществления настоящего изобретения обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума включает:
установку флага обновления фонового шума в качестве первого предварительно установленного значения;
определение того, что текущий кадр не является сигналом шума, и установку флага обновления фонового шума в качестве второго предварительно установленного значения, если истинно любое из следующих условий:
характеристика стабильности во временной области превышает установленное пороговое значение;
значение характеристики спектрального центроида, к которому применена сглаживающая фильтрация, больше установленного порогового значения, и значение характеристики стабильности во временной области также превышает установленное пороговое значение;
значение характеристики тональности или значение характеристики тональности, к которой применена сглаживающая фильтрация, больше установленного порогового значения, и значение характеристики стабильности во временной области превышает установленное пороговое значение;
значение характеристики спектральной неравномерности каждого поддиапазона или значение характеристики спектральной неравномерности каждого поддиапазона, к которому применена сглаживающая фильтрация, меньше соответствующего установленного порогового значения; или
значение энергетического параметра кадра превышает установленное пороговое значение.
Согласно примеру осуществления настоящего изобретения вычисление количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука включает:
если первым результатом принятия решения об обнаружении речевой активности является активный кадр и количество обновлений фонового шума меньше предварительно установленного порогового значения, выбор в качестве количества модифицированных кадров для активного звука большего из следующих двух значений: значение константы и количество кадров затягивания для активного звука.
С помощью вариантов осуществления настоящего изобретения предлагается устройство для получения количества модифицированных кадров для активного звука, содержащее:
первый блок получения информации, выполненный с возможностью получения результата принятия решения об обнаружении речевой активности в текущем кадре;
второй блок получения информации, выполненный с возможностью получения количества кадров затягивания для активного звука;
третий блок получения информации, выполненный с возможностью получения количества обновлений фонового шума; и
четвертый блок получения информации, выполненный с возможностью получения количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
С помощью вариантов осуществления настоящего изобретения предлагается устройство для обнаружения речевой активности, содержащее:
пятый блок получения информации, выполненный с возможностью получения первого результата принятия решения об обнаружении речевой активности;
шестой блок получения информации, выполненный с возможностью получения количества кадров затягивания для активного звука;
седьмой блок получения информации, выполненный с возможностью получения количества обновлений фонового шума;
первый блок вычисления, выполненный с возможностью вычисления количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука;
восьмой блок получения информации, выполненный с возможностью получения второго результата принятия решения об обнаружении речевой активности; и
второй блок вычисления, выполненный с возможностью вычисления результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности.
На машиночитаемом носителе информации хранятся исполняемые компьютером инструкции для выполнения любых описанных выше способов.
С помощью вариантов осуществления настоящего изобретения предлагается способ получения количества модифицированных кадров для активного звука и способ и устройство для обнаружения речевой активности. Вначале выполняется получение первого результата принятия решения об обнаружении речевой активности, получение количества кадров затягивания для активного звука и получение количества обновлений фонового шума, а затем вычисляется количество модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука и выполняется получение второго результата принятия решения об обнаружении речевой активности, и, наконец, вычисляется результат принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности, благодаря чему может повышаться точность обнаружения в процессе VAD.
Другие аспекты могут быть изучены после ознакомления с прилагаемыми чертежами и подробным описанием.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
На фиг. 1 показан алгоритм выполнения способа обнаружении речевой активности в соответствии с вариантом 1 осуществления настоящего изобретения;
на фиг. 2 показана схема получения результата принятия решения VAD в соответствии с вариантом 1 осуществления настоящего изобретения;
на фиг. 3 показан алгоритм выполнения способа обнаружения фонового шума в соответствии с вариантом 2 осуществления настоящего изобретения;
на фиг. 4 показан алгоритм выполнения способа коррекции текущего количества кадров затягивания для активного звука в процессе принятия решения VAD в соответствии с вариантом 3 осуществления настоящего изобретения;
на фиг. 5 показан алгоритм выполнения способа получения количества модифицированных кадров для активного звука в соответствии с вариантом 4 осуществления настоящего изобретения;
на фиг. 6 показана структурная схема устройства для получения количества модифицированных кадров для активного звука в соответствии с вариантом 4 осуществления настоящего изобретения;
на фиг. 7 показан алгоритм выполнения способа обнаружении речевой активности в соответствии с вариантом 5 осуществления настоящего изобретения; и
на фиг. 8 показана структурная схема устройства для обнаружения речевой активности в соответствии с вариантом 5 осуществления настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ
Ниже со ссылкой на прилагаемые чертежи подробно описываются варианты осуществления настоящего изобретения. Следует отметить, что варианты осуществления настоящего изобретения, изложенные в данной заявке, и их признаки могут непротиворечиво комбинироваться друг с другом произвольным образом.
Шаги алгоритмов, показанных на прилагаемых чертежах, могут выполняться в компьютерной системе, например, в виде набора инструкций, исполняемых компьютером. Кроме того, хотя на алгоритмах показан логический порядок выполнения операций, в некоторых случаях показанные или описанные шаги могут выполняться в другом порядке.
Описание обозначений
Без специального указания в последующих вариантах осуществления правый верхний индекс [i] представляет порядковый номер кадра, [0] представляет текущий
кадр, и [-1] представляет предшествующий кадр. Например, и представляют сглаженные спектры текущего и предшествующего кадров.
Вариант 1 осуществления настоящего изобретения
В рамках варианта осуществления настоящего изобретения предлагается способ обнаружения речевой активности, показанный на фиг. 1 и включающий следующие шаги.
На шаге 101 осуществляется получение сигнала поддиапазонов и амплитуды спектра текущего кадра.
Настоящее изобретение описывается на примере аудиопотока с длиной кадра, составляющей 20 мс, и частотой дискретизации, равной 32 кГц. Этот способ также применим для других длин кадров и частот дискретизации.
Сигнал текущего кадра во временной области поступает в блок фильтров для выполнения вычисления фильтрации поддиапазонов с целью получения сигнала поддиапазонов блока фильтров.
В этом варианте осуществления используется 40-канальный блок фильтров, но описываемый способ также применим к блокам фильтров с другим числом каналов.
Предполагается, что входной звуковой сигнал обозначается как параметр LC равен 40 и представляет собой количество каналов блока фильтров, wc - оконная функция с длиной окна, равной 10 и сигнал поддиапазонов вычисляется следующим образом: где XCR и XCI являются вещественной и мнимой частями сигнала поддиапазонов. Сигнал поддиапазонов вычисляется следующим способом:
где - временной индекс поддиапазона, и ; k - индекс поддиапазона, и 0≤k≤LC-1.
С сигналом поддиапазонов блока фильтров выполняется частотно-временное преобразование, и вычисляется амплитуда спектра.
В данном случае вариант осуществления настоящего изобретения может быть реализован посредством выполнения частотно-временного преобразования во всех поддиапазонах блока фильтров или в части поддиапазонов блока фильтров и вычисления амплитуды спектра. В соответствии с вариантом осуществления настоящего изобретения способом частотно-временного преобразования может быть дискретное преобразование Фурье (DFT, Discrete Fourier Transform), быстрое преобразование Фурье (FFT, Fast Fourier Transformation), дискретное косинусное преобразование (DCT, Discrete Cosine Transform) или дискретное синусное преобразование (DST, Discrete Sine Transform). В этом варианте осуществления в качестве примера его реализации используется DFT. Процесс вычисления выполняется следующим образом.
16-точечное преобразование DFT выполняется с данными 16 точек временной выборки в каждом поддиапазоне блока фильтров с индексами от 0 до 9 с целью дополнительного улучшения спектрального разрешения и вычисления амплитуды в каждой частотной точке, для того чтобы получить амплитуду Asp спектра.
Формула вычисления частотно-временного преобразования выглядит следующим образом:
Процесс вычисления амплитуды в каждой частотной точке выполняется следующим образом.
Вначале по приведенной ниже формуле вычисляется энергия массива XDFT[k, j] в каждой точке.
В данном случае Re(XDFT[k, j]) и Im(XDFT[k, j]) соответственно представляют вещественную и мнимую составляющие спектральных коэффициентов XDFT[k, j].
Если k является четным числом, то для вычисления амплитуды спектра в каждой частотной точке используется следующая формула:
0≤k<10,0≤j<8
Если к является нечетным числом, то для вычисления амплитуды спектра в каждой частотной точке используется следующая формула:
0≤k<10,0≤j<8
Asp является амплитудой спектра после выполнения частотно-временного преобразования.
На шаге 102 выполняется вычисление характеристик энергии кадра, характеристик спектрального центроида и характеристик стабильности во временной области для текущего кадра в соответствии с сигналом поддиапазонов и вычисление характеристик спектральной неравномерности и характеристик тональности в соответствии с амплитудой спектра.
В данном случае энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов всех поддиапазонов, то есть:
a) энергия каждого поддиапазона блока фильтров вычисляется в соответствии с сигналом поддиапазонов блока фильтров:
0≤k≤LC-1
В данном случае: 0≤t≤15, 0≤k≤LC.
b) Для получения энергетического параметра кадра накапливается энергия акустически чувствительных частей поддиапазонов блока фильтров или энергия всех поддиапазонов блока фильтров.
В данном случае в соответствии с психоакустической моделью человеческое ухо менее чувствительно к звуку на очень низких частотах (например, ниже 100 Гц) и на высоких частотах (например, выше 20 кГц). Например, согласно варианту осуществления настоящего изобретения предполагается, что в множестве поддиапазонов блока фильтров, упорядоченных по возрастанию частоты, поддиапазоны со второго до предпоследнего являются первичными, акустически чувствительными поддиапазонами, при этом энергия части или всех акустически чувствительных поддиапазонов блока фильтров накапливается для получения энергетического параметра 1 кадра, и вычисление выполняется следующим образом:
где - начальный индекс поддиапазона, значения которого находятся в пределах [0…6]; - конечный индекс поддиапазона, значения которого больше 6 и меньше общего количества поддиапазонов.
Для вычисления энергетического параметра 2 кадра значение энергетического параметра 1 кадра складывается со взвешенным значением энергии части или всех поддиапазонов банка фильтров, не используемых для вычисления энергетического параметра 1 кадра, и вычисление осуществляется по следующей формуле:
где и - масштабные коэффициенты взвешивания в диапазоне значений [0…1], соответственно, и - общее количество поддиапазонов.
Характеристики спектрального центроида представляют собой отношение взвешенной суммы к невзвешенной сумме энергий всех или части поддиапазонов.
Характеристики спектрального центроида вычисляются в соответствии с энергиями поддиапазонов банка фильтров. Характеристика спектрального центроида представляет собой отношение взвешенной суммы к невзвешенной сумме энергий всех или части поддиапазонов или является значением, получаемым путем применения сглаживающей фильтрации к этому отношению.
Характеристики спектрального центроида могут быть получены путем выполнения следующих дополнительных шагов:
а: разделение на поддиапазоны для вычисления характеристик спектрального центроида выполняется следующим образом:
b: значения двух характеристик спектрального центроида, которые представляют собой характеристику спектрального центроида первого интервала и характеристику спектрального центроида второго интервала, вычисляются с использованием способа разделения на интервалы для вычисления характеристики спектрального центроида, описанной в п. а, и с помощью следующей формулы:
и представляют собой небольшие значения смещения в диапазоне (0…1). В данном случае k представляет собой номер характеристики спектрального центроида.
с: операция сглаживающей фильтрации выполняется с характеристикой sp_center[0] спектрального центроида первого интервала для получения сглаженного значения характеристики спектрального центроида, то есть, сглаженного отфильтрованного значения характеристики спектрального центроида первого интервала, при этом процесс вычисления выполняется следующим образом:
Здесь представляет собой масштабный коэффициент сглаживающей фильтрации характеристики спектрального центроида, и представляет собой сглаженное значение характеристики спектрального центроида в предшествующем кадре с начальным значением 1,6.
Характеристика стабильности во временной области представляет собой отношение дисперсии сумм амплитуд энергии к математическому ожиданию квадратов амплитуд энергии или является отношением, умноженным на коэффициент.
Характеристики стабильности во временной области вычисляются с использованием энергетических характеристик нескольких самых последних кадров. Согласно настоящему варианту осуществления характеристика стабильности во временной области вычисляется с использованием уровней энергии 40 последних кадров. При этом выполняются следующие шаги.
Вначале по приведенной ниже формуле вычисляются энергетические амплитуды сигналов 40 последних кадров.
где e_offset представляет собой небольшое значение смещения в диапазоне [0…0,1].
Далее путем сложения энергетических амплитуд двух смежных кадров, начиная от текущего кадра до 40-го предшествующего кадра, вычисляются 20 сумм энергетических амплитуд. Вычисление выполняется по следующей формуле:
где, если n=0, представляет энергетическую амплитуду текущего кадра, а если n<0 представляет энергетическую амплитуду n-го кадра, предшествующего текущему.
Наконец, характеристика ltd_stable_rate0 стабильности во временной области вычисляется как отношение дисперсии к средней энергии 20 сумм амплитуд, ближайших к текущему кадру. Вычисление выполняется по следующей формуле:
Характеристика спектральной неравномерности представляет собой отношение среднего геометрического к среднему арифметическому амплитуды сглаженного спектра или является произведением этого отношения на коэффициент.
Для получения результата амплитуда спектра сглаживается:
где и представляют сглаженные амплитуды спектра текущего и предшествующего кадров, соответственно, и NA является количеством амплитуд спектра.
Следует отметить, что несколько предварительно определенных амплитуд спектра, описываемых в варианте осуществления настоящего изобретения, могут представлять собой часть амплитуд спектра, выбранных в соответствии с опытом специалистов в этой области техники, или могут также являться частью амплитуд спектра, выбранных из практических соображений.
Согласно настоящему варианту осуществления амплитуда спектра разделяется на три частотных области, и характеристики спектральной неравномерности вычисляются для этих трех частотных областей. Разделение выполняется следующим образом.
Разделение на поддиапазоны для вычисления характеристик спектральной неравномерности:
Пусть представляет количество амплитуд спектра, используемых для вычисления характеристик спектральной неравномерности:
Наконец, характеристики спектральной неравномерности текущего кадра сглаживаются для получения окончательных характеристик спектральной неравномерности текущего кадра:
где и представляют собой сглаженные характеристики спектральной неравномерности текущего и предшествующего кадров, соответственно.
Получение характеристик тональности осуществляется путем вычисления коэффициента корреляции внутрикадровой разницы амплитуд спектра двух смежных кадров с возможным дополнительным сглаживанием коэффициента корреляции.
Вычисление коэффициента корреляции внутрикадровой разницы амплитуд спектра сигналов двух смежных кадров выполняется следующим образом.
Характеристика тональности вычисляется в соответствии с амплитудой спектра, в данном случае характеристика тональности может вычисляться в соответствии со всеми амплитудами спектра или с частью амплитуд спектра.
Для вычисления выполняются следующие шаги:
а) вычисляются разницы амплитуд спектра двух смежных амплитуд спектра для части (не менее 8 амплитуд спектра) или всех амплитуд спектра в текущем кадре.
Если разница меньше 0, то она устанавливается равной 0, и получается группа неотрицательных разниц амплитуд спектра:
b) вычисляется коэффициент корреляции между неотрицательными разницами амплитуд спектра текущего кадра, полученными на шаге а), и неотрицательными разницами амплитуд спектра предшествующего кадра с целью получения первой характеристики тональности следующим образом:
где - неотрицательная разница амплитуд спектра предшествующего кадра;
c) первая характеристика тональности сглаживается для получения значения второй характеристики тональности и третьей характеристики тональности, при этом индекс 0 в угловых скобках представляет текущий кадр, и формула вычисления выглядит следующим образом:
На шаге 103 выполняется вычисление параметров отношения сигнал/шум (SNR) текущего кадра в соответствии с энергией фонового шума, рассчитанной на основе предшествующего кадра, энергетического параметра кадра и энергии поддиапазонов отношения сигнал/шум текущего кадра.
Энергия фонового шума предшествующего кадра может быть получена с использованием существующего способа.
Если текущий кадр является начальным, то в качестве энергии фонового шума поддиапазонов SNR применяется начальное значение, используемое по умолчанию. В принципе, оценка энергии фонового шума поддиапазонов SNR предшествующего кадра совпадает с оценкой для текущего кадра. Оценка энергии фонового шума поддиапазонов SNR текущего кадра описывается со ссылкой на шаг 107, выполняемый в рамках настоящего варианта осуществления. В данном случае параметры SNR текущего кадра могут быть получены с использованием существующего способа. В альтернативном варианте используется следующий способ.
Во-первых, поддиапазоны банка фильтров повторно разделяются на множество поддиапазонов SNR, ниже в таблице показаны индексы разделения.
Во-вторых, энергия каждого поддиапазона SNR текущего кадра вычисляется в соответствии со способом разделения на поддиапазоны SNR. Вычисление выполняется по следующей формуле:
0≤n<13;
Затем вычисляется среднее значение отношения SNR поддиапазонов в соответствии с энергией каждого поддиапазона SNR текущего кадра и энергией фонового шума каждого поддиапазона SNR предшествующего кадра. Вычисление выполняется по следующей формуле:
где - расчетная энергия фонового шума поддиапазонов SNR предшествующего кадра, и num_band - количество поддиапазонов SNR. Принцип получения энергии фонового шума поддиапазонов SNR предшествующего кадра совпадает с принципом получения энергии фонового шума поддиапазонов SNR текущего кадра. Процесс получения энергии фонового шума поддиапазонов SNR текущего кадра описывается ниже со ссылкой на шаг 107, выполняемый в рамках варианта 1 осуществления.
Наконец, вычисляется значение SNR2 отношения SNR всех поддиапазонов в соответствии с расчетной энергией фонового шума во всех поддиапазонах в предшествующем кадре и энергией текущего кадра:
где - расчетная энергия фонового шума во всех поддиапазонах предшествующего кадра, и принцип получения энергии фонового шума во всех поддиапазонах предшествующего кадра совпадает с принципом получения энергии фонового шума во всех поддиапазонах текущего кадра. Процесс получения энергии фонового шума во всех поддиапазонах текущего кадра описывается ниже со ссылкой на шаг 107, выполняемый в рамках варианта 1 осуществления настоящего изобретения.
Согласно этому варианту осуществления параметры SNR включают в свой состав среднее значение SNR1 отношения SNR поддиапазонов и отношения SNR всех поддиапазонов. Энергия фонового шума во всех поддиапазонах и энергия фонового шума в каждом поддиапазоне совместно называются энергией фонового шума.
На шаге 104 выполняется вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности текущего кадра.
На шаге 104а предполагается, что сигнал текущего кадра является не тональным сигналом, и флаг tonality_frame тонального кадра используется для индикации, является ли текущий кадр тональным.
Согласно этому варианту осуществления значение 1 флага tonality_frame указывает на то, что текущий кадр является тональным, а значение 0 - на то, что текущий кадр не является тональным.
На шаге 104b определяется, превышает ли характеристика тональности или ее сглаженное значение соответствующее установленное пороговое значение или и если одно из указанных выше условий удовлетворяется, выполняется шаг 104 с, в противном случае выполняется шаг 104d.
В данном случае значение находится в диапазоне [0,5…0,7], а значение - в диапазоне [0,7…0,99].
На шаге 104 с, если характеристика lt_stable_rate0 стабильности во временной области меньше установленного порогового значения , характеристика sp_center[1] спектрального центроида меньше установленного порогового значения spc_decision_thr1 и одна из трех характеристик спектральной неравномерности меньше соответствующего порогового значения, определяется, что текущий кадр является тональным кадром, и значение флага tonality_frame тонального кадра устанавливается равным 1; в противном случае определяется, что текущий кадр не является тональным кадром, значение tonality_frame флага тонального кадра устанавливается равным 0, и выполняется шаг 104d.
В данном случае значение находится в диапазоне [0,01…0,25], а значение spc _decision_thr1 - в диапазоне [1,0…1,8].
На шаге 104d обновляется характеристика tonality_degree уровня тонального сигнала в соответствии с флагом tonality_frame тонального кадра. В начале обнаружения активного звука начальное значение характеристики tonality_degree уровня тонального сигнала устанавливается в диапазоне [0…1]. В различных случаях используются разные способы вычисления характеристики tonality_degree уровня тонального сигнала.
Если текущий флаг тонального кадра указывает на то, что текущий кадр
является тональным, для обновления характеристики tonality_degree уровня тонального сигнала используется следующая формула:
где tonality_degree-1, - характеристика тонального уровня предшествующего кадра, начальное значение которой находится в диапазоне [0…1], td_scale_A - коэффициент затухания, значение которого находится в диапазоне [0…1], и td_scale_B - накопленный коэффициент, значение которого находится в диапазоне [0…1].
На шаге 104е определяется, является ли текущий кадр тональным сигналом в соответствии с обновленной характеристикой tonality_degree уровня тонального сигнала, и устанавливается значение tonality_flag сигнального флага тональности.
Если характеристика tonality_degree уровня тонального сигнала больше установленного порогового значения, определяется, что текущий кадр является тональным сигналом; в противном случае определяется, что текущий кадр не является тональным сигналом.
На шаге 105 выполняется вычисление результата принятия решения VAD в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра, и, как показано на фиг. 2, выполняются следующие шаги.
На шаге 105а осуществляется получение значения долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума для предшествующего кадра.
Средняя энергия Efg кадров долговременной активности и средняя энергия Ebg долговременного фонового шума вычисляются и определяются на шаге 105g. Значение долговременного SNR вычисляется следующим образом:
в этой формуле значение долговременного SNR выражается логарифмически.
На шаге 105b выполняется вычисление среднего значения SNR2 отношения SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру, с целью получения значения усредненного общего SNR всех поддиапазонов.
Вычисление выполняется по следующей формуле:
где SNR2(n) представляет собой значение SNR2 отношения SNR всех поддиапазонов в n-ом кадре, предшествующем текущему, и является общим количеством кадров в диапазоне [8…64], используемых для вычисления среднего значения.
На шаге 105с осуществляется получение порогового значения snr_thr отношения SNR для принятия решения VAD в соответствии с характеристикой спектрального центроида, значением долговременного SNR, количеством_speech_num непрерывных активных кадров и количеством continuous_noise_num непрерывных кадров шума.
Для реализации этой операции выполняются следующие шаги.
Во-первых, начальное пороговое значение shr_thr отношения SNR, находящееся в диапазоне [0,1…2], устанавливается, например, равным 1,06.
Во-вторых, выполняется первоначальная настройка порогового значения snr_thr отношения SNR в соответствии с характеристикой спектрального центроида.
Эти шаги выполняются следующим образом. Если значение sp_center[2] характеристики спектрального центроида больше установленного порогового
значения spc_vad_dec_thr1 то snr_thr складывается со значением смещения, и в этом примере значением смещения является 0,05; в противном случае, если sp_center[1] больще spc_vad_dec_thr2, то snr_thr складывается со значением смещения, и в этом примере значением смещения является 0,10; в противном случае, snr_thr складывается со значением смещения, и в этом примере значением смещения является 0,40, здесь пороговые значения spc_vad_dec_thr1 и spc_vad_dec_thr2 находятся в диапазоне [1,2…2,5].
Затем выполняется вторая настройка snr_thr в соответствии с количеством непрерывных активных кадров, количеством continuous_noise_num непрерывных кадров шума, значением усредненного общего SNR всех поддиапазонов и значением долговременного SNR. Если количество continuous_speech_num непрерывных активных кадров больше установленного порогового значения cpn_vad_dec_thr1, то из snr_thr вычитается 0,2; в противном случае, если количество continuous_noise_num непрерывных кадров шума больше установленного порогового значения и больше значения смещения плюс значения долговременного SNR, умноженного на коэффициент , то snr_thr складывается со значением смещения, которое в этом примере выбирается равным 0,1; в противном случае, если continuous_noise_num больше установленного порогового значения cpn_vad_dec_thr3, то snr_thr складывается со значением смещения, которое в этом примере выбирается равным 0,2; в противном случае, если continuous_noise_num больше установленного порогового значения cpn_vad_dec_thr4, то snr_thr складывается со значением смещения, которое в этом примере выбирается равным 0,1. В данном случае пороговые значения cpn_vad_dec_thr1, cpn_vad_dec_thr2, cpn_vad_dec_thr3 и cpn_vad_dec_thr4 находятся в диапазоне [2…500], а значение коэффициента - в диапазоне [0…2]. Варианты осуществления настоящего изобретения также могут быть реализованы без выполнения настоящего шага, путем непосредственного перехода к конечному шагу.
Наконец, выполняется окончательная настройка порогового значения snr_thr отношения SNR в соответствии с долговременным значением отношения SNR для получения порогового значения snr_thr отношения SNR текущего кадра. Формула настройки выглядит следующим образом:
где thr_offset представляет собой значение смещения, находящееся в диапазоне [0,5…3], а представляет собой коэффициент усиления, находящийся в диапазоне [0,1...1].
На шаге 105d для текущего кадра вычисляется начальное решение VAD в соответствии с пороговым значением snr_thr отношения SNR и параметрами SNR1 и SNR2, вычисленными в текущем кадре.
Процесс вычисления выполняется следующим образом.
Если SNRI больше порогового значения snr_tnr отношения SNR, определяется, что текущий кадр является активным, и значение vad_flag флага VAD используется для индикации активности текущего кадра. Согласно настоящему варианту осуществления значение 1 используется для указания на то, что текущий кадр является активным, а значение 0 - на то, что текущий кадр не является активным. В противном случае определяется, что текущий кадр является неактивным, и значению vad_flag флага VAD присваивается значение 0.
Если SNR2 больше порогового значения snr2_thr, определяется, что текущий кадр является активным, и значение vad_flag флага VAD устанавливается равным 1. В данном случае значение snr2_tnr находится в диапазоне [1,2…5,0]. На шаге 105е модифицируется начальное решение VAD в соответствии с сигнальным флагом тональности, значением усредненного общего SNR всех поддиапазонов, характеристикой спектрального центроида и значением долговременного SNR.
Выполняются следующие шаги.
Если сигнальный флаг тональности указывает на то, что текущий кадр является тональным сигналом, то есть значение tonality_flag равно 1, то определяется, что текущий кадр является активным сигналом, и флаг vad_flag устанавливается равным 1.
Если значение усредненного общего SNR всех поддиапазонов больше установленного порогового значения плюс значения долговременного SNR, умноженного на коэффициент , то определяется, что текущий кадр является активным, и флаг vad_flag устанавливается равным 1.
Согласно настоящему варианту осуществления значение находится в диапазоне [1…4], а значение - в диапазоне [0,1…0,6].
Если значение усредненного общего SNR всех поддиапазонов больше установленного порогового значения , характеристика спектрального центроида больше установленного порогового значения , и значение долговременного SNR меньше установленного порогового значения , то определяется, что текущий кадр является активным, и флаг vad_flag устанавливается равным 1. В данном случае значение находится в диапазоне [1,0…2,5], значение sp_center_t_thr1 находится в диапазоне [2,0…4,0], и значение находится в диапазоне [2,5…5,0].
Если больше установленного порогового значения , характеристика sp_center[2] спектрального центроида больше установленного порогового значения sp_center_t_thr2, и значение долговременного SNR меньше установленного порогового значения , то определяется, что текущий кадр является активным, и флаг vad_flag устанавливается равным 1. В данном случае значение находится в диапазоне [0,8…2,0], значение sp_center_t_thr2 находится в диапазоне [2,0…4,0], и значение находится в диапазоне [2,5…5,0].
Если больше установленного порогового значения , характеристика sp_center[2] спектрального центроида больше установленного порогового значения sp_center_t_thr3, и значение долговременного SNR меньше установленного порогового значения , то определяется, что текущий кадр является активным, и флаг vad_flag устанавливается равным 1. В данном случае значение находится в диапазоне [0,6…2,0], значение sp_center_t_thr3 находится в диапазоне [3,0…6,0], и значение находится в диапазоне [2,5…5,0].
На шаге 105f выполняется обновление количества кадров затягивания для активного звука в соответствии с результатами принятия решения для нескольких предшествующих кадров, значением долговременного SNR, значением усредненного общего SNR всех поддиапазонов и решением VAD для текущего кадра.
Для вычисления выполняются следующие шаги.
Предварительным условием для обновления текущего количества кадров затягивания для активного звука является флаг активного звука, указывающий на то, что текущий кадр является активным звуком. Если это условие не удовлетворяется,
то текущее количество num_speech_hangover кадров затягивания не обновляется, и осуществляется переход непосредственно к шагу 105g.
Для обновления количества кадров затягивания выполняются следующие шаги.
Если количество continuous_speech_num непрерывных активных кадров меньше установленного порогового значения continuous_speech_num_thr1 и lt_snr меньше установленного порогового значения , то текущее количество num_speech_hangover кадров затягивания для активного звука обновляется путем вычитания количества continuous_speech_num непрерывных активных кадров из минимального количества непрерывных активных кадров. В противном случае, если больше установленного порогового значения и количество continuous_speech_num непрерывных активных кадров больше установленного второго порогового значения continuous _speech_num_thr2 количество num_speech_hangover кадров затягивания для активного звука устанавливается в соответствии со значением lt_snr. В противном случае количество num_speech_hangover кадров затягивания не обновляется. В настоящем варианте осуществления минимальное количество непрерывных активных кадров составляет 8, и это значение может находиться в диапазоне [6…20]. Первое пороговое значение continuous_speech_num_thr1 может совпадать со вторым пороговым значением continuous_speech_num_thr2 или отличаться от него.
Выполняются следующие шаги.
Если значение долговременного SNR больше 2,6, значение num_speech_hangover устанавливается равным 3; в противном случае, если значение долговременного SNR больше 1,6, значение num_speech_hangover устанавливается равным 4; в противном случае значение num_speech_hangover устанавливается равным 5.
На шаге 105g выполняется наращивание затягивания активного звука в соответствии с результатом принятия решения и количеством num_speech_hangover кадров затягивания для текущего кадра с целью получения решения VAD для текущего кадра.
Способ выполняется следующим образом.
Если определяется, что текущим кадром является неактивный звук, то есть флаг VAD равен 0, и количество num_speech_hangover кадров затягивания больше 0, наращивается затягивание активного звука, то есть флаг VAD устанавливается равным 1, и значение num_speech_hangover уменьшается на 1.
Наконец, принимается решение VAD для текущего кадра.
В альтернативном варианте после шага 105d может также включаться следующий шаг: вычисление средней энергии Efg кадров долговременной активности в соответствии с начальным результатом принятия решения VAD, при этом вычисленное значение используется для решения VAD для следующего кадра; и после шага 105g может выполняться следующий шаг: вычисление средней энергии Ebg долговременного фонового шума в соответствии с результатом принятия решения VAD для текущего кадра, при этом вычисленное значение используется для решения VAD для следующего кадра.
Процесс вычисления средней энергии Efg кадров долговременной активности выполняется следующим образом:
a) если начальный результат принятия решения VAD указывает на то, что текущий кадр является активным, то есть значение флага VAD равно 1 и Et1 много раз (6 раз в настоящем варианте осуществления) превышает Ebg, то накопленное значение fg_energy средней энергии кадров долговременной активности и накопленное количество fg_energy_count средней энергии кадров долговременной активности обновляется. Способ обновления заключается в добавлении Et1 к fg_energy для получения нового значения fg_energy и добавлении 1 к fg_energy_count для получения нового значения fg_energy_count;
b) для гарантирования того, что средняя энергия кадров долговременной активности отражает самый последний уровень энергии активных кадров, если накопленное количество средней энергии кадров долговременной активности равно установленному значению fg_max_frame_num накопленное количество и накопленное значение одновременно умножаются на коэффициент затухания attenu_coef1 Согласно настоящему варианту осуществления значение fg_max_frame_num составляет 512, а значение attenu_coef1 равно 0,75;
c) накопленное значение fg_energy средней энергии кадров долговременной активности делится на накопленное количество средней энергии кадров долговременной активности для получения средней энергии кадров долговременной активности, и вычисление выполняется по следующей формуле:
Способ вычисления средней энергии Ebg долговременного фонового шума выполняется следующим образом.
Предполагается, что bg_energy_count является накопленным количеством кадров фонового шума, которое используется для регистрации количества кадров самого последнего фонового шума, учитываемых в процессе накопления энергии. bg_energy представляет собой накопленную энергию самых последних кадров фонового шума.
a) Если определяется, что текущий кадр является неактивным, значение флага
VAD равно 0, и если SNR2 меньше 1,0, то накопленная энергия bg_energy фонового шума и накопленное количество bg_energy_count кадров фонового шума обновляются. Способ обновления заключается в добавлении накопленной энергии bg_energy фонового шума к Et1 для получения нового значения bg_energy накопленной энергии фонового шума. Накопленное количество bg_energy_count кадров фонового шума складывается с 1 для получения нового количества bg_energy_count кадров фонового шума;
b) если накопленное количество bg_energy_count кадров фонового шума равно максимальному накопленному количеству кадров фонового шума, то накопленное количество и накопленная энергия одновременно умножаются на
коэффициент attenu_coef2 ослабления. В этом варианте осуществления максимальное накопленное количество для вычисления средней энергии
долговременного фонового шума составляет 512, а коэффициент attenu-coef2 ослабления равен 0,75;
c) накопленная энергия bg_energy фонового шума делится на накопленное количество кадров фонового шума для получения средней энергии долговременного фонового шума, и вычисление выполняется по следующей формуле:
Кроме того, следует отметить, что в вариант 1 осуществления настоящего изобретения могут быть также включены следующие шаги.
На шаге 106 выполняется вычисление флага обновления фонового шума в соответствии с результатом принятия решения VAD, характеристикой тональности, параметром SNR, сигнальным флагом тональности и характеристикой стабильности во временной области. Способ вычисления приводится ниже при описании варианта 2 осуществления настоящего изобретения.
На шаге 107 осуществляется получение энергии фонового шума текущего кадра в соответствии с флагом обновления фонового шума, энергетическим параметром текущего кадра и энергией фонового шума во всех поддиапазонах предшествующего кадра, и энергия фонового шума текущего кадра используется для вычисления параметра SNR для следующего кадра.
В данном случае решение об обновлении фонового шума принимается в соответствии с флагом обновления фонового шума, и если флаг обновления фонового шума равен 1, фоновый шум обновляется в соответствии с расчетным значением энергии фонового шума во всех поддиапазонах и энергии текущего кадра. Оценка энергии фонового шума включает как оценку энергии фонового шума поддиапазонов, так и как оценку энергии фонового шума во всех поддиапазонах.
a. Оценка энергии фонового шума поддиапазонов выполняется по следующей формуле:
где num_sb - количество поддиапазонов SNR, и представляет собой энергию фонового шума k-го поддиапазонов SNR предшествующего кадра.
- коэффициент обновления фонового шума, и его значение определяется энергией фонового шума во всех поддиапазонах предшествующего кадра и энергетическим параметром текущего кадра. Процесс вычисления выполняется следующим образом.
Если энергия фонового шума во всех поддиапазонах предшествующего кадра меньше энергии Et1 текущего кадра, это значение составляет 0,96, в противном случае значение равно 0,95.
b. Оценка энергии фонового шума во всех поддиапазонах:
Если флаг обновления фонового шума текущего кадра равен 1, накопленное значение энергии фонового шума и накопленное количество кадров энергии фонового шума обновляются, и вычисление выполняется по следующей формуле:
где - накопленное значение энергии фонового шума предшествующего кадра, и - накопленное количество кадров энергии фонового шума, вычисленное в предшествующем кадре.
c. Энергия фонового шума во всех поддиапазонах определяется с помощью отношения накопленного значения энергии фонового шума и накопленного количества кадров:
Определяется, равно ли 64, и если равно 64 то накопленное значение энергии фонового шума и накопленное количество кадров умножаются на 0,75, соответственно.
d. Энергия фонового шума поддиапазонов и накопленное значение энергии фонового шума настраиваются в соответствии с сигнальным флагом тональности, энергетическим параметром кадра и энергией фонового шума во всех поддиапазонах. Процесс вычисления выполняется следующим образом.
Если сигнальный флаг tonality_flag тональности равен 1 и значение Et1 энергетического параметра кадра меньше значения энергии фонового шума, умноженной на коэффициент gain усиления,
В данном случае значение gain находится в диапазоне [0,3…1]. Вариант 2 осуществления изобретения
В рамках осуществления настоящего изобретения также предлагается вариант реализации способа обнаружения фонового шума, показанный на фиг. 3 и включающий следующие шаги.
На шаге 201 осуществляется получение сигнала поддиапазонов и амплитуды спектра текущего кадра.
На шаге 202 выполняется вычисление значений энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление значений характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра.
Энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов всех поддиапазонов;
Характеристика спектрального центроида представляет собой отношение взвешенной суммы к невзвешенной сумме энергий всех или части поддиапазонов или является значением, получаемым путем применения сглаживающей фильтрации к этому отношению.
Характеристика стабильности во временной области представляет собой отношение дисперсии суммы энергетических амплитуд к математическому ожиданию квадратов сумм энергетических амплитуд или является отношением, умноженным на коэффициент.
Характеристика спектральной неравномерности представляет собой отношение среднего геометрического к среднему арифметическому предварительно определенных амплитуд сглаженного спектра или является произведением этого отношения на коэффициент.
На шагах 201 и 202 могут использоваться способы, приведенные выше, и эти способы повторно не описываются.
На шаге 203 определяется, является ли текущий кадр фоновым шумом путем выполнения обнаружения фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром текущего кадра.
Вначале предполагается, что текущий кадр является фоновым шумом, и флаг обновления фонового шума устанавливается равным первому предварительно установленному значению; затем, если удовлетворяется любое из указанных ниже условий, определяется, что текущий кадр не является сигналом фонового шума, и флаг обновления фонового шума устанавливается равным второму предварительно установленному значению:
Характеристика lt_stable_rate0 стабильности во временной области превышает установленное пороговое значение.
Сглаженное значение характеристики спектрального центроида больше установленного порогового значения, и характеристика стабильности во временной области также превышает установленное пороговое значение.
Значение характеристики тональности или сглаженное значение характеристики тональности больше установленного порогового значения, и значение характеристики lt_stable_rate0 стабильности во временной области превышает установленное пороговое значение.
Значение характеристики спектральной неравномерности каждого поддиапазона или сглаженное значение характеристики спектральной неравномерности каждого поддиапазона меньше соответствующего установленного порогового значения, или значение Et1 энергетического параметра кадра превышает установленное пороговое значение E_thr1.
В частности, предполагается, что текущий кадр является фоновым шумом.
В этом варианте осуществления настоящего изобретения флаг background_flag обновления фонового шума используется для индикации, является ли текущий кадр фоновым шумом, и предполагается, что если текущий кадр является фоновым шумом, флаг background_flag обновления фонового шума приравнивается к 1 (первое предварительно установленное значение), в противном случае флаг background_flag обновления фонового шума приравнивается к 0 (второе предварительно установленное значение).
Определяется, является ли текущий кадр сигналом шумом в соответствии с характеристикой стабильности во временной области, характеристикой спектрального центроида, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром текущего кадра. Если это не сигнал шума, флаг background_flag обновления фонового шума устанавливается равным 0.
Процесс выполняется следующим образом.
Определяется, превышает ли характеристика lt_stable_rate0 стабильности во временной области установленное пороговое значение Если это так, определяется, что текущий кадр не является сигналом шума, и background_flag устанавливается равным 0. В этом варианте осуществления предварительно установленное значение находится в диапазоне [0,8…1,6].
Определяется, превышает ли сглаженное значение характеристики спектрального центроида установленное пороговое значение sp_center_thr1, и превышает ли характеристика стабильности во временной области установленное пороговое значение lt_stable_rate_thr2. Если это так, определяется, что текущий кадр не является сигналом шума, и background_flag устанавливается равным 0. Значение sp_center thr1 находится в диапазоне [1,6…4], а значение lt_stable_rate_thr2 находится в диапазоне (0…0,1].
Определяется, превышает ли значение характеристики тональности установленное пороговое значение , и превышает ли значение lt_stable_rate0 характеристики стабильности во временной области установленное пороговое значение lt_stable_rate_thr3.
Если одновременно выполняются указанные выше условия, определяется, что текущий кадр не является фоновым шумом, и background_flag устанавливается равным 0. Пороговое значение tonality_rate_thr1 находится в диапазоне [0,4…0,66], а пороговое значение lt_stable_rate_thr3 находится в диапазоне [0,06…0,3].
Определяется, меньше ли значение FSSF(0) характеристики спектральной неравномерности установленного порогового значения sSMR_thr1, определяется, меньше ли значение FSSF(1) характеристики спектральной неравномерности установленного порогового значения sSMR_thr2, и определяется, меньше ли значение FSSF(2) характеристики спектральной неравномерности установленного значения sSMR_thr3.
Если одновременно выполняются указанные выше условия, определяется, что текущий кадр не является фоновым шумом, и background_flag устанавливается равным 0, в данном случае пороговые значения sSMR_thr1, sSMR_thr2 и sSMR_thr3 находятся в диапазоне [0,88…0,98]. Определяется, меньше ли значение FSSF(0) характеристики спектральной неравномерности установленного порогового значения sSMR_thr4, определяется, меньше ли значение FSSF(1) характеристики спектральной неравномерности установленного порогового значения sSMR_thr5, и определяется, меньше ли значение FSSF(2) характеристики спектральной неравномерности установленного значения sSMR_thr6 Если удовлетворяется любое из указанных выше условий, то определяется, что текущий кадр не является фоновым шумом. Флагу background_flag присваивается значение 0. Значения sSMR_thr4, sSMR_thr5 и sSMR_thr6 находятся в диапазоне [0,80…0,92].
Определяется, превышает ли значение Et1 энергетический параметра кадра установленное пороговое значение E_thr1. Если удовлетворяется указанное выше условие, то определяется, что текущий кадр не является фоновым шумом. Флагу background_flag присваивается значение 0. E_thr1 присваивается значение, соответствующе динамическому диапазону энергетического параметра кадра.
Если не обнаружено, что текущий кадр отличается от фонового шума, то указывается, что текущий кадр является фоновым шумом.
Вариант 3 осуществления настоящего изобретения
В рамках варианта осуществления настоящего изобретения также предлагается способ обновления количества кадров затягивания для активного звука в ходе принятия решения VAD, показанный на фиг. 4 и включающий следующие шаги.
На шаге 301 выполняется вычисление значения долговременного SNR в соответствии с сигналами поддиапазонов.
Получение значения долговременного SNR осуществляется путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума для предшествующего кадра.
Значение долговременного SNR может выражаться логарифмически.
На шаге 302 вычисляется значение усредненного общего SNR всех поддиапазонов.
Получение значения усредненного общего SNR всех поддиапазонов осуществляется путем вычисления среднего значения SNR2 отношений SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру.
На шаге 303 выполняется обновление количества кадров затягивания для активного звука в соответствии с результатами решения VAD нескольких предыдущих кадров, значением долговременного SNR, значением усредненного общего SNR всех поддиапазонов, параметрами SNR и решением VAD для текущего кадра.
Следует понимать, что предварительным условием для обновления текущего количества кадров затягивания для активного звука является тот факт, что флаг активного звука указывает на то, что текущий кадр является активным звуком.
Для обновления количества кадров затягивания для активного звука, если количество непрерывных активных кадров меньше установленного первого порогового значения и значение долговременного SNR меньше установленного второго порогового значения, то количество кадров затягивания для активного звука обновляется путем вычитания количества непрерывных активных кадров из минимального количества непрерывных активных кадров; в противном случае, если значение усредненного общего SNR всех поддиапазонов больше установленного третьего порогового значения и количество непрерывных активных кадров больше четвертого установленного значения, то количество кадров затягивания для активного звука устанавливается в соответствии со значением долговременного SNR. В противном случае количество num_speech_hangover кадров затягивания не обновляется.
Вариант 4 осуществления настоящего изобретения
В рамках настоящего варианта осуществления предлагается способ получения количества модифицированных кадров для активного звука, показанный на фиг. 5 и включающий следующие шаги.
На шаге 401 выполняется получение результата принятия решения об обнаружении речевой активности для текущего кадра с использования способа, приведенного при описании варианта 1 осуществления настоящего изобретения.
На шаге 402 осуществляется получение количества кадров затягивания для активного звука с использованием способа, приведенного при описании варианта 3 осуществления настоящего изобретения.
На шаге 403 осуществляется получение количества update_count обновлений фонового шума. Выполняются следующие шаги.
На шаге 403а выполняется вычисление флага background_flag обновления фонового шума с использованием способа, приведенного при описании варианта 2 осуществления настоящего изобретения.
На шаге 403b, если флаг обновления фонового шума указывает на то, что существует фоновый шум и количество обновлений фонового шума меньше 1000, количество обновлений фонового шума увеличивается на 1. В данном случае начальное значение количества обновлений фонового шума устанавливается равным 0.
На шаге 404 осуществляется получение количества warm_hang_num модифицированных кадров для активного звука в соответствии с результатом принятия решения VAD для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
В данном случае, если результат принятия решения VAD для текущего кадра указывает на то, что текущий кадр является активным и количество обновлений фонового шума меньше предварительно установленного порогового значения, например 12, то в качестве количества модифицированных кадров для активного звука выбирается максимальное из следующих двух чисел: константа, например 20, и количество кадров затягивания для активного звука.
Кроме того, может также включаться шаг 405: модификация результата принятия решения VAD в соответствии с результатом принятия решения VAD и количеством модифицированных кадров для активного звука, то есть:
если результат принятия решения VAD указывает на то, что текущий кадр является неактивным и количество модифицированных кадров для активного звука больше 0, текущий кадр модифицируется как активный, и в то же время количество модифицированных кадров для активного звука уменьшается на единицу.
В соответствии с описанным выше способом получения количества модифицированных кадров для активного звука в рамках осуществления настоящего изобретения предлагается устройство 60 получения количества модифицированных кадров для активного звука, показанное на фиг. 6 и содержащее следующие блоки.
Первый блок 61 получения информации выполнен с возможностью получения решения VAD для текущего кадра.
Второй блок 62 получения информации выполнен с возможностью получения количества кадров затягивания для активного звука.
Третий блок 63 получения информации выполнен с возможностью получения количества обновлений фонового шума.
Четвертый блок 64 получения информации выполнен с возможностью получения количества модифицированных кадров для активного звука в соответствии с результатом принятия решения VAD для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
Принципы работы и выполнения рабочих операций каждого блока устройства для получения количества модифицированных кадров для активного звука, соответствующего настоящему варианту осуществления, понятны из приведенного выше описания вариантов реализации способа, и далее эти принципы повторно не описываются.
Вариант 5 осуществления настоящего изобретения
В рамках варианта осуществления настоящего изобретения предлагается способ обнаружения речевой активности, показанный на фиг. 7 и включающий следующие шаги.
На шаге 501 осуществляется получение первого результата vada_flag принятия решения VAD с использования способа, приведенного при описании варианта 1 осуществления настоящего изобретения, и выполняется получение второго результата vadb_flag принятия решения VAD.
Следует отметить, что получение второго результата vadb_flag принятия решения VAD осуществляется с использованием любого из существующих способов VAD, которые здесь подробно не описываются.
На шаге 502 осуществляется получение количества кадров затягивания для активного звука с использованием способа, приведенного при описании варианта 3 осуществления настоящего изобретения.
На шаге 503 осуществляется получение количества update_count обновлений фонового шума. Выполняются следующие шаги.
На шаге 503а выполняется вычисление флага background_flag обновления фонового шума с использованием способа, приведенного при описании варианта 2 осуществления настоящего изобретения.
На шаге 503b, если флаг обновления фонового шума указывает на то, что существует фоновый шум и количество обновлений фонового шума меньше 1000, количество обновлений фонового шума увеличивается на 1. В данном случае начальное значение количества обновлений фонового шума устанавливается равным 0.
На шаге 504 осуществляется вычисление количества warm_hang_num модифицированных кадров для активного звука в соответствии с vada_flag, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
В данном случае, если vada_flag указывает активный кадр и количество обновлений фонового шума меньше 12, то в качестве количества модифицированных кадров для активного звука выбирается большее из следующих двух значений: 20 и количество кадров затягивания для активного звука.
На шаге 505 выполняется вычисление результата принятия решения VAD в соответствии с vadb_flag и количеством модифицированных кадров для активного звука, то есть:
если vadb_flag указывает на то, что текущий кадр является неактивным и количество модифицированных кадров для активного звука больше 0, текущий кадр модифицируется как активный, и в то же время количество модифицированных кадров для активного звука уменьшается на единицу.
В соответствии с описанным выше способом VAD в рамках варианта осуществления настоящего изобретения также предлагается устройство 80 VAD, показанное на фиг. 8 и содержащее следующие блоки.
Пятый блок 81 получения информации выполнен с возможностью получения первого результата принятия решения об обнаружении речевой активности.
Шестой блок 82 получения информации выполнен с возможностью получения количества кадров затягивания для активного звука.
Седьмой блок 83 получения информации выполнен с возможностью получения количества обновлений фонового шума.
Первый блок 84 вычисления выполнен с возможностью вычисления количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
Восьмой блок 85 получения информации выполнен с возможностью получения второго результата принятия решения об обнаружении речевой активности.
Второй блок 86 вычисления выполнен с возможностью вычисления результата принятия решения VAD в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения VAD.
Принципы работы и выполнения рабочих операций каждого блока устройства VAD, соответствующего настоящему варианту осуществления, понятны из приведенного выше описания вариантов реализации способа, и далее эти принципы повторно не описываются.
Множество современных стандартов кодирования речи, таких как AMR, AMR-WB, поддерживают функцию VAD. С точки зрения эффективности VAD этих кодеров не обладает хорошей производительностью для всех типовых фоновых шумов. Эффективность VAD этих кодеров становится особенно низкой при наличии нестабильного шума, такого как шум в помещении. Для музыкальных сигналов в процессе VAD иногда происходит ошибка, в результате чего значительно снижается качество соответствующего алгоритма обработки.
Решения, соответствующие вариантам осуществления настоящего изобретения, позволяют устранить недостатки существующих алгоритмов VAD и повысить эффективность VAD при наличии нестабильного шума, а также повысить точность обнаружения музыки. Таким образом, с помощью технических решений, соответствующих вариантам осуществления настоящего изобретения, можно достичь более высокой эффективности алгоритмов обработки речи и звукового сигнала.
Кроме того, способ обнаружения фонового шума, соответствующий варианту осуществления настоящего изобретения, может позволить более точно и стабильно выполнять оценку фонового шума, благодаря чему удается более простым образом повысить точность обнаружения при выполнении VAD. Способ обнаружения тонального сигнала в соответствии с вариантом осуществления настоящего изобретения повышает точность обнаружения тональной музыки. В то же время способ модификации количества кадров затягивания для активного звука, соответствующий варианту осуществления настоящего изобретения, может позволить при выполнении алгоритма VAD добиться лучшего баланса в том, что касается производительности и эффективности в условиях различных шумов и отношений сигнал/шум. В то же время способ настройки порогового значения отношения сигнал/шум для принятия решения VAD в соответствии с вариантом осуществления настоящего изобретения может позволить при выполнении алгоритма принятия решения VAD добиться более высокой точности при различных отношениях сигнал/шум, а также повысить эффективность и обеспечить требуемое качество.
Специалисту в этой области техники понятно, что все или часть шагов в описанных выше вариантах осуществления могут быть реализованы в ходе выполнения компьютерной программы, которая может храниться на машиночитаемом носителе информации и выполняться на соответствующей аппаратной платформе (например, в системе, устройстве, оборудовании и компоненте и т.д.), при этом в процесс выполнения может включаться один из шагов реализации способа или их комбинация.
В альтернативном варианте все или часть шагов описанных выше вариантов осуществления также могут быть реализованы с помощью интегральных схем, которые соответственно могут быть встроены в множество интегральных модулей; или, в альтернативном варианте, они могут быть реализованы посредством встраивания нескольких модулей или их компонентов в единый интегральный модуль.
Каждый аппаратный/функциональный модуль/функциональный блок в приведенных выше вариантах осуществления может быть реализован с использованием вычислительного оборудования общего назначения и может интегрироваться в единое вычислительное устройство или распределяться в сети, состоящей из множества вычислительных устройств.
Если каждый аппаратный/функциональный модуль/функциональный блок в приведенных выше вариантах осуществления реализуется в виде программных функциональных модулей и продается или используется в качестве независимого изделия, то это изделие может храниться на машиночитаемом носителе информации, который может представлять собой постоянную память, магнитный или немагнитный диск и т.д.
Промышленная применимость
Технические решения, соответствующие вариантам осуществления настоящего изобретения, позволяют устранить недостатки существующих алгоритмов VAD и повысить эффективность обнаружения VAD при наличии нестабильного шума, а также повысить точность обнаружения музыки. Таким образом, с помощью технических решений, соответствующих вариантам осуществления настоящего изобретения, можно достичь более высокой эффективности алгоритмов обработки речи и звукового сигнала. Кроме того, способ обнаружения фонового шума, соответствующий варианту осуществления настоящего изобретения, может позволить более точно и стабильно выполнять оценку фонового шума, благодаря чему удается более простым образом повысить точность обнаружения при выполнении VAD. В то же время способ обнаружения тонального сигнала в соответствии с вариантом осуществления настоящего изобретения повышает точность обнаружения тональной музыки. При этом способ модификации количества кадров затягивания для активного звука, соответствующий варианту осуществления настоящего изобретения, может позволить при выполнении алгоритма VAD добиться лучшего баланса в терминах производительности и эффективности в условиях различных шумов и отношений сигнал/шум. Способ настройки порогового значения отношения сигнал/шум для принятия решения VAD в соответствии с вариантом осуществления настоящего изобретения может позволить при выполнении алгоритма принятия решения VAD добиться более высокой точности при различных отношениях сигнал/шум, а также повысить эффективность и обеспечить требуемый уровень качества.
Изобретение относится к средствам для получения кадра модификации речевой активности. Технический результат заключается в повышении эффективности обработки речевых сигналов. Получают первый результат принятия решения об обнаружении речевой активности и второй результат принятия решения об обнаружении речевой активности. Получают количество кадров затягивания для активного звука и получают количество обновлений фонового шума. Затем вычисляют количество модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука. В заключение вычисляют результат принятия решения об обнаружении речевой активности для текущего кадра в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности. 4 н. и 16 з.п. ф-лы, 8 ил.
1. Способ получения количества модифицированных кадров для активного звука, включающий:
получение результата принятия решения об обнаружении речевой активности (VAD) для текущего кадра;
получение количества кадров затягивания для активного звука;
получение количества обновлений фонового шума и
получение количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
2. Способ по п. 1, отличающийся тем, что получение результата принятия решения об обнаружении речевой активности для текущего кадра включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области для текущего кадра в соответствии с сигналами поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудами спектра;
вычисление отношения сигнал/шум (SNR) текущего кадра в соответствии с энергией фонового шума, рассчитанной на основе предшествующего кадра, энергетического параметра кадра и энергии поддиапазонов SNR текущего кадра;
вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности и
вычисление результата принятия решения VAD в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра.
3. Способ по п. 2, отличающийся тем, что вычисление результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра включает:
получение долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума для предшествующего кадра;
получение усредненного общего SNR всех поддиапазонов путем вычисления среднего значения SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру;
получение порогового значения SNR для принятия решения VAD в соответствии с характеристикой спектрального центроида, долговременным SNR, количеством непрерывных активных кадров и количеством непрерывных кадров шума;
получение начального решения VAD в соответствии с пороговым значением SNR для VAD и параметром SNR и
получение результата принятия решения VAD путем обновления начального решения VAD в соответствии с сигнальным флагом тональности, усредненным общим SNR всех поддиапазонов, характеристикой спектрального центроида и долговременным SNR.
4. Способ по п. 1, отличающийся тем, что получение количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука включает:
если результат принятия решения VAD указывает на то, что текущий кадр является активным и количество обновлений фонового шума меньше предварительно установленного порогового значения, выбор в качестве количества модифицированных кадров для активного звука максимального из следующих двух значений: величина константы и количество кадров затягивания для активного звука.
5. Способ по п. 1, отличающийся тем, что получение количества кадров затягивания для активного звука включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов и получение количества кадров затягивания для активного звука путем обновления текущего количества кадров затягивания для активного звука в соответствии с результатами принятия решения VAD для множества предшествующих кадров, долговременным SNR, усредненным общим SNR всех поддиапазонов и результатом принятия решения VAD для текущего кадра.
6. Способ по п. 5, отличающийся тем, что обновление текущего количества кадров затягивания для активного звука для получения количества кадров затягивания для активного звука включает:
если количество непрерывных активных кадров меньше установленного первого порогового значения и долговременное SNR меньше установленного порогового значения, обновление количества кадров затягивания для активного звука путем вычитания количества непрерывных активных кадров из минимального количества непрерывных активных кадров; и если усредненное общее SNR всех поддиапазонов больше установленного порогового значения и количество непрерывных активных кадров больше установленного второго порогового значения, установку значения количества кадров затягивания для активного звука в соответствии со значением долговременного SNR.
7. Способ по п. 1, отличающийся тем, что получение количества обновлений фонового шума включает:
получение флага обновления фонового шума и
вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума.
8. Способ по п. 7, отличающийся тем, что получение флага обновления фонового шума включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра; и
обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра для получения флага обновления фонового шума.
9. Способ обнаружения речевой активности, включающий:
получение первого результата принятия решения об обнаружении речевой активности;
получение количества кадров затягивания для активного звука;
получение количества обновлений фонового шума;
вычисление количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука;
получение второго результата принятия решения об обнаружении речевой активности и
вычисление результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности.
10. Способ по п. 9, отличающийся тем, что вычисление результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности включает:
если второй результат принятия решения об обнаружении речевой активности указывает на то, что текущий кадр является неактивным и количество модифицированных кадров для активного звука больше 0, установку результата принятия решения об обнаружении речевой активности в качестве активного кадра и уменьшение количества модифицированных кадров на единицу.
11. Способ по п. 9, отличающийся тем, что получение первого результата принятия решения об обнаружении речевой активности включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области текущего кадра в соответствии с сигналом поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра;
вычисление отношения сигнал/шум текущего кадра в соответствии с энергией фонового шума, полученной на основе предшествующего кадра, энергетическим параметром кадра и энергией поддиапазона отношения сигнал/шум;
вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности и
вычисление первого результата принятия решения о речевой активности в соответствии с сигнальным флагом тональности, отношением сигнал/шум, характеристикой спектрального центроида и энергетическим параметром кадра.
12. Способ по п. 11, отличающийся тем, что вычисление первого результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, отношением сигнал/шум, характеристикой спектрального центроида и энергетическим параметром кадра включает:
вычисление долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума, вычисленной в предшествующем кадре;
вычисление средней величины SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру, для получения усредненного общего SNR всех поддиапазонов;
получение порогового значения для принятия решения об обнаружении речевой активности в соответствии с характеристикой спектрального центроида, долговременным SNR, количеством непрерывных активных кадров и количеством непрерывных кадров шума;
вычисление начального результата принятия решения об обнаружении речевой активности в соответствии с пороговым значением для принятия решения об обнаружении речевой активности и отношением сигнал/шум и
модификацию начального результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, усредненным общим SNR всех поддиапазонов, характеристикой спектрального центроида и долговременным SNR для получения первого результата принятия решения об обнаружении речевой активности.
13. Способ по п. 9, отличающийся тем, что получение количества кадров затягивания для активного звука включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра и
вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналами поддиапазонов и модификацию текущего количества кадров затягивания для активного звука в соответствии с результатами принятия решения об обнаружении речевой активности для множества предшествующих кадров, долговременным SNR, усредненным общим SNR всех поддиапазонов и первым результатом принятия решения об обнаружении речевой активности.
14. Способ по п. 13, отличающийся тем, что модификация текущего количества кадров затягивания для активного звука включает:
если количество непрерывных речевых кадров меньше установленного первого порогового значения, долговременное SNR меньше установленного порогового значения, количество кадров затягивания для активного звука равно минимальному количеству непрерывных активных кадров минус количество непрерывных активных кадров, и если усредненное общее SNR всех поддиапазонов больше установленного второго порогового значения и количество непрерывных активных кадров больше установленного порогового значения, установку значения количества кадров затягивания для активного звука в соответствии с размером долговременного SNR.
15. Способ по п. 9, отличающийся тем, что получение количества обновлений фонового шума включает:
получение флага обновления фонового шума и
вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума.
16. Способ по п. 15, отличающийся тем, что вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:
если флаг обновления фонового шума указывает на то, что текущий кадр является фоновым шумом и количество обновлений фонового шума меньше установленного порогового значения, добавление к количеству обновлений фонового шума единицы.
17. Способ по п. 15, отличающийся тем, что получение флага обновления фонового шума включает:
получение сигнала поддиапазонов и амплитуды спектра текущего кадра;
вычисление значений энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление значений характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра; и
обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра для получения флага обновления фонового шума.
18. Способ по п. 9, отличающийся тем, что вычисление количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука включает:
если первым результатом принятия решения об обнаружении речевой активности является активный кадр и количество обновлений фонового шума меньше предварительно установленного порогового значения, выбор в качестве количества модифицированных кадров для активного звука большего из следующих двух значений: значение константы и количество кадров затягивания для активного звука.
19. Устройство для получения количества модифицированных кадров для активного звука, содержащее:
первый блок получения информации, выполненный с возможностью получения результата принятия решения об обнаружении речевой активности в текущем кадре;
второй блок получения информации, выполненный с возможностью получения количества кадров затягивания для активного звука;
третий блок получения информации, выполненный с возможностью получения количества обновлений фонового шума и
четвертый блок получения информации, выполненный с возможностью получения количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.
20. Устройство для обнаружения речевой активности, содержащее:
пятый блок получения информации, выполненный с возможностью получения первого результата принятия решения об обнаружении речевой активности;
шестой блок получения информации, выполненный с возможностью получения количества кадров затягивания для активного звука;
седьмой блок получения информации, выполненный с возможностью получения количества обновлений фонового шума;
первый блок вычисления, выполненный с возможностью вычисления количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука;
восьмой блок получения информации, выполненный с возможностью получения второго результата принятия решения об обнаружении речевой активности; и
второй блок вычисления, выполненный с возможностью вычисления результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности.
CN 103903634 A, 02.07.2014 | |||
CN 104424956 A, 18.03.2015 | |||
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок | 1923 |
|
SU2008A1 |
Топчак-трактор для канатной вспашки | 1923 |
|
SU2002A1 |
Многоступенчатая активно-реактивная турбина | 1924 |
|
SU2013A1 |
Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем | 1924 |
|
SU2012A1 |
СПОСОБ ВЫДЕЛЕНИЯ РЕЧЕВОГО СИГНАЛА В УСЛОВИЯХ НАЛИЧИЯ ПОМЕХ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ | 2013 |
|
RU2536343C2 |
Авторы
Даты
2019-04-04—Публикация
2015-11-05—Подача