ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Настоящая заявка, без ограничения указанными применениями, относится к области связи.

УРОВЕНЬ ТЕХНИКИ

При выполнении обычных речевых вызовов пользователь некоторое время говорит и некоторое время слушает абонента. В это время в процессе обработки вызова может обнаруживаться фаза речевой неактивности. Обычно суммарная длительность фазы речевой неактивности обеих сторон вызова превышает 50% всего временного периода кодирования этих сторон. В течение фазы речевой неактивности существует только фоновый шум, в котором отсутствует полезная информация. С учетом этого факта в процессе обработки речевого сигнала активная и неактивная речь обнаруживается с помощью алгоритма обнаружения речевой активности (сокращенно VAD, Voice Activity Detection) и, соответственно, обрабатывается с использованием различных способов. Множество стандартов кодирования, например адаптивное многоскоростное (AMR, Adaptive Multi-Rate) и адаптивное многоскоростное широкополосное (AMR-WB, Adaptive Multi-Rate Wideband) кодирование, поддерживают функцию VAD. С точки зрения эффективности, VAD этих кодеров не обладает хорошей производительностью для всех типовых фоновых шумов. Эффективность VAD этих кодеров становится особенно низкой при наличии нестабильного шума. Для музыкальных сигналов в процессе VAD иногда происходит ошибочное обнаружение, в результате чего значительно снижается качество соответствующего алгоритма обработки.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Далее приводится обзор вариантов осуществления изобретения, подробно описываемых в этой заявке. Этот обзор не предназначен для ограничения формулы изобретения.

В рамках вариантов осуществления настоящего изобретения предлагается способ получения количества модифицированных кадров для активного звука и способ и устройство обнаружения речевой активности (VAD) для решения проблемы, связанной с низкой точностью обнаружения речевой активности.

С помощью вариантов осуществления настоящего изобретения предлагается способ получения количества модифицированных кадров для активного звука, включающий:

получение результата принятия решения об обнаружения речевой активности (VAD) для текущего кадра;

получение количества кадров затягивания (hangover frames) для активного звука;

получение количества обновлений фонового шума и

получение количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука.

В соответствии с примером осуществления настоящего изобретения получение результата принятия решения об обнаружении речевой активности для текущего кадра включает:

получение сигнала поддиапазонов и амплитуды спектра текущего кадра;

вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области текущего кадра в соответствии с сигналами поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудами спектра;

вычисление отношения сигнал/шум (SNR, Signal-To-Noise Ratio) текущего кадра в соответствии с энергией фонового шума, рассчитанной на основе предшествующего кадра, энергетического параметра кадра и энергии поддиапазонов SNR текущего кадра;

вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности и

вычисление результата принятия решения VAD в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра.

Согласно примеру осуществления настоящего изобретения

энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;

характеристика спектрального центроида представляет собой отношений взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации этого отношения;

характеристика стабильности во временной области представляет собой требуемое отношение дисперсии амплитудных накопленных значений и квадрата амплитудных накопленных значений, или является произведением этого отношения на коэффициент;

характеристика спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд сглаженного спектра, или является произведением этого отношения на коэффициент; и

характеристика тональности выводится путем вычисления значения корреляции коэффициентов внутрикадровых спектральных различий двух сигналов смежных кадров, или выводится посредством продолжения выполнения сглаживающей фильтрации значения корреляции.

Согласно примеру осуществления настоящего изобретения вычисление результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, параметром SNR, характеристикой спектрального центроида и энергетическим параметром кадра включает:

получение долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума для предшествующего кадра;

получение усредненного общего SNR всех поддиапазонов путем вычисления среднего значения SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру;

получение порогового значения SNR для принятия решения VAD в соответствии с характеристикой спектрального центроида, долговременным SNR, количеством непрерывных активных кадров и количеством непрерывных кадров шума;

получение начального решения VAD в соответствии с пороговым значением SNR для VAD и параметром SNR и

получение результата принятия решения VAD путем обновления начального решения VAD в соответствии с сигнальным флагом тональности, усредненным общим SNR всех поддиапазонов, характеристикой спектрального центроида и долговременным SNR.

Согласно примеру осуществления настоящего изобретения получение количества модифицированных кадров для активного звука в соответствии с результатом принятия решения об обнаружении речевой активности для текущего кадра, количеством обновлений фонового шума и количеством кадров затягивания для активного звука включает:

если результат принятия решения VAD указывает на то, что текущий кадр является активным и количество обновлений фонового шума меньше предварительно установленного порогового значения, выбор в качестве количества модифицированных кадров для активного звука максимального из следующих двух значений: величина константы и количество кадров затягивания для активного звука.

В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:

установку начального значения кадров затягивания для активного звука.

В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:

получение сигнала поддиапазонов и амплитуды спектра текущего кадра;

вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов и получение количества кадров затягивания для активного звука путем обновления текущего количества кадров затягивания для активного звука в соответствии с результатами принятия решения VAD для множества предшествующих кадров, долговременным SNR, усредненным общим SNR всех поддиапазонов и результатом принятия решения VAD для текущего кадра.

Согласно примеру осуществления настоящего изобретения вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов включает:

вычисление долговременного SNR с использованием отношения средней энергии кадров долговременной активности и средней энергии долговременного фонового шума, вычисляемого с помощью кадра, предшествующего текущему кадру; и вычисление среднего значения SNR всех поддиапазонов множества кадров, ближайших к текущему кадру, для получения усредненного общего SNR всех поддиапазонов.

Согласно примеру осуществления настоящего изобретения предварительным условием для модификации текущего количества кадров затягивания для активного звука является флаг обнаружения речевой активности, указывающий на то, что текущий кадр является активным.

В соответствии с примером осуществления настоящего изобретения обновление текущего количества кадров затягивания для активного звука с целью получения количества кадров затягивания для активного звука включает:

при получении количества кадров затягивания для активного звука, если количество непрерывных активных кадров меньше установленного первого порогового значения и долговременное SNR меньше установленного первого порогового значения, обновление количества кадров затягивания для активного звука путем вычитания количества непрерывных активных кадров из минимального количества непрерывных активных кадров; и если усредненное общее SNR всех поддиапазонов больше установленного порогового значения и количество непрерывных активных кадров больше установленного второго порогового значения, установку значения количества кадров затягивания для активного звука в соответствии со значением долговременного SNR.

Согласно примеру осуществления настоящего изобретения получение количества обновлений фонового шума включает:

получение флага обновления фонового шума и

вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума.

Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:

установку начального значения количества обновлений фонового шума.

Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:

если флаг обновления фонового шума указывает на то, что текущий кадр является фоновым шумом и количество обновлений фонового шума меньше установленного порогового значения, добавление к количеству обновлений фонового шума единицы.

Согласно примеру осуществления настоящего изобретения получение флага обновления фонового шума включает:

получение сигнала поддиапазонов и амплитуды спектра текущего кадра;

вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра; и

обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума.

Согласно примеру осуществления настоящего изобретения энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;

характеристика спектрального центроида представляет собой отношение взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации отношения;

характеристика стабильности во временной области представляет собой требуемое отношение дисперсии энергетических амплитуд кадра и квадрата амплитудных накопленных значений, или является произведением отношения на коэффициент; и

параметр спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд спектра или является произведением этого отношения на коэффициент.

Согласно примеру осуществления настоящего изобретения обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума включает:

установку флага обновления фонового шума в качестве первого предварительно установленного значения;

определение того, что текущий кадр не является сигналом шума, и установку флага обновления фонового шума в качестве второго предварительно установленного значения, если истинно любое из следующих условий:

характеристика стабильности во временной области превышает установленное пороговое значение;

значение характеристики спектрального центроида, к которому применена сглаживающая фильтрация, больше установленного порогового значения, и значение характеристики стабильности во временной области также превышает установленное пороговое значение;

значение характеристики тональности или значение характеристики тональности, к которой применена сглаживающая фильтрация, больше установленного порогового значения, и значение характеристики стабильности во временной области превышает установленное пороговое значение;

значение характеристики спектральной неравномерности каждого поддиапазона или значение характеристики спектральной неравномерности каждого поддиапазона, к которому применена сглаживающая фильтрация, меньше соответствующего установленного порогового значения; или

значение энергетического параметра кадра превышает установленное пороговое значение.

С помощью вариантов осуществления настоящего изобретения предлагается способ обнаружения речевой активности, включающий:

получение первого результата принятия решения об обнаружении речевой активности;

получение количества кадров затягивания для активного звука; получение количества обновлений фонового шума;

вычисление количества модифицированных кадров для активного звука в соответствии с первым результатом принятия решения об обнаружении речевой активности, количеством обновлений фонового шума и количеством кадров затягивания для активного звука;

получение второго результата принятия решения об обнаружении речевой активности и

вычисление результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности.

Согласно примеру осуществления настоящего изобретения вычисление результата принятия решения об обнаружении речевой активности в соответствии с количеством модифицированных кадров для активного звука и вторым результатом принятия решения об обнаружении речевой активности включает:

если второй результат принятия решения об обнаружении речевой активности указывает на то, что текущий кадр является неактивным и количество модифицированных кадров для активного звука больше 0, установку результата принятия решения об обнаружении речевой активности в качестве активного кадра и уменьшение количества модифицированных кадров на единицу.

В соответствии с примером осуществления настоящего изобретения получение первого результата принятия решения об обнаружении речевой активности включает:

получение сигнала поддиапазонов и амплитуды спектра текущего кадра;

вычисление энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области текущего кадра в соответствии с сигналом поддиапазонов и вычисление характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра;

вычисление отношения сигнал/шум текущего кадра в соответствии с энергией фонового шума, полученной на основе предшествующего кадра, энергетическим параметром кадра и энергией поддиапазона отношения сигнал/шум;

вычисление сигнального флага тональности текущего кадра в соответствии с энергетическим параметром кадра, характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности и характеристикой тональности и

вычисление первого результата принятия решения о речевой активности в соответствии с сигнальным флагом тональности, отношением сигнал/шум, характеристикой спектрального центроида и энергетическим параметром кадра.

Согласно примеру осуществления настоящего изобретения энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;

характеристика спектрального центроида представляет собой отношение взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации отношения;

характеристика стабильности во временной области представляет собой требуемое отношение дисперсии амплитудных накопленных значений и квадрата амплитудных накопленных значений, или является произведением этого отношения на коэффициент;

характеристика спектральной неравномерности представляет собой отношение среднего геометрического и среднего арифметического предварительно определенного множества амплитуд спектра, или является произведением этого отношения на коэффициент; и

характеристика тональности выводится путем вычисления значения корреляции коэффициентов внутрикадровых спектральных различий двух сигналов смежных кадров или выводится посредством продолжения выполнения сглаживающей фильтрации значения корреляции.

Согласно примеру осуществления настоящего изобретения вычисление первого результата принятия решения о речевой активности в соответствии с сигнальным флагом тональности, отношением сигнал/шум, характеристикой спектрального центроида и энергетическим параметром кадра включает:

вычисление долговременного SNR путем вычисления отношения средней энергии кадров долговременной активности к средней энергии долговременного фонового шума, вычисленной в предшествующем кадре;

вычисление средней величины SNR всех поддиапазонов для множества кадров, ближайших к текущему кадру, с целью получения усредненного общего SNR всех поддиапазонов;

получение порогового значения для принятия решения об обнаружении речевой активности в соответствии с характеристикой спектрального центроида, долговременным SNR, количеством непрерывных активных кадров и количеством непрерывных кадров шума;

вычисление начального результата принятия решения об обнаружении речевой активности в соответствии с пороговым значением для принятия решения об обнаружении речевой активности и отношением сигнал/шум и

модификацию начального результата принятия решения об обнаружении речевой активности в соответствии с сигнальным флагом тональности, усредненным общим SNR всех поддиапазонов, характеристикой спектрального центроида и долговременным SNR с целью получения первого результата принятия решения об обнаружении речевой активности.

В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:

установку начального значения кадров затягивания для активного звука.

В соответствии с примером осуществления настоящего изобретения получение количества кадров затягивания для активного звука включает:

получение сигнала поддиапазонов и амплитуды спектра текущего кадра и

вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналами поддиапазонов и модификацию текущего количества кадров затягивания для активного звука в соответствии с результатами принятия решения об обнаружении речевой активности для множества предшествующих кадров, долговременным SNR, усредненным общим SNR всех поддиапазонов и первым результатом принятия решения об обнаружении речевой активности.

Согласно примеру осуществления настоящего изобретения вычисление долговременного SNR и усредненного общего SNR всех поддиапазонов в соответствии с сигналом поддиапазонов включает:

вычисление долговременного SNR с использованием отношения средней энергии кадров долговременной активности и средней энергии долговременного фонового шума, вычисляемой с помощью кадра, предшествующего текущему кадру; и вычисление средней величины SNR всех поддиапазонов множества кадров, ближайших к текущему кадру, для получения усредненного общего SNR всех поддиапазонов.

Согласно примеру осуществления настоящего изобретения предварительным условием для коррекции текущего количества кадров затягивания для активного звука является флаг речевой активности, указывающий на то, что текущий кадр является активным.

В соответствии с примером осуществления настоящего изобретения модификация количества кадров затягивания для активного звука включает:

если количество непрерывных речевых кадров меньше установленного первого порогового значения, долговременное SNR меньше установленного порогового значения, количество кадров затягивания для активного звука равно минимальному количеству непрерывных активных кадров минус количество непрерывных активных кадров, и если усредненное общее SNR всех поддиапазонов больше установленного второго порогового значения, и количество непрерывных активных кадров больше установленного порогового значения, установку значения количества кадров затягивания для активного звука в соответствии с размером долговременного SNR.

Согласно примеру осуществления настоящего изобретения получение количества обновлений фонового шума включает:

получение флага обновления фонового шума и

вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума.

Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:

установку начального значения количества обновлений фонового шума.

Согласно примеру осуществления настоящего изобретения вычисление количества обновлений фонового шума в соответствии с флагом обновления фонового шума включает:

если флаг обновления фонового шума указывает на то, что текущий кадр является фоновым шумом и количество обновлений фонового шума меньше установленного порогового значения, добавление к количеству обновлений фонового шума единицы.

Согласно примеру осуществления настоящего изобретения получение флага обновления фонового шума включает:

получение сигнала поддиапазонов и амплитуды спектра текущего кадра;

вычисление значений энергетического параметра кадра, характеристики спектрального центроида и характеристики стабильности во временной области в соответствии с сигналом поддиапазонов и вычисление значений характеристики спектральной неравномерности и характеристики тональности в соответствии с амплитудой спектра; и

обнаружение фонового шума в соответствии с характеристикой спектрального центроида, характеристикой стабильности во временной области, характеристикой спектральной неравномерности, характеристикой тональности и энергетическим параметром кадра с целью получения флага обновления фонового шума.

Согласно примеру осуществления настоящего изобретения энергетический параметр кадра представляет собой взвешенное накопленное значение или непосредственное накопленное значение энергии сигналов различных поддиапазонов;

характеристика спектрального центроида представляет собой отношение взвешенного накопленного значения и невзвешенного накопленного значения энергии всех или части сигналов поддиапазонов, или является величиной, получаемой путем выполнения сглаживающей фильтрации отношения;

характеристика стабильности во временной области представляет собой требуемое отношение дисперсии энергетических амплитуд кадра и квадрата амплитудных накопленных значений, или является произведением этого отношения на коэффициент; и