СПОСОБ И УСТРОЙСТВО ОБНАРУЖЕНИЯ ГОЛОСОВОЙ АКТИВНОСТИ Российский патент 2019 года по МПК G10L25/78 

Описание патента на изобретение RU2680351C2

Область техники

Настоящее изобретение относится к области связи и, в частности, к способу и устройству обнаружения голосовой активности (VAD).

Уровень техники

При обычном голосовом вызове пользователь то разговаривает, то слушает. При таком сценарии в процессе вызова возникает фаза неактивной речи. В обычных условиях суммарно неактивная речевая фаза между вызывающей и вызываемой сторонами занимает более 50% от общей продолжительности голосового кодирования. На неактивной речевой фазе имеется только некоторый фоновый шум, который обычно не содержит никакой полезной информации. Принимая во внимание этот факт, активная речь и неактивная речь обнаруживаются с помощью алгоритма VAD в процедуре обработки голосового сигнала и обрабатываются, соответственно, с использованием различных методов. Многие стандарты кодирования голоса, принятые в настоящее время, такие как Adaptive Multiple Rate (AMR) и Adaptive Multiple Rate-WideBand (AMR-WB), поддерживают функцию VAD. Что касается эффективности, в условиях типичных фоновых шумов VAD этих кодировщиков не может обеспечить хорошие показатели. В частности, эффективность VAD этих кодировщиков относительно низка при нестабильном шумовом воздействии. Иногда VAD может выдавать ошибки при воздействии музыкального сигнала, что значительно снижает показатели соответствующего процессингового алгоритма. Кроме того, для существующих технологий VAD характерной является проблема неточной оценки. Например, одни технологии VAD с относительно низкой точностью обнаруживают несколько кадров перед голосовым сегментом, а другие технологии VAD имеют относительно низкую точность обнаружения нескольких кадров после голосового сегмента.

Эффективного решения вышеуказанных проблем в имеющей к этому отношение области техники предложено не было.

Раскрытие изобретения

Варианты осуществления настоящего изобретения обеспечивают способ и устройство VAD, которые, по меньшей мере, решают технические проблемы с низкой точностью обнаружения, характерные для обычного решения VAD на известном уровне техники.

Согласно одному варианту осуществления настоящего изобретения предлагается способ VAD, который может включать в себя: по меньшей мере, один признак первого класса в первой категории признаков, по меньшей мере, один признак второго класса во второй категории признаков и, по меньшей мере, два существующих результата оценки VAD. В варианте осуществления изобретения признак первого класса и признак второго класса являются признаками, которые используются для обнаружения VAD; и VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD.

В примерном варианте осуществления изобретения признак первого класса в первой категории признаков может содержать, по меньшей мере, одно из следующего: количество непрерывных активных кадров, среднее общее соотношение сигнал / шум (SNR) всех поддиапазонов и флаг сигнала тональности, в варианте осуществления изобретения среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров. Признак второго класса во второй категории признаков может включать в себя, по меньшей мере, одно из следующего: флаг типа шума, сглаженное усредненное значение SNR в долговременной частотной области, количество кадров непрерывного шума и частотную область SNR.

В примерном варианте осуществления изобретения этап, на котором VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD, может включать в себя следующее: а) один результат оценки VAD выбирается из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; b) если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порога, а начальное значение указывает на неактивный кадр, флаг VAD, который не выбран в качестве начального значения, в, по меньшей мере, двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD, а в противном случае выполняется Этап с), в варианте осуществления изобретения флаг VAD используется для указания того, что является результатом оценки VAD: активный кадр или неактивный кадр; с) если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порога или тип шума не является тишиной, выполняется Этап d), а в противном случае результат оценки VAD, выбранный на этапе а), выбирается как комбинированный результат оценки VAD; d) когда выполнено предварительно заданное условие, выполняется логическая операция ИЛИ, по меньшей мере, из двух существующих результатов оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки VAD, а в противном случае выполняется Этап е); и е) если флаг типа шума указывает на то, что тип шума является тишиной, флаг VAD, который не выбран в качестве начального значения, по меньшей мере, в двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD, а в противном случае, результат оценки VAD, выбранный на Этапе а), выбирается в качестве комбинированного результата оценки VAD.

В примерном варианте осуществления изобретения этап, на котором VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD, может включать в себя следующее: а) один результат оценки VAD выбирается из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; b) если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порога, а начальное значение указывает на неактивный кадр, флаг VAD, который не выбран в качестве начального значения, в, по меньшей мере, двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD, а в противном случае выполняется Этап с), в варианте осуществления изобретения флаг VAD используется для указания того, что является результатом оценки VAD: активный кадр или неактивный кадр; с) если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порога или тип шума не является тишиной, выполняется Этап d), а в противном случае результат решения VAD, выбранный на Этапе а), выбирается как комбинированный результат оценки VAD; d) когда выполнено предварительно заданное условие, выполняется логическая операция ИЛИ, по меньшей мере, из двух существующих результатов оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки VAD, а в противном случае выполняется Этап е); и е) флаг VAD, который не выбран в качестве начального значения, по меньшей мере, в двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD.

В примерном варианте осуществления изобретения этап, на котором VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD, может включать в себя следующее: а) один результат оценки VAD выбирается из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; и b) если флаг типа шума указывает на то, что тип шума является тишиной, сглаженное усредненное значение SNR в долговременной частотной области больше порога, а флаг сигнала тональности указывает нетональный сигнал, флаг VAD, который не является выбранным в качестве начального значения, по меньшей мере, в двух существующих результатах оценки VAD, выбирается в качестве комбинированного результата оценки VAD, в варианте осуществления изобретения флаг VAD используется для указания на то, что является результатом оценки VAD: активный кадр или неактивный кадр.

В примерном варианте осуществления изобретения этап, на котором VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD, может включать в себя следующее: а) выбирается один результат оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; и b) если тип шума не является тишиной и выполнено заданное условие, выполняется логическая операция ИЛИ, по крайней мере, по двум существующим результатам оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки VAD.

В примерном варианте осуществления изобретения предварительное условие может включать в себя, по меньшей мере, одно из следующих: условие 1: среднее общее SNR всех поддиапазонов больше, чем первое пороговое значение; условие 2: среднее общее SNR всех поддиапазонов больше второго порогового значения, а количество непрерывных активных кадров больше заданного порогового значения; и условие 3: флаг сигнала тональности указывает на тональный сигнал.

В примерном варианте осуществления изобретения этап, на котором VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD, может включать в себя следующее: если количество кадров непрерывного шума больше, чем первое назначенное пороговое значение, а среднее общее SNR всех поддиапазонов меньше, чем второе назначенное пороговое значение, выполняется логическая операция И на, по меньшей мере, двух существующих результатах оценки VAD, и результат логической операции И используется в качестве комбинированного результата оценки VAD; в противном случае, случайным образом выбирается один из существующих результатов оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве комбинированного результата оценки VAD.

В примерном варианте осуществления изобретения сглаженное усредненное значение SNR в долговременной частотной области и флаг типа шума могут быть определены с помощью следующих режимов:

вычисление средней энергии долговременных активных кадров текущего кадра и средней энергии долговременных фоновых шумов текущего кадра в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD предыдущего кадра, текущего кадра или, по меньшей мере, по двум существующим результатам оценки VAD, соответствующим предыдущему кадру, средней энергии длительных активных кадров предыдущего кадра в течение первого заданного периода времени и средней энергии долговременного фонового шума предыдущего кадра;

вычисление долговременного SNR текущего кадра в течение второго периода времени в соответствии со средней энергией долговременного фонового шума и средней энергией долговременных активных кадров текущего кадра в течение второго заданного периода времени;

вычисление сглаженного усредненного значения SNR в долговременной частотной области текущего кадра в течение третьего заданного периода времени в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD текущего кадра или, по меньшей мере, по двум существующим результатам оценки VAD, соответствующим предыдущему кадру и среднему значению SNR частотной области предыдущего кадра; а также

определение флага типа шума в соответствии с долговременным SNR и сглаженным усредненным значением SNR в долговременной частотной области.

В примерном варианте осуществления изобретения определение флага типа шума в соответствии с долговременным SNR и сглаженным усредненным значением SNR в долговременной частотной области может включать в себя:

задание флага типа шума на отсутствие тишины и задание флага типа шума на тишину, когда долговременное SNR больше, чем первое предварительно установленное пороговое значение, а сглаженное усредненное значение SNR в долговременной частотной области больше, чем второе заданное пороговое значение.

Согласно другому варианту осуществления настоящего изобретения предлагается устройство VAD, которое может включать в себя: компонент сбора данных, выполненный с возможностью получения, по меньшей мере, одного признака первого класса в категории первых признаков, по меньшей мере, одного признака второго класса в категории вторых признаков и, по меньшей мере, двух существующих результатов оценки VAD. В варианте осуществления изобретения признак первого класса и признак второго класса являются признаками, используемыми для обнаружения VAD; и компонент обнаружения, выполненный с возможностью выполнения VAD в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD.

В примерном варианте осуществления изобретения компонент сбора данных может включать в себя: первый блок сбора данных, выполненный с возможностью получения признака первого класса в первой категории признаков, которая включает в себя, по меньшей мере, одно из следующих: количество непрерывных активных кадров, среднее общее значение соотношения сигнал-шум (SNR) всех поддиапазонов и флаг сигнала тональности, в варианте осуществления изобретения среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров; и второй блок сбора данных, выполненный с возможностью приема признака второго класса во второй категории признаков, которая включает в себя, по меньшей мере, одно из следующих: флаг типа шума, сглаженное усредненное значение SNR в долговременной частотной области, количество непрерывных шумовых кадров и SNR в частотной области.

В вариантах осуществления настоящего изобретения комбинированное обнаружение выполняется в соответствии, по меньшей мере, с одним признаком первого класса в первой категории признаков, по меньшей мере, одним признаком второго класса во второй категории признаков и, по меньшей мере, двумя существующими результатами оценки VAD. Благодаря вышеуказанным техническим средствам решаются технические проблемы с низкой точностью обнаружения VAD в соответствующей технической области, улучшается точность VAD, что улучшает работу пользователя.

Краткое описание чертежей

Представленные здесь чертежи используются для обеспечения дальнейшего понимания вариантов осуществления настоящего изобретения и составляют часть настоящего изобретения. Схематически представленные варианты осуществления изобретения и иллюстрации настоящего изобретения используются для того, чтобы обеспечить наглядное раскрытие сущности изобретения и не имеют целью установление каких-либо ненадлежащих ограничений. На чертежах представлены:

Фиг. 1 - блок-схема последовательности операций по способу VAD согласно варианту осуществления настоящего изобретения;

Фиг. 2 - структурная схема устройства VAD в соответствии с вариантом осуществления настоящего изобретения;

Фиг. 3 - еще одна структурная схема устройства VAD согласно варианту осуществления настоящего изобретения; а также

Фиг. 4 - блок-схема последовательности операций по способу VAD согласно 1 варианту осуществления настоящего изобретения.

Подробное описание вариантов осуществления изобретения

Настоящее изобретение будет проиллюстрировано подробно ниже со ссылкой на чертежи и в сочетании с вариантами осуществления. Следует обратить внимание, что варианты осуществления настоящего изобретения и характеристики вариантов осуществления изобретения допускают комбинирование при условии отсутствия конфликтов.

Для решения проблемы низкой точности обнаружения VAD следующие варианты осуществления изобретения предоставляют соответствующие решения, которые будут подробно проиллюстрированы.

Фиг. 1 - блок-схема последовательности операций по способу VAD согласно варианту осуществления настоящего изобретения. Как показано на Фиг. 1, способ включает этапы S102-S104 следующим образом.

Этап S102: Получены, по меньшей мере, один признак первого класса в первой категории признаков (также называемой категорией 1 признаков), по меньшей мере, один признак второго класса во второй категории признаков (также называемой категорией 2 признаков) и, по меньшей мере, два существующих результата оценки VAD, признак первого класса и признак второго класса - это признаки, используемые для обнаружения VAD.

Этап S104: VAD выполняется в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD.

С помощью всех вышеперечисленных этапов обработки может быть выполнено комбинированное VAD в соответствии с, по меньшей мере, одним признаком в первой категории признаков, по меньшей мере, одним признаком во второй категории признаков и, по меньшей мере, двумя существующими результатами оценки VAD, тем самым повышая точность VAD.

В настоящем варианте осуществления изобретения признак первого класса в первой категории признаков может включать в себя, по меньшей мере, одно из следующих: количество непрерывных активных кадров, среднее общее SNR всех поддиапазонов и флаг сигнала тональности, где среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров.

В настоящем варианте осуществления признак второго класса во второй категории признаков может включать в себя, по меньшей мере, одно из следующих: флаг типа шума, сглаженное усредненное значение SNR в долговременной частотной области, количество непрерывных шумовых кадров и SNR в частотной области, сглаженное усредненное значение SNR в долговременной частотной области может быть интерпретировано как: SNR частотной области, полученное путем сглаживания среднего значения множества SNR частотной области в течение заданного периода времени (длительное время).

Для этапа S104 существует несколько реализаций. Например, Этап S104 может быть реализован с помощью режимов следующим образом.

Оценка, заканчивающаяся следующими несколькими вариантами реализации, является лишь репрезентацией завершения процесса определенного варианта реализации и не означает, что комбинированный результат оценки VAD больше не изменяется после завершения этого процесса.

Первая реализация выполняется в соответствии со следующими этапами:

a) выбирается один результат оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD;

b) если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порогового значения, а начальное значение указывает на неактивный кадр, флаг VAD, который не выбран в качестве начального значения, в, по меньшей мере, двух существующих результатах оценки VAD, выбирается в качестве комбинированного результата оценки VAD, в противном же случае, выполняется Этап с), флаг VAD используется для указания на то, что является результатом оценки VAD: активный кадр или неактивный кадр;

c) если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения или тип шума не является тишиной, выполняется Этап d), в противном же случае, результат оценки VAD, выбранный на Этапе а), выбирается как комбинированный результат оценки VAD;

d) когда выполнено предварительно заданное условие, выполняется логическая операция ИЛИ, по меньшей мере, по двум существующим результатам оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки VAD, в противном же случае, выполняется Этап е); а также

е) если флаг типа шума указывает, что тип шума является тишиной, флаг VAD, который не выбран в качестве начального значения, по меньшей мере, в двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD.

Вторая реализация выполняется в соответствии со следующими этапами:

a) выбирается один результат оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD;

b) если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порогового значения, а начальное значение указывает на неактивный кадр, флаг VAD, который не выбран в качестве начального значения, в, по меньшей мере, двух существующих результатах оценки VAD, выбирается в качестве комбинированного результата оценки VAD, в противном же случае, выполняется Этап с), флаг VAD используется для указания на то, что является результатом оценки VAD: активный кадр или неактивный кадр;

c) если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения или тип шума не является тишиной, выполняется Этап d), в противном же случае, результат оценки VAD, выбранный на Этапе а), выбирается как комбинированный результат оценки VAD;

d) когда выполнено предварительно заданное условие, выполняется логическая операция ИЛИ, по меньшей мере, по двум существующим результатам оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки VAD, в противном же случае, выполняется Этап е); а также

e) флаг VAD, который не выбран в качестве начального значения, по меньшей мере, в двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD.

Третья реализация выполняется в соответствии со следующими этапами:

выбирается один результат оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; и

если флаг типа шума указывает на то, что тип шума является тишиной, сглаженное усредненное значение SNR в долговременной частотной области больше порогового значения, а флаг сигнала тональности указывает на нетональный сигнал, флаг VAD, который не выбран как начальное значение, по меньшей мере, в двух существующих результатах оценки VAD выбирается в качестве комбинированного результата оценки VAD, флаг VAD используется для указания на, что является результатом оценки VAD: активный кадр или неактивный кадр.

Четвертая реализация выполняется в соответствии со следующими этапами:

a) выбирается один результат оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве начального значения комбинированного VAD; и

b) если тип шума не является тишиной и выполнено предварительно заданное условие, выполняется логическая операция ИЛИ, по меньшей мере, по двум существующим результатам оценки VAD, и результат логической операции ИЛИ используется в качестве комбинированного результата оценки.

Важно отметить, что предварительное условие, связанное с первой реализацией, второй реализацией и четвертой реализацией, может включать в себя, по меньшей мере, одно из следующих:

условие 1: среднее общее SNR всех поддиапазонов больше, чем первое пороговое значение;

условие 2: среднее общее SNR всех поддиапазонов больше второго порогового значения, а количество непрерывных активных кадров больше заданного порогового значения; а также

условие 3: флаг сигнала тональности указывает на тональный сигнал.

Важно отметить, что третья реализация и четвертая реализация могут использоваться совместно.

Пятая реализация выполняется в соответствии со следующими этапами:

если количество кадров непрерывного шума больше, чем первое назначенное пороговое значение, а среднее общее SNR всех поддиапазонов меньше, чем второе назначенное пороговое значение, выполняется логическая операция И на, по меньшей мере, двух существующих результатах оценки VAD, и результат логической операции И используется в качестве результата комбинированной оценки VAD; в противном случае, случайным образом выбирается один из существующих результатов оценки VAD из, по меньшей мере, двух существующих результатов оценки VAD в качестве комбинированного результата оценки VAD.

Важно отметить, что пятая реализация и вышеупомянутые четыре реализации могут использоваться совместно.

В примерном варианте осуществления настоящего изобретения сглаженное усредненное значение SNR в долговременной частотной области и флаг типа шума могут быть определены с помощью следующих режимов:

вычисление средней энергии долговременных активных кадров текущего кадра и средней энергии долговременных фоновых шумов текущего кадра в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD предыдущего кадра, текущего кадра или, по меньшей мере, по двум существующим результатам оценки VAD, соответствующим предыдущему кадру, средней энергии длительных активных кадров предыдущего кадра в течение первого заданного периода времени и средней энергии долговременного фонового шума предыдущего кадра;

вычисление долговременного SNR текущего кадра в течение второго периода времени в соответствии со средней энергией долговременного фонового шума и средней энергией долговременных активных кадров текущего кадра в течение второго заданного периода времени;

вычисление сглаженного усредненного значения SNR в долговременной частотной области текущего кадра в течение третьего заданного периода времени в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD текущего кадра или, по меньшей мере, по двум существующим результатам оценки VAD, соответствующим предыдущему кадру и среднему значению SNR частотной области предыдущего кадра; а также

определение флага типа шума в соответствии с долговременным SNR и сглаженным усредненным значением SNR в долговременной частотной области.

Важно отметить, что сглаженное усредненное значение SNR в долговременной частотной области получается сглаживанием средних значений SNR в частотной области в течение заданного периода времени.

В примерной реализации флаг типа шума может быть определен на основе следующего способа, но не ограничивается только этим способом:

задание флага типа шума на отсутствие тишины и задание флага типа шума на тишину, когда долговременное SNR больше, чем первое предварительно установленное пороговое значение, а сглаженное усредненное значение SNR в долговременной частотной области больше, чем второе заданное пороговое значение.

В примерной реализации количество непрерывных активных кадров и количество непрерывных кадров шума определяется с помощью следующих режимов:

когда текущий кадр представляет собой неинициализированный кадр, вычислением количества непрерывных активных кадров и количества кадров непрерывного шума текущего кадра в соответствии с комбинированным результатом оценки VAD предыдущего кадра текущего кадра или,

когда текущий кадр представляет собой неинициализированный кадр, выбором одного результата оценки VAD, по меньшей мере, из двух существующих результатов оценки VAD предыдущего кадра и комбинированного результата оценки VAD предыдущего кадра и вычислением количества непрерывных активных кадров и количества непрерывных шумовых кадров текущего кадра в соответствии с выбранным в настоящее время результатом оценки VAD.

В примерном процессе реализации настоящего варианта осуществления изобретения количество непрерывных активных кадров и количество кадров непрерывного шума определяются с помощью следующих режимов:

когда флаг VAD для комбинированного результата оценки VAD предыдущего кадра или для текущего выбранного результата оценки VAD указывает активный кадр, добавляя 1 к числу непрерывных активных кадров и в противном случае устанавливая количество непрерывных активных кадров на 0; и когда флаг VAD для комбинированного результата оценки VAD предыдущего кадра или для текущего выбранного результата оценки VAD указывает на неактивный кадр, добавляя 1 к числу кадров непрерывного шума и в противном случае устанавливая количество кадров непрерывного шума на 0.

В настоящем варианте осуществления изобретения также предусмотрено устройство VAD. Как показано на Фиг. 2, устройство VAD включает в себя:

компонент 20 сбора данных, выполненный с возможностью получения, по меньшей мере, одного признака первого класса в первой категории признаков, по меньшей мере, одного признака второго класса во второй категории признаков и, по меньшей мере, двух существующих результатов оценки VAD, признак первого класса и признак второго класса - признаки, используемые для обнаружения VAD; а также

компонент 22 обнаружения, соединенный с компонентом 20 сбора данных и выполненный с возможностью выполнения в соответствии с признаком первого класса, признаком второго класса и, по меньшей мере, двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD.

В примерном варианте осуществления изобретения, как показано на Фиг. 3, компонент 20 сбора данных может также включать в себя следующие модули обработки:

первый блок 200 сбора данных, выполненный с возможностью приема признака первого класса в первой категории признаков, которая включает в себя, по меньшей мере, одно из следующих: количество непрерывных активных кадров, среднее общее значение SNR всех поддиапазонов и флаг сигнала тональности, среднее значение SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров; а также

второй блок 202 сбора данных, скомпонованный для обнаружения признака второго класса во второй категории признаков, который включает в себя, по меньшей мере, одно из следующего: флаг типа шума, сглаженное усредненное значение SNR в долговременной частотной области, количество кадров непрерывного шума и частотную область SNR.

Важно отметить, что все компоненты, участвующие в настоящем варианте осуществления, могут быть реализованы с помощью программного обеспечения или аппаратного обеспечения. В примерной реализации компоненты могут быть реализованы с помощью аппаратного обеспечения в следующих режимах: компонент 20 сбора данных находится в первом процессоре, а компонент 22 обнаружения находится во втором процессоре; или два компонента расположены, в одном и том же процессоре, но не ограничено этим.

Чтобы лучше понять вышеупомянутый вариант осуществления изобретения, ниже будут представлены подробные иллюстрации в сочетании с примерными вариантами осуществления изобретения.

Операция ИЛИ и операция И, используемые в следующих вариантах осуществления изобретения, определяются следующим образом.

Если какой-либо один флаг вывода VAD в двух VAD является активным кадром, результатом логической операции ИЛИ двух VAD является активный кадр, а когда два VAD являются неактивными кадрами, результат логической операции ИЛИ является неактивным кадром.

Если какой-либо один флаг вывода VAD из двух VAD является неактивным кадром, результатом логической операции И двух VAD является неактивный кадр, а когда два VAD являются одновременно активными кадрами, результатом логической операции И является активный кадр.

Примечание: если не указано, к каким VAD(-ам) относится (относятся) следующий(-е) вариант(-ы) осуществления изобретения, это означает, что VAD(-ы) могут быть двумя существующими VAD или комбинированными VAD или другими VAD, способными выполнять соответствующие функции.

Оценка, результатом которой являются следующие варианты осуществления изобретения, является только результирующим процессом определенной реализации, и не означает, что комбинированный результат оценки VAD больше не изменяется после завершения этого процесса.

1 вариант осуществления изобретения

Настоящий вариант осуществления изобретения предлагает способ VAD. Как показано на Фиг. 4, способ включает в себя следующие этапы.

Этап S402: Получены два существующих выходных результата VAD.

Этап S404: Получают сигнал поддиапазона и амплитуду спектра текущего кадра.

Варианты осуществления настоящего изобретения конкретно проиллюстрированы звуковым потоком, длина кадра которого составляет 20 мс, а частота дискретизации составляет 32 кГц. При других значениях длины кадров и частоты дискретизации также применяется комбинированный способ VAD, обеспечиваемый вариантами осуществления настоящего изобретения.

Сигнал временной области текущего кадра вводится в банк фильтров, и выполняется расчет фильтрации поддиапазона для получения сигнала поддиапазона банка фильтров.

В настоящем варианте осуществления изобретения принимается 40-канальный банк фильтров. Технические решения, обеспечиваемые вариантами осуществления настоящего изобретения, также применимы для банков фильтров с другими объемами каналов.

Сигнал временной области текущего кадра вводится в 40-канальный банк фильтров, и выполняется расчет фильтрации поддиапазона для получения сигналов поддиапазона банка фильтра из 40 поддиапазонов в 16 временных точках выборки Х[k,l], 0≤k<40, и 0≤l<16, где k индекс поддиапазона банка фильтров, а его значение представляет собой поддиапазон, соответствующий коэффициенту; и l является индексом точки временной выборки каждого поддиапазона. Этапы реализации заключаются в следующем.

1: 640 последних образцов звукового сигнала хранятся в кеше данных.

2: данные в кэше данных сдвигаются на 40 позиций, чтобы вывести 40 ранних отсчетов из кэша данных, и сохранить 40 новых образцов на позициях от 0 до 39.

Данные x в кеше умножаются на коэффициент окна для получения массива z, формула расчета следующая:

,

где - коэффициент окна банка фильтров.

данные u по 80 точкам вычисляются с использованием следующего псевдокода:

Массивы r и i вычисляются по следующей формуле:

Комплексные выборки по 40 поддиапазонам в первой точке временной выборки рассчитываются по следующей формуле: Х[k,l]=R(k)+iI(k), 0≤k<40, где R(k) и I(k) являются вещественной частью и мнимой частью коэффициента сигнала поддиапазона банка фильтров X на l-ой точке временной выборки, соответственно. Формула расчета следующая.

.

3: Процесс вычисления на Этапе 2 повторяется до тех пор, пока все данные текущего кадра не будут отфильтрованы банком фильтров, и конечный результат вывода не станет сигналом поддиапазона банка фильтра Х[k,l].

4: После завершения вышеописанного процесса вычисления получают сигнал поддиапазона банка фильтров Х[k,l] по 40 поддиапазонам в 16 точках временной выборки, где 0≤k<40 и 0≤l<16.

Затем выполняется частотно-временное преобразование на сигнале поддиапазона банка фильтров, и вычисляются амплитуды спектра.

Варианты осуществления настоящего изобретения могут быть реализованы путем выполнения частотно-временного преобразования на всех поддиапазонах банка фильтров или их части и вычисления амплитуд спектра. Для частотно-временного преобразования в вариантах осуществления настоящего изобретения можно использовать метод дискретного преобразования Фурье (ДПФ), метод быстрого преобразования Фурье (БПФ), метод дискретного косинусного преобразования (ДКП) или метод дискретного синусоидального преобразования (ДСП). В вариантах осуществления настоящего изобретения для иллюстрации применен способ реализации с использованием ДПФ в качестве частного примера. Процесс расчета выглядит следующим образом.

Выполняется ДПФ по 16 точкам, для чего взяты данные по 16 точкам временной выборки каждого поддиапазона банка фильтров, проиндексированных от 0 до 9 с целью дополнительного улучшения разрешения спектра. Для получения амплитуды спектра рассчитывается амплитуда каждой частотной точки.

Формула расчета для частотно-временного преобразования следующая.

.

Процесс вычисления амплитуды каждой частотной точки следующий.

Во-первых, вычисляется энергия массива на каждой частотной точке, формула расчета следующая:

, где и представляют, соответственно, действительную часть и мнимую часть коэффициента спектра.

Если k - четное число, амплитуда спектра на каждой частотной точке вычисляется по следующей формуле:

; и

Если k - нечетное число, амплитуда спектра на каждой частотной точке рассчитывается по следующей формуле:

,

где - амплитуда спектра, подвергнутая временному преобразованию.

Этап S406: Признак энергии кадра представляет собой взвешенное накопленное значение или непосредственно накопленное значение всех энергий сигналов поддиапазонов.

Признак энергии текущего кадра рассчитывается в соответствии с сигналами поддиапазонов. В частности,

Энергия 2 кадра может быть получена путем накопления энергии sb_power в некоторых поддиапазонах.

Энергия кадра - .

Множество поддиапазонов SNR может быть получено с помощью поддиапазонного деления, а энергия поддиапазона SNR frame_sb_energy текущего кадра может быть получена путем накопления энергии в соответствующем поддиапазоне.

.

Исходная шумовая энергия, включая энергию фонового шума поддиапазонов и энергию фонового шума всех поддиапазонов текущего кадра, оценивается в соответствии с величиной изменения флага фонового шума, признаком энергии текущего кадра и энергией фонового шума всех поддиапазонов предыдущего кадра. Вычисление флага фонового шума показано на этапе S430.

Этап S408: Спектральными центроидными признаками являются отношение взвешенной суммы к невзвешенной сумме энергий всех поддиапазонов или частичных поддиапазонов, или значение получается путем применения фильтра сглаживания к этому отношению. Спектральные центроидные признаки могут быть получены на следующих этапах.

Поддиапазонное деление для расчета спектральных центроидных признаков выглядит следующим образом.

Два спектральных центроидных признака, соответственно, спектральный центроидный признак в первом интервале и спектральный центроидный признак во втором интервале, рассчитываются с использованием поддиапазонного деления для расчета спектральных центроидных признаков, как показано в таблице 1, и по следующей формуле:

.

Сгладить спектральный центроидный признак во втором интервале sp_center [2] и получить сглаженный спектральный центроидный признак во втором интервале по следующей формуле: .

Этап S410: Признаками доменно-временной стабильности являются отношение дисперсии суммы амплитуд к ожиданию квадрата амплитуд, или это отношение умножается на множитель. Признаки доменно-временной стабильности вычисляются с помощью энергетических признаков последнего кадра N. Пусть энергия n-го кадра будет frame_energy [n]. Амплитуда frame_energy [n] вычисляется путем : где - значение смещения в диапазоне [0,0.1].

Объединяя амплитуды энергии двух смежных кадров от текущего кадра до N-го предыдущего кадра, получают N/2 суммы энергетических амплитуд

,

где при n=0 [n] представляет собой амплитуду энергии текущего кадра, а при n<0 [n] представляет собой амплитуду энергии n-го предыдущего кадра относительно текущего кадра.

Затем вычисляется отношение дисперсии к средней энергии последних N/2 сумм, чтобы получить признак доменно-временной стабильности . Формула расчета следующая:

Обратите внимание, что значение N отличается при вычислении различных признаков доменно-временной стабильности.

Этап S412: Признаки тональности вычисляются с амплитудами спектра. Более конкретно, их получают путем вычисления коэффициента корреляции разности амплитуд двух соседних кадров или последующим сглаживанием коэффициента корреляции. Признаки тональности могут быть вычислены на следующих этапах.

a) Вычислите разность амплитуд двух соседних кадров. Если разность меньше 0, задайте ее равной 0. Таким образом, получается группа неотрицательных дифференциальных коэффициентов спектра .

b) Вычислите коэффициент корреляции между неотрицательной разностью амплитуд текущего кадра, полученной на Этапе а), и неотрицательной разностью амплитуд предыдущего кадра для получения первых признаков тональности. Формула расчета следующая:

,

где - разность амплитуд предыдущего кадра. Различные признаки тональности можно рассчитать по следующей формуле:

где - признаки тональности предыдущего кадра.

Этап S414: Признаками спектральной плоскостности являются: отношение среднего геометрического к среднему арифметическому определенной амплитуды спектра, или это отношение умножается на коэффициент. Спектр амплитуды spec_amp [] сглажен для получения сглаженной амплитуды спектра: , 0<=i <SPEC_AMP_NUM. Сглаженная амплитуда спектра делится на три частотные области, и вычисляются спектральные признаки плоскостности для этих трех частотных областей. В таблице 2 показано деление частотной области для плоскостности спектра.

Признаками спектральной плоскостности являются: отношение геометрического среднего значения geo_mean [k] к среднему арифметическому ari_mean [k] амплитуды спектра или сглаженной амплитуды спектра. Число амплитуд спектра, используемых для вычисления спектрального признака плоскостности SFF [k], равно .

Признаки спектральной плоскостности текущего кадра дополнительно сглаживаются, чтобы получить сглаженные спектральные признаки плоскостности .

Этап S416: Признак SNR текущего кадра вычисляется в соответствии с оцененной энергией фонового шума предыдущего кадра, признаком энергии кадра и энергией поддиапазона SNR текущего кадра. Шаги расчета для SNR частотной области следующие.

Когда флагом фонового шума предыдущего кадра является 1, энергия фононного шума поддиапазона обновляется, обновляя псевдокоды следующим образом:

SNR каждого поддиапазона вычисляется в соответствии с энергией поддиапазона текущего кадра и оцененной энергией фонового шума поддиапазона предыдущего кадра, a SNR каждого поддиапазона, меньшего определенного порогового значения, устанавливается на 0. В частности,

, где меньше -0.1 задается равным 0.

Среднее значение SNR всех поддиапазонов представляет собой SNR (snr) частотной области. В частности,

.

Этап S418: Флаг типа шума получается в соответствии со сглаженным SNR долговременной частотной области и долговременным .

Долговременное SNR представляет собой отношение средней энергии долговременных активных кадров и средней энергии долговременного фонового шума. Средняя энергия длинных активных кадров и средняя энергия длительного фонового шума обновляются в соответствии с флагом VAD предыдущего кадра. Когда флаг VAD является неактивным кадром, обновляется средняя энергия долговременного фонового шума, а когда флаг VAD является активным кадром, обновляется средняя энергия долговременных активных кадров. В частности,

средняя энергия длинных активных кадров - ;

средняя энергия долговременного фонового шума равна ,

где i - значение индекса активного кадра, a j - значение индекса неактивного кадра; а также

долговременное .

Начальный флаг типа шума устанавливается на отсутствие тишины, а когда больше установленного порогового значения THR1, и больше установленного порогового значения THR2, флаг типа шума устанавливается на тишину.

Процесс вычисления показан на Этапе S420.

VAD, используемый на Этапе S418, может быть (не ограничиваясь только этим) одним VAD из двух VAD, но также может быть комбинированным VAD.

Этап S420: Способ расчета сглаженной средней долговременной частотной области SNR выглядит следующим образом:

где ,

где и являются, соответственно, аккумулятором SNR частотной области и счетчиком активных кадров, а и , соответственно, являются аккумулятором SNR частотной области и счетчиком для неактивных кадров. Когда текущий кадр является исходным кадром, инициализация выполняется следующим образом.

Когда текущий кадр не является исходным кадром, указанные выше четыре параметра обновляются в соответствии с флагом VAD. Когда флаг VAD указывает, что текущий кадр является неактивным кадром, параметры обновляются в соответствии со следующей формулой:

Когда флаг VAD указывает, что текущий кадр является активным кадром,

VAD на Этапе S420 может быть (но не ограничиваясь только этим) одним VAD из двух VAD, а также может быть комбинированным VAD.

Этап S422: Задается начальное значение для количества кадров непрерывного шума во время первого кадра, при этом начальное значение устанавливается в 0 в этом варианте осуществления изобретения. Во время второго кадра и последующих кадров, когда оценка VAD указывает на неактивный кадр, количество кадров непрерывного шума увеличивается на 1, в противном же случае, количество кадров непрерывного шума устанавливается равным 0.

VAD на Этапе S422 может быть (но не ограничиваясь только этим) одним VAD из двух VAD, а также может быть комбинированным VAD.

Этап S424: Флаг сигнала тональности текущего кадра вычисляется в соответствии с признаком энергии кадра, признаком тональности признаком доменно-временной стабильности , признаком спектральной плоскостности sSFM и спектральным центроидным признаком sp_center текущего кадра, и оценивается, является ли текущий кадр тональным сигналом. Когда текущим кадром является тональный сигнал, текущий кадр считается музыкальным кадром. Выполняются следующие операции.

a) Предположим, что текущий сигнал кадра является нетональным сигналом, и флаг кадра тональности используется для указания, является ли текущий кадр тональным кадром. Когда значение равно 1, это означает, что текущий кадр является тональным кадром, а когда значение равно 0, это означает, что текущий кадр не является тональным.

b) Если признак тональности или его сглаженное значение больше, чем их предварительно заданные пороговые значения, выполняется Этап с), в противном же случае, выполняется этап d).

c) Если признак доменно-временной стабильности меньше заданного порогового значения, спектральный центроидный признак больше заданного порогового значения, и один из трех признаков спектральной плоскостности меньше своего порогового значения, определяется, что текущий кадр представляет собой тональный кадр, значение флага кадра тональности устанавливается равным 1, и далее выполняется Этап d).

d) Признак тонального уровня обновляется в соответствии с флагом кадра тональности , начальное значение признака тонального уровня устанавливается, когда устройство VAD начинает работать в области [0, 1].

Если текущий флаг кадра тональности указывает, что текущий кадр является тональным кадром, признак тонального уровня обновляется по следующей формуле:

Если текущий кадр не является тональным кадром, признак тонального уровня обновляется по следующей формуле:

e) Оценивается, является ли текущий кадр тональным сигналом в соответствии с обновленным признаком тонального уровня и значение флага сигнала тональности устанавливается соответствующим образом. Если признак тонального уровня имеет значение больше установленного порогового значения, определяется, что текущий кадр является тональным сигналом, в противном же случае, определяется, что текущий кадр не является тональным сигналом.

Этап S426: Среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для множества кадров. Способ расчета следующий.

Когда флаг фонового шума предыдущего кадра равен 1, энергия кадра текущего кадра накапливается в фоновом шумовом аккумуляторе энергии всех поддиапазонов , а значение счетчика энергии фонового шума всех поддиапазонов увеличивается на 1.

Фоновая энергия шума всех поддиапазонов рассчитывается по следующей формуле: .

SNR всех поддиапазонов для текущего кадра вычисляется в соответствии с энергией текущего кадра.

SNR всех поддиапазонов для множества кадров усредняются для получения среднего общего SNR всех поддиапазонов.

,

где N представляет N последних кадров, a tsnr [i] представляет tsnr i-го кадра.

Этап S428: Устанавливается начальное значение для количества непрерывных активных кадров во время первого кадра. В этом варианте осуществления изобретения начальное значение установлено на 0. Когда текущий кадр является вторым кадром и речевым кадром за вторым кадром, текущее количество непрерывных активных кадров рассчитывается в соответствии с результатом оценки VAD. В частности,

Когда флаг VAD равен 1, количество непрерывных активных кадров увеличивается на 1, в противном же случае, количество непрерывных активных кадров равно 0.

VAD на Этапе S428 может быть (но не ограничиваясь только этим) одним VAD из двух VAD, а также может быть комбинированным VAD.

Этап S430: Исходный флаг фонового шума текущего кадра вычисляется в соответствии с признаком энергии кадра, спектральным центроидным признаком, признаком доменно-временной стабильности, признаком спектральной плоскостности и признаком тональности текущего кадра, начальный флаг фонового шума изменяется в соответствии с результатом оценки VAD, признаком тональности, признаком SNR, флагом сигнала тональности и признаком доменно-временной стабильности текущего кадра с целью получения финального флага фонового шума, и выполняется обнаружение фонового шума в соответствии с флагом фонового шума.

Флаг фонового шума используется для указания, следует ли обновлять энергию фонового шума, и значение флага фонового шума устанавливается на 1 или 0. Когда значение флага фонового шума равно 1, энергия фонового шума обновляется, а когда значение флага фонового шума равно 0, энергия фонового шума не обновляется.

Во-первых, предположим, что текущий кадр является фоновым шумовым кадром, и, если выполнено любое из следующих условий, можно определить, что текущий кадр не является шумовым сигналом.

a) Признак доменно-временной стабильности больше заданного порогового значения, которое колеблется от 0,05 до 0,30.

b) Спектральный центроидный признак и признак доменно-временной стабильности больше соответствующих пороговых значений соответственно, пороговое значение, соответствующее , колеблется от 2 до 6, и пороговое значение, соответствующее , составляет от 0,001 до 0,1.

c) Признак тональности и признак доменно-временной стабильности больше соответствующих пороговых значений соответственно, пороговое значение, соответствующее варьируется от 0,4 до 0,6, а пороговое значение, соответствующее , составляет от 0,05 до 0,15.

d) Признаки спектральной плоскостности каждого поддиапазона или сглаженные спектральные признаки плоскостности каждого поддиапазона меньше, чем соответствующие установленные пороговые значения, которые колеблются от 0,70 до 0,92.

e) Энергия текущего кадра больше заданного порогового значения, пороговое значение находится в диапазоне от 50 до 500, или пороговое значение динамически устанавливается в соответствии с средней продолжительной энергией.

f) признак тональности больше соответствующего порогового значения.

g) Исходный флаг фонового шума может быть получен выполнением Этапа а) до Этапа f), а затем исходный флаг фонового шума изменяется. Когда признак SNR, признак тональности и признак доменно-временной стабильности меньше соответствующих пороговых значений, и когда и установлены на 0, флаг фонового шума обновляется до 1.

VAD на Этапе S430 может быть (но не ограничиваясь только этим) одним VAD из двух VAD, а также может быть комбинированным VAD.

Этап S432: Окончательный комбинированный результат оценки VAD получается в соответствии с, по меньшей мере, одним признаком в категории 1 признаков, по меньшей мере, одним признаком в категории 2 признаков и двумя существующими результатами оценки VAD.

В следующем примерном варианте осуществления изобретения двумя существующими VAD являются VAD_A и VAD_B, выходные флаги являются соответственно и , а выходной флаг комбинированного VAD - . Когда флаг VAD равен 0, он указывает на неактивный кадр, а когда флаг VAD равен 1, он указывает на активный кадр. Конкретный процесс оценки заключается в следующем.

a) выбирается как начальное значение .

b) Если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порога, такого как 0,2, а начальное значение комбинированного VAD равно 0 , выбирается как комбинированный VAD, и оценка заканчивается; в противном случае, выполняется Этап с).

c) Если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения, такого, как 10,5, или тип шума не является тишиной, выполняется Этап d), в противном случае, начальное значение , выбранное на Этапе а), выбирается в качестве комбинированного результата оценки VAD.

d) Если выполнено одно из следующих условий, результат логической операции ИЛИ двух VAD используется в качестве комбинированного VAD, и решение заканчивается; в противном случае, выполняется Этап е).

Условие 1: Среднее общее SNR всех поддиапазонов больше, чем первое пороговое значение, такое, как 2.2.

Условие 2: Среднее общее SNR всех поддиапазонов больше второго порогового значения, такого, как 1,5, а количество непрерывных активных кадров больше порогового значения, такого, как 40.

Условие 3: Флаг сигнала тональности равен 1.

е) Если флаг типа шума указывает, что тип шума является тишиной, выбирается в качестве комбинированного VAD, и оценка заканчивается.

2 вариант осуществления изобретения:

Этап S432 в варианте осуществления 1 также может быть реализован в соответствии со следующими режимами.

Окончательный комбинированный результат оценки VAD получается в соответствии с, по меньшей мере, одним признаком в категории 1 признаков, по меньшей мере, одним признаком в категории 2 признаков и двумя существующими результатами оценки VAD.

В настоящем примерном варианте осуществления изобретения двумя существующими VAD являются VAD_A и VAD_B, выходные флаги являются соответственно и , а выходной флаг комбинированного VAD - . Когда флаг VAD равен 0, он указывает на неактивный кадр, а когда флаг VAD равен 1, он указывает на активный кадр. Конкретный процесс оценки заключается в следующем.

a) выбирается как начальное значение .

b) Если тип шума является тишиной, SNR в частотной области больше заданного порогового значения, такого, как 0,2, а начальное значение комбинированного VAD равно 0, выбирается как комбинированного VAD, и оценка заканчивается; в противном случае, выполняется Этап с).

c) Если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения, такого, как 10,5, или тип шума не является тишиной, выполняется Этап d), в противном случае, начальное значение , выбранное на Этапе а), выбирается в качестве комбинированного результата оценки VAD.

d) Если выполнено одно из следующих условий, результат логической операции ИЛИ двух VAD используется в качестве комбинированного VAD, и решение заканчивается; в противном случае, выполняется Этап е).

Условие 1: Среднее общее SNR всех поддиапазонов больше, чем первое пороговое значение, такое, как 2.0.

Условие 2: Среднее общее SNR всех поддиапазонов больше второго порогового значения, такого, как 1,5, а количество непрерывных активных кадров больше порогового значения, такого, как 30.

Условие 3: Флаг сигнала тональности равен 1.

е) выбирается как комбинированный VAD, и оценка заканчивается.

3 вариант осуществления изобретения:

Этап S432 в варианте осуществления 1 также может быть реализован в соответствии со следующими режимами.

Окончательный комбинированный результат оценки VAD получается в соответствии с, по меньшей мере, одним признаком в категории 1 признаков, по меньшей мере, одним признаком в категории 2 признаков и двумя существующими результатами оценки VAD.

В настоящем примерном варианте осуществления изобретения двумя существующими VAD являются VAD_A и VAD_B, выходные флаги являются соответственно и , а выходной флаг комбинированного VAD - . Когда флаг VAD равен 0, он указывает на неактивный кадр, а когда флаг VAD равен 1, он указывает на активный кадр. Конкретный процесс оценки заключается в следующем.

a) выбирается как начальное значение .

b) Если тип шума является тишиной, выполняется Этап с), в противном случае выполняется Этап d).

c) Если сглаженное усредненное значение SNR в долговременной частотной области больше 12,5, а равно 0, устанавливается как , в противном случае, начальное значение , выбранное на Этапе а), выбирается в виде комбинированного результата оценки VAD.

d) Если среднее общее SNR всех поддиапазонов больше 2,0, или среднее общее SNR всех поддиапазонов больше 1,5, а количество непрерывных активных кадров больше 30, или флаг сигнала тональности равен 1, результат логической операции ИЛИ двух VAD, то есть ИЛИ используется в качестве комбинированного VAD, в противном случае, начальное значение , выбранное на этапе а), выбирается как комбинированный результат оценки VAD.

4 вариант осуществления изобретения:

Этап S432 в варианте осуществления 1 также может быть реализован в соответствии со следующими режимами.

Окончательный комбинированный результат оценки VAD получается в соответствии с, по меньшей мере, одним признаком в категории 1 признаков, по меньшей мере, одним признаком в категории 2 признаков и двумя существующими результатами оценки VAD.

В следующем примерном варианте осуществления изобретения двумя существующими VAD являются VAD_A и VAD_B, выходные флаги являются соответственно и , а выходной флаг комбинированного VAD - . Когда флаг VAD равен 0, он указывает на неактивный кадр, а когда флаг VAD равен 1, он указывает на активный кадр. Конкретный процесс оценки заключается в следующем.

a) выбирается как начальное значение .

b) Если тип шума является тишиной, выполняется Этап с), в противном случае выполняется Этап d).

c) Если сглаженное усредненное значение SNR в долговременной частотной области больше 12,5, а равно 0, устанавливается как , в противном случае, выполняется Этап е).

d) Если среднее общее SNR всех поддиапазонов больше 1,5 или среднее общее SNR всех поддиапазонов больше 1,0, а количество непрерывных активных кадров больше 30, или флаг сигнала тональности равен 1, результат логической операции ИЛИ двух VAD, то есть ИЛИ используется как комбинированный VAD, в противном случае, выполняется Этап е).

e) Если количество непрерывных шумовых кадров больше 10, а среднее общее SNR всех поддиапазонов меньше 0,1, результат операции И на двух существующих выходных флагах VAD, то есть И используется как комбинированный VAD, в противном случае, выбирается как комбинированный VAD.

5 вариант осуществления изобретения:

Этап S432 в варианте осуществления 1 также может быть реализован в соответствии со следующими режимами.

Окончательный комбинированный результат оценки VAD получается в соответствии с, по меньшей мере, одним признаком в категории 1 признаков, по меньшей мере, одним признаком в категории 2 признаков и двумя существующими результатами оценки VAD.

В следующем примерном варианте осуществления изобретения двумя существующими VAD являются VAD_A и VAD_B, выходные флаги являются соответственно и, а выходной флаг комбинированного VAD - . Когда флаг VAD равен 0, он указывает на неактивный кадр, а когда флаг VAD равен 1, он указывает на активный кадр. Конкретный процесс оценки заключается в следующем.

a) выбирается как начальное значение .

b) Если тип шума является тишиной, выполняется Этап с), в противном случае выполняется Этап d).

c) Если равно 0, результат логической операции ИЛИ двух VAD, то есть ИЛИ , используется в качестве комбинированного VAD, а в противном случае выбирается как комбинированный VAD.

d) Если среднее общее SNR всех поддиапазонов больше 2,0, или среднее общее SNR всех поддиапазонов больше 1,5, а количество непрерывных активных кадров больше 30, или флаг сигнала тональности равен 1, результат логической операции ИЛИ двух VAD, то есть ИЛИ используется в качестве комбинированного VAD, в противном случае, начальное значение , выбранное на этапе а), выбирается как комбинированный результат оценки VAD.

В другом варианте осуществления изобретения, также предусматривается программное обеспечение, которое организовано для выполнения технических решений, описанных в указанных выше вариантах осуществления изобретения и примерных вариантах реализации.

В еще одном варианте осуществления изобретения также предусмотрен носитель информации. Программное обеспечение хранится на носителе информации. Носитель информации включает в себя, но не ограничивается ими, оптический диск, гибкий диск, жесткий диск, носитель со стираемой памятью и т.п.

Очевидно, что специалисты в данной области должны понимать, что все компоненты или все этапы настоящего изобретения могут быть реализованы с использованием общего вычислительного устройства, могут быть централизованы на одном вычислительном устройстве или могут быть распределены по сети, состоящей из множества вычислительных устройств В качестве варианта, они могут быть реализованы с использованием исполняемых программных кодов вычислительных устройств. Таким образом, они могут храниться в устройстве хранения и выполняться вычислительными устройствами, показанные или описанные этапы, при определенных условиях, могут выполняться в последовательности, отличной от этой последовательности, или они производятся в каждом компоненте интегральной схемы, соответственно, или множестве компонентов или на этапах в одном компоненте интегральной схемы. Таким образом, настоящее раскрытие сущности изобретения не ограничивается какими-либо сочетаниями конкретных аппаратных и программных средств.

Упомянутые варианты осуществления настоящего изобретения являются примерными и не используются для ограничения настоящего раскрытия. Для специалистов в данной области техники настоящее изобретение может иметь различные модификации и варианты реализации. Любые модификации, эквивалентные замены, усовершенствования и т.п.в рамках принципов реализации настоящего изобретения должны оставаться в пределах области охранительного действия, определяемой формулой настоящего изобретения.

Промышленная применимость

Основываясь на вышеупомянутом техническом решении, предоставленном вариантам осуществления настоящего изобретения, комбинированное обнаружение выполняется в соответствии, по меньшей мере, с одним признаком первого класса в первой категории признаков, по меньшей мере, одним признаком второго класса во второй категории признаков и, по меньшей мере, двумя существующими результатами оценки VAD. Могут быть решены технические проблемы низкой точности обнаружения решения VAD на соответствующем уровне техники, и точность VAD может быть улучшена, что улучшит работу пользователя.

Похожие патенты RU2680351C2

название год авторы номер документа
Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности 2015
  • Чжу Чанбао
  • Юань Хао
RU2684194C1
ОЦЕНКА ФОНОВОГО ШУМА В ЗВУКОВЫХ СИГНАЛАХ 2014
  • Сехльстедт, Мартин
RU2618940C1
СПОСОБ ОЦЕНКИ ФОНОВОГО ШУМА, БЛОК ОЦЕНКИ ФОНОВОГО ШУМА И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ 2014
  • Сехльстедт Мартин
RU2720357C2
ОЦЕНИВАНИЕ ФОНОВОГО ШУМА В АУДИОСИГНАЛАХ 2015
  • Сехльстедт Мартин
RU2665916C2
ОЦЕНИВАНИЕ ФОНОВОГО ШУМА В АУДИОСИГНАЛАХ 2020
  • Сехльстедт, Мартин
RU2760346C2
ОЦЕНИВАНИЕ ФОНОВОГО ШУМА В АУДИОСИГНАЛАХ 2015
  • Сехльстедт Мартин
RU2713852C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБНАРУЖЕНИЯ ЗВУКОВОЙ АКТИВНОСТИ И КЛАССИФИКАЦИИ ЗВУКОВЫХ СИГНАЛОВ 2008
  • Маленовски Владимир
  • Елинек Милан
  • Вайанкур Томми
  • Салами Редван
RU2441286C2
СПОСОБ И УСТРОЙСТВО ДЛЯ УЛУЧШЕНИЯ РЕЧЕВОГО СИГНАЛА В ПРИСУТСТВИИ ФОНОВОГО ШУМА 2004
  • Джелинек Милан
RU2329550C2
УСТРОЙСТВО И СПОСОБ ДЛЯ УМЕНЬШЕНИЯ ШУМА КВАНТОВАНИЯ В ДЕКОДЕРЕ ВРЕМЕННОЙ ОБЛАСТИ 2014
  • Вайанкур Томми
  • Елинек Милан
RU2638744C2
СПОСОБ И УСТРОЙСТВО ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ 2009
  • Шломот Эйал
  • Чжан Либинь
  • Дай Цзиньлян
RU2461898C2

Иллюстрации к изобретению RU 2 680 351 C2

Реферат патента 2019 года СПОСОБ И УСТРОЙСТВО ОБНАРУЖЕНИЯ ГОЛОСОВОЙ АКТИВНОСТИ

Изобретение относится к обнаружению голосовой активности (VAD). Технический результат – увеличение точности обнаружения кадров речевой неактивности до и после голосовых сегментов. Для этого способ включает в себя: по меньшей мере один признак первого класса в первой категории признаков, по меньшей мере один признак второго класса во второй категории признаков и по меньшей мере два существующих результата оценки VAD, причем признак первого класса и признак второго класса являются признаками, которые используются для обнаружения VAD (S102); и VAD выполняется в соответствии с признаком первого класса, признаком второго класса и по меньшей мере двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD (S104). С помощью технического решения получается решение технических проблем низкой точности обнаружения VAD и улучшается точность VAD, тем самым улучшается работа пользователя. 2 н. и 8 з.п. ф-лы, 4 ил.

Формула изобретения RU 2 680 351 C2

1. Способ обнаружения голосовой активности (VAD), состоящий из:

получения по меньшей мере одного признака первого класса в первой категории признаков, по меньшей мере одного признака второго класса во второй категории признаков и по меньшей мере двух существующих результатов оценки VAD, причем признак первого класса и признак второго класса - это признаки, используемые для обнаружения VAD; а также

выполнения в соответствии с признаком первого класса, признаком второго класса и по меньшей мере двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD,

в котором

признак первого класса в первой категории признаков содержит по меньшей мере одно из следующего: количество непрерывных активных кадров, среднее общее соотношение сигнал/шум (SNR) всех поддиапазонов и флаг сигнала тональности, при этом среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров; а также

признак второго класса во второй категории признаков содержит по меньшей мере одно из следующего: флаг типа шума, сглаженную усредненную область SNR с длительной частотой, количество кадров непрерывного шума и частотную область SNR.

2. Способ по п. 1, в котором выполнение VAD согласно признаку первого класса, признаку второго класса и по меньшей мере двум существующим результатам оценки VAD содержит:

a) в результате выбора одного результата оценки VAD из по крайней мере двух существующих результатов оценки VAD появляется начальное значение комбинированного VAD;

b) выбор флага VAD, который не выбран в качестве начального значения, по меньшей мере из двух существующих результатов оценки VAD, в качестве комбинированного результата оценки VAD, если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порогового значения, а начальное значение указывает на неактивный кадр, в противном случае выполняется Этап с), причем флаг VAD используется для указания того, что является результатом оценки VAD: активный кадр или неактивный кадр;

c) выполнение Этапа d), если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения или тип шума не является тишиной, в противном случае выбор результата оценки VAD, выбранного на Этапе а), в качестве комбинированного результата оценки VAD;

d) выполнение логической операции ИЛИ на по меньшей мере двух существующих результатах оценки VAD и использование результата логической операции ИЛИ в качестве комбинированного результата оценки VAD при выполнении заданного условия, в противном случае выполнение Этапа е); а также

e) выбор флага VAD, который не выбран в качестве начального значения, по меньшей мере по двум существующим результатам оценки VAD в качестве комбинированного результата оценки VAD, если флаг типа шума указывает на то, что тип шума является тишиной, в противном случае выбор результата оценки VAD, выбранного на Этапе а), в качестве комбинированного результата оценки VAD.

3. Способ по п. 1, в котором выполнение VAD согласно признаку первого класса, признаку второго класса и по меньшей мере двум существующим результатам оценки VAD содержит:

a) в результате выбора одного результата оценки VAD из по крайней мере двух существующих результатов оценки VAD появляется начальное значение комбинированного VAD;

b) выбор флага VAD, который не выбран в качестве начального значения, по меньшей мере из двух существующих результатов оценки VAD, в качестве комбинированного результата оценки VAD, если флаг типа шума указывает, что тип шума является тишиной, SNR в частотной области больше заданного порогового значения, а начальное значение указывает на неактивный кадр, в противном случае выполняется Этап с), причем флаг VAD используется для указания того, что является результатом оценки VAD: активный кадр или неактивный кадр;

c) выполнение Этапа d), если сглаженное усредненное значение SNR в долговременной частотной области меньше заданного порогового значения или тип шума не является тишиной, в противном случае выбор результата оценки VAD, выбранного на Этапе а), в качестве комбинированного результата оценки VAD;

d) выполнение логической операции ИЛИ на по меньшей мере двух существующих результатах оценки VAD и использование результата логической операции ИЛИ в качестве комбинированного результата оценки VAD при выполнении заданного условия, в противном случае выполнение Этапа е); а также

e) выбор флага VAD, который не выбран в качестве начального значения по меньшей мере в двух существующих результатах оценки VAD, выбирается в качестве комбинированного результата оценки VAD.

4. Способ по п. 1, в котором выполнение VAD согласно признаку первого класса, признаку второго класса и по меньшей мере двум существующим результатам оценки VAD содержит:

a) в результате выбора одного результата оценки VAD из по крайней мере двух существующих результатов оценки VAD появляется начальное значение комбинированного VAD и

b) выбор флага VAD, который не выбран в качестве начального значения, по меньшей мере в двух существующих результатах оценки VAD в качестве комбинированного результата оценки VAD, если флаг типа шума указывает на то, что тип шума является тишиной, сглаженное усредненное значение SNR в долговременной частотной области больше порогового значения, а флаг сигнала тональности указывает на нетональный сигнал, в котором флаг VAD используется для указания того, что результат оценки VAD является активным кадром или неактивным кадром.

5. Способ по п. 1, в котором выполнение VAD согласно признаку первого класса, признаку второго класса и по меньшей мере двум существующим результатам оценки VAD, содержит:

a) в результате выбора одного результата оценки VAD из по крайней мере двух существующих результатов оценки VAD появляется начальное значение комбинированного VAD и

b) проведение логической операции ИЛИ по крайней мере по двум существующим результатам оценки VAD и использование результата логической операции ИЛИ в качестве комбинированного результата оценки VAD, если типом шума является не тишина и выполнено заданное условие.

6. Способ по любому из пп. 2, 3 или 5, в котором предварительно заданное условие содержит по меньшей мере одно из следующих:

условие 1: среднее общее SNR всех поддиапазонов больше, чем первое пороговое значение;

условие 2: среднее общее SNR всех поддиапазонов больше второго порогового значения, а количество непрерывных активных кадров больше заданного порогового значения; а также

условие 3: флаг сигнала тональности указывает на тональный сигнал.

7. Способ по п. 1, в котором выполнение VAD согласно признаку первого класса, признаку второго класса и по меньшей мере двум существующим результатам оценки VAD содержит:

выполнение логической операции И по меньшей мере по двум существующим результатам оценки VAD и использование результата логической операции И в качестве комбинированного результата оценки VAD, если количество непрерывных шумовых кадров больше, чем первое назначенное пороговое значение, а среднее общее значение SNR по всем поддиапазонам меньше второго назначенного порога; в противном же случае случайный выбор одного из существующих результатов оценки VAD из по меньшей мере двух существующих результатов оценки VAD в качестве комбинированного результата оценки VAD.

8. Способ по п. 1, в котором сглаженное усредненное значение SNR в долговременной частотной области и флаг типа шума определяются с помощью следующих режимов:

вычисление средней энергии долговременных активных кадров текущего кадра и средней энергии долговременных фоновых шумов текущего кадра в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD предыдущего кадра, текущего кадра или по меньшей мере два существующих результата оценки VAD, соответствующие предыдущему кадру, средняя энергия длительных активных кадров предыдущего кадра в течение первого заданного периода времени и средняя энергия долговременного фонового шума предыдущего кадра;

вычисление долговременного SNR текущего кадра в течение второго периода времени в соответствии со средней энергией долговременного фонового шума и средней энергией долговременных активных кадров текущего кадра в течение второго заданного периода времени;

вычисление сглаженного усредненного значения SNR в долговременной частотной области текущего кадра в течение третьего заданного периода времени в соответствии с любым результатом оценки VAD в комбинированном результате оценки VAD текущего кадра или по меньшей мере по двум существующим результатам оценки VAD, соответствующим предыдущему кадру и среднему значению SNR частотной области предыдущего кадра; а также

определение флага типа шума в соответствии с долговременным SNR и сглаженным усредненным значением SNR в долговременной частотной области.

9. Способ по п. 8, в котором определение флага типа шума в соответствии с долговременным SNR и сглаженным усредненным значением SNR в долговременной частотной области содержит:

задание флага типа шума на отсутствие тишины и задание флага типа шума на тишину, когда долговременное SNR больше, чем первое предварительно установленное пороговое значение, а сглаженное усредненное значение SNR в долговременной частотной области больше, чем второе заданное пороговое значение.

10. Устройство обнаружения голосовой активности (VAD), содержащее:

компонент сбора данных, выполненный с возможностью получения по меньшей мере одного признака первого класса в первой категории признаков, по меньшей мере одного признака второго класса во второй категории признаков и по меньшей мере двух существующих результатов оценки VAD, причем признак первого класса и признак второго класса суть признаки, используемые для обнаружения VAD; а также

компонент обнаружения, выполненный с возможностью выполнения VAD в соответствии с признаком первого класса, признаком второго класса и по меньшей мере двумя существующими результатами оценки VAD с целью получения комбинированного результата оценки VAD,

в котором компонент сбора данных содержит:

первый блок обнаружения, скомпонованный для обнаружения признака первого класса в первой категории признаков, который содержит по меньшей мере одно из следующего: количество непрерывных активных кадров, среднее общее соотношение сигнал/шум (SNR) всех поддиапазонов и флаг сигнала тональности, при этом среднее общее SNR всех поддиапазонов представляет собой среднее значение SNR по всем поддиапазонам для заданного количества кадров; а также

второй блок сбора данных, скомпонованный для обнаружения признака второго класса во второй категории признаков, который содержит по меньшей мере одно из следующего: флаг типа шума, сглаженное усредненное значение SNR в долговременной частотной области, количество кадров непрерывного шума и частотную область SNR.

Документы, цитированные в отчете о поиске Патент 2019 года RU2680351C2

US 20120232896 A1, 13.09.2012
WO 2011133924 A1, 27.10.2011
WO 2011049516 A1, 28.04.2011
WO 2011140096 A1, 10.11.2011
СПОСОБ И УСТРОЙСТВО ДЛЯ УПРАВЛЕНИЯ СГЛАЖИВАНИЕМ СТАЦИОНАРНОГО ФОНОВОГО ШУМА 2008
  • Брун Стефан
RU2469419C2

RU 2 680 351 C2

Авторы

Чжу Чангбао

Ян Хао

Даты

2019-02-19Публикация

2014-10-24Подача