Показать метаданные Скрыть метаданные

(19)

(11)

2 507 608

(13)

(51)

МПК

G10L21/02(2013-01-01)

(21) (22)

Заявка

2011105976/08, 2009-08-03

(24)

Дата начала отсчета патента

2009-08-03

(22)

дата подачи заявки

2009-08-03

(45)

опубликовано

2014-02-20

(72)

авторы

Уле КристианХеллмут ОливерГрилл БернхардРиддербуш Фалко

(73)

патентообладатели

Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.

(56)

Документы, цитированные в отчете о поиске

US 6226605 B1, 01.05.2001US 6408273 B1, 18.06.2002US 7171246 B2, 30.01.2007US 6820053 B1, 16.11.2004.

УСТРОЙСТВА И СПОСОБЫ ДЛЯ ОБРАБОТКИ АУДИО СИГНАЛА С ЦЕЛЬЮ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ, ИСПОЛЬЗУЯ ФУНКЦИЮ ВЫДЕЛЕНИЯ НУЖНЫХ ХАРАКТЕРИСТИК Российский патент 2014 года по МПК G10L21/02

Описание патента на изобретение RU2507608C2

Область изобретения

Настоящее изобретение относится к области обработки аудио сигнала и, в частности, к области повышения разборчивости речи аудио сигналов, так что обработанный сигнал имеет речевое содержание, которое обладает улучшенной объективной или субъективной речевой понятностью.

Предпосылки создания изобретения и известный уровень техники

Повышение разборчивости речи используется для различного применения. Широко известно применение использования обработки цифрового сигнала в слуховых аппаратах. Цифровая обработка сигнала в слуховых аппаратах предлагает новые, эффективные средства для восстановления слуха. Помимо более высокого качества акустического сигнала, цифровые слуховые аппараты позволяют применение специальных стратегий обработки речи. Для многих из этих стратегий желательным является наличие оценки соотношения речь/шум (SNR) акустической среды. В частности, учитываются применения, в которых сложные алгоритмы для обработки речи оптимизированы для конкретной акустической среды, но такие алгоритмы могут не сработать в ситуациях, которые не отвечают конкретным условиям. Это относится в особенности к схемам снижения уровня шума, которые могут представлять процесс обработки артефактов в тихой среде или в ситуациях, когда отношение сигнал/шум (SNR) ниже определенного порога. Оптимальный выбор параметров алгоритмов сжатия и усиления может зависеть от соотношения речь/шум, так что адаптация набора параметров, зависящих от оценок отношения сигнал/шум, помогает в доказательстве существующего преимущества. Кроме того, оценки отношения сигнал/шум могут непосредственно быть использованы в качестве контрольных параметров для схем снижения уровня шума, таких как фильтрация Винера или спектрального вычитания.

Другие применения осуществляются в области повышения разборчивости речи звука кино. Было обнаружено, что многие люди испытывают затруднения с пониманием речевого содержания фильма, например, в связи с нарушениями слуха. Для того, чтобы следить за развитием сюжета фильма, важно понимать соответствующее речевое сопровождение звуковой дорожки, например монологи, диалоги, объявления и повествования. Люди, у которых есть проблемы со слухом, часто переживают опыт, когда фоновые звуки, например окружающий шум и музыка, воспроизводятся на слишком высоком уровне по отношению к речи. В этом случае, желательно, повысить уровень речевых сигналов и ослабить фоновые звуки или же, вообще, усилить уровень речевого сигнала по отношению к общему уровню.

Известный подход к повышению разборчивости речи - спектральное взвешивание, также известный как краткосрочное спектральное затухание, представлен на фиг.3. Выходной сигнал у[k] вычисляется путем затухания сигналов х[ω] участка полосы частот входящих сигналов х[k] в зависимости от шумовой активности внутри сигналов участка полосы частот.

В следующем входящем сигнале х[k] предполагается наличие аддитивного/добавленного смешения желаемого речевого сигнала s[k] и фонового шума b[k].

$x [k] = s [k] + b [k] (1)$

Повышение разборчивости речи является усовершенствованием в объективном понимании и/или в субъективном качестве речи.

Воспроизведение входящего сигнала частотной областью вычисляется с помощью краткосрочного преобразования Фурье (STFT), других временно-частотных преобразований или фильтра-банка, как показано на 30. Входящий сигнал затем фильтруют в частотной области в соответствии с уравнением 2, тогда как частотный ответ G(ω) фильтра вычисляется так, что активность шумов снижается. Выходящий сигнал вычисляется с помощью обратной обработки частотно-временных преобразований или фильтра-банка, соответственно.

$Y (ω) = G (ω) X (ω) (2)$

Соответствующие спектральные взвешивания G(ω) вычисляются на 31 для каждого спектрального значения с использованием спектра входящего сигнала Х(ω) и оценки спектра шума $\hat{B} (ω)$ или, что является эквивалентным, используя оценку линейного участка полосы частот $\hat{R} (ω) = \hat{S} (ω) / \hat{B} (ω)$ . Взвешенное спектральное значение преобразуется обратно во временную область в 32. Яркими примерами правил подавления шума являются примеры спектрального [S.Boll, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. on Acoustics, Speech, and Signal Processing, vol.27, no.2, pp.113-120, 1979] фильтрация Винера. Полагая, что входящий сигнал представляет аддитивную смесь речевых и шумовых сигналов и что речь и шум не коррелированы, полученные значения для спектрального метода вычитания приведены в уравнении 3.

$G (ω) = \sqrt{1 - \frac{{| \hat{B} (ω) |}^{2}}{{| X (ω) |}^{2}}} (3)$

Аналогичные взвешивания выводятся из оценок линейного участка полосы частот SNR $\hat{R} (ω)$ в соответствии с уравнением 4.

Канал

$G (ω) = \sqrt{\frac{\hat{R} (ω)}{\hat{R} (ω) + 1}} (4)$

Различные расширения спектрального вычитания уже были предложены в прошлом, а именно использование фактора над - вычитания и параметра спектрального этажа [М.Berouti, R.Schwartz, J.Makhoul, "Enhancement of speech corrupted by acoustic noise", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP; 1979], обобщенные формы [J.Lim, A.Oppenheim, "Enhancement and bandwidth compression of noisy speech", Proc. of the IEEE, vol 67, no.12, pp.1586-1604, 1979], использование критериев восприятия (например, N.Virag, "Single channel speech enhancement based on masking properties of the human auditory system", IEEE Trans. Speech and Audio Proc., vol.7, no.2, pp.126-137, 1999) и многополосное спектральное вычитание (например, S.Kamath, Р.Loizou, "A multi-band spectral subtraction method for enhancing speech corrupted by colored noise", Proc. of the IEEE Int. Conf. Acoust. Speech Signal Processing, 2002). Однако важнейшей частью спектрального метода взвешивания является оценка мгновенного спектра шума или участка полосы частот SNR, которая склонна к ошибкам, особенно если шум не является стационарным. Ошибки оценки приводят к наличию остаточного шума, искажения компонентов речи или музыкального шума (артефакт, который был описан как "мелодия с тональным качеством" [Р.Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007]). Простой подход к оценке шума представляет собой измерение и усреднение спектра шума во время речевых пауз. Такой подход не дает удовлетворительных результатов, если спектр шума меняется с течением времени во время речевой деятельности, и если не удаются обнаружить речевые паузы. Методы оценки спектра шума даже в речевой деятельности были предложены в прошлом и могут быть классифицированы в соответствии с Р.Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007? как

- Минимальные алгоритмы отслеживания.

- Временно-рекурсивные алгоритмы усреднения.

- Алгоритмы, основанные на гистограмме.

Оценка спектра шума с применением минимума статистики был предложен в работе R.Martin, "Spectral subtraction based on minimum statistics", Proc. of EUSIPCO, Edingburgh, UK, 1994. Метод основан на отслеживании локальных минимумов энергии сигнала в каждом участке полосы частот. Правило нелинейного обновления для оценки шума и более быстрого обновления было предложено в работе G.Doblinger, "Computationally Efficient Speech Enhancement By Spectral Minima Tracking In Subbands", Proc. of Eurospeech, Madrid, Spain, 1995.

Временно-рекурсивные алгоритмы усреднения оценки и обновление спектра шума при оценке отношения сигнал/шум в полосе частот при заданной полосе частот являются очень низкими. Это делается путем вычисления рекурсивной оценки среднего взвешивания предшествующего шума и представленного в данный момент спектра. Взвешивания определяются как функция вероятности того, что мы имеем дело с речью или же как функция оцененной SNR в определенной полосе частот, например, как это описано в работе I.Cohen, "Noise estimation by minima controlled recursive averaging for robust speech enhancement", IEEE Signal Proc. Letters, vol.9, no.1, pp.12-15, 2002, and in L.Lin, W.Holmes, E.Ambikairajah, "Adaptive noise estimation algorithm for speech enhancement". Electronic Letters, vol.39, no.9, pp.754-755, 2003.

Методы, основанные на гистограмме, рассчитаны на предположении о том, что гистограмма энергетического участка частот очень часто бимодальна. Важный режим пониженного потребления энергии накапливает значения энергии из сегментов без слов или с низкой энергией сегментов речи. Высокоэнергетический режим накапливает значения энергии из речевых сегментов и шума. Энергия шумов в конкретном участке полосы частот определяется из низкоэнергетического режима [H.Hirsch, С.Ehrlicher, "Noise estimation techniques for robust speech recognition", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, Detroit, USA, 1995]. Чтобы получить наиболее полное представление последних материалов по данной теме, можно обратиться Р.Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007.

Методы оценки участка полосы частот SNR основаны на контролируемом изучении с использованием функций амплитудной модуляции, описаны в J.Tchorz, В.Kollmeier, "SNR Estimation based on amplitude modulation analysis with applications to noise suppression", IEEE Trans. On Speech and Audio Processing, vol.11, no.3, pp.184-192, 2003, and in M.Kleinschmidt, V.Hohmann, "Sub-band SNR estimation using auditory feature processing". Speech Communication: Special Issue on Speech Processing for Hearing Aids, vol.39, pp.47-64, 2003.

Другие подходы к повышению разборчивости речи являются методами фильтровой синхронизации частоты основного тона (например, описанные в R.Frazier, S.Samsam, L.Braida, A.Oppenheim, "Enhancement of speech by adaptive filtering", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 1976), фильтрации спектра - временной модуляции (STM) (например в работе N.Mesgarani, S.Shamma, "Speech enhancement based on filtering the spectro-temporal modulations", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 2005) и фильтрации на основе синусоидальной модели воспроизведения входящего сигнала (например, в работе J.Jensen, J.Hansen, "Speech enhancement using a constrained iterative sinusoidal model", IEEE Trans. on Speech and Audio Processing, vol.9, no.7, pp.731-740, 2001).

Методы оценки участка полосы частот SNR? основанные на контролируемом изучении с использованием функций амплитудной модуляции? приведенные в работах J.Tchorz, В.Kollmeier, "SNR Estimation based on amplitude modulation analysis with applications to noise suppression", IEEE Trans. On Speech and Audio Processing, vol.11, no.3, pp.184-192, 2003, and in M.Kleinschmidt, V.Hohmann, "Sub-band SNR estimation using auditory feature processing", Speech Communication: Special Issue on Speech Processing for Hearing Aids, vol.39, pp.47-64, 200312, 13? проигрывают так, как необходимы два шага обработки спектрограммы. Первый шаг обработки спектрограммы заключается в создании спектрограммы время/частота временной области аудио сигнала. Тогда, в целях стимулирования модуляционной спектрограммы, требуется преобразование другой спектрограммы время/частота, которая преобразует спектральную информацию из спектральной области в область модуляции. В связи с присущей систематической задержкой и решением вопроса время/частота? присущих любому алгоритму преобразования, эта операция дополнительного преобразования влечет ряд проблем.

Дополнительным следствием этой процедуры является то, что оценки шума весьма не точны в условиях, когда шум не является стационарным и когда возможно появление различных шумовых сигналов.

Краткое описание изобретения

Целью настоящего изобретения является усовершенствование и повышение разборчивости речи.

В соответствии с первым аспектом, эта цель достигается с помощью прибора для обработки аудио сигнала для получения управляющей информации для фильтра, повышающего разборчивость речи, включая: устройство выделения характеристик для получения временной последовательности кратковременных спектральных представлений звукового сигнала и для извлечения хотя бы одной характеристики в каждом диапазоне частот из множества диапазонов частот для множества кратковременных спектральных представлений, и по крайней мере одной характеристики, представляющей спектральную форму кратковременного спектрального представления в диапазоне частот множества диапазонов частот; и устройства объединения признаков, объединяющего по крайней мере одну характеристику для каждой частотной полосы с использованием параметров комбинирования для получения управляющей информации для фильтра, повышающего разборчивость речи для части времени звукового сигнала.

В соответствии со вторым аспектом, эта цель достигается методом обработки аудио сигнала для получения управляющей информации для фильтра, повышающего разборчивость речи, включая: получение временной последовательности краткосрочных спектральных представлений звукового сигнала; извлечения, по крайней мере одной характеристики в каждом диапазоне частот множества диапазонов частот для множества кратковременных спектральных представлений, по крайней мере одной характеристики, представляющей спектральную форму кратковременного спектрального представления в диапазоне частот множества диапазонов частот, а также сочетания по крайней мере одной характеристики для каждого диапазона частот с использованием параметров комбинирования для получения управляющей информации для фильтра, повышающего разборчивость речи для части времени звукового сигнала.

В соответствии с третьим аспектом, эта цель достигается с помощью устройства для повышения разборчивости речи в звуковом сигнале, включая: аппарат для обработки аудио сигнала для получения управляющей информации, подвергшейся фильтрации для множества полос, представляющих часть времени звукового сигнала; и контролируемый фильтр, фильтр, контролируемый таким образом, чтобы полоса звукового сигнала переменно ослаблялась с учетом различных полос на основе контрольной информации.

В соответствии с четвертым аспектом, эта цель достигается методом повышения разборчивости речи в звуковом сигнале, включая: метод обработки аудио сигнала для получения контрольной информации, подвергшейся фильтрации для множества полос, представляющих часть времени звукового сигнала; и контроля фильтра таким образом, чтобы полоса звукового сигнала переменно ослаблялась с учетом различных полос па основе контрольной информации.

В соответствии с пятым аспектом, эта цель достигается с помощью аппарата для подготовки устройства объединения признаков для определения комбинированных параметров устройства объединения признаков, включая: устройство выделения признаков для получения временной последовательности кратковременных спектральных представлений подготовленного звукового сигнала, для которого известна контрольная информация для фильтра повышения разборчивости речи на диапазоне частот, и для извлечения хотя бы одной характеристики в каждом диапазоне частот для множества кратковременных спектральных представлений, по крайней мере одной характеристики, представляющей спектральную форму кратковременного спектрального представления в диапазоне частот множества диапазонов частот; а также контроллер критерия оптимальности для подачи устройства объединения признаков с хотя бы одной характеристикой для каждого диапазона частот, для расчета контрольной информации, используя промежуточные параметры комбинирования, для изменения промежуточных параметров комбинирования, для сравнения меняющейся контрольной информации с уже известной контрольной информацией и для обновления промежуточных параметров комбинирования, когда меняющиеся промежуточные параметры комбинирования приводят в результате к контрольной информации, лучше соответствующей уже известной контрольной информации.

В соответствии с шестым аспектом, эта задача решается с помощью использования устройства объединения признаков для определения параметров комбинирования, включая: получение временной последовательности кратковременных спектральных представлений подготовленного звукового сигнала, для которых известна контрольная информация для фильтра повышения разборчивости речи в диапазоне частот; извлечение по крайней мере одной характеристики в каждом диапазоне частот множества диапазона частот для множества кратковременных спектральных представлений, по крайней мере одну характеристику, представляющую спектральную форму кратковременного спектрального представления в диапазоне частот множества диапазонов частот; подачу устройства объединения признаков с по крайней мере одной характеристикой для каждого диапазона частот; расчет контрольной информацией, используя промежуточные параметры комбинирования; различные промежуточные параметры комбинирования; сравнение меняющейся контрольной информации с уже известной контрольной информацией; обновление промежуточных параметров комбинирования, когда меняющиеся промежуточные параметры комбинирования приводят в результате к контрольной информации, лучше соответствующей уже известной контрольной информации.

В соответствии с седьмым аспектом, эта задача решается с помощью компьютерной программы для выполнения, при работе на компьютере с любым из методов изобретения.

Настоящее изобретение основано на установлении того, что относящаяся к диапазону информация о спектральной форме аудио сигнала в пределах конкретного диапазона является очень полезным параметром для определения контрольной информации для фильтра повышения разборчивости речи. В частности, характеристика определенной информации, относящейся к спектральной форме для множества диапазонов и для множества последующих кратковременных спектральных представлений, дает полезное описание характеристики звукового сигнала для выполнения повышения разборчивости речи аудио сигнала. В частности, ряд характеристик спектральной формы, где каждая характеристика спектральной формы соотносится с диапазоном множества спектральных диапазонов, например таких, как полоса Барка, или, как правило, диапазоны с переменной пропускной способностью в диапазоне частот уже предоставляют ряд полезных функций для определения отношения сигнал/шум для каждого диапазона. Для этого характеристики спектральной формы для множества диапазонов обрабатываются с помощью устройства объединения признаков для объединения этих характеристик с помощью параметров комбинирования с целью получения контрольной информации для фильтра повышения разборчивости речи для части времени звукового сигнала для каждой полосы. Предпочтительно, что устройство объединения признаков включает в себя нейронную сеть, которая управляется многими параметрами комбинирования, где эти параметры комбинирования определяются на этапе настройки, который осуществляется перед фактическим выполнением фильтрации повышения разборчивости речи. В частности, нейронные сети представляют метод регрессии нейронной сети. Конкретным преимуществом является то, что параметры комбинирования могут быть определены в рамках подготовительной фазы с использованием аудио материала, который может отличаться от фактического речевого сигнала с повышенной разборчивостью, так что фаза подготовки должна быть выполнена только один раз, и после этой подготовительной фазы параметры комбинирования жестко фиксируются и могут применяться к каждому неизвестному аудио сигналу с речью, который сопоставляется с речевой характеристикой настроенных сигналов. Например, такая речевая характеристика может быть языком или группой языков, таких как европейские языки в сравнении с азиатскими языками и т.д.

Предпочтительно, что изобретательский замысел оценивает шум, изучая характеристики речи с помощью выделения нужных характеристик/признаков и в нейронных сетях, где изобретательно выделенные характеристики являются прямолинейными спектральными характеристиками низкого уровня, которые могут быть извлечены эффективным и простым способом, и, что важно, могут быть извлечены без крупномасштабной неустранимой потери, так что изобретательский замысел особенно полезен для производства четкого шума или подсчета отношения сигнал/шум, даже в ситуации, когда шум не является стационарным, и где возникают различные шумовые сигналы.

Краткое описание чертежей

Предпочтительные модификации изобретения впоследствии обсуждаются более подробно со ссылкой на прилагаемые чертежи, на которых:

Фиг.1 - Блок-схема предпочтительного устройства или метода обработки аудио сигнала;

Фиг.2 - Блок-схема устройства или метода тренировки устройства объединения признаков в соответствии с предпочтительной модификацией настоящего изобретения;

Фиг.3 - Блок-схема для иллюстрации работы устройства повышения разборчивости речи и метода в соответствии с предпочтительной модификацией настоящего изобретения;

Фиг.4 - Представляет обзор процесса тренировки устройства объединения признаков и применения регрессии нейронной сети с использованием оптимизированных комбинированных характеристик;

Фиг.5 - Иллюстрирующая схема для коэффициента усиления как функцию SNR, где примененные коэффициенты усиления (сплошная линия) сравниваются с спектральными вычитаемыми коэффициентами усиления (пунктирная линия) и фильтр Винера (пунктирная линия);

Фиг.6 - Представляет обзор характеристик полосы частот и предпочтительные дополнительные характеристики для полной пропускной способности;

Фиг.7 - Блок-схема для иллюстрации предпочтительного применения устройства выделения признаков;

Фиг.8 - Представляет схему последовательности процесса для иллюстрации предпочтительного осуществления расчета коэффициентов усиления для значения частоты и последующего расчета повышения разборчивости речи части аудио сигнала;

Фиг.9 - иллюстрирует пример спектрального взвешивания, где показаны время входного сигнала, установленное отношение сигнал/шум для участка полосы частот, установленное отношение сигнал/шум для элементов разрешения по частоте после интерполяции, значения спектрального взвешивания и обработанного сигнала времени; и

Фиг.10 - структурная схема предпочитаемого внедрения устройства объединения признаков с помощью многоуровневых нейронных сетей.

Подробное описание предпочтительных модификаций

Фиг.1 иллюстрирует предпочтительный вариант устройства для обработки аудио сигнала 10 для получения контрольной информации 11 для фильтра повышения разборчивости речи 12. Фильтр повышения разборчивости речи может быть использован разными способами, такими как контролируемый фильтр для фильтрации аудио сигнала 10 с использованием контрольной информации в полосе частот для каждого множества полос частот для выходящего речевого аудио-сигнала с повышенной разборчивостью 13. Как будет показано в дальнейшем, контролируемый фильтр также может быть использован в качестве преобразования времени и частоты, где индивидуально рассчитанные коэффициенты усиления применяются для спектральных значений или для спектральной полосы с последующим преобразованием частоты и времени.

Устройство на фиг.1 включает в себя устройство выделения признаков 14 для получения временной последовательности кратковременных спектральных представлений звукового сигнала и для извлечения хотя бы одной характеристики в каждой полосе частот множества полос частот для множества кратковременных спектральных представлений, где, по крайней мере, одна характеристика представляет спектральную форму кратковременного спектрального представления в полосе частот множества диапазонов частот. Кроме того, устройство выделения признаков 14 может быть использовано для получения других характеристик помимо характеристик спектральной формы. На выходе устройства выделения признаков 14 возникает несколько характеристик для кратковременного аудио спектра, где эти несколько характеристик включают, по крайней мере, одну характеристику спектральной формы для каждой полосы частот множества, состоящего, по крайней мере, из 10 или более предпочтительно, например, от 20 до 30 полос частот. Эти характеристики могут быть использованы как таковые или могут обрабатываться с помощью обычной обработки или любой другой обработки, такой как средне-геометрической или средне-арифметической, или срединной обработки, или другой обработки статистических моментов (например, дисперсия, асимметрия, …) для того, чтобы получить для каждой полосы необработанную или усредненную характеристику так, чтобы все эти необработанные и/или усредненные характеристики являлись входящими в устройство объединения признаков 15. Устройство объединения признаков 15 сочетает в себе множество характеристик спектральной формы и дополнительные характеристики с использованием параметров комбинирования, которые могут быть предоставлены через входящий параметр комбинирования 16, или которые являются труднопроводимыми или устойчиво запрограммированы в рамках устройства объединения признаков 15 таким образом, что не требуется входящий параметр комбинирования 16. На выходе устройства объединения признаков собирается контрольная информация для фильтра повышения разборчивости речи для каждой полосы частот или участка полосы частот множества полос частот или множества участков полос частот для части времени звукового сигнала.

Предпочтительно, что устройство объединения признаков 15 вводится как цикл регрессии нейронной цепи, но устройство объединения признаков также может вводиться как и любой другой численно или статистически контролируемое устройство объединения признаков, которое применяет любые комбинированные операции к выходу характеристик посредством устройства выделения признаков 14, так что, в конце концов, необходимая контрольная информация, такая, как значение отношения сигнал/шум, относящееся к полосе или результаты относящегося к полосе коэффициента усиления. В предпочтительной модификации применения нейронных сетей требуется фаза настройки ("фаза настройки" означает фазу, в которой происходит изучение на примерах). В этой фазе настройки используется аппарат для подготовки устройства объединения признаков 15, как показано на фиг.2. В частности, фиг.2 демонстрирует этот аппарат для настройки устройства объединения признаков 15 для определения параметров комбинирования устройства объединения признаков. Для этого аппарат на фиг.2 включает устройство для выделения признаков 14, который предпочтительно используется так же, как устройство выделения признаков 14 на фиг.1. Кроме того, устройство объединения признаков 15 используется также, как устройство объединения признаков 15 на фиг.1.

В дополнение к фиг.1, устройство на фиг.2 включает контроллер критерия оптимальности 20, который получает в качестве входящей контрольную информацию для подготовки звукового сигнала, как показано на 21. Фаза настройки осуществляется на основе известных настроенных звуковых сигналов, которые имеют известное отношение речь/шум в каждом диапазоне. Доля речи и доля шума, к примеру, вводятся отдельно друг от друга и фактическое отношение сигнал/шум для полосы измеряется "на лету", т.е. в процессе изучения. В частности, контроллер критерия оптимальности 2 действует для контролирования устройства объединения признаков, таким образом, что устройство объединения признаков питается/загружается с помощью характеристик устройства выделения признаков 14. Основываясь на этих характеристиках и промежуточных параметрах комбинирования, вытекающих из предшествующей программы итерации, устройство объединения признаков 15 впоследствии подсчитывает контрольную информацию 11. Эта контрольная информация 11 направляется в контроллер критерия оптимальности и считается в контроллере критерия оптимизации 20 сравнительной с контрольной информацией 21 для настройки звукового сигнала. Промежуточные параметры комбинирования меняются в ответ на инструкции от контроллера критерия оптимизации 20, и используя эти разнообразные параметры, рассчитывается дополнительный набор контрольной информации устройством объединения признаков 15. Когда дальнейшая контрольная информация лучше сочетается с контрольной информацией для настройки звукового сигнала 21, контроллер критерия оптимальности 20 обновляет параметры комбинирования и отправляет эти обновленные параметры комбинирования 16 на устройство объединения признаков для использования в следующем запуске программ в качестве промежуточных параметров комбинирования. В качестве альтернативы или дополнительно, обновленные параметры комбинирования могут храниться в памяти для дальнейшего использования.

Фиг.4 демонстрирует обзор процесса спектрального взвешивания с помощью выделения необходимых характеристик в методе регрессии нейронной сети. Параметры w нейронной сети вычисляются с помощью показателей SNR подзоны отношения сигнал/шум R_t и характеристик из настроенных элементов x_t[k] в ходе настройки, который указан с левой стороны фиг.4. Оценка шума и фильтрация повышения разборчивости речи показана с правой стороны фиг.4.

Предлагаемая концепция использует метод спектрального взвешивания и использует новый метод для вычисления спектральных весов. Оценка шума основана на методе обучения и в ней используется ряд изобретательских функций. Характеристики направлены на установление различий между тональными и шумными компонентами сигнала. Кроме того, предложенные характеристики отражают/учитывают изменения свойств сигнала на большей временной шкале.

Параметр оценки шума, представленный здесь, может использоваться для рассмотрения различных нестационарных фоновых звуков. Функциональная оценка отношения сигнал/шум в нестационарном фоновом шуме достигается с помощью выделения характеристик и метода регрессии нейронных сетей, как показано на фиг.4. Действительный вес вычисляется по оценкам отношения сигнал/шум в полосах частот, чей интервал приближается к шкале Барка. Спектральное разрешение оценки отношения сигнал/шум является весьма грубым, для того чтобы сделать возможным измерение спектральной формы в диапазоне.

Левая часть фиг.4 соответствует фазе настройки, которая, в принципе, должна быть выполнена только один раз. Процедура в левой части фиг.4, отмеченная как настройка 41, включает в себя ссылку отношения сигнал/шум вычислительного блока 21, который генерирует контрольную информацию 21 для настройки ввода аудио сигнала в контроллер критерия оптимальности 20 на фиг.2. Устройство извлечения характеристик 14 на фиг.4 на стороне настройки соответствует устройству выделения признаков 14 на фиг.2. В частности, фиг.2 приведена для того, чтобы показать получение настроенного звукового сигнала, который состоит из речевой части и фоновой части. Для того, чтобы выполнить полезную ссылку, фоновая часть b_t и речевая часть s_t доступны отдельно друг от друга и добавляются через сумматор 43, перед тем, как войти в устройство выделения признаков 14. Таким образом, выход сумматора 43 соответствует настройке входа аудио сигнала в устройство выделения признаков 14 на фиг.2.

Устройство настройки нейронных сетей, отмеченных на 15, 20, соответствует блокам 15 и 20 и соответствующим соединениям, как показано на фиг.2 или как реализовано/осуществлено с помощью других результатов аналогичных связей в наборе параметров комбинирования w, которые могут храниться в памяти 40. Эти параметры комбинирования затем используются в устройстве регрессии нейронной сети 15, соответствующем устройству объединения признаков 15 на фиг.1 при использовании изобретательского замысла, применяемого, как отмечено посредством применения 42 на фиг.4. Устройство спектрального взвешивания на фиг.4 соответствует контролируемому фильтру 12 на фиг.1 и устройству выделения признаков 14 на фиг.4, где правая часть соответствует устройству выделения признаков 14 на фиг.1.

Далее будет детально обсуждаться краткое осуществление предлагаемой концепции. Устройство выделения признаков 14 на фиг.4 работает следующим образом.

С целью выявления лучшего набора характеристик для оценки подзоны отношений сигнал/шум был исследован ряд из 21 различных характеристик. Эти характеристики были объединены в различных конфигурациях и были оценены с помощью объективных измерений и простого прослушивания. Процесс выбора характеристик приводит к набору характеристик, включающих спектральную активность, спектральный поток, спектральную плотность, спектральный показатель, коэффициенты кодирования с линейным предсказанием и соответствующего спектрального перцепционного линейного предсказания. Характеристики спектральной активности, потока, плотности и показателя вычисляются по спектральному коэффициенту, соответствующему шкале критических полос частот.

Характеристики подробно описаны с учетом фиг.6. Дополнительные характеристики являются характеристикой соединения треугольником спектральной активности и характеристикой соединения по схеме треугольник-треугольник низкочастотной спектральной активности, подвергнувшейся фильтрации и спектрального потока. Структура нейронной сети, используемой в блоках 15, 20 или 15 на фиг.4 или предпочтительно используемой в устройстве объединения признаков 15 на фиг.1 или фиг.2, обсуждается в связи с фиг.10. В частности, предпочтительная нейронная сеть включает в себя слой входящих нейронов 100. Вообще, могут использоваться n входящие нейроны, т.е. один нейрон на каждую входящую характеристику. Предпочтительно, чтобы нейронная сеть имела 220 входящих нейронов, соответствующих ряду характеристик. Кроме того, нейронная сеть включает скрытый слой 102 с нейронами p скрытого слоя. Вообще, p меньше, чем n и в предпочтительной модификации скрытый слой имеет 50 нейронов. На выходе, нейронная сеть включает выходящий слой 104 с q нейронами на выходе. В частности, количество нейронов на выходе равно числу частотных полос, так что каждый нейрон на выходе предоставляет контрольную информацию для каждой полосы частот, такую информацию как отношение сигнал/шум (отношение «речь-шум») для каждой полосы. Если, например, существует 25 различных полос частот, при желательном наличии ширины диапазона, которая возрастает от низких до высоких частот, то число q нейронов на выходе будет равно 25. Таким образом, нейронная сеть применяется для оценки подзоны/участка полосы отношения сигнал/шум из рассчитанных низкоуровневых характеристик. Нейронная сеть, как указано выше, имеет 220 входящих нейронов и один скрытый слой 102 с 50 нейронами. Количество нейронов на выходе равно числу частотных полос. Предпочтительно, что скрытые нейроны включают функцию активации, которая является гиперболическим тангенсом, и функция активации выходящих нейронов является тождеством.

Как правило, каждый нейрон из слоя 102 или 104 получает все соответствующие входы, которые являются по отношению к слою 102 выходами всех входящих нейронов. Тогда, каждый нейрон слоя 102 или 104 выполняет взвешенное дополнение, где весовые параметры соответствуют параметрам комбинирования. Скрытый слой может включать в себя значения смещения в дополнение к параметрам. Тогда, значения смещения также принадлежат параметрам комбинирования. В частности, каждый вход взвешивается своим соответствующим параметром комбинирования. Выход операции взвешивания, который определяется типовым модулем 106 на фиг.10, является входом в сумматор 108 в рамках каждого нейрона. Выход сумматора или вход в нейрон может содержать нелинейную функцию 110, которая может быть размещены на выходе и/или входе нейрона, например, в скрытом слое, соответственно.

Вычисления нейронной сети настраиваются на комбинации чистых речевых сигналов и фоновых шумов, где опорный расчет отношения сигнал/шум производится с помощью разделенных сигналов. Процесс настройки проиллюстрирован на левой стороне фиг.4. Речь и шум смешиваются с отношением сигнал/шум на 3 дБ по каждому пункту и подаются в устройство выделения признаков. Это отношение сигнал/шум является постоянным во времени и величиной широкого диапазона частот отношения сигнал/шум. Набор данных состоит из 2304 комбинаций 48 речевых сигналов и 48 шумовых сигналов, каждый длинной 2,5 секунд. Речевые сигналы, взятые у различных ораторов на 7 языках. Шумовые сигналы - это записи транспортного шума, шума толпы и различных шумов незагрязненной атмосферы.

Для данного спектрального правила взвешивания необходимо два определения выхода нейронной сети: нейронные сети могут настраиваться с использованием контрольных значений для изменяющихся во времени подзоны/участков полосы отношения сигнал/шум R(ω) или с использованием спектрального веса G(ω), выведенного из значений отношения сигнал/шум. Моделирование с подзоной/участком полосы отношения сигнал/шум в качестве контрольных значений дало лучшие объективные результаты и более высокую оценку в ходе простого прослушивания по сравнению с сетями, которые были подготовлены с помощью спектрального веса. Нейронная сеть настраивается с использованием 100 циклов итерации. Алгоритм настройки, используемый в этой работе, основан на дифференцированных сопряженных градиентах.

Предпочтительные модификации спектральных операций взвешивания 12 будут обсуждаться последовательно. Подсчитанные показатели участка полосы отношения сигнал/шум являются линейно интерполируемыми по отношению к частотному разрешению входящих спектров и преобразуются в линейное соотношение $\hat{R}$ . Линейный участок полосы отношения сигнал/шум сглаживается во времени и по частоте с помощью IIR низкочастотной фильтрации для уменьшения искажений, которые могут возникнуть в результате ошибок оценивания. Низкочастотная фильтрация по частоте необходима в дальнейшем для уменьшения эффекта круговой свертки, которая возникает, если импульсная передаточная функция спектрального взвешивания превышает длину DFT рамок. Она проводится два раза, тогда как вторая фильтрация осуществляется в обратном порядке (начиная с последнего образца) таким образом, что итоговый фильтр имеет нулевые фазы.

Фиг.5 иллюстрирует коэффициент усиления/передачи как функцию/действие отношения сигнал/шум. Применяемый коэффициент усиления (сплошная линия) сравниваются с коэффициентом спектрального подчинения (пунктирная линия) и фильтром Винера (штриховая линия).

Показатели спектрального взвешивания вычисляются в соответствии с правилом видоизмененного спектрального вычитания в уравнении 5 и ограниченного до - 18 дБ.

$G (ω) = {\begin{matrix} \frac{\hat{R} {(ω)}^{α}}{\hat{R} {(ω)}^{α} + 1} | \hat{R} (ω) \leq 1 \\ \frac{\hat{R} {(ω)}^{β}}{\hat{R} {(ω)}^{β} + 1} | \hat{R} (ω) > 1 \end{matrix} (5)$

Параметры α=3.5 и β=1 определяются экспериментально. Это характерное затухание выше 0 дБ отношения сигнал/шум выбрано для того, чтобы избежать искажений речевого сигнала за счет остаточного шума. Затухание кривой как функции отношения сигнал/шум показано на фиг.5.

На фиг.9 показан пример для входящих и выходящих сигналов, вычисленные показатели участка полосы отношения сигнал/шуми спектральный вес. В частности, фиг.9 имеет пример спектрального взвешивания: сигнал времени ввода, подсчитанное на участке частот соотношение сигнал/шум, подсчитанное отношение сигнал/шум в элементах разрешения по частоте после интерполяции, спектральный вес и обработанный сигнал времени.

Фиг.6 иллюстрирует обзор предпочитаемых характеристик, извлекаемых устройством выделения признаков 14. Устройство выделения признаков представляет для каждого низкого разрешения полосу частот, т.е. для каждой из 25 полос частот, для которых требуется отношение сигнал/шум или возрастающая величина, характеристика, представляющая спектральную форму кратковременного спектральное представления в полосе частот. Спектральная форма в полосе представляет распределение энергии/активности в пределах полосы и может применяться посредством различных правил расчета.

Характеристикой предпочтительной спектральной формы является мера спектральной плотности (МСП), которая является геометрическим значением спектральной величины, разделенной на среднее арифметическое спектральной величины. В определении среднегеометрическом/среднеарифметическом значении сила может быть применена к каждому спектральному значению в полосе перед выполнением N-й операции с корнем или операции усреднения.

Как правило, спектральная мера плоскостности также может быть вычислена тогда, когда мощность для обработки каждой спектральной величины в расчетной формуле для МСП в знаменателе выше, чем мощность, используемая для числителя. Тогда как знаменатель, так и числитель могут включать в себя арифметическое значение расчетной формулы. Например, мощность в числителе равна 2 и мощность в знаменателе равна 1. Как правило, мощность, используемая только в числителе, должна быть больше, чем мощность, используемая в знаменателе для того, чтобы получить обобщенной меру спектральной плотности.

Как видно из этого расчета, что МСП для полосы, в которой активность равномерно распределяется по всей полосе частот, меньше 1, а для многих линий частоты, в малых значениях приближается к 0, а в случае, когда активность сосредоточена в одном спектральном значении в пределах зоны, например, значение МСП равно 1. Таким образом, высокое значение МСП определяет диапазон, в котором активность сосредоточена в определенной позиции в полосе, в то время как малое значение МСП показывает, что активность равномерно распределена в пределах полосы.

Другие характеристики спектральной формы включают спектральный показатель, который отражает асимметрию распределения вокруг ее центра тяжести. Существуют и другие характеристики, которые связаны с спектральной формой кратковременного частотного представления в пределах определенного диапазона частот.

В то время как спектральная форма рассчитывается для диапазона частот, существуют и другие характеристики, которые рассчитываются для диапазона частот, как это указано на фиг.6, и далее обсуждаются подробно Существуют также дополнительные характеристики, которые не обязательно должны быть рассчитаны на диапазон частот, но которые рассчитываются для полной пропускной способности.

Спектральная активность рассчитывается для каждой временной рамки и полосы частот и упорядочивается полной активностью временной рамки. Кроме того, спектральная активность является низкочастотной, фильтруемой за период времени, используя IIR фильтр второго порядка.

Спектральный поток SF определяется как различие между спектрами последовательных временных рамок 20 и часто вводится с помощью функции расстояния. В этой работе спектральный поток вычисляется с использованием евклидового расстояния в соответствии с уравнением 6, со спектральными коэффициентами X(m,k), индексом временной рамки m, индексом участка полосы r, нижней и верхней границей полосы частот l_r и u_r соответственно.

$S F (m, r) = \sqrt{\sum_{q = l_{r}}^{u_{r}} {(| X (m, q) | - | X (m - 1, q) |)}^{2}} (6)$

Мера спектральный плотности. Существуют различные определения для вычисления плотности вектора или тональности спектра (которая находится в обратной зависимости к плотности спектра). Спектральная мера плотности МСП, используемая здесь, вычисляется как отношение среднего геометрического значения и среднего арифметического значения спектральных коэффициентов L сигнала участка полосы, как показано в уравнении 7.

$S M F (m, r) = \frac{{}_{e}{(\sum_{q = l_{r}}^{u_{r}} \log (| X (m, q) |))} / L}{\frac{1}{L} \sum_{q = l_{r}}^{u_{r}} | X (m, q) |} (7)$

Спектральный показатель

Показатель распределения измеряет асимметрию вокруг центра тяжести и определяется как третий центральный момент случайной величины, деленной на куб его среднеквадратического отклонения.

Коэффициенты линейного предсказания

Коэффициенты кодирования с линейным показателем являются коэффициентами фильтра с одними полюсами, который предсказывает фактическое значение x(k) временного ряда из предыдущих значений так, что квадрат ошибки/квадратичная ошибка $E = \sum_{k} {({\hat{x}}_{k} - x_{k})}^{2}$ сведена к минимуму.

$\hat{x} (k) = - \sum_{j = 1}^{p} α_{j} x_{k - j} (8)$

Коэффициенты кодирования с линейным предсказанием вычисляются с помощью метода автокорреляции.

Коэффициенты косинусного преобразования Фурье для частот чистых тонов Спектры мощности искривлены в соответствии с мел-масштабом с использованием треугольных функций взвешивания с удельным весом для каждой частотной полосы. Коэффициенты косинусного преобразования Фурье для частот чистых тонов вычисляются по логарифму и расчету дискретного косинусного преобразования.

Коэффициенты соответствующего спектрального перцепционного линейного предсказания (RAST A-PLP). Коэффициенты соответствующего спектрального перцепционного линейного предсказания (RASTA-PLP) [Н.Hermansky, H.Морган, "RASTA-обработки речи", IEEE Trans. К вопросу о речи и аудио обработки, том. 2, №. 4, стр.578-589, 1994] рассчитываются из спектров мощности пошагово:

1. Величина сжатия спектральных коэффициентов

2. Полосовая фильтрация активности полосы частот с течением времени

3. Величина расширения, которое относится к обратной обработке шага 2

4. Умножение веса, который соответствует кривой равной громкости звука

5. Моделирование восприятия громкости за счет повышения коэффициентов мощности 0,33

6. Вычисление модели с одними полюсами результирующего спектра с помощью метода автокорреляции.

Коэффициенты линейного предсказания (КЛП)

Значения КЛП вычисляются по аналогии с коэффициентами соответствующего спектрального перцепционного линейного предсказания но без применения шагов 1-3 [Н.Hermansky ", Анализ перцептивного линейного предсказания для речи", J.Ac. Soc. Am., том. 87, №. 4, стр.1738-1752, 1990].

Характеристики соединения треугольником

Характеристики соединения треугольником успешно применялись в прошлом в автоматическом распознавании речи и классификации аудио содержания. Существуют различные способы для их вычисления. Здесь они вычисляются путем свертки временной последовательности функций с линейным склоном длиной 9 образцов (частота дискретизации временных рядов функции равна частоте кадров STFT). Характеристики по схеме треугольник-треугольник получаются с помощью применения треугольной операции к характеристикам соединения треугольником.

Как было указано выше, предпочтительно, разделять полосы с низким разрешением, которые похожи на состояние восприятия человеческой слуховой системы. Таким образом, логарифмическое разделение полосы или разделения полосы по принципу Барка является предпочтительным. Это означает, что полосы с низкой средней частотой уже, чем полосы с высокой средней частотой. В расчет меры спектральной плотности, например, суммирующая операции увеличивается от значения q, которое, как правило, является самым низким значением частоты в полосе и увеличивается до значения счета u_r, которое является самым высоким спектральным значением в предопределенной полосе. Для того, чтобы получить лучшую меру спектральной плотности, предпочтительно использовать в нижних полосах, по крайней мере, некоторые или все спектральные значения от низких и/или верхних смежных частотных полос. Это означает, например, что мера спектральной плотности для второй полосы рассчитывается с использованием спектральных значений второй полосы и, кроме того, с использованием спектральных значений первой полосы и/или третьей полосы. В предпочтительной модификации, используются не только спектральные значения первой или второй полосы, но используются и спектральные значения первой и третьей полосы. Это означает, что при расчете МСП для второй полосы q в уравнении (7) увеличивается от l_r, равному первому (самому маленькому) спектральному значению первой полосы и u_r, равному самому высокому спектральному значению в третьей полосе. Таким образом, характеристика спектральной формы, которая основана на более высоком числе спектральных значений, может быть рассчитана до определенного диапазона частот, при котором число спектральных значений в рамках самой полосы адекватно тому, что значения l_r и u_r показывают спектральные значения из того же диапазона с низким разрешением частотности.

Что касается коэффициентов линейного предсказания, которые могут быть получены устройством выделения признаков, то предпочтительно, либо использовать кодирование с линейным предсказанием a_j уравнения (8) или остаточные/ошибочные значения, оставшихся после оптимизации или любые комбинации коэффициентов и значений ошибок, таких как умножение или сложение с коэффициентом нормализации так, чтобы коэффициенты, а также значения квадратичной ошибки влияли на характеристику кодирования с линейным предсказанием, выделенную устройством выделения признаков.

Преимуществом характеристики спектральной формы является то, что она является характеристикой наименьшей размерности. Когда, например, учитывается частотный диапазон с 10 комплексными или реальными спектральными значениями, использование всех этих 10 комплексных или реальных спектральных значений не будет полезным и будет тратой вычислительных ресурсов. Таким образом, выделяется/извлекается характеристика спектральной формы, которая имеет размерность, которая меньше, чем размерность исходных данных. Когда, например, учитывается активность, тогда исходные данные имеют размерность 10, т.к. существует 10 квадратичных спектральных значений. Для того чтобы извлечь характеристики спектро-формы, которые могут быть эффективно использованы, извлекается характеристика спектро-формы, у которой размерность меньше размерности исходных данных и которая, предпочтительно, находится на 1 или 2. Аналогичные снижения размерности с учетом необработанных данных могут быть получены, когда, например, проводится подбор многочлена низкого уровня к огибающей спектра полосы частот. Когда, например, установлены только два или три параметра, то характеристика спектро-формы включает в себя эти два или три параметра многочлена или любой другой системы выработки параметров. Вообще, используются все параметры, которые указывают на распределение активности в полосе частот и которые имеют низкую размерность, меньшую чем на 5% или, по крайней мере, менее чем на 50% и менее только на 30% от размерности исходных данных.

Было установлено, что использование характеристики спектральной формы как таковой уже приводит к предпочтительным функциональным возможностям устройства для обработки аудио сигнала, но предпочтительно использовать по крайней мере дополнительную характеристику полосы. Кроме того, было показано, что дополнительная характеристика полосы, используемая в обеспечении улучшения результатов, является спектральной активностью в полосе, которая рассчитывается для каждой временной рамки и полосы частот и нормируется всей активностью временной рамки. Эта характеристика может фильтроваться или нет фильтрами с низкой пропускной способностью. Кроме того, было обнаружено, что добавление характеристики спектрального потока выгодно повышает производительность изобретенного аппарат так, что эффективная процедура приводит к достижению хорошей производительности, когда характеристика спектральной формы в полосе используется в дополнение к характеристике спектральной активности в полосе и характеристике спектрального потока в полосе. Наряду с дополнительными характеристиками, эта снова повышает производительность изобретенного аппарата.

Как уже говорилось, в отношении к характеристике спектральной активности могут быть применены фильтрация с низкой пропускной способностью этой характеристики с течением времени или применение скользящей средней нормализации с течением времени, но в этом нет необходимости. В первом случае, к примеру, рассчитываются в среднем пять характеристик предыдущей спектральной формы для соответствующей полосы и результат такого расчета используется в качестве характеристики спектральной формы для текущего диапазона в текущей временной рамке. Однако это усреднение может также применяться по двум направлениям, так что для операции усреднения используются не только характеристики из прошлого, но и характеристики из "будущего" для расчета текущей характеристики.

Далее будут обсуждаться фиг.7 и 8 в целях обеспечения предпочтительного применения устройства выделения признаков 14, как показано на фиг.1, фиг.2 или фиг.4. В качестве первого шага кадрируется аудио сигнал в целях обеспечения блока выборочных значений аудио сигналов, как указано в пункте 70. Предпочтительно применение перекрытия. Это означает, что один и тот же звуковой образец звучит в двух последовательных кадрах из-за перекрытия диапазона, где предпочтительно перекрытие 50% с учетом выборочных значений аудио сигналов. В шаге 71, осуществляется временно/частотное преобразование блока кадрируемых выборочных значений аудио сигналов с целью получения частотного представлении с первым разрешением, который является высоким разрешением. В этих целях получается кратковременное преобразование Фурье (STFT), вводимое с эффективным БПФ (быстрое преобразование Фурье). Когда шаг 71 применяется несколько раз с временно последовательными блоками выборочных значений аудио сигнала, получается спектрограмма, известная в данной области. В шаге 72 спектральная информация с высоким разрешением, т.е. спектральные значения с высоким разрешением сгруппированы в частотные полосы с низким разрешением. Когда, например, применяется БПФ с показателями 1024 или 2048 входящих значений, существуют спектральные значения 1024 или 2048, но такое высокое разрешение не требуется и не предназначено. Вместо этого группирующий шаг 72 приводит к разделению спектра высокого разрешения в небольшое количество полос, поскольку такие полосы с различной пропускной способностью известны из полос Барка или из логарифмической разделения полосы. Тогда, в соответствии с шагом группировки 72, вычисление 73 характеристики спектральной формы и, желательно, других характеристик осуществляется для каждой полосы низкого разрешения. Хотя это и не указано на фиг.7, дополнительные характеристики, связанные со всем частотным диапазоном, могут быть рассчитаны с использованием данных, полученных на шаге 70, так как для этих характеристик полностью заполненной полосы не требуются никакие спектральные разделения, полученные в шаге 71 или 72.

В результате шага 73 получены характеристики спектральной формы, которые имеют размеры m, где m меньше n и, желательно, равны 1 или 2 в полосе частот. Это означает, что информация для полосы частот, представленная после шага 72,сжимается до информации с низкими параметрами, представленными после шага 73,действием устройства выделения признаков.

Как указано на фиг.7, рядом с шагом 71 и шагом 72, шаг временно-частотного преобразования и группировки может быть заменен на различные операции. Выход шага 70 может быть отфильтрован с помощью набора фильтров с низким разрешением, которые, например, осуществляется таким образом, чтобы на выходе получены 25 сигналов участка полосы. Затем может быть произведен анализ с высоким расширением каждого участка полосы, чтобы получить исходные данные для расчета характеристики спектральной формы. Это может быть сделано, например, БПФ анализом сигнала участка полосы или любым другим анализом сигнала участка полосы, например, с помощью дополнительного расположенного каскадом набора фильтров.

Фиг.8 иллюстрирует предпочтительный порядок ввода управляемого фильтра 12 фиг.1 или характеристики спектрального взвешивания, показанного на фиг.3 или обозначенного 12 на фиг.4. В результате шага определения контрольной информации полос с низким разрешением, такие значения отношения сигнал/шум участка полосы, которые являются выходящими регрессионным блоком нейронной сети 15 на фиг.4, как указано в шаге 80, выполняется линейная интерполяция в высоком разрешении в шаге 81. Окончательной целью является получение коэффициента взвешивания для каждого спектрального значения, полученного посредством кратковременного преобразования Фурье, осуществляемого в шаге 30 на фиг.3 или представленного в шаге 71 или альтернативной процедуре, указанной справа от шагов 71 и 72. В результате шага 81, получается значение отношения сигнал/шум для каждого спектрального значение. Однако это значение отношения сигнал/шум все еще находится в логарифмической области, и шаг 82 обеспечивает преобразование логарифмической области в линейную область для каждого спектрального значения с высоким разрешением

В шаге 83 линейные значения отношения сигнал/шум для каждого спектрального значения, т.е. при высоком разрешении, сглаживаются с течением времени и частоты, при использовании IIR фильтров с низкой пропускной способностью или, наоборот, FIR фильтров с низкой пропускной способностью, т.е. может применяться любая операция скользящего среднего значения. В шаге 84 спектральные вычисления для каждого значения частоты с высоким разрешением рассчитываются на основе сглаженных линейных значений отношения сигнал/шум SNR. Этот расчет основан на функции, указанной на фиг.5, хотя функция, указанная на этой фиг. приводится в логарифмических термах, в то время как спектральные вычисления для каждой частотной полосы с высоким разрешением в шаге 84 рассчитываются в линейной области.

В шаге 85 каждое спектральное значение далее умножается на определенное спектральное вычисление для получения множества спектральных значений с высоким разрешением, которые были умножены на множество спектральных вычислений. Этот обработанный спектр частотно-временно преобразован в шаге 86. В зависимости от порядка применения и в зависимости от наложения, используемого в шаге 80, операция затемнения/плавного перехода может быть выполнена между двумя блоками выборочных аудио значений во временной области, полученных посредством двух последующих шагов частотно-временного преобразования для блокировки искажений.

Для сокращения круговой свертки искажений может быть применено дополнительное кадрирование.

Результат шага 86 представляет собой блок выборочных значений, который имеет улучшенную производительность речи, т.е. речь может восприниматься лучше, по сравнению с соответствующим входящим аудио сигналом, где не проводилось повышение разборчивости речи.

В зависимости от определенных требований применения предлагаемого метода, изобретательские методы могут быть реализованы в аппаратном оборудовании или в программном обеспечении. Реализация может быть выполнена с использованием цифровых носителей, в частности, диска DVD или CD, имеющих читаемые и сохраненные в электронном виде управляющие сигналы, которые взаимодействуют с программируемыми компьютерными системами так, чтобы выполнялись изобретательские методы. В целом, представленное изобретение является компьютерным программным продуктом с программным кодом, хранящимся на машиночитаемом носителе. Программный код используется для применения изобретательских методов, когда компьютерный программный продукт работает на компьютере. Другими словами, изобретательскими методами являются компьютерная программа, имеющая программный код для выполнения хотя бы одного изобретательского метода, когда компьютерная программа работает на компьютере.

Описанные модификации просто иллюстрируют принципы данного изобретения. Понятно, что модификации и изменения механизмов и деталей, описанных здесь, будут очевидны для других специалистов в данной области. Поэтому здесь выражается намерение внести ограничения только для сферы предстоящей патентной заявки, а не для конкретных деталей, представленных здесь в виде описания и объяснения модификаций.

Иллюстрации к изобретению RU 2 507 608 C2

Реферат патента 2014 года УСТРОЙСТВА И СПОСОБЫ ДЛЯ ОБРАБОТКИ АУДИО СИГНАЛА С ЦЕЛЬЮ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ, ИСПОЛЬЗУЯ ФУНКЦИЮ ВЫДЕЛЕНИЯ НУЖНЫХ ХАРАКТЕРИСТИК

Устройства для обработки аудиосигнала с целью получения контрольной информации для фильтра повышения разборчивости речи (12) включает в себя устройство выделения признаков (14) для извлечения по крайней мере одной характеристики в полосе частот множества частотных диапазонов кратковременного спектрального представления множества кратковременных спектральных представлений, где по крайней мере одна характеристика представляет спектральную форму кратковременного спектрального представления в полосе частот. Устройство дополнительно содержит устройство объединения признаков (15) для объединения по крайней мере одной характеристики для каждой полосы частот с использованием параметров комбинирования для получения контрольной информации для фильтра повышения разборчивости речи для части времени звукового сигнала. Устройство объединения признаков может использовать регрессионный метод нейронных сетей, который основан на параметрах комбинирования, полученных в фазе подготовки для нейронной сети. Технический результат - повышение разборчивости речи. 7 н.п. и 10 з.п. ф-лы, 10 ил.

Формула изобретения RU 2 507 608 C2

1. Устройство для обработки аудио сигнала для получения контрольной информации для фильтра повышения разборчивости речи, включающий устройство выделения признаков для получения временной последовательности кратковременных спектральных представлений звукового сигнала и для извлечения хотя бы одной характеристики в каждой полосе частот множества полос частот для множества кратковременных спектральных представлений, по крайней мере, одной характеристики. представляющей спектральную форму кратковременного спектрального представления в полосе частот множества частотных диапазонов, а также устройство объединения признаков для объединения, по крайней мере, одной характеристики для каждой полосы с использованием параметров комбинирования для получения контрольной информации для фильтра повышения разборчивости речи для временной части звукового сигнала.

2. Устройство по п.1, в котором устройство выделения признаков извлекает, по крайней мере, одну дополнительную характеристику, представляющую характеристику кратковременного спектрального представления, отличную от спектральной формы, и где устройство объединения признаков объединяет, по крайней мере, одну дополнительную характеристику, и, по крайней мере, одну характеристику для каждого диапазона частот с использованием параметров комбинирования.

3. Устройство по п.1, где устройство выделения признаков применяется для проведения операции преобразования частоты, в которой для последовательности моментов времени достигается последовательность спектральных представлений, где спектральные представления имеют полосы частот с неравномерной широтой полосы и где пропускная способность становится выше с увеличением средней частоты полосы частот.

4. Устройство по п.1, где устройство выделения признаков оперативно рассчитывает как первую характеристику, меру спектральной плотности в полосе, представляющую распределение активности в полосе, или, как вторую характеристику, меру стандартизованной активности в полосе, где стандартизация основывается на полной активности звуковой рамки, из которой получено спектральное представление и, в которой устройство объединения признаков оперативно применяется для использования меры спектральной плотности для полосы или стандартизованной активности в полосе.

5. Устройство по п.1, в которых устройство выделения признаков применяется для дополнительного извлечения для каждой полосы меры спектрального потока, представляющего сходство или различие между временем последовательных спектральных представлений или мерой спектрального показателя, где мера спектрального показателя представляет асимметрию вокруг центра тяжести.

6. Устройство по п.1, в котором устройство выделения признаков применяется для дополнительного извлечения характеристик кодирования с линейным предсказанием LPC, характеристики кодирования с линейным предсказанием LPC., включающие сигнал ошибки кодирования с линейным предсказанием LPC, коэффициенты линейного предсказания до определенного порядка или сочетания сигналов ошибки кодирования с линейным предсказанием LPC и коэффициентов линейного предсказания, или, в котором устройство выделения признаков применяется для дополнительного извлечения КЛП коэффициентов или RASTA-ПЛП коэффициентов или коэффициентов косинусного преобразования Фурье для частот чистых тонов или характеристик соединения треугольником.

7. Устройство в соответствии с п.6, в котором устройство выделения признаков оперативно применяется для расчета характеристик коэффициента линейного предсказания для блока аудио образцов области времени, в том числе для блока, включающего аудио образцы, используемые для извлечения по крайней мере одной характеристики, представляющей спектральную форму для каждого диапазона частот.

8. Устройство по п.1, в которой устройство выделения признаков оперативно применяется для расчета формы спектра в диапазоне частот, используя спектральную информацию одной или двух соседних полос частот и спектральной информации только полосы частот.

9. Устройство по п.1, в которой устройство выделения признаков оперативно используется для извлечения информации необработанной характеристики для каждой характеристики в блоке аудио образцов и для сочетания последовательности информации необработанных характеристик я в полосе частот для получения хотя бы одой характеристики для полосы частот.

10. Устройство по п.1, в которой устройство выделения признаков оперативно применяется для расчета для каждой полосы частот числа спектральных значений и для объединения числа спектральных значений для получения, по крайней мере, одной характеристики, представляющей спектральную форму так, чтобы хотя бы одна характеристика имела размерность, которая меньше, чем число спектральных значений в полосе частот.

11. Способ обработки аудио сигнала с целью получения контрольной информации для фильтра повышения разборчивости речи, включающий получение временной последовательности кратковременных спектральных представлений звукового сигнала; выделение по меньшей мере одной характеристики в каждой полосе частот множества полос частот для множества кратковременных спектральных представлений, с по крайней мере одной характеристикой, представляющей спектральную форму кратковременного спектрального представления в полосе частот множества полос частот, а также сочетание, по крайней мере, одной характеристики для каждой полосы с использованием параметров комбинирования для получения контрольной информации для фильтра повышения разборчивости речи для части времени звукового сигнала.

12. Устройство для повышения разборчивости речи в звуковом сигнале, включающее устройство для обработки аудио сигнала по п.1 для получения контрольной информации фильтра для множества полос, представляющих часть времени звукового сигнала, и контролируемый фильтр, фильтр управляемый таким образом, чтобы полоса звукового сигнала переменно ослаблялась в отношении к различным полосам на основе контрольной информации.

13. Устройство в соответствии с п.12, в котором устройство для обработки включает в себя преобразователь частоты времени, обеспечивающий спектральную информацию, имеющую более высокое разрешение, чем спектральное разрешение, для которого получена контрольная информация, а также в котором устройство для обработки дополнительно содержит контрольную информацию пост последующего процессора для интерполяции контрольной информации к высокому разрешению и для сглаживания интерполированной контрольной информации для получения впоследствии обработанной контрольной информации на основе которой устанавливаются параметры контролируемого фильтра.

14. Способ повышения разборчивости речи в звуковом сигнале, включающий способ обработки аудио сигнала в соответствии с п.11 для получения контрольной информации фильтра для множества полос, представляющих часть времени звукового сигнала, и контрольный фильтр такой, чтобы полоса звукового сигнала переменно ослаблялась в отношении к различным полосам основе контрольной информации.

15. Устройство для подготовки устройства объединения признаков для определения параметров комбинирования устройства объединения признаков, включающее устройство выделения признаков для получения временной последовательности кратковременных спектральных представлений подготовленного звукового сигнала, для которых известна контрольная информация для фильтра повышения разборчивости речи в полосе частот и для извлечения хотя бы одной характеристики в каждой полосе частот множества полос частот для множества кратковременных спектральных представлений, по крайней мере, одной характеристики, представляющей спектральную форму кратковременного спектрального представления в полосе частот множества частотных диапазонов, а также контроллер критерия оптимальности для подачи устройства объединения признаков с по крайней мере одной характеристикой для каждого диапазона частот, для расчета контрольной информации с использованием промежуточных параметров комбинирования, для переменных промежуточных параметров комбинирования, для сравнения переменной контрольной информации с известной контрольной информацией, и для обновления промежуточных параметров комбинирования, когда переменные промежуточные параметры приводят к контрольной информации, лучше сочетающейся с известной контрольной информацией.

16. Способ подготовки устройства объединения признаков для определения параметров комбинирования устройства объединения признаков, включающий получение временной последовательности кратковременных спектральных представлений подготовки звукового сигнала, для которых известна контрольная информация для фильтра повышения разборчивости речи в полосе частот; получение по меньшей мере одной характеристики в каждой полосе частот множества полос частот для множества кратковременных спектральных представлений, по крайней мере одной характеристики, представляющей спектральную форму кратковременного спектрального представления в полосе частот множества полос частот; подачу устройству объединения признаков крайней мере одной характеристики для каждой полосы; f, расчет контрольной информации с использованием промежуточных параметров комбинирования; различные промежуточные параметры комбинирования; сравнение переменной контрольной информации с известной контрольной информацией; обновление промежуточных параметров комбинирования, когда разнообразные промежуточные параметры комбинирования приводят к лучшему соответствию контрольной информации известной контрольной информации.

17. Машиночитаемый носитель информации, имеющий программный код для выполнения способа по п.11, когда программный код выполняется на компьютере или процессоре.

Документы, цитированные в отчете о поиске Патент 2014 года RU2507608C2

Комбинированная машина для теребления и очесывания головок льна	1937	Романовский И.В.	SU52536A1
Устройство для обработки клепки бочек	1990	Винецкий Борис Давыдович Жериков Юрий Романович Винецкий Евгений Борисович	SU1791113A1
US 6226605 B1, 01.05.2001
Вставка для теплообменной трубы	1981	Лебедь Николай Григорьевич Коробко Владимир Владиславович	SU981816A1
Способ и приспособление для нагревания хлебопекарных камер	1923	Иссерлис И.Л.	SU2003A1
US 6408273 B1, 18.06.2002
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок	1923	Григорьев П.Н.	SU2008A1
US 7171246 B2, 30.01.2007
US 6820053 B1, 16.11.2004.

RU 2 507 608 C2

Авторы

Уле Кристиан

Хеллмут Оливер

Грилл Бернхард

Риддербуш Фалко

Даты

2014-02-20—Публикация

2009-08-03—Подача

название	год	авторы	номер документа
УСТРОЙСТВО И СПОСОБ ДЛЯ ОБЕСПЕЧЕНИЯ ИНФОРМИРОВАННОЙ ОЦЕНКИ ВЕРОЯТНОСТИ И ПРИСУТСТВИЯ МНОГОКАНАЛЬНОЙ РЕЧИ	2012	Хабетс Эманюэль Тазеска Мая	RU2642353C2
УСТРОЙСТВО И СПОСОБ ОТДЕЛЕНИЯ ИСТОЧНИКОВ С ИСПОЛЬЗОВАНИЕМ ОЦЕНКИ И УПРАВЛЕНИЯ КАЧЕСТВОМ ЗВУКА	2019	Уле, Кристиан Торколи, Маттео Диш, Саша Паулус, Йоуни Херре, Юрген Хелльмут, Оливер Фукс, Харальд	RU2782364C1
СПОСОБ ПОВЫШЕНИЯ РАЗБОРЧИВОСТИ И ИНФОРМАТИВНОСТИ ЗВУКОВЫХ СИГНАЛОВ В ШУМОВОЙ ОБСТАНОВКЕ	2014	Вашкевич Максим Иосифович Азаров Илья Сергеевич Бредихин Александр Юрьевич Петровский Александр Александрович	RU2589298C1
СПОСОБ И УСТРОЙСТВО УЛУЧШЕНИЯ РЕЧЕВОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ БЫСТРОЙ СВЕРТКИ ФУРЬЕ	2022	Щекотов Иван Сергеевич Андреев Павел Константинович Аланов Айбек Арстанбекович Иванов Олег Юрьевич Ветров Дмитрий Петрович	RU2795573C1
ОСЛАБЛЕНИЕ ШУМА В СИГНАЛЕ	2012	Кехихян Патрик Сринивасан Срирам	RU2611973C2
УСТРОЙСТВО И СПОСОБ МАСШТАБИРОВАНИЯ ЦЕНТРАЛЬНОГО СИГНАЛА И УЛУЧШЕНИЯ СТЕРЕОФОНИИ НА ОСНОВЕ ОТНОШЕНИЯ СИГНАЛ-ПОНИЖАЮЩЕЕ МИКШИРОВАНИЕ	2014	Уле Кристиан Прокайн Петер Хелльмут Оливер Шаррер Себастьян Хабетс Эмануэль	RU2663345C2
ТЕКСТОЗАВИСИМЫЙ СПОСОБ КОНВЕРСИИ ГОЛОСА	2010	Бредихин Александр Юрьевич Петровский Александр Александрович Сергейчев Николай Евгеньевич	RU2427044C1
СПОСОБ И УСТРОЙСТВО ДЛЯ ПОДДЕРЖКИ ВОСПРИНИМАЕМОСТИ РЕЧИ В МНОГОКАНАЛЬНОМ ЗВУКОВОМ СОПРОВОЖДЕНИИ С МИНИМАЛЬНЫМ ВЛИЯНИЕМ НА СИСТЕМУ ОБЪЕМНОГО ЗВУЧАНИЯ	2009	Мюш Ханнес	RU2541183C2
ПОВЫШЕНИЕ РАЗБОРЧИВОСТИ РЕЧИ В ЗВУКОЗАПИСИ РАЗВЛЕКАТЕЛЬНЫХ ПРОГРАММ	2008	Мюш Ханнес	RU2440627C2
УСТРОЙСТВО, СПОСОБ ИЛИ КОМПЬЮТЕРНАЯ ПРОГРАММА ДЛЯ ГЕНЕРАЦИИ АУДИОСИГНАЛА С РАСШИРЕННОЙ ПОЛОСОЙ С ИСПОЛЬЗОВАНИЕМ ПРОЦЕССОРА НЕЙРОННОЙ СЕТИ	2018	Шмидт, Константин Уле, Кристиан Эдлер, Бернд	RU2745298C1