ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к области обработки звуковых сигналов, а конкретно, к усилению речи в многоканальных звуковых сигналах.
УРОВЕНЬ ТЕХНИКИ
Для усиления речевого компонента в многоканальных звуковых сигналах, например, в развлекательных звуковых сигналах, в настоящее время используются разные подходы.
Простым подходом для усиления речевого компонента является усиление звукового сигнала центрального канала, содержащегося в многоканальном звуковом сигнале, или, соответственно, ослабление всех звуковых сигналов других каналов. Этот подход использует предположение, что речь обычно панорамируется в соответствии со звуковым сигналом центрального канала. Однако, этот подход обычно страдает от низкой эффективности усиления речи.
Более сложный подход пытается анализировать звуковые сигналы отдельных каналов. В этой связи, информация о соотношении между звуковым сигналом центрального канала и звуковыми сигналами других каналов может быть обеспечена вместе со стереофоническим понижающим микшированием для обеспечения возможности усиления речи. Однако, этот подход не может быть применен к стереофоническим звуковым сигналам и требует отдельного речевого звукового канала.
Дополнительным подходом для улучшения уровня слабых речевых компонентов и ослабления громких неречевых компонентов в многоканальном звуковом сигнале является сжатие динамического диапазона (dynamic range compression - DRC). В первую очередь, этот подход содержит ослабление громких компонентов. Затем, общий уровень громкости увеличивают, что приводит к усилению речи или диалогов. Однако, этот подход не факторизует природу многоканального звукового сигнала, и модификация имеет отношение только к уровню громкости.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Целью настоящего изобретения является обеспечение эффективной концепции для усиления речевого компонента в многоканальном звуковом сигнале.
Эта цель достигнута с помощью признаков независимых пунктов формулы изобретения. Дополнительные формы реализации выявляются из зависимых пунктов формулы изобретения, описания и фигур.
Настоящее изобретение основано на обнаружении того, что многоканальный звуковой сигнал может быть отфильтрован на основе функции коэффициента усиления, которая может быть определена на основании всех каналов многоканального звукового сигнала. Фильтрация может быть основана на подходе винеровской фильтрации, в котором может считаться, что звуковой сигнал центрального канала многоканального звукового сигнала содержит речевой компонент, и в котором может считаться, что дополнительные каналы многоканального звукового сигнала содержат неречевые компоненты. Для учета изменения речевого компонента в многоканальном звуковом сигнале с течением времени, может быть дополнительно выполнено детектирование речевой активности, при котором все каналы многоканального звукового сигнала могут быть обработаны для обеспечения индикатора речевой активности. Многоканальный звуковой сигнал может быть результатом процесса стереофонического повышающего микширования входного стереофонического звукового сигнала. В результате, может быть реализовано эффективное усиление речевого компонента в многоканальном звуковом сигнале.
Согласно первому аспекту, настоящее изобретение относится к устройству обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале, причем многоканальный звуковой сигнал содержит звуковой сигнал левого канала, звуковой сигнал центрального канала, и звуковой сигнал правого канала, причем устройство обработки сигналов содержит фильтр и сумматор, причем фильтр выполнен с возможностью определения меры, представляющей общую величину (амплитуду) многоканального звукового сигнала по частоте, на основе звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала, получения функции коэффициента усиления на основе соотношения между мерой величины звукового сигнала центрального канала и мерой, представляющей общую величину многоканального звукового сигнала, и взвешивания звукового сигнала левого канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала левого канала, взвешивания звукового сигнала центрального канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала центрального канала, и взвешивания звукового сигнала правого канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала правого канала, и, причем, сумматор выполнен с возможностью суммирования звукового сигнала левого канала с взвешенным звуковым сигналом левого канала для получения суммарного звукового сигнала левого канала, суммирования звукового сигнала центрального канала с взвешенным звуковым сигналом центрального канала для получения суммарного звукового сигнала центрального канала, и суммирования звукового сигнала правого канала с взвешенным звуковым сигналом правого канала для получения суммарного звукового сигнала правого канала. Таким образом, реализуется эффективная концепция для усиления речевого компонента в многоканальном звуковом сигнале.
Многоканальный звуковой сигнал содержит звуковой сигнал левого канала, звуковой сигнал центрального канала, и звуковой сигнал правого канала. Многоканальный звуковой сигнал может дополнительно содержать звуковой сигнал левого канала объемного звучания и звуковой сигнал правого канала объемного звучания. Многоканальный звуковой сигнал может быть стереофоническим звуковым сигналом формата LCR/3.0 или звуковым сигналом объемного звучания формата 5.1. Определение меры, представляющей общую величину многоканального звукового сигнала по частоте, содержит определение меры, представляющей общую величину многоканального звукового сигнала в частотной области.
Функция коэффициента усиления может указывать на соотношение величины речевого компонента и общей величины многоканального звукового сигнала, причем предполагается, что речевой компонент содержится в звуковом сигнале центрального канала. Общая величина многоканального звукового сигнала может быть определена с использованием суммирования речевого компонента и неречевых компонентов в многоканальном звуковом сигнале по частоте. Функция коэффициента усиления может зависеть от частоты.
В первой форме реализации устройства обработки сигналов согласно первому аспекту, по существу, фильтр выполнен с возможностью определения меры, представляющей общую величину многоканального звукового сигнала, в виде суммы меры величины звукового сигнала центрального канала и меры величины разности звукового сигнала левого канала и звукового сигнала правого канала. Таким образом, мера, представляющая общую величину многоканального звукового сигнала, определяется эффективно и более подходящим способом для использования для получения функции коэффициента усиления фильтра, поскольку разность звукового сигнала левого канала и звукового сигнала правого канала представляет остаточный сигнал, который не содержит компонентов звукового сигнала центрального канала.
Во второй форме реализации устройства обработки сигналов согласно первому аспекту, по существу, или любой предшествующей форме реализации первого аспекта, фильтр выполнен с возможностью определения функции коэффициента усиления согласно следующим уравнениям:
где G обозначает функцию коэффициента усиления, L обозначает звуковой сигнал левого канала, C обозначает звуковой сигнал центрального канала, R обозначает звуковой сигнал правого канала, PC обозначает мощность звукового сигнала центрального канала в качестве меры, представляющей величину звукового сигнала центрального канала, PS обозначает мощность разности между звуковым сигналом левого канала и звуковым сигналом правого канала, и сумма PC и PS обозначает меру, представляющую общую величину многоканального звукового сигнала, m обозначает индекс времени выборки, и k обозначает индекс элемента разрешения по частоте. Таким образом, функция коэффициента усиления определяется эффективно и мощно.
Функция коэффициента усиления определяется согласно подходу винеровской фильтрации. Считается, что звуковой сигнал центрального канала содержит речевой компонент. Считается, что разность между звуковым сигналом левого канала и звуковым сигналом правого канала содержит неречевой компонент, на основе предположения о том, что речевые компоненты панорамируются в соответствии со звуковым сигналом центрального канала. Посредством определения компонентов винеровского фильтра таким образом, предотвращается использование дорогостоящих способов для оценки отношения сигнал-шум или спектральной плотности мощности шума сигнала.
Вместо использования мощности в уравнениях, величина или логарифмическая мощность может быть использована для определения функции коэффициента усиления. Разность между звуковым сигналом левого канала и звуковым сигналом правого канала может относиться к остаточному звуковому сигналу, содержащему комбинацию звуковых сигналов не-центрального канала, причем все звуковые сигналы за исключением звукового сигнала центрального канала могут также называться звуковыми сигналами не-центрального канала. Остаточный звуковой сигнал может быть разностью между звуковым сигналом левого канала и звуковым сигналом правого канала.
Сумма величины звукового сигнала левого канала и звукового сигнала правого канала соответствует формированию луча, которое является конкретной формой выделения центрального канала, и может быть также использована в вариантах осуществления настоящего изобретения. Однако, разность величины звукового сигнала левого канала и звукового сигнала правого канала соответствует удалению компонента центрального канала. Таким образом, остаточный звуковой сигнал, определяемый в виде разности между звуковым сигналом левого канала и звуковым сигналом правого канала, обеспечивает в результате улучшенную оценку коэффициента усиления фильтра.
В третьей форме реализации устройства обработки сигналов согласно первому аспекту, по существу, или любой предшествующей форме реализации первого аспекта, многоканальный звуковой сигнал дополнительно содержит звуковой сигнал левого канала объемного звучания и звуковой сигнал правого канала объемного звучания, причем фильтр выполнен с возможностью определения меры, представляющей общую величину многоканального звукового сигнала по частоте, дополнительно, на основе звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания, и определения меры, представляющей общую величину многоканального звукового сигнала, в виде суммы меры величины звукового сигнала центрального канала, меры величины разности звукового сигнала левого канала и звукового сигнала правого канала, и меры величины разности звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания. Таким образом, каналы объемного звучания в многоканальном звуковом сигнале обрабатываются эффективно, посредством получения величины на основании разности звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания. Разностный сигнал обеспечивает лучшее различение для звукового сигнала центрального канала.
В четвертой форме реализации устройства обработки сигналов согласно первому аспекту, по существу, или любой предшествующей форме реализации первого аспекта, фильтр выполнен с возможностью взвешивания элементов разрешения по частоте звукового сигнала левого канала посредством элементов разрешения по частоте функции коэффициента усиления для получения элементов разрешения по частоте взвешенного звукового сигнала левого канала, взвешивания элементов разрешения по частоте звукового сигнала центрального канала посредством элементов разрешения по частоте функции коэффициента усиления для получения элементов разрешения по частоте взвешенного звукового сигнала центрального канала, и взвешивания элементов разрешения по частоте звукового сигнала правого канала посредством элементов разрешения по частоте функции коэффициента усиления для получения элементов разрешения по частоте взвешенного звукового сигнала правого канала. Таким образом, многоканальный звуковой сигнал обрабатывается эффективно в частотной области. Взвешивание всех сигналов с использованием одного и того же фильтра имеет преимущество, состоящее в том, что не происходит никакого сдвига местоположений источников звуковых сигналов в стереофоническом изображении. Кроме того, таким образом, речевой компонент выделяется из всех сигналов.
Фильтр может быть дополнительно выполнен с возможностью группирования элементов разрешения по частоте согласно частотной шкале Mel для получения полос частот. Индекс k может, следовательно, соответствовать индексу полосы частот. Фильтр может быть дополнительно выполнен с возможностью обработки только элементов разрешения по частоте или полос частот, расположенных в пределах заданного диапазона частот, например, от 100 Гц до 8 кГц. Таким образом, обрабатываются только частоты, содержащие человеческую речь.
В пятой форме реализации устройства обработки сигналов согласно первому аспекту, по существу, или любой предшествующей форме реализации первого аспекта, устройство обработки сигналов дополнительно содержит детектор речевой активности, выполненный с возможностью определения индикатора речевой активности на основе звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала, причем индикатор речевой активности указывает на величину речевого компонента в многоканальном звуковом сигнале с течением времени, причем сумматор дополнительно выполнен с возможностью суммирования взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала левого канала, суммирования взвешенного звукового сигнала центрального канала с индикатором речевой активности для получения суммарного звукового сигнала центрального канала, и суммирования взвешенного звукового сигнала правого канала с индикатором речевой активности для получения суммарного звукового сигнала правого канала. Таким образом, реализуется эффективное усиление изменяющегося во времени речевого компонента в многоканальном звуковом сигнале и подавляются неречевые сигналы.
Индикатор речевой активности указывает на величину речевого компонента в многоканальном звуковом сигнале во временной области. Индикатор речевой активности является, например, равным нулю, когда никакой речевой компонент не присутствует в сигнале, или равным единице, когда речь присутствует. Значения между нулем и единицей могут быть интерпретированы как вероятность того, что речь присутствует, и могут помочь получить сглаженный выходной сигнал.
В шестой форме реализации устройства обработки сигналов согласно пятой форме реализации первого аспекта, детектор речевой активности выполнен с возможностью определения меры, представляющей общее спектральное изменение многоканального звукового сигнала, на основе звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала, и получения индикатора речевой активности на основе соотношения между мерой спектрального изменения звукового сигнала центрального канала и мерой, представляющей общее спектральное изменение многоканального звукового сигнала. Таким образом, индикатор речевой активности определяется эффективно посредством использования соотношения между мерами спектрального изменения.
Мерой, представляющей общее спектральное изменение, может быть спектральная плотность потока или временная производная. Спектральная плотность потока может быть определена с использованием разных подходов для нормирования. Спектральная плотность потока может быть вычислена в виде разности энергетических спектров между двумя или более кадрами звуковых сигналов. Мерой, представляющей общее спектральное изменение, может быть сумма FC и FS, где FC обозначает меру спектрального изменения звукового сигнала центрального канала, и где FS обозначает меру спектрального изменения разности между звуковым сигналом левого канала и звуковым сигналом правого канала.
В седьмой форме реализации устройства обработки сигналов согласно шестой форме реализации первого аспекта, детектор речевой активности выполнен с возможностью определения индикатора речевой активности согласно следующему уравнению:
где V обозначает индикатор речевой активности, FC обозначает меру спектрального изменения звукового сигнала центрального канала, FS обозначает меру спектрального изменения разности между звуковым сигналом левого канала и звуковым сигналом правого канала, и сумма FC и FS обозначает меру, представляющую общее спектральное изменение многоканального звукового сигнала, и a обозначает заданный коэффициент масштабирования. Таким образом, индикатор речевой активности определяется эффективно. Сигналы с одинаковыми значениями FC и FS обеспечивают в результате индикатор речевой активности со значением, равным нулю. Более высокие значения FC приводят к более высоким значениям индикатора речевой активности. Коэффициент а масштабирования может управлять величиной индикатора речевой активности.
Значения индикатора речевой активности могут быть независимыми от предшествующего нормирования мер. Значения индикатора речевой активности могут быть ограничены интервалом [0; 1].
В восьмой форме реализации устройства обработки сигналов согласно седьмой форме реализации первого аспекта, детектор речевой активности выполнен с возможностью определения меры спектрального изменения звукового сигнала центрального канала, в виде спектральной плотности потока, и меры спектрального изменения разности между звуковым сигналом левого канала и звуковым сигналом правого канала, в виде спектральной плотности потока, согласно следующим уравнениям:
где FC обозначает спектральную плотность потока звукового сигнала центрального канала, FS обозначает спектральную плотность потока разности между звуковым сигналом левого канала и звуковым сигналом правого канала, C обозначает звуковой сигнал центрального канала, S обозначает разность между звуковым сигналом левого канала и звуковым сигналом правого канала, m обозначает индекс времени выборки, и k обозначает индекс элемента разрешения по частоте. Таким образом, спектральная плотность потока определяется эффективно.
В девятой форме реализации устройства обработки сигналов согласно формам реализации первого аспекта, с пятой по восьмую, детектор речевой активности выполнен с возможностью фильтрации индикатора речевой активности во времени на основе заданной функции фильтрации низких частот. Таким образом, реализуется эффективное подавление артефактов в многоканальном звуковом сигнале и/или эффективное временное сглаживание индикатора речевой активности.
Заданная функция фильтрации низких частот может быть реализована посредством одноотводного фильтра нижних частот с импульсной характеристикой конечной длительности (finite impulse response - FIR).
В десятой форме реализации устройства обработки сигналов согласно формам реализации первого аспекта, с пятой по девятую, сумматор дополнительно выполнен с возможностью взвешивания звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала посредством заданного входного коэффициента усиления, и взвешивания индикатора речевой активности посредством заданного коэффициента усиления речи. Таким образом, реализуется эффективное управление величиной речевого компонента относительно величины неречевого компонента.
В одиннадцатой форме реализации устройства обработки сигналов согласно формам реализации первого аспекта, с пятой по десятую, сумматор выполнен с возможностью суммирования звукового сигнала левого канала с комбинацией взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала левого канала, суммирования звукового сигнала центрального канала с комбинацией взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала центрального канала, и суммирования звукового сигнала правого канала с комбинацией взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала правого канала. Таким образом, сумматор реализуется эффективно. Выделенные речевые компоненты суммируются с исходными сигналами для усиления речевого компонента в выходных сигналах.
В двенадцатой форме реализации устройства обработки сигналов согласно формам реализации первого аспекта, с пятой по одиннадцатую, многоканальный звуковой сигнал дополнительно содержит звуковой сигнал левого канала объемного звучания и звуковой сигнал правого канала объемного звучания, причем детектор речевой активности выполнен с возможностью определения индикатора речевой активности, дополнительно, на основе звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания. Таким образом, каналы объемного звучания в многоканальном звуковом сигнале также учитываются для определения индикатора речевой активности, что обеспечивает лучшую оценку индикатора речевой активности.
В тринадцатой форме реализации устройства обработки сигналов согласно первому аспекту, по существу, или любой предшествующей форме реализации первого аспекта, устройство обработки сигналов дополнительно содержит преобразователь, выполненный с возможностью преобразования звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала из временной области в частотную область. Таким образом, реализуется эффективное преобразование звуковых сигналов в частотную область. Это может быть необходимым в случае, когда усиление речи и детектирование речевой активности выполняются в частотной области.
Преобразователь может быть выполнен с возможностью выполнения кратковременного дискретного преобразования Фурье (short-time discrete Fourier transform - STFT) звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала.
В четырнадцатой форме реализации устройства обработки сигналов согласно первому аспекту, по существу, или любой предшествующей форме реализации первого аспекта, устройство обработки сигналов дополнительно содержит обратный преобразователь, выполненный с возможностью обратного преобразования суммарного звукового сигнала левого канала, суммарного звукового сигнала центрального канала, и суммарного звукового сигнала правого канала из частотной области во временную область. Таким образом, реализуется эффективное обратное преобразование звуковых сигналов во временную область, и получаются выходные сигналы во временной области.
Обратный преобразователь может быть выполнен с возможностью выполнения обратного кратковременного дискретного преобразования Фурье (inverse short-time discrete Fourier transform - ISTFT) суммарного звукового сигнала левого канала, суммарного звукового сигнала центрального канала, и суммарного звукового сигнала правого канала.
В пятнадцатой форме реализации устройства обработки сигналов согласно первому аспекту, по существу, или любой предшествующей форме реализации первого аспекта, устройство обработки сигналов дополнительно содержит устройство повышающего микширования, выполненное с возможностью определения звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала на основе входного стереофонического звукового сигнала левого канала и входного стереофонического звукового сигнала правого канала. Таким образом, устройство обработки сигналов может быть применено для обработки двухканального входного стереофонического звукового сигнала, т.е., входного стереофонического звукового сигнала с левым и правым каналом.
В шестнадцатой форме реализации устройства обработки сигналов согласно пятнадцатой форме реализации первого аспекта, устройство повышающего микширования выполнено с возможностью определения звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала согласно следующим уравнениям:
где Lr обозначает действительную часть входного стереофонического звукового сигнала левого канала, Rr обозначает действительную часть входного стереофонического звукового сигнала правого канала, Li обозначает мнимую часть входного стереофонического звукового сигнала левого канала, Ri обозначает мнимую часть входного стереофонического звукового сигнала правого канала, α обозначает параметр ортогональности, Lin обозначает входной стереофонический звуковой сигнал левого канала, Rin обозначает входной стереофонический звуковой сигнал правого канала, L обозначает звуковой сигнал левого канала, C обозначает звуковой сигнал центрального канала, и R обозначает звуковой сигнал правого канала. Таким образом, эффективное выделение центрального канала входного стереофонического звукового сигнала реализуется с использованием ортогонального разложения. Результирующий звуковой сигнал левого канала и звуковой сигнал правого канала являются ортогональными друг к другу.
В семнадцатой форме реализации устройства обработки сигналов согласно первому аспекту, по существу, или любой предшествующей форме реализации первого аспекта, устройство обработки сигналов дополнительно содержит устройство понижающего микширования, выполненное с возможностью определения выходного стереофонического звукового сигнала левого канала и выходного стереофонического звукового сигнала правого канала на основе суммарного звукового сигнала левого канала, суммарного звукового сигнала центрального канала, и суммарного звукового сигнала правого канала. Таким образом, эффективно обеспечивается двухканальный выходной стереофонический звуковой сигнал, т.е., выходной стереофонический звуковой сигнал с левым и правым каналом.
В восемнадцатой форме реализации устройства обработки сигналов согласно первому аспекту, по существу, или любой предшествующей форме реализации первого аспекта, мера величины содержит мощность, логарифмическую мощность, величину или логарифмическую величину сигнала. Таким образом, мера величины может указывать на разные значения в разных масштабах.
Величина многоканального звукового сигнала содержит мощность, логарифмическую мощность, величину или логарифмическую величину многоканального звукового сигнала. Мера величины разности звукового сигнала левого канала и звукового сигнала правого канала содержит мощность, логарифмическую мощность, величину или логарифмическую величину разности звукового сигнала левого канала и звукового сигнала правого канала. Величина звукового сигнала центрального канала содержит мощность, логарифмическую мощность, величину или логарифмическую величину звукового сигнала центрального канала. Сигнал может относиться к любому сигналу, обрабатываемому устройством обработки сигналов.
В девятнадцатой форме реализации устройства обработки сигналов согласно первому аспекту, по существу, или любой предшествующей форме реализации первого аспекта, сумматор дополнительно выполнен с возможностью взвешивания звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала посредством заданного входного коэффициента усиления, и взвешивания взвешенного звукового сигнала левого канала, взвешенного звукового сигнала центрального канала, и взвешенного звукового сигнала правого канала посредством заданного коэффициента усиления речи. Таким образом, реализуется эффективное управление величиной речевого компонента относительно величины неречевого компонента.
Взвешенные звуковые сигналы CE, LE, и RE могут быть взвешены посредством заданного коэффициента GS усиления речи. Взвешивание может быть выполнено без использования детектора речевой активности.
Согласно второму аспекту, настоящее изобретение относится к способу обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале, причем многоканальный звуковой сигнал содержит звуковой сигнал левого канала, звуковой сигнал центрального канала, и звуковой сигнал правого канала, причем способ обработки сигналов содержит определение, фильтром, меры, представляющей общую величину многоканального звукового сигнала по частоте, на основе звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала, получение, фильтром, функции коэффициента усиления на основе соотношения между мерой величины звукового сигнала центрального канала и мерой, представляющей общую величину многоканального звукового сигнала, взвешивание, фильтром, звукового сигнала левого канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала левого канала, взвешивание, фильтром, звукового сигнала центрального канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала центрального канала, взвешивание, фильтром, звукового сигнала правого канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала правого канала, суммирование, сумматором, звукового сигнала левого канала с взвешенным звуковым сигналом левого канала для получения суммарного звукового сигнала левого канала, суммирование, сумматором, звукового сигнала центрального канала с взвешенным звуковым сигналом центрального канала для получения суммарного звукового сигнала центрального канала, и суммирование, сумматором, звукового сигнала правого канала с взвешенным звуковым сигналом правого канала для получения суммарного звукового сигнала правого канала. Таким образом, реализуется эффективная концепция для усиления речевого компонента в многоканальном звуковом сигнале.
Способ обработки сигналов может быть выполнен посредством устройства обработки сигналов. Дополнительные признаки способа обработки сигналов являются прямым результатом функциональности устройства обработки сигналов.
В первой форме реализации способа обработки сигналов согласно второму аспекту, по существу, способ содержит определение, фильтром, меры, представляющей общую величину многоканального звукового сигнала, в виде суммы меры величины звукового сигнала центрального канала и меры величины разности звукового сигнала левого канала и звукового сигнала правого канала. Таким образом, мера, представляющая общую величину многоканального звукового сигнала, определяется эффективно и более подходящим способом для использования для получения функции коэффициента усиления фильтра, поскольку разность звукового сигнала левого канала и звукового сигнала правого канала представляет остаточный сигнал, который не содержит компонентов звукового сигнала центрального канала.
Во второй форме реализации способа обработки сигналов согласно второму аспекту, по существу, или любой предшествующей форме реализации второго аспекта, способ содержит определение, фильтром, функции коэффициента усиления согласно следующим уравнениям:
где G обозначает функцию коэффициента усиления, L обозначает звуковой сигнал левого канала, C обозначает звуковой сигнал центрального канала, R обозначает звуковой сигнал правого канала, PC обозначает мощность звукового сигнала центрального канала в качестве меры, представляющей величину звукового сигнала центрального канала, PS обозначает мощность разности между звуковым сигналом левого канала и звуковым сигналом правого канала, и сумма PC и PS обозначает меру, представляющую общую величину многоканального звукового сигнала, m обозначает индекс времени выборки, и k обозначает индекс элемента разрешения по частоте. Таким образом, функция коэффициента усиления определяется эффективно и мощно.
В третьей форме реализации способа обработки сигналов согласно второму аспекту, по существу, или любой предшествующей форме реализации второго аспекта, многоканальный звуковой сигнал дополнительно содержит звуковой сигнал левого канала объемного звучания и звуковой сигнал правого канала объемного звучания, причем способ содержит определение, фильтром, меры, представляющей общую величину многоканального звукового сигнала по частоте, дополнительно, на основе звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания, и определение, фильтром, меры, представляющей общую величину многоканального звукового сигнала, в виде суммы меры величины звукового сигнала центрального канала, меры величины разности звукового сигнала левого канала и звукового сигнала правого канала, и меры величины разности звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания. Таким образом, каналы объемного звучания в многоканальном звуковом сигнале обрабатываются эффективно, посредством получения величины на основании разности звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания. Разностный сигнал обеспечивает лучшее различение для звукового сигнала центрального канала.
В четвертой форме реализации способа обработки сигналов согласно второму аспекту, по существу, или любой предшествующей форме реализации второго аспекта, способ содержит взвешивание, фильтром, элементов разрешения по частоте звукового сигнала левого канала посредством элементов разрешения по частоте функции коэффициента усиления для получения элементов разрешения по частоте взвешенного звукового сигнала левого канала, взвешивание, фильтром, элементов разрешения по частоте звукового сигнала центрального канала посредством элементов разрешения по частоте функции коэффициента усиления для получения элементов разрешения по частоте взвешенного звукового сигнала центрального канала, и взвешивание, фильтром, элементов разрешения по частоте звукового сигнала правого канала посредством элементов разрешения по частоте функции коэффициента усиления для получения элементов разрешения по частоте взвешенного звукового сигнала правого канала. Таким образом, многоканальный звуковой сигнал обрабатывается эффективно в частотной области. Взвешивание всех сигналов с использованием одного и того же фильтра имеет преимущество, состоящее в том, что не происходит никакого сдвига местоположений источников звуковых сигналов в стереофоническом изображении. Кроме того, таким образом, речевой компонент выделяется из всех сигналов.
В пятой форме реализации способа обработки сигналов согласно второму аспекту, по существу, или любой предшествующей форме реализации второго аспекта, способ содержит определение, детектором речевой активности, индикатора речевой активности на основе звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала, причем индикатор речевой активности указывает на величину речевого компонента в многоканальном звуковом сигнале с течением времени, суммирование, сумматором, взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала левого канала, суммирование, сумматором, взвешенного звукового сигнала центрального канала с индикатором речевой активности для получения суммарного звукового сигнала центрального канала, и суммирование, сумматором, взвешенного звукового сигнала правого канала с индикатором речевой активности для получения суммарного звукового сигнала правого канала. Таким образом, реализуется эффективное усиление изменяющегося во времени речевого компонента в многоканальном звуковом сигнале и подавляются неречевые сигналы.
В шестой форме реализации способа обработки сигналов согласно пятой форме реализации второго аспекта, способ содержит определение, детектором речевой активности, меры, представляющей общее спектральное изменение многоканального звукового сигнала, на основе звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала, и получение, детектором речевой активности, индикатора речевой активности на основе соотношения между мерой спектрального изменения звукового сигнала центрального канала и мерой, представляющей общее спектральное изменение многоканального звукового сигнала. Таким образом, индикатор речевой активности определяется эффективно посредством использования соотношения между мерами спектрального изменения.
В седьмой форме реализации способа обработки сигналов согласно шестой форме реализации второго аспекта, способ содержит определение, детектором речевой активности, индикатора речевой активности согласно следующему уравнению:
где V обозначает индикатор речевой активности, FC обозначает меру спектрального изменения звукового сигнала центрального канала, FS обозначает меру спектрального изменения разности между звуковым сигналом левого канала и звуковым сигналом правого канала, и сумма FC и FS обозначает меру, представляющую общее спектральное изменение многоканального звукового сигнала, и a обозначает заданный коэффициент масштабирования. Таким образом, индикатор речевой активности определяется эффективно. Сигналы с одинаковыми значениями FC и FS обеспечивают в результате индикатор речевой активности со значением, равным нулю. Более высокие значения FC приводят к более высоким значениям индикатора речевой активности. Коэффициент а масштабирования может управлять величиной индикатора речевой активности.
В восьмой форме реализации способа обработки сигналов согласно седьмой форме реализации второго аспекта, способ содержит определение, детектором речевой активности, меры спектрального изменения звукового сигнала центрального канала, в виде спектральной плотности потока, и меры спектрального изменения разности между звуковым сигналом левого канала и звуковым сигналом правого канала, в виде спектральной плотности потока, согласно следующим уравнениям:
где FC обозначает спектральную плотность потока звукового сигнала центрального канала, FS обозначает спектральную плотность потока разности между звуковым сигналом левого канала и звуковым сигналом правого канала, C обозначает звуковой сигнал центрального канала, S обозначает разность между звуковым сигналом левого канала и звуковым сигналом правого канала, m обозначает индекс времени выборки, и k обозначает индекс элемента разрешения по частоте. Таким образом, спектральная плотность потока определяется эффективно.
В девятой форме реализации способа обработки сигналов согласно формам реализации второго аспекта, с пятой по восьмую, способ содержит фильтрацию, детектором речевой активности, индикатора речевой активности во времени на основе заданной функции фильтрации низких частот. Таким образом, реализуется эффективное подавление артефактов в многоканальном звуковом сигнале и/или эффективное временное сглаживание индикатора речевой активности.
В десятой форме реализации способа обработки сигналов согласно формам реализации второго аспекта, с пятой по девятую, способ содержит взвешивание, сумматором, звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала посредством заданного входного коэффициента усиления, и взвешивание, сумматором, индикатора речевой активности посредством заданного коэффициента усиления речи. Таким образом, реализуется эффективное управление величиной речевого компонента относительно величины неречевого компонента.
В одиннадцатой форме реализации способа обработки сигналов согласно формам реализации второго аспекта, с пятой по десятую, способ содержит суммирование, сумматором, звукового сигнала левого канала с комбинацией взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала левого канала, суммирование, сумматором, звукового сигнала центрального канала с комбинацией взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала центрального канала, и суммирование, сумматором, звукового сигнала правого канала с комбинацией взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала правого канала. Таким образом, суммирование реализуется эффективно. Выделенные речевые компоненты суммируются с исходными сигналами для усиления речевого компонента в выходных сигналах.
В двенадцатой форме реализации способа обработки сигналов согласно формам реализации второго аспекта, с пятой по одиннадцатую, многоканальный звуковой сигнал дополнительно содержит звуковой сигнал левого канала объемного звучания и звуковой сигнал правого канала объемного звучания, причем способ содержит определение, детектором речевой активности, индикатора речевой активности, дополнительно, на основе звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания. Таким образом, каналы объемного звучания в многоканальном звуковом сигнале также учитываются для определения индикатора речевой активности, что обеспечивает лучшую оценку индикатора речевой активности.
В тринадцатой форме реализации способа обработки сигналов согласно второму аспекту, по существу, или любой предшествующей форме реализации второго аспекта, способ содержит преобразование, преобразователем, звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала из временной области в частотную область. Таким образом, реализуется эффективное преобразование звуковых сигналов в частотную область. Это необходимо, например, если усиление речи и детектирование речевой активности выполняется в частотной области.
В четырнадцатой форме реализации способа обработки сигналов согласно второму аспекту, по существу, или любой предшествующей форме реализации второго аспекта, способ содержит обратное преобразование, обратным преобразователем, суммарного звукового сигнала левого канала, суммарного звукового сигнала центрального канала, и суммарного звукового сигнала правого канала из частотной области во временную область. Таким образом, реализуется эффективное обратное преобразование звуковых сигналов во временную область, и получаются выходные сигналы во временной области.
В пятнадцатой форме реализации способа обработки сигналов согласно второму аспекту, по существу, или любой предшествующей форме реализации второго аспекта, способ содержит определение, устройством повышающего микширования, звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала на основе входного стереофонического звукового сигнала левого канала и входного стереофонического звукового сигнала правого канала. Таким образом, способ обработки сигналов может быть применен для обработки входного стереофонического звукового сигнала.
В шестнадцатой форме реализации способа обработки сигналов согласно пятнадцатой форме реализации второго аспекта, способ содержит определение, устройством повышающего микширования, звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала согласно следующим уравнениям:
где Lr обозначает действительную часть входного стереофонического звукового сигнала левого канала, Rr обозначает действительную часть входного стереофонического звукового сигнала правого канала, Li обозначает мнимую часть входного стереофонического звукового сигнала левого канала, Ri обозначает мнимую часть входного стереофонического звукового сигнала правого канала, α обозначает параметр ортогональности, Lin обозначает входной стереофонический звуковой сигнал левого канала, Rin обозначает входной стереофонический звуковой сигнал правого канала, L обозначает звуковой сигнал левого канала, C обозначает звуковой сигнал центрального канала, и R обозначает звуковой сигнал правого канала. Таким образом, эффективное выделение центрального канала входного стереофонического звукового сигнала реализуется с использованием ортогонального разложения. Результирующий звуковой сигнал левого канала и звуковой сигнал правого канала являются ортогональными друг к другу.
В семнадцатой форме реализации способа обработки сигналов согласно второму аспекту, по существу, или любой предшествующей форме реализации второго аспекта, способ содержит определение, устройством понижающего микширования, выходного стереофонического звукового сигнала левого канала и выходного стереофонического звукового сигнала правого канала на основе суммарного звукового сигнала левого канала, суммарного звукового сигнала центрального канала, и суммарного звукового сигнала правого канала. Таким образом, эффективно обеспечивается двухканальный выходной стереофонический звуковой сигнал, т.е., выходной стереофонический звуковой сигнал с левым и правым каналом.
В восемнадцатой форме реализации способа обработки сигналов согласно второму аспекту, по существу, или любой предшествующей форме реализации второго аспекта, мера величины содержит мощность, логарифмическую мощность, величину или логарифмическую величину сигнала. Таким образом, мера величины может указывать на разные значения в разных масштабах.
В девятнадцатой форме реализации способа обработки сигналов согласно второму аспекту, по существу, или любой предшествующей форме реализации второго аспекта, способ содержит взвешивание, сумматором, звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала посредством заданного входного коэффициента усиления, и взвешивание, сумматором, взвешенного звукового сигнала левого канала, взвешенного звукового сигнала центрального канала, и взвешенного звукового сигнала правого канала посредством заданного коэффициента усиления речи. Таким образом, реализуется эффективное управление величиной речевого компонента относительно величины неречевого компонента.
Согласно третьему аспекту, настоящее изобретение относится к компьютерной программе, содержащей программный код для выполнения способа согласно второму аспекту, по существу, или любой форме реализации второго аспекта, при исполнении на компьютере. Таким образом, способ может быть выполнен автоматически.
Устройство обработки сигналов может быть программно выполнено с возможностью исполнения компьютерной программы и/или программного кода.
Настоящее изобретение может быть реализовано в аппаратном обеспечении и/или программном обеспечении.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Варианты осуществления настоящего изобретения будут описаны в отношении следующих фигур, в которых:
Фиг. 1 показывает схему устройства обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале согласно одному варианту осуществления;
Фиг. 2 показывает схему способа обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале согласно одному варианту осуществления;
Фиг. 3 показывает схему устройства обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале согласно одному варианту осуществления;
Фиг. 4 показывает схему устройства повышающего микширования устройства обработки сигналов согласно одному варианту осуществления;
Фиг. 5 показывает схему фильтра устройства обработки сигналов согласно одному варианту осуществления;
Фиг. 6 показывает схему детектора речевой активности устройства обработки сигналов согласно одному варианту осуществления; и
Фиг. 7 показывает схему устройства обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале согласно одному варианту осуществления.
Одинаковые ссылочные позиции используются для идентичных или эквивалентных признаков.
ПОДРОБНОЕ ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
Фиг. 1 показывает схему устройства обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале согласно одному варианту осуществления. Многоканальный звуковой сигнал содержит звуковой сигнал L левого канала, звуковой сигнал С центрального канала, и звуковой сигнал R правого канала. Устройство 100 обработки сигналов содержит фильтр 101 и сумматор 103.
Фильтр 101 выполнен с возможностью определения меры, представляющей общую величину многоканального звукового сигнала по частоте на основе звукового сигнала L левого канала, звукового сигнала С центрального канала, и звукового сигнала R правого канала, получения функции G коэффициента усиления на основе соотношения между мерой величины звукового сигнала C центрального канала и мерой, представляющей общую величину многоканального звукового сигнала, и взвешивания звукового сигнала L левого канала посредством функции G коэффициента усиления для получения взвешенного звукового сигнала LE левого канала, взвешивания звукового сигнала C центрального канала посредством функции G коэффициента усиления для получения взвешенного звукового сигнала CE центрального канала, и взвешивания звукового сигнала R правого канала посредством функции G коэффициента усиления для получения взвешенного звукового сигнала RE правого канала.
Сумматор 103 выполнен с возможностью суммирования звукового сигнала L левого канала с взвешенным звуковым сигналом LE левого канала для получения суммарного звукового сигнала LEV левого канала, суммирования звукового сигнала С центрального канала с взвешенным звуковым сигналом CE центрального канала для получения суммарного звукового сигнала CEV центрального канала, и суммирования звукового сигнала R правого канала с взвешенным звуковым сигналом RE правого канала для получения суммарного звукового сигнала REV правого канала.
Многоканальные звуковые сигналы могут содержать, например, трехканальные стереофонические звуковые сигналы, которые содержат только звуковой сигнал L левого канала, звуковой сигнал R правого канала, и звуковой сигнал C центрального канала, и которые могут также называться стереофоническими звуковыми сигналами формата LCR или формата 3.0, многоканальные звуковые сигналы формата 5.1, которые содержат звуковой сигнал L левого канала, звуковой сигнал R правого канала, звуковой сигнал C центрального канала, звуковой сигнал LS левого канала объемного звучания, звуковой сигнал RS правого канала объемного звучания, и сигнал B низких частот, или другие многоканальные звуковые сигналы, которые имеют звуковой сигнал центрального канала и по меньшей мере два звуковых сигнала других каналов. Звуковые сигналы, отличные от звукового сигнала С центрального канала, например, звуковой сигнал L левого канала, звуковой сигнал R правого канала, звуковой сигнал LS левого канала объемного звучания, звуковой сигнал RS правого канала объемного звучания, и сигнал B низких частот, могут также называться звуковыми сигналами не-центрального канала. В случае многоканального звукового сигнала формата 5.1, мера, представляющая общую величину многоканального звукового сигнала, может быть получена в виде суммы меры величины звукового сигнала центрального канала, меры величины разности звукового сигнала левого канала и звукового сигнала правого канала, меры величины разности звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания, и меры величины звукового сигнала канала низкочастотных эффектов. В случае многоканального звукового сигнала формата 5.1, полученный фильтр может быть использован для взвешивания всех содержащихся звуковых сигналов.
Фиг. 2 показывает схему способа 200 обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале согласно одному варианту осуществления. Многоканальный звуковой сигнал содержит звуковой сигнал L левого канала, звуковой сигнал С центрального канала, и звуковой сигнал R правого канала.
Способ 200 обработки сигналов содержит определение 201 меры, представляющей общую величину многоканального звукового сигнала по частоте, на основе звукового сигнала L левого канала, звукового сигнала С центрального канала, и звукового сигнала R правого канала, получение 203 функции G коэффициента усиления на основе соотношения между мерой величины звукового сигнала C центрального канала и мерой, представляющей общую величину многоканального звукового сигнала, взвешивание 205 звукового сигнала L левого канала посредством функции G коэффициента усиления для получения взвешенного звукового сигнала LE левого канала, взвешивание 207 звукового сигнала C центрального канала посредством функции G коэффициента усиления для получения взвешенного звукового сигнала CE центрального канала, взвешивание 209 звукового сигнала R правого канала посредством функции G коэффициента усиления для получения взвешенного звукового сигнала RE правого канала, суммирование 211 звукового сигнала L левого канала с взвешенным звуковым сигналом LE левого канала для получения суммарного звукового сигнала LEV левого канала, суммирование 213 звукового сигнала С центрального канала с взвешенным звуковым сигналом CE центрального канала для получения суммарного звукового сигнала CEV центрального канала, и суммирование 215 звукового сигнала R правого канала с взвешенным звуковым сигналом RE правого канала для получения суммарного звукового сигнала REV правого канала.
Способ 200 обработки сигналов может быть выполнен устройством 100 обработки сигналов, например, фильтром 101 и сумматором 103.
Ниже будут описаны дополнительные формы реализации и варианты осуществления устройства 100 обработки сигналов и способа 200 обработки сигналов.
Настоящее изобретение относится к области обработки звуковых сигналов. Устройство 100 обработки сигналов и способ 200 обработки сигналов могут быть применены для усиления речи, например, усиления диалогов, в звуковых сигналах, например, стереофонических звуковых сигналах. Конкретно, устройство 100 обработки сигналов и способ 200 обработки сигналов могут быть, в комбинации с устройством 301 повышающего микширования или в комбинации с устройством 301 повышающего микширования и устройством 303 понижающего микширования, применены для обработки стереофонических звуковых сигналов для улучшения ясности диалогов.
Существуют разные устройства, имеющие два громкоговорителя, например, телевизоры, компактные портативные компьютеры, планшетные компьютеры, мобильные телефоны, и смартфоны. Когда стереофонические звуковые сигналы воспроизводятся с использованием таких устройств, речевые компоненты звуковых дорожек из фильмов, например, могут быть трудно понимаемыми нормальными слушателями и слушателями с нарушенным слухом. Это происходит, конкретно, в случае шумных окружающих сред, или когда на речевой компонент накладываются неречевые компоненты или звуки, такие как музыка или звуковые эффекты.
Варианты осуществления настоящего изобретения предназначены, конкретно, для усиления речевого компонента стереофонических звуковых сигналов для улучшения ясности диалогов. Одним лежащим в основе предположением является то, что речь, или, эквивалентно, голос, являются центрально-панорамируемыми в многоканальном звуковом сигнале, что, в общем, является истинным для большинства стереофонических звуковых сигналов. Целью является усиление громкости речевых компонентов без влияния на качество речи, в то время как неречевые компоненты остаются неизмененными. Конкретно, это возможно во время временных интервалов с одновременными речевыми и неречевыми компонентами. Варианты осуществления настоящего изобретения позволяют, например, использовать только стереофонический звуковой сигнал и не нуждаются в использовании дополнительного знания из отдельного речевого звукового канала или исходного многоканального звукового сигнала формата 5.1. Эти цели достигаются посредством выделения виртуального звукового сигнала центрального канала и усиления этого звукового сигнала центрального канала, а также других звуковых сигналов, с использованием описанного устройства 100 обработки сигналов или способа 200 обработки сигналов. Кроме того, может быть использован подход для детектирования речевой активности, чтобы убедиться в том, что обработка не влияет на неречевые компоненты. Другие варианты осуществления настоящего изобретения могут быть использованы для обработки других многоканальных звуковых сигналов, таких как многоканальный звуковой сигнал формата 5.1.
Варианты осуществления настоящего изобретения основаны на следующем подходе, в котором, на основании записи стереофонического звукового сигнала, звуковой сигнал центрального канала выделяется с использованием подхода повышающего микширования. Этот звуковой сигнал центрального канала может быть дополнительно обработан с использованием усиления речи или детектирования речевой активности, для получения оценки исходного речевого компонента. Признаком этого подхода может быть то, что речевой компонент может быть выделен не только из звукового сигнала центрального канала, но и из звуковых сигналов остальных каналов. Поскольку процесс повышающего микширования может не работать идеально, эти звуковые сигналы остальных каналов могут, все же, содержать речевой компонент. Когда эти речевые компоненты также выделены и усилены, результирующий выходной звуковой сигнал имеет улучшенное качество речи и широту.
Ниже, на основе фиг. 3-7, описаны конкретные варианты осуществления настоящего изобретения для усиления речевого компонента многоканального звукового сигнала формата LCR (содержащего звуковой сигнал центрального канала, звуковой сигнал левого канала, и звуковой сигнал правого канала), который получен из двухканального стереофонического звукового сигнала посредством повышающего микширования «с двух до трех».
Однако, варианты осуществления настоящего изобретения не ограничены такими многоканальными звуковыми сигналами и могут также содержать обработку трехканальных звуковых сигналов формата LCR, например, принятых от других устройств, или обработку других многоканальных сигналов, содержащих звуковой сигнал центрального канала, например, многоканальных сигналов формата 5.1 или 7.1. Дополнительные варианты осуществления может быть даже выполнены с возможностью обработки многоканальных сигналов, которые не содержат звуковой сигнал центрального канала, например, многоканального сигнала формата 4.0, содержащего звуковые сигналы левого и правого канала и звуковые сигналы левого и правого канала объемного звучания, посредством повышающего микширования многоканального сигнала для получения виртуального звукового сигнала центрального канала перед применением усиления диалогов или речи с использованием или без использования детектирования речевой активности.
Фиг. 3 показывает схему устройства 100 обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале согласно одному варианту осуществления. Устройство 100 обработки сигналов содержит фильтр 101, сумматор 103, устройство 301 повышающего микширования, и устройство 303 понижающего микширования. Фильтр 101 и сумматор 103 содержат процессор 305 левого канала, процессор 307 центрального канала, и процессор 309 правого канала.
Устройство 301 повышающего микширования выполнено с возможностью определения звукового сигнала L левого канала, звукового сигнала C центрального канала, и звукового сигнала R правого канала на основе входного стереофонического звукового сигнала Lin левого канала и входного стереофонического звукового сигнала Rin правого канала. Другими словами, устройство 301 повышающего микширования обеспечивает повышающее микширование «с двух до трех», как будет иллюстративно объяснено более подробно на основе фиг. 4.
Процессор 305 левого канала выполнен с возможностью обработки звукового сигнала L левого канала для обеспечения суммарного звукового сигнала LEV левого канала. Процессор 307 центрального канала выполнен с возможностью обработки звукового сигнала С центрального канала для обеспечения суммарного звукового сигнала CEV центрального канала. Процессор 309 правого канала выполнен с возможностью обработки звукового сигнала R правого канала для обеспечения суммарного звукового сигнала REV правого канала. Процессор 305 левого канала, процессор 307 центрального канала, и процессор 309 правого канала выполнены с возможностью выполнения усиления речи, ENH, как будет иллюстративно объяснено более подробно на основе фиг. 5. Процессор 305 левого канала, процессор 307 центрального канала, и процессор 309 правого канала могут быть дополнительно выполнены с возможностью обработки индикатора речевой активности, обеспечиваемого посредством детектирования речевой активности, VAD, как будет иллюстративно объяснено более подробно на основе фиг. 6.
Устройство 303 понижающего микширования выполнено с возможностью определения выходного стереофонического звукового сигнала Lout левого канала и выходного стереофонического звукового сигнала Rout правого канала на основе суммарного звукового сигнала LEV левого канала, суммарного звукового сигнала CEV центрального канала, и суммарного звукового сигнала REV правого канала. Другими словами, устройство 303 понижающего микширования обеспечивает понижающее микширование «с трех до двух».
Таким образом, звуковые сигналы с усиленной речью обрабатываются таким образом, чтобы микшированный с понижением двухканальный стереофонический сигнал Lout и Rout мог быть прямо выведен на общепринятое двухканальное стереофоническое устройство воспроизведения, например, общепринятый стереофонический телевизор.
В одном варианте осуществления настоящего изобретения, общий подход используется устройством 301 повышающего микширования для выделения центрального канала из входного стереофонического звукового сигнала, содержащего входной стереофонический звуковой сигнал Lin левого канала и входной стереофонический звуковой сигнал Rin правого канала. Это обеспечивает в результате звуковые сигналы левого, центрального, и правого каналов, обозначаемые L, C, и R. Другие варианты осуществления настоящего изобретения могут использовать другие подходы для повышающего микширования. Возможны дополнительные варианты осуществления настоящего изобретения, в которых, например, доступен многоканальный звуковой сигнал формата 5.1, и прямо используются содержащиеся в нем левый, центральный и правый каналы.
Звуковые сигналы L, C, и R левого, центрального и правого каналов обрабатываются улучшенным способом для оценки зависимого от времени и/или частоты фильтра 101 усиления речи, который, затем, может быть применен на всех каналах многоканального звукового сигнала. Этот фильтр 101 выполнен с возможностью ослабления неречевых компонентов, которые могут присутствовать одновременно с речевым компонентом. Отличие от других подходов состоит в том, что не только звуковой сигнал центрального канала, но и другие звуковые сигналы, например, звуковой сигнал левого канала и звуковой сигнал правого канала, в случае формата LCR, показанного на фиг. 3, обрабатываются с использованием одного и того же фильтра 101. Варианты осуществления настоящего изобретения используют улучшенный подход для определения фильтра 101 усиления речи.
Кроме того, детектирование речевой активности может быть выполнено с использованием улучшенного подхода, использующего информацию из всех каналов многоканального звукового сигнала. Выходные данные детектора речевой активности, например, индикатор речевой активности, могут быть программным решением, которое может указывать на речевую активность. Комбинация усиления речи и детектирования речевой активности обеспечивает многоканальный звуковой сигнал, который содержит только или по меньшей мере почти только речевой компонент. Этот многоканальный звуковой сигнал с речевым компонентом может быть усилен и суммирован с исходным многоканальным звуковым сигналом сумматором 103 для получения суммарных канальных звуковых сигналов LEV, CEV, и REV. Понижающее микширование до стереофонического сигнала может быть выполнено посредством устройства 303 понижающего микширования для обеспечения конечных выходных канальных стереофонических звуковых сигналов Lout и Rout.
Фиг. 4 показывает схему устройства 301 повышающего микширования устройства 100 обработки сигналов согласно одному варианту осуществления. Устройство 301 повышающего микширования выполнено с возможностью определения звукового сигнала L левого канала, звукового сигнала C центрального канала, и звукового сигнала R правого канала на основе входного стереофонического звукового сигнала Lin левого канала и входного стереофонического звукового сигнала Rin правого канала. Устройство 301 повышающего микширования обеспечивает повышающее микширование «с двух до трех». Устройство 301 повышающего микширования выполнено с возможностью выполнения выделения звукового сигнала С центрального канала из входного двухканального стереофонического звукового сигнала с использованием подхода повышающего микширования.
Процесс получения виртуального звукового сигнала С центрального канала из, например, двухканального входного стереофонического звукового сигнала также называется выделением центра. Это может быть желательным, когда доступен только общепринятый стереофонический звуковой сигнал записи. Существуют разные подходы для достижения выделения центра. Одно семейство подходов повышающего микширования основано на матричном декодировании. Эти подходы являются линейными, независимыми от сигналов подходами для повышающего микширования. Они могут быть связаны с матричным декодером и могут работать во временной области. Геометрические подходы, с другой стороны, являются зависимыми от сигналов. Эти подходы могут основываться на предположении о том, что звуковой сигнал L левого канала и звуковой сигнал R правого канала являются некоррелированными по отношению друг к другу. Эти подходы работают в частотной области.
Ниже описан конкретный подход, в качестве примера для выделения центра, который может быть использован в любом варианте осуществления настоящего изобретения. Этот подход выполняется в частотной области. Это означает, что входной стереофонический звуковой сигнал преобразуется в частотную область, например, посредством применения алгоритма дискретного преобразования Фурье (discrete Fourier transform - DFT) на кратковременных окнах. Соответствующий выбор для размера блоков дискретного преобразования Фурье (DFT) может составлять 1024, при использовании частоты выборки, равной 48000 Гц.
Этот подход создан на основании предположения о том, что звуковые сигналы L и R левого и правого каналов являются ортогональными друг относительно друга. Идея состоит в получении звукового сигнала С центрального канала в виде:
где α является параметром, который определяется. Звуковые сигналы L и R левого и правого каналов могут быть, тогда, получены в виде:
на основании результирующего звукового сигнала С центрального канала. Параметр α может быть оптимизирован некоторым образом для выполнения ограничения
которое описывает ортогональность звуковых сигналов. Математическое решение этой задачи может быть получено при вычислении результата
где Lr, Li, Rr и Ri обозначают действительные и мнимые части спектральных компонентов входных стереофонических звуковых сигналов Lin и Rin левого и правого каналов, соответственно. Параметр α является независимым от времени и частоты и поэтому может быть вычислен для всех элементов разрешения по частоте данного кадра образцов звуковых сигналов.
Могут быть применены другие конкретные геометрические подходы для выделения центра. Другие конкретные подходы используют, например, анализ главных компонентов для выделения центра.
Фиг. 5 показывает схему фильтра 101 устройства 100 обработки сигналов согласно одному варианту осуществления. Фильтр 101 содержит вычитатель 501, определитель 503, определитель 505, определитель 507, устройство 509 взвешивания, устройство 511 взвешивания, и устройство 513 взвешивания. Схема показывает подход усиления речи.
Вычитатель 501 выполнен с возможностью вычитания звукового сигнала R правого канала из звукового сигнала L левого канала для получения остаточного звукового сигнала S.
Определитель 503 выполнен с возможностью определения квадрата величины или мощности звукового сигнала С центрального канала для получения меры величины PC звукового сигнала С центрального канала. Определитель 505 выполнен с возможностью определения квадрата величины или мощности остаточного звукового сигнала S для получения меры величины PS остаточного звукового сигнала S.
Определитель 507 выполнен с возможностью определения соотношения между мерой величины PC звукового сигнала С центрального канала и мерой, представляющей общую величину многоканального звукового сигнала, для получения функции G коэффициента усиления. Мера, представляющая общую величину многоканального звукового сигнала, образована суммой меры и величины PC звукового сигнала С центрального канала и меры величины PS остаточного звукового сигнала S. Функция G коэффициента усиления может зависеть от времени и/или от частоты. Индекс времени выборки обозначается m. Элемент разрешения по частоте обозначается k.
Устройство 509 взвешивания выполнено с возможностью взвешивания звукового сигнала L левого канала посредством функции G коэффициента усиления для получения взвешенного звукового сигнала LE левого канала. Устройство 511 взвешивания выполнено с возможностью взвешивания звукового сигнала С центрального канала посредством функции G коэффициента усиления для получения взвешенного звукового сигнала CE центрального канала. Устройство 513 взвешивания выполнено с возможностью взвешивания звукового сигнала R правого канала посредством функции G коэффициента усиления для получения взвешенного звукового сигнала RE правого канала.
Варианты осуществления настоящего изобретения используют информацию из звуковых сигналов L, C, и R левого, центрального и правого каналов для оценки функции G коэффициента усиления согласно подходу винеровской фильтрации для усиления речи. Подход винеровской фильтрации может быть применен на всех каналах многоканального звукового сигнала для удаления неречевых компонентов. В случае, когда звуковой сигнал С центрального канала содержит речевой компонент, подход винеровской фильтрации сохраняет (почти) только речевые компоненты всех каналов многоканального звукового сигнала.
В общем, используемый подход усиления речи может быть адресован к аддитивному шуму. Таким образом, входной сигнал Y любого канала может рассматриваться в виде Y=X+N, где X содержит чистый речевой компонент, и N может рассматриваться как аддитивный шум. Предполагается, что X и N являются некоррелированными по отношению друг к другу. Для удаления N из наблюдаемого звукового сигнала Y, может быть оценена спектральная плотность мощности шума аддитивного шума N или априорное отношение X/N сигнал-шум. Затем, зависящая от частоты функция G коэффициента усиления или G(m,k) может быть получена в виде:
и оценка звукового сигнала, содержащая чистый речевой компонент, может быть определена в виде , причем она работает на всех элементах разрешения по частоте звукового сигнала.
Подход усиления речи использует предположение о том, что звуковой сигнал С центрального канала содержит, главным образом, речь. Поскольку обычно никакой подход выделения центра не обеспечивает идеального выделения центра, звуковой сигнал С центрального канала может содержать неречевые компоненты, а другие каналы многоканального звукового сигнала могут содержать речевые компоненты. Таким образом, целью является удаление неречевых компонентов в звуковом сигнале С центрального канала и изолирование речевых компонентов в других каналах многоканального звукового сигнала. Для достижения этой цели, подход винеровской фильтрации может быть применен для оценки функции G коэффициента усиления. Вместо использования сложных подходов для оценки спектральной плотности мощности шума аддитивного шума N, используется простой, но эффективный подход для определения X и N для подхода винеровской фильтрации, определяемый уравнениями (7), (8), и (9). Считается, что звуковой сигнал С центрального канала содержит речевой компонент, соответствующий X, в то время как контент других каналов многоканального звукового сигнала, как считается, содержит шум, соответствующий N.
В одном варианте осуществления, остаточный звуковой сигнал S получают из звуковых сигналов левого и правого каналов посредством вычитателя 501, например, согласно S=L - R. Таким образом, центральные компоненты удаляются из остаточного сигнала. Мощности могут быть определены из спектра звукового сигнала С центрального канала, определителем 503, и спектра остаточного звукового сигнала S, определителем 505, согласно
где m является индексом времени выборки, а k является индексом элемента разрешения по частоте. Другим возможным подходом является использование величины вместо мощности, или логарифмической величины или мощности. В дополнительных вариантах осуществления, мощности могут быть сглажены по времени для уменьшения артефактов обработки.
Затем, функция G коэффициента усиления определяется определителем 507 согласно подходу винеровской фильтрации согласно
Функция G коэффициента усиления последовательно применяется к звуковым сигналам L, C, и R левого, центрального, и правого каналов устройствами 509-513 взвешивания, соответственно. Это обеспечивает в результате взвешенный звуковой сигнал LE левого канала, взвешенный звуковой сигнал CE центрального канала, и взвешенный звуковой сигнал RE правого канала.
В случае, когда исходный звуковой сигнал С центрального канала содержит только речевой компонент, усиленные взвешенные звуковые сигналы также содержат только речевые компоненты.
В одном варианте осуществления настоящего изобретения, используется другой формат многоканального звукового сигнала. Для иллюстративного многоканального звукового сигнала формата 5.1, вариантом для определения остаточного звукового сигнала S является
где L обозначает звуковой сигнал левого канала, R обозначает звуковой сигнал правого канала, LS обозначает звуковой сигнал левого канала объемного звучания, и RS обозначает звуковой сигнал правого канала объемного звучания. В другом варианте осуществления, мощность PS может быть определена в виде суммы мощности L-R и мощности LS -RS.
Остаточный звуковой сигнал S и мощность PS остаточного звукового сигнала могут быть определены соответствующим образом с использованием других форматов многоканальных звуковых сигналов, таких как формат 7.1 многоканального звукового сигнала.
Для дополнительного уменьшения вычислительной сложности, элементы разрешения по частоте звуковых сигналов могут быть сгруппированы вместе в полосы частот, например, согласно частотной шкале Mel. В этом случае, функция G коэффициента усиления может быть определена для каждого элемента разрешения по частоте.
Кроме того, обработка только частот, которые могут, возможно, содержать человеческую речь, например, в пределах диапазона частот от 100 Гц до 8000 Гц, помогает отфильтровать неречевые компоненты.
Варианты осуществления усиления речи удаляют нежелательные неречевые компоненты, которые просачиваются в звуковой сигнал С центрального канала во время процесса повышающего микширования. Дополнительно, это усиливает прямые компоненты, которые просачиваются в другие каналы многоканального звукового сигнала.
Фиг. 6 показывает схему детектора 601 речевой активности устройства 100 обработки сигналов согласно одному варианту осуществления. Детектор 601 речевой активности выполнен с возможностью определения индикатора V речевой активности на основе звукового сигнала L левого канала, звукового сигнала С центрального канала, и звукового сигнала R правого канала, причем индикатор V речевой активности указывает на величину речевого компонента в многоканальном звуковом сигнале с течением времени. Детектор 601 речевой активности содержит вычитатель 603, определитель 605, определитель 607, устройство 609 задержки, устройство 611 задержки, вычитатель 613, вычитатель 615, определитель 617, определитель 619, и определитель 621.
Вычитатель 603 выполнен с возможностью вычитания звукового сигнала R правого канала из звукового сигнала L левого канала для получения остаточного звукового сигнала S. Определитель 605 выполнен с возможностью определения величины звукового сигнала С центрального канала для получения |C(m,k)|, где m обозначает индекс времени выборки, а k обозначает индекс элемента разрешения по частоте. Определитель 607 выполнен с возможностью определения величины остаточного звукового сигнала S для получения |S(m,k)|, где m обозначает индекс времени выборки, а k обозначает индекс элемента разрешения по частоте. Устройство 609 задержки выполнено с возможностью задержки |C(m,k)| на период времени выборки для получения |C(m-1,k)|. Устройство 611 задержки выполнено с возможностью задержки |S(m,k)| на период времени выборки для получения |S(m-1,k)|. Вычитатель 613 выполнен с возможностью вычитания |C(m-1,k)| из |C(m,k)| для получения |C(m,k)| - |C(m-1,k)|. Вычитатель 615 выполнен с возможностью вычитания |S(m-1,k)| из |S(m,k)| для получения |S(m,k)| - |S(m-1,k)|.
Определитель 617 выполнен с возможностью определения меры спектрального изменения FC звукового сигнала С центрального канала, например, спектральной плотности потока, например, на основе квадрата суммы Σ2 по всем элементам разрешения по частоте по |C(m,k)| - |C(m-1,k)|. Определитель 619 выполнен с возможностью определения меры спектрального изменения FS разности между звуковым сигналом L левого канала и звуковым сигналом R правого канала, например, спектральной плотности потока, например, на основе квадрата суммы Σ2 по всем элементам разрешения по частоте по |S(m,k)| - |S(m-1,k)|. Определитель 621 выполнен с возможностью определения индикатора V речевой активности на основе меры спектрального изменения FC и меры спектрального изменения FS, например, на основе отношения FC/(FC+FS).
Детектирование речевой активности содержит процесс временного детектирования и сегментации речи. Целью детектирования речевой активности является детектирование речи в тишине или среди других звуков. Такой подход является желательным почти для любого вида речевой технологии.
Различные другие подходы для детектирования речевой активности могут быть применены в вариантах осуществления настоящего изобретения. Простым подходом является, например, подход на основе энергии. Определение порога энергии может быть использовано для детектирования речи. Обычно, такой подход является эффективным только для речи в тишине. Другие подходы содержат статистические подходы на основе моделей, которые основаны на оценке отношения сигнал-шум (signal-to-noise ratio - SNR) и являются подобными статистическим подходам усиления речи. Подходы на основе параметрических моделей обычно связывают низкоуровневые звуковые признаки с классификатором, таким как модель смеси гауссовских распределений. Возможными звуковыми признаками являются энергия модуляции 4 Гц, частота переходов через нуль, спектральный центроид, или спектральная плотность потока.
В одном варианте осуществления настоящего изобретения, детектирование речевой активности используется, чтобы убедиться в том, что усиливаются только речевые компоненты или компоненты диалогов, а неречевые компоненты остаются неизмененными. Обзор подхода усиления речи приведен на фиг. 6.
Индикатор V речевой активности получают из звукового сигнала С центрального канала и остаточного звукового сигнала S=L - R, поскольку это может быть выполнено в пределах подхода усиления речи. Из этих звуковых сигналов, выделяют спектральную плотность потока. Спектральная плотность потока является мерой временного изменения спектра. Спектральная плотность потока DFT или сигнала X частотной области может быть получена в виде:
Другие подобные определения спектральной плотности потока могут быть также использованы в дополнительных вариантах осуществления настоящего изобретения. Спектральная плотность потока указывает на изменения в спектральном распределении энергии и представляет временную производную по времени. Вместо определения в уравнении (11), где разность определяется по двум последовательным кадрам звукового сигнала, спектральная плотность потока может быть также определена в виде разности по двум последовательным блокам, содержащим многочисленные кадры звукового сигнала. Для звуковых сигналов, имеющих речевые компоненты, ожидаются более высокие значения спектральной плотности потока, по сравнению с музыкой и другими звуками.
В одном варианте осуществления настоящего изобретения, конкретная канальная структура, в которой, например, один канал многоканального звукового сигнала содержит, главным образом, речь, используется для получения независимого от частоты постоянного индикатора V речевой активности. Спектральная плотность FS потока звукового сигнала С центрального канала и спектральная плотность FS потока остаточного звукового сигнала S могут быть, тогда, определены согласно уравнению (11).
Для получения индикатора V речевой активности, который является независимым от любого процесса нормирования, индикатор V речевой активности может быть, например, вычислен в виде:
Это определение индикатора V речевой активности обеспечивает то, что V=0 в случае, когда FC=FS. Наконец, V ограничено интервалом V ϵ [0;1]. Параметр a обозначает заданный коэффициент масштабирования, который управляет динамическим диапазоном V, причем a=4 может быть приемлемым значением для вычисления
Кроме того, индикатор V речевой активности может быть установлен V=0 в случае, когда FC не превышает некоторого порога t. Для получения сглаженной кривой индикатора речевой активности с течением времени, к V может быть применено временное сглаживание.
Подобно подходу усиления речи, подход детектирования речевой активности может быть также выполнен, когда элементы разрешения по частоте сгруппированы в полосы частот, например, согласно частотной шкале Mel. Дополнительно, ограничение рассматриваемых частот диапазоном частот человеческой речи, например, от 100 Гц до 8000 Гц, дополнительно улучшает эффективность.
Результатом подхода детектирования речевой активности является независимое от частоты постоянное решение, которые получают с использованием простого и эффективного алгоритма. Оно может использовать только несколько настраиваемых параметров и может не использовать никакие дополнительные данные, например, для изучения модели. Подход может робастно отличить речь от других звуков, таких как музыка.
Фиг. 7 показывает схему устройства 100 обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале согласно одному варианту осуществления. Схема показывает процесс микширования. Устройство 100 обработки сигналов образует возможную реализацию устройства обработки сигналов, описанного в сочетании с фиг. 1. Устройство 100 обработки сигналов содержит фильтр 101, сумматор 103, и детектор 601 речевой активности.
Фильтр 101 обеспечивает функциональность, описанную в сочетании с фильтром 101 на фиг. 5. Детектор 601 речевой активности обеспечивает функциональность, описанную в сочетании с детектором 601 речевой активности на фиг. 6.
В одном варианте осуществления, сумматор 103 выполнен с возможностью суммирования звукового сигнала L левого канала с взвешенным звуковым сигналом LE левого канала для получения суммарного звукового сигнала LEV левого канала, суммирования звукового сигнала С центрального канала с взвешенным звуковым сигналом CE центрального канала для получения суммарного звукового сигнала CEV центрального канала, и суммирования звукового сигнала R правого канала с взвешенным звуковым сигналом RE правого канала для получения суммарного звукового сигнала REV правого канала. Сумматор содержит устройство 701 суммирования, устройство 703 суммирования, устройство 705 суммирования, устройство 707 взвешивания, устройство 709 взвешивания, устройство 711 взвешивания, и устройство 713 взвешивания.
В одном варианте осуществления, устройство 713 взвешивания выполнено с возможностью взвешивания индикатора V(m) речевой активности посредством заданного коэффициента GS усиления речи для получения взвешенного индикатора VG=GS V(m) речевой активности, где m обозначает индекс времени выборки. Сумматор может содержать дополнительное устройство взвешивания, которое не показано на фигуре, выполненное с возможностью взвешивания звукового сигнала L левого канала, звукового сигнала С центрального канала, и звукового сигнала R правого канала посредством заданного входного коэффициента Gin усиления речи.
Устройство 707 взвешивания выполнено с возможностью взвешивания взвешенного звукового сигнала LE левого канала с взвешенным индикатором VG=GS V(m) речевой активности, и устройство 701 суммирования выполнено с возможностью суммирования результата со звуковым сигналом L левого канала для получения суммарного звукового сигнала LEV левого канала. Устройство 709 взвешивания выполнено с возможностью взвешивания взвешенного звукового сигнала CE центрального канала с взвешенным индикатором VG=GS V(m) речевой активности, и устройство 703 суммирования выполнено с возможностью суммирования результата со звуковым сигналом С центрального канала для получения суммарного звукового сигнала CEV центрального канала. Устройство 711 взвешивания выполнено с возможностью взвешивания взвешенного звукового сигнала RE правого канала с взвешенным индикатором VG=GS V(m) речевой активности, и устройство 705 суммирования выполнено с возможностью суммирования результата со звуковым сигналом R правого канала для получения суммарного звукового сигнала REV правого канала.
В одном варианте осуществления, устройство 713 взвешивания выполнено с возможностью взвешивания взвешенного звукового сигнала LE левого канала, взвешенного звукового сигнала CE центрального канала, и взвешенного звукового сигнала RE правого канала посредством заданного коэффициента GS усиления речи. Сумматор 103 может содержать дополнительное устройство взвешивания, которое не показано на фигуре, выполненное с возможностью взвешивания звукового сигнала L левого канала, звукового сигнала С центрального канала, и звукового сигнала R правого канала посредством заданного входного коэффициента Gin усиления речи.
Заданный коэффициент GS усиления речи может быть также применен в случае, когда детектор 601 речевой активности не используется. Для простоты, устройство 713 взвешивания показано в виде единственного устройства 713 взвешивания на фигуре. В возможной реализации, устройство 713 взвешивания используется три раза, конкретно, между устройством 709 взвешивания и устройством 703 суммирования, между устройством 707 взвешивания и устройством 701 суммирования, и между устройством 711 взвешивания и устройством 705 суммирования. В случае, когда детектор 601 речевой активности не используется, можно предположить, что V=1, и GS может быть использован для модификации V.
Результаты усиления речи и детектирования речевой активности могут быть, таким образом, суммированы для получения оценки чистого звукового сигнала речи. Усиление речи и детектирование речевой активности могут быть выполнены параллельно, как описано. Индикатор V речевой активности может быть взвешен или умножен устройством 713 взвешивания на коэффициент GS усиления речи, где VG=V GS может быть использовано для управления усилением речи. VG может быть суммировано, устройствами 707, 709, 711 взвешивания, мультипликативно, с взвешенными звуковыми сигналами LE, CE, и RE, и результирующие звуковые сигналы могут быть суммированы, устройствами 701, 703, 705 суммирования, с исходными звуковыми сигналами L, C, и R для получения конечных суммарных звуковых сигналов LEV, CEV, и REV устройства 100 обработки сигналов, согласно следующим уравнениям:
где Gin является входным коэффициентом усиления, который применен к исходным звуковым сигналам. Этот коэффициент управляет усилением неречевых компонентов, содержащихся в многоканальном звуковом сигнале. Конкретные комбинации Gin и GS, например, Gin=1 и GS=-1, могут быть использованы для удаления речевого компонента из многоканального звукового сигнала. Подходящими параметрами для усиления речевого компонента могут быть Gin=1, в то время как GS может находиться в диапазоне между 1 и 4. Конечные суммарные звуковые сигналы LEV, CEV, и REV могут быть, затем, преобразованы обратно во временную область и могут быть использованы для создания стереофонического понижающего микширования.
Таким образом, обеспечено малозатратное по вычислительным ресурсам, но, все же, эффективное решение задачи усиления речи или диалогов. Все компоненты могут функционировать в частотной области DFT. По сравнению с простым подходом, где усиливается звуковой сигнал С центрального канала, например, в звуковом сигнале объемного звучания формата 5.1, и усиливаются все звуки в звуковом сигнале С центрального канала, в вариантах осуществления настоящего изобретения усиливаются только речевые компоненты в звуковом сигнале С центрального канала, например, вследствие детектирования речевой активности. Кроме того, варианты осуществления настоящего изобретения также обрабатывают одновременные речевые и неречевые компоненты, причем усиливаются только речевые компоненты, например, вследствие подхода усиления речи.
Тот факт, что не только звуковой сигнал С центрального канала, но и другие звуковые сигналы (например, L и R) обрабатываются с использованием усиления речи и детектирования речевой активности, обеспечивает то, что конечные звуковые сигналы содержат пространственно широкий речевой компонент высокого качества. Это не является случаем, когда обрабатывается только звуковой сигнал С центрального канала. Варианты осуществления настоящего изобретения являются независимыми от конкретного формата кодирования-декодирования, микширования или многоканальных звуковых сигналов, таких как звуковой сигнал объемного звучания формата 5.1, и могут быть распространены на другие конфигурации каналов.
Варианты осуществления настоящего изобретения и, конкретно, варианты осуществления устройства обработки сигналов, могут содержать единственный процессор или множественные процессоры, выполненные с возможностью реализации различных функциональностей устройства и способов, описанных здесь, например, функциональностей фильтра 101, сумматора 103 и/или других блоков или этапов, описанных здесь на основе фиг. 1-7.
В зависимости от некоторых требований к реализациям способов настоящего изобретения, способы настоящего изобретения могут быть реализованы в аппаратном обеспечении или в программном обеспечении или в любой их комбинации.
Реализации могут быть выполнены с использованием цифровой запоминающей среды, конкретно, гибкого диска, диска CD, DVD или Blu-Ray, ROM, PROM, EPROM, EEPROM или флэш-памяти, на которой хранятся электронным образом считываемые управляющие сигналы, которые взаимодействуют или способны взаимодействовать с программируемой вычислительной системой таким образом, чтобы выполнялся вариант осуществления по меньшей мере одного из способов настоящего изобретения.
Дополнительный вариант осуществления настоящего изобретения является, таким образом, компьютерным программным продуктом или содержит компьютерный программный продукт с программным кодом, хранящимся на машиночитаемом носителе, причем программный код выполнен с возможностью выполнения по меньшей мере одного из способов настоящего изобретения при выполнении компьютерного программного продукта на компьютере.
Другими словами, варианты осуществления способов настоящего изобретения являются, таким образом, компьютерной программой, или содержат компьютерную программу, имеющую программный код для выполнения по меньшей мере одного из способов настоящего изобретения при выполнении компьютерной программы на компьютере, процессоре и т.п.
Дополнительный вариант осуществления настоящего изобретения является машиночитаемой цифровой запоминающей средой или содержит машиночитаемую цифровую запоминающую среду, содержащую хранящуюся на ней компьютерную программу, причем компьютерная программа выполнена с возможностью выполнения по меньшей мере одного из способов настоящего изобретения при выполнении компьютерного программного продукта на компьютере, процессоре и т.п.
Дополнительный вариант осуществления настоящего изобретения является, таким образом, потоком данных или последовательностью сигналов, или содержит поток данных или последовательность сигналов, представляющих компьютерную программу, выполненную с возможностью выполнения по меньшей мере одного из способов настоящего изобретения при выполнении компьютерного программного продукта на компьютере, процессоре и т.п.
Дополнительный вариант осуществления настоящего изобретения является, таким образом, компьютером, процессором или любым другим программируемым логическим устройством, или содержит компьютер, процессор или любое другое логическое устройство, выполненные с возможностью выполнения по меньшей мере одного из способов настоящего изобретения.
Дополнительный вариант осуществления настоящего изобретения является компьютером, процессором или любым другим программируемым логическим устройством, или содержит компьютер, процессор или любое другое логическое устройство, имеющие хранящуюся на них компьютерную программу, выполненную с возможностью выполнения по меньшей мере одного из способов настоящего изобретения при выполнении компьютерного программного продукта на компьютере, процессоре или любом другом программируемом логическом устройстве, например, матрице программируемых логических вентилей (Field Programmable Gate Array - FPGA) или специализированной интегральной схеме (Application Specific Integrated Circuit - ASIC).
В то время как приведенное выше было конкретно показано и описано со ссылкой на конкретные варианты осуществления этого, специалистам в данной области техники следует понимать, что могут быть выполнены различные другие изменения в форме и деталях, не выходя за рамки их сущности и объема. Таким образом, следует понимать, что могут быть выполнены различные изменения для адаптации к разным вариантам осуществления, не выходя за рамки более широкой идеи настоящего изобретения, раскрытой здесь и определяемой нижеследующей формулой изобретения.
Изобретение относится к средствам для обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале. Технический результат заключается в повышении эффективности усиления речевого компонента в многоканальном звуковом сигнале. Определяют меру, представляющую общую величину многоканального звукового сигнала по частоте, на основе звукового сигнала левого канала, звукового сигнала центрального канала, и звукового сигнала правого канала. Получают функцию коэффициента усиления на основе соотношения между мерой величины звукового сигнала центрального канала и мерой, представляющей общую величину многоканального звукового сигнала. Взвешивают звуковой сигнал левого канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала левого канала. Взвешивают звуковой сигнал центрального канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала центрального канала. Взвешивают звуковой сигнала правого канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала правого канала. 2 н. и 12 з.п. ф-лы, 7 ил.
1. Устройство обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале, причем многоканальный звуковой сигнал содержит звуковой сигнал левого канала, звуковой сигнал центрального канала и звуковой сигнал правого канала, причем устройство обработки сигналов содержит фильтр и сумматор,
причем фильтр выполнен с возможностью
определения меры, представляющей общую величину многоканального звукового сигнала по частоте, на основе звукового сигнала левого канала, звукового сигнала центрального канала и звукового сигнала правого канала,
получения функции коэффициента усиления на основе соотношения между мерой величины звукового сигнала центрального канала и мерой, представляющей общую величину многоканального звукового сигнала, и
взвешивания звукового сигнала левого канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала левого канала, взвешивания звукового сигнала центрального канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала центрального канала и взвешивания звукового сигнала правого канала посредством функции коэффициента усиления для получения взвешенного звукового сигнала правого канала; и
причем, сумматор выполнен с возможностью
суммирования звукового сигнала левого канала с взвешенным звуковым сигналом левого канала для получения суммарного звукового сигнала левого канала, суммирования звукового сигнала центрального канала с взвешенным звуковым сигналом центрального канала для получения суммарного звукового сигнала центрального канала, и суммирования звукового сигнала правого канала с взвешенным звуковым сигналом правого канала для получения суммарного звукового сигнала правого канала.
2. Устройство обработки сигналов по п. 1, в котором фильтр выполнен с возможностью определения меры, представляющей общую величину многоканального звукового сигнала, в виде суммы меры величины звукового сигнала центрального канала и меры величины разности звукового сигнала левого канала и звукового сигнала правого канала.
3. Устройство обработки сигналов по п. 1, в котором фильтр выполнен с возможностью определения функции коэффициента усиления согласно следующим уравнениям:
где G обозначает функцию коэффициента усиления, L обозначает звуковой сигнал левого канала, C обозначает звуковой сигнал центрального канала, R обозначает звуковой сигнал правого канала, PC обозначает мощность звукового сигнала центрального канала в качестве меры, представляющей величину звукового сигнала центрального канала, PS обозначает мощность разности между звуковым сигналом левого канала и звуковым сигналом правого канала, и сумма PC и PS обозначает меру, представляющую общую величину многоканального звукового сигнала, m обозначает индекс времени выборки, и k обозначает индекс элемента разрешения по частоте.
4. Устройство обработки сигналов по п. 1, в котором многоканальный звуковой сигнал дополнительно содержит звуковой сигнал левого канала объемного звучания и звуковой сигнал правого канала объемного звучания,
причем фильтр выполнен с возможностью
определения меры, представляющей общую величину многоканального звукового сигнала по частоте, дополнительно, на основе звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания, и
определения меры, представляющей общую величину многоканального звукового сигнала, в виде суммы меры величины звукового сигнала центрального канала, меры величины разности звукового сигнала левого канала и звукового сигнала правого канала, и меры величины разности звукового сигнала левого канала объемного звучания и звукового сигнала правого канала объемного звучания.
5. Устройство обработки сигналов по п. 1, дополнительно содержащее
детектор речевой активности, выполненный с возможностью определения индикатора речевой активности на основе звукового сигнала левого канала, звукового сигнала центрального канала и звукового сигнала правого канала, причем индикатор речевой активности указывает на величину речевого компонента в многоканальном звуковом сигнале с течением времени,
причем сумматор дополнительно выполнен с возможностью суммирования взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала левого канала, суммирования взвешенного звукового сигнала центрального канала с индикатором речевой активности для получения суммарного звукового сигнала центрального канала, и суммирования взвешенного звукового сигнала правого канала с индикатором речевой активности для получения суммарного звукового сигнала правого канала.
6. Устройство обработки сигналов по п. 5, в котором детектор речевой активности выполнен с возможностью
определения меры, представляющей общее спектральное изменение многоканального звукового сигнала, на основе звукового сигнала левого канала, звукового сигнала центрального канала и звукового сигнала правого канала, и
получения индикатора речевой активности на основе соотношения между мерой спектрального изменения звукового сигнала центрального канала и мерой, представляющей общее спектральное изменение многоканального звукового сигнала.
7. Устройство (100) обработки сигналов по п. 6, в котором детектор речевой активности выполнен с возможностью определения индикатора речевой активности согласно следующему уравнению:
где V обозначает индикатор речевой активности, FC обозначает меру спектрального изменения звукового сигнала центрального канала, FS обозначает меру спектрального изменения разности между звуковым сигналом левого канала и звуковым сигналом правого канала, и сумма FC и FS обозначает меру, представляющую общее спектральное изменение многоканального звукового сигнала, и a обозначает заданный коэффициент масштабирования.
8. Устройство обработки сигналов по п. 7, в котором детектор речевой активности выполнен с возможностью определения меры спектрального изменения звукового сигнала центрального канала, в виде спектральной плотности потока, и меры спектрального изменения разности между звуковым сигналом левого канала и звуковым сигналом правого канала, в виде спектральной плотности потока, согласно следующим уравнениям:
где FC обозначает спектральную плотность потока звукового сигнала центрального канала, FS обозначает спектральную плотность потока разности между звуковым сигналом левого канала и звуковым сигналом правого канала, C обозначает звуковой сигнал центрального канала, S обозначает разность между звуковым сигналом левого канала и звуковым сигналом правого канала, m обозначает индекс времени выборки, и k обозначает индекс элемента разрешения по частоте.
9. Устройство обработки сигналов по пунктам 5-8, в котором детектор речевой активности выполнен с возможностью фильтрации индикатора речевой активности во времени на основе заданной функции фильтрации низких частот.
10. Устройство обработки сигналов по п. 1, в котором сумматор дополнительно выполнен с возможностью взвешивания звукового сигнала левого канала, звукового сигнала центрального канала и звукового сигнала правого канала посредством заданного входного коэффициента (Gin) усиления, и взвешивания индикатора речевой активности посредством заданного коэффициента (GS) усиления речи.
11. Устройство обработки сигналов по п. 1, в котором сумматор выполнен с возможностью суммирования звукового сигнала левого канала с комбинацией взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала левого канала, суммирования звукового сигнала центрального канала с комбинацией взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала центрального канала и суммирования звукового сигнала правого канала с комбинацией взвешенного звукового сигнала левого канала с индикатором речевой активности для получения суммарного звукового сигнала правого канала.
12. Устройство обработки сигналов по п. 1, дополнительно содержащее:
устройство повышающего микширования, выполненное с возможностью определения звукового сигнала левого канала, звукового сигнала центрального канала и звукового сигнала правого канала на основе входного стереофонического звукового сигнала (Lin) левого канала и входного стереофонического звукового сигнала (Rin) правого канала, и/или
устройство понижающего микширования, выполненное с возможностью определения выходного стереофонического звукового сигнала (Lout) левого канала и выходного стереофонического звукового сигнала (Rout) правого канала на основе суммарного звукового сигнала левого канала, суммарного звукового сигнала центрального канала и суммарного звукового сигнала правого канала.
13. Устройство обработки сигналов по п. 1, в котором мера величины содержит мощность, логарифмическую мощность, величину или логарифмическую величину сигнала.
14. Способ обработки сигналов для усиления речевого компонента в многоканальном звуковом сигнале, причем многоканальный звуковой сигнал содержит звуковой сигнал левого канала, звуковой сигнал центрального канала и звуковой сигнал правого канала, причем способ обработки сигналов содержит:
определение меры, представляющей общую величину многоканального звукового сигнала по частоте, на основе звукового сигнала левого канала, звукового сигнала центрального канала и звукового сигнала правого канала,
получение функции (G) коэффициента усиления на основе соотношения между мерой величины звукового сигнала центрального канала и мерой, представляющей общую величину многоканального звукового сигнала,
взвешивание звукового сигнала левого канала посредством функции (G) коэффициента усиления для получения взвешенного звукового сигнала левого канала,
взвешивание звукового сигнала центрального канала посредством функции (G) коэффициента усиления для получения взвешенного звукового сигнала центрального канала,
взвешивание звукового сигнала правого канала посредством функции (G) коэффициента усиления для получения взвешенного звукового сигнала правого канала,
суммирование звукового сигнала левого канала с взвешенным звуковым сигналом левого канала для получения суммарного звукового сигнала левого канала,
суммирование звукового сигнала центрального канала с взвешенным звуковым сигналом центрального канала для получения суммарного звукового сигнала центрального канала, и
суммирование звукового сигнала правого канала с взвешенным звуковым сигналом правого канала для получения суммарного звукового сигнала правого канала.
Колосоуборка | 1923 |
|
SU2009A1 |
Способ и приспособление для нагревания хлебопекарных камер | 1923 |
|
SU2003A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
Способ защиты переносных электрических установок от опасностей, связанных с заземлением одной из фаз | 1924 |
|
SU2014A1 |
CN 104134444 A, 05.11.2014 | |||
СИНТЕЗИРОВАНИЕ МОНОФОНИЧЕСКОГО ЗВУКОВОГО СИГНАЛА НА ОСНОВЕ КОДИРОВАННОГО МНОГОКАНАЛЬНОГО ЗВУКОВОГО СИГНАЛА | 2004 |
|
RU2381571C2 |
СПОСОБ И СИСТЕМА ДЛЯ МАСШТАБИРОВАНИЯ ПОДАВЛЕНИЯ СЛАБОГО СИГНАЛА БОЛЕЕ СИЛЬНЫМ В ОТНОСЯЩИХСЯ К РЕЧИ КАНАЛАХ МНОГОКАНАЛЬНОГО ЗВУКОВОГО СИГНАЛА | 2011 |
|
RU2520420C2 |
Авторы
Даты
2018-11-26—Публикация
2014-12-12—Подача