Перекрестные ссылки на родственные заявки
[0001] По настоящей заявке испрашивается приоритет на основании предварительной заявки на патент США № 63/153,522, поданной 25 февраля 2021 г., и предварительной заявки на патент США № 62/993,136, поданной 23 марта 2020 г., обе из которых включены в данный документ путем ссылки.
Область техники, к которой относится изобретение
[0002] Настоящее изобретение относится к обработке аудиоданных и, в частности, к обнаружению одновременного разговора.
Уровень техники
[0003] Если в данном документе не указано иное, подходы, описанные в этом разделе, не представляют собой уровень техники по отношению к формуле изобретения в данной заявке, и их включение в данный раздел не означает их признание уровнем техники.
[0004] Устройство связи, такое как система проведения аудиоконференций в общем случае включает в себя и громкоговоритель и микрофон. Две стороны в связи могут называться «стороной на ближнем конце» и «стороной на дальнем конце». Сторона на ближнем конце является ближайшей к первому устройству связи, и сторона на дальнем конце находится в местоположении, отличном от местоположения стороны на ближнем конце, и обменивается данными с использованием второго устройства связи через сеть проводной или беспроводной связи. Микрофон устройства на ближнем конце захватывает не только речь стороны на ближнем конце, но и также может захватывать речь стороны на дальнем конце, которая выведена из громкоговорителя на ближнем конце. Выходной сигнал из громкоговорителя, который захватывается посредством микрофона в общем случае называется «эхо-сигналом». Устройство связи на ближнем конце в общем случае включает в себя систему регулирования эхо для уменьшения эхо-сигнала до передачи аудио, захваченного на ближнем конце, в дальний конец.
[0005] Термин «одновременный разговор» в общем используется для описания ситуации, когда обе стороны в разговоре разговаривают одновременно. Обе стороны считают одновременный разговор раздражающим, и в общем случае одна из них должна прекращать разговор. Должно быть преимущественным иметь устройство, которое может откликаться надлежащим образом, если происходит одновременный разговор, чтобы повысить качество связи, за счет этого улучшая пользовательское восприятие.
Раскрытие изобретения
[0006] Когда происходит одновременный разговор, желательно передавать речь на ближнем конце в дальний конец без выполнения сильного эхоподавления или вообще без него, чтобы обеспечить на дальнем конце слышимое указание на то, что происходит одновременный разговор. Устройство связи на ближнем конце может включать в себя детектор одновременного разговора для обнаружения одновременного разговора и, в свою очередь, для управления системой регулирования эхо таким образом, чтобы не выполнять слишком сильное ослабление.
[0007] Одна проблема существующих систем обнаружения одновременного разговора заключается в том, что нестационарный характер голосовых сигналов приводит к высокой частоте ложноположительных суждений при обнаружении одновременного разговора. Кроме того, для устройств связи, таких как портативные компьютеры, в которых громкоговоритель находится в непосредственной близости к микрофону, система регулирования эхо по умолчанию должна выполнять большее ослабление, так что обнаружение ложноположительного суждения в отношении одновременного разговора становится еще более нежелательным в разговоре. С учетом вышеизложенного, существует потребность в том, чтобы улучшать обнаружение одновременного разговора, в частности, для устройств, в которых громкоговоритель находится в непосредственной близости к микрофону.
[0008] Согласно варианту осуществления, реализуемый компьютером способ обработки аудиоданных включает в себя прием первого аудиосигнала, при этом первый аудиосигнал имеет первую частоту дискретизации. Способ дополнительно включает в себя повышающую дискретизацию первого аудиосигнала, чтобы формировать второй аудиосигнал, при этом второй аудиосигнал имеет вторую частоту дискретизации, которая больше первой частоты дискретизации. Способ дополнительно включает в себя вывод посредством громкоговорителя выходного сигнала громкоговорителя, соответствующего второму аудиосигналу. Способ дополнительно включает в себя захват, посредством микрофона, третьего аудиосигнала, при этом третий аудиосигнал имеет третью частоту дискретизации, которая больше первой частоты дискретизации. Способ дополнительно включает в себя определение мощности сигнала для третьего аудиосигнала. Способ дополнительно включает в себя обнаружение одновременного разговора, когда имеется мощность сигнала для третьего аудиосигнала, определенная в полосе частот, большей первой частоты дискретизации.
[0009] Способ дополнительно может включать в себя формирование по выбору управляющего сигнала, если обнаружен одновременный разговор, и выполнение регулирования эхо для третьего аудиосигнала согласно управляющему сигналу.
[0010] Определение мощности сигнала для третьего аудиосигнала и обнаружение одновременного разговора могут включать в себя измерение мощности сигнала для третьего аудиосигнала в полосе частот, большей первой частоты дискретизации; отслеживание мощности фонового шума третьего аудиосигнала в полосе частот, большей первой частоты дискретизации; и обнаружение одновременного разговора как результат сравнения мощности сигнала для третьего аудиосигнала в полосе частот, большей первой частоты дискретизации, и мощности фонового шума третьего аудиосигнала в полосе частот, большей первой частоты дискретизации.
[0011] Согласно другому варианту осуществления, устройство включает в себя громкоговоритель, микрофон и процессор. Процессор выполнен с возможностью управления устройством для реализации одного или более способов, описанных в данном документе. Устройство дополнительно может включать в себя подробности, аналогичные подробностям одного или более способов, описанных в данном документе.
[0012] Согласно другому варианту осуществления, постоянный машиночитаемый носитель сохраняет компьютерную программу, которая, при выполнении посредством процессора, управляет устройством для выполнения обработки, включающую в себя один или более способов, описанных в данном документе.
[0013] Нижеприведенное подробное описание и сопровождающие чертежи обеспечивают дополнительное понимание характера и преимуществ различных реализаций.
Краткое описание чертежей
[0014] Фиг. 1 является блок-схемой системы 100 обработки аудиоданных.
[0015] Фиг. 2 является блок-схемой, показывающей дополнительные подробности системы 201 аудиокодека (см. фиг. 1).
[0016] Фиг. 3A-3B являются графиками, показывающими спектр мощности дискретизированного с повышением сигнала 210 и захваченного аудиосигнала 211 в двух ситуациях.
[0017] Фиг. 4 является блок-схемой, показывающей дополнительные подробности детектора 401 одновременного разговора (см. также фиг. 1-2).
[0018] Фиг. 5 является блок-схемой детектора 501 одновременного разговора.
[0019] Фиг. 6 является архитектурой 600 мобильного устройства для реализации признаков и процессов, описанных в данном документе, согласно варианту осуществления.
[0020] Фиг. 7 является блок-схемой способа 700 обработки аудиоданных.
Осуществление изобретения
[0021] В данном документе описаны технологии, связанные с обнаружением одновременного разговора. В нижеприведенном описании, для целей пояснения, поясняются множество примеров и конкретных подробностей для обеспечения полного понимания настоящего изобретения. Тем не менее, специалистам в данной области техники должно быть очевидным, что настоящее изобретение, определяемое формулой изобретения, может включать в себя некоторые или все признаки этих примеров по отдельности или в сочетании с другими признаками, описанными ниже, и дополнительно может включать в себя модификации и эквиваленты признаков и концепций, описанных в данном документе.
[0022] В нижеприведенном описании, подробно указываются различные способы, процессы и процедуры. Хотя конкретные этапы могут быть описаны в определенном порядке, такой порядок служит главным образом для удобства и ясности. Конкретный этап может повторяться множество раз, может происходить до или после других этапов (даже если эти этапы в иных случаях описаны в другом порядке) и может происходить параллельно с другими этапами. Второй этап должен выполняться после первого этапа только тогда, когда первый этап должен завершаться до того, как второй этап начинается. Эта ситуация должна конкретно указываться в случае, если она не является очевидной из контекста.
[0023] В этом документе используются термины «и», «или» и «и/или». Такие термины следует читать как имеющие неисключающее значение. Например, «A и B» может означать по меньшей мере следующее: «как A, так и B», «по меньшей мере как A, так и B». В качестве другого примера, «A или B» может означать по меньшей мере следующее: «по меньшей мере A», «по меньшей мере B», «как A, так и B», «по меньшей мере как A, так и B». В качестве другого примера, «A и/или B» может означать по меньшей мере следующее: «A и B», «A или B». Если подразумевается «исключающее ИЛИ», это будет конкретно указано (например, «либо A, либо B», «самое большее, одно из A и B»).
[0024] Данный документ описывает различные функции обработки, которые ассоциированы с такими структурами, как блоки, элементы, компоненты, схемы и т.д. В общем случае, эти структуры могут быть реализованы посредством процессора, который управляется одной или более компьютерными программами.
[0025] Фиг. 1 является блок-схемой системы 100 обработки аудиоданных. Система 100 обработки аудиоданных может быть реализована в различных устройствах, таких как портативные компьютеры, мобильные телефоны, спикерфоны, системы для аудиоконференций, системы для видеоконференций и т.д. Например, система 100 обработки аудиоданных может быть реализована в портативном компьютере с различными компонентами, реализованными посредством компьютерных программ, которые выполняет портативный компьютер. Система 100 обработки аудиоданных включает в себя приложение 102 связи, систему 103 аудиодрайверов, систему 201 аудиокодека, громкоговоритель 106 и микрофон 108. Система 100 обработки аудиоданных может включать в себя другие компоненты, которые (для краткости) не поясняются подробно.
[0026] Приложение 102 связи в общем случае управляет аудиовводами и выводами устройства, которое реализует систему 100 обработки аудиоданных. Например, когда устройство реализации представляет собой портативный компьютер, приложение 102 связи может представляет собой компьютерную программу, такую как приложение Microsoft Skype™, приложение Microsoft Teams™, приложение Zoom™ и т.д. Приложение 102 связи обменивается данными с сетью (не показана), чтобы принимать аудио из удаленных устройств (также называются «устройствами на дальнем конце») для вывода системой 100 обработки аудиоданных (также называется «устройством на ближнем конце») и передавать аудио, захваченное системой 100 обработки аудиоданных, в удаленные устройства. Аудио, принимаемое из сети для вывода на ближнем конце, называется «аудиосигналом 120 воспроизведения», и аудио, передаваемое в сеть для вывода на дальнем конце, называется «захваченным аудиосигналом 122».
[0027] Система 103 аудиодрайверов в общем выполняет обработку аудиоданных для сигналов, которые она принимает, и формирует обработанные аудиосигналы. Система 103 аудиодрайверов принимает аудиосигнал 120 воспроизведения и формирует аудиосигнал 124 воспроизведения; и принимает захваченный аудиосигнал 126 и формирует захваченный аудиосигнал 122. Приложение 102 связи может разгружать различные процессы обработки аудиоданных в систему 103 аудиодрайверов, и система 103 аудиодрайверов может представлять собой компонент приложения 102 связи. Система 103 аудиодрайверов может называться «стеком воспроизведения/захвата», «объектом обработки аудиоданных (APO)» и т.д. Пример системы 103 аудиодрайверов представляет собой систему связи Dolby Voice™. Система 103 аудиодрайверов передает аудиосигнал 124 воспроизведения в систему 201 аудиокодека и принимает захваченный аудиосигнал 126 из системы 201 аудиокодека.
[0028] Система 103 аудиодрайверов включает в себя различные модули обработки, включающие в себя систему 130 регулирования эхо. Система 130 регулирования эхо в общем случае обеспечивает ослабление эхо-сигнала голоса на дальнем конце, выводимого из громкоговорителя 106 и захваченного посредством микрофона 108, при сохранении голоса на ближнем конце, захваченного посредством микрофона 108. Система 130 регулирования эхо включает в себя модуль 132 компенсации эхо, модуль 134 подавления эхо и детектор 401 одновременного разговора.
[0029] Модуль 132 компенсации эхо в общем случае выполняет компенсацию эхо для захваченного аудиосигнала 126. Компенсация эхо также может называться «акустической компенсацией эхо». В общем случае, компенсация эхо применяет линейное ослабление к сигналу. Модуль компенсации эхо может быть реализован с адаптивным фильтром. Адаптивный фильтр моделирует отклик в помещении комбинированной системы громкоговорителя 106 и микрофона 108. Модуль 132 компенсации эхо типично может применять вплоть до 20-25 дБ ослабления к захваченному аудиосигналу 126.
[0030] Модуль 134 подавления эхо в общем случае выполняет подавление эхо для захваченного аудиосигнала 126. В общем, подавление эхо применяет нелинейное ослабление к сигналу. Нелинейное ослабление может выполняться на основе полос частот мощности, и модуль 134 подавления эхо может применять различные подавления к различным полосам частот. Если модуль 134 подавления эхо обнаруживает эхо-сигнал в конкретных полосах частот, модуль 134 подавления эхо применяет подавление к этим конкретным полосам частот. Модуль 134 подавления эхо типично может применять к захваченному аудиосигналу 126 ослабление до 20-25 дБ.
[0031] Детектор 401 одновременного разговора в общем случае формирует управляющий сигнал 410 для управления модулем 132 компенсации эхо и модулем 134 подавления эхо. Одновременный разговор в общем случае означает микрофон 108, захватывающий аудио (на ближнем конце) одновременно с громкоговорителем 106, выводящим аудио (принимаемое из дальнего конца). Когда отсутствует одновременный разговор, захваченный аудиосигнал 126 включает в себя только эхо-сигнал речи на дальнем конце, выводимой посредством громкоговорителя 106, и управляющий сигнал 410 управляет системой 130 регулирования эхо для выполнения ослабления, чтобы уменьшить величину эхо-сигнала в захваченном аудиосигнале 122, передаваемом в дальний конец. Если происходит одновременный разговор, захваченный аудиосигнал 126 включает в себя и эхо-сигнал речи на дальнем конце и на ближнем конце, захваченной посредством микрофона 108, и управляющий сигнал 410, управляет модулем 134 подавления эхо для выполнения незначительного (либо невыполнения) ослабления при формировании захваченного аудиосигнала 122, передаваемого в дальний конец; управляющий сигнал 410 также может управлять модулем 132 компенсации эхо для прекращения обновления адаптивного фильтра, чтобы уменьшить неправильную адаптацию вследствие одновременного разговора. Ниже приведены дополнительные подробности детектора 401 одновременного разговора с обращением к фиг. 4.
[0032] Система 201 аудиокодека в общем случае выполняет аналого-цифровое и цифро-аналоговое преобразование для сигналов, которые она принимает. Система 201 аудиокодека также выполняет повышающую дискретизацию и понижающую дискретизацию, как подробнее указано ниже с обращением к фиг. 2. Система 201 аудиокодека принимает аудиосигнал 124 воспроизведения, выполняет цифро-аналоговое преобразование и формирует аудиосигнал 140 воспроизведения. Система 201 аудиокодека принимает захваченный аудиосигнал 142, выполняет аналого-цифровое преобразование и формирует захваченный аудиосигнал 126. Система 201 аудиокодека передает аудиосигнал 140 воспроизведения в громкоговоритель 106 и принимает захваченный аудиосигнал 142 из микрофона 108. Ниже приведены дополнительные подробности системы 201 аудиокодека с обращением к фиг. 2.
[0033] Громкоговоритель 106 в общем случае выводит звук, соответствующий аудиосигналу 140 воспроизведения.
[0034] Микрофон 108 в общем случае захватывает звук в окружении, в котором присутствует устройство, которое реализует систему 100 обработки аудиоданных, и формирует захваченный аудиосигнал 142. Захваченный звук включает в себя не только требуемый звук (например, речь людей, говорящих в окружении на ближнем конце), но также и звук, выводимый из громкоговорителя 106, который называется «эхо-сигналом». Одна цель системы 130 эхоуправления состоит в том, чтобы в общем уменьшить (либо обеспечить ослабление или удалить) эхо-сигнал из захваченного аудиосигнала 142, при соответствующих обстоятельствах.
[0035] Система 130 регулирования эхо в общем случае может работать в трех ситуациях, на основе присутствия комбинаций одного или обеих из речи на дальнем конце и речи на ближнем конце. (Термин «речь» используется, поскольку речь в общем случае представляет собой интересующий сигнал; тем не менее, сигналы, захваченные на ближнем конце и на дальнем конце в общем случае должны включать в себя речь и другое неречевое аудио, такое как музыка, шум окружающей среды и т.д., при этом термин «речь» не имеет намерение исключать неречевое аудио). Когда имеется речь, выводимая на дальнем конце посредством громкоговорителя 106, и отсутствует речь на ближнем конце, микрофон 108 захватывает только эхо-сигнал речи на дальнем конце, так что система 130 регулирования эхо выполняет регулирование эхо, чтобы компенсировать речь на дальнем конце из захваченного аудиосигнала 126 при формировании захваченного аудиосигнала 122 (например, большой объем ослабления). Когда имеется как речь, выводимая на дальнем конце посредством громкоговорителя 106, так и речь на ближнем конце, микрофон 108 захватывает эхо-сигнал как речи на дальнем конце, так и речи на ближнем конце («одновременный разговор»), так что система 130 регулирования эхо работает в соответствии с управляющим сигналом 410. Когда отсутствует речь на дальнем конце, микрофон 108 захватывает только речь на ближнем конце, так что система 130 регулирования эхо выполняет минимальное ослабление (либо не выполняет его). Таким образом, управляющий сигнал 410 помогает системе 130 регулирования эхо различать три ситуации.
[0036] В общих словах, система 130 регулирования эхо в общем случае работает с возможностью компенсации речи на дальнем конце из захваченного аудиосигнала 126, оставляя речь на ближнем конце, при формировании захваченного аудиосигнала 122. Детектор 401 одновременного разговора в общем случае управляет системой 130 регулирования эхо таким образом, чтобы не допустить применения активного ослабления, если имеется речь на ближнем конце и отсутствует речь на дальнем конце. Например, в идеальной ситуации модуль 134 подавления эхо выполняет минимальное ослабление (либо не выполняет его), если имеется речь на ближнем конце.
[0037] Величина эхо-сигнала, присутствующего в захваченном аудиосигнале 142, может варьироваться в зависимости от физических атрибутов устройства, которое реализует систему 100 обработки аудиоданных. Например, для портативного устройства физическое разделение между громкоговорителем и микрофоном 108 может обеспечивать лишь приблизительно 10 дБ для ослабления сигнала. В телекоммуникационных системах с точки зрения пользовательского восприятия в общем случае предпочтительным является от 45 до 55 дБ для компенсации эхо и подавления эхо, так что система 130 регулирования эхо в общем случае работает с возможностью обеспечения еще 35-45 дБ для компенсации эхо и подавления эхо.
[0038] Фиг. 2 является блок-схемой, показывающей дополнительные подробности системы 201 аудиокодека (см. фиг. 1). Система 201 аудиокодека включает в себя модуль 220 повышающей дискретизации, преобразователь 222 сигналов и модуль 224 понижающей дискретизации. Другие компоненты, показанные на фиг. 2, являются аналогичными компонентам, описанным выше с обращением к фиг. 1 (например, системе 103 аудиодрайверов, громкоговорителю 106, микрофону 108, детектору 401 одновременного разговора и т.д.), которые имеют аналогичные ссылочные позиции. Система 201 аудиокодека может включать в себя дополнительные компоненты, которые (для краткости) не поясняются подробно.
[0039] Модуль 220 повышающей дискретизации принимает аудиосигнал 212 воспроизведения, выполняет повышающую дискретизацию и формирует дискретизированный с повышением сигнал 210. Аудиосигнал 212 воспроизведения в общем случае соответствует аудиосигналу 124 воспроизведения, обеспечиваемому системой 103 аудиодрайверов (см. фиг. 1). Повышающая дискретизация в общем случае означает преобразование сигнала на данной частоте дискретизации в более высокую частоту дискретизации. Например, аудиосигнал 212 воспроизведения может иметь частоту дискретизации в 8 кГц (например, для телефонного соединения), в 16 кГц (например, аудиосигнал Microsoft Teams™), в 24 кГц (например, аудиосигнал Zoom™) и т.д.; и дискретизированный с повышением сигнал 210 может иметь частоту дискретизации в 16 кГц (например, 2x сигнал в 8 кГц и т.д.), в 32 кГц (например, 4x сигнал в 8 кГц, 2x сигнал в 16 кГц, 1,333x сигнал в 24 кГц и т.д.), в 48 кГц (6x сигнал в 8 кГц, 4x сигнал в 16 кГц, 2x сигнал в 24 кГц и т.д.) и т.д. Более низкая частота дискретизации может называться "fs0", и более высокая частота дискретизации может называться "fs1".
[0040] Преобразователь 222 сигналов в общем случае выполняет аналого-цифровое и цифро-аналоговое преобразование для сигналов. Преобразователь 222 сигналов принимает дискретизированный с повышением сигнал 210, выполняет цифро-аналоговое преобразование и формирует аудиосигнал 140 воспроизведения для вывода посредством громкоговорителя 106. Преобразователь 222 сигналов принимает захваченный аудиосигнал 142, захваченный посредством микрофона 108, выполняет аналого-цифровое преобразование и формирует захваченный аудиосигнал 211. Преобразователь 222 сигналов в общем случае выполняет преобразование на более высокой частоте дискретизации (например, 48 кГц, соответствующей fs1, которая выше более низкой частоты дискретизации в fs0 аудиосигнала 212 воспроизведения), так что захваченный аудиосигнал 211 также имеет более высокую частоту дискретизации (например, 48 кГц).
[0041] Модуль 224 понижающей дискретизации принимает захваченный аудиосигнал 211, выполняет понижающую дискретизацию и формирует дискретизированный с понижением сигнал 213. Дискретизированный с понижением сигнал 213, в общем случае, соответствует захваченному аудиосигналу 126, введенному в систему 103 аудиодрайверов (см. фиг. 1). Понижающая дискретизация в общем случае означает преобразование сигнала на данной частоте дискретизации в более низкую частоту дискретизации. Например, захваченный аудиосигнал 211 может иметь частоту дискретизации в 8 кГц (например, для телефонного соединения), в 16 кГц (например, аудиосигнал Microsoft Teams™), в 24 кГц (например, в аудиосигнал Zoom™) и т.д. В общем, дискретизированный с понижением сигнал 213 и аудиосигнал 212 воспроизведения должны иметь одинаковую частоту дискретизации.
[0042] Детектор 401 одновременного разговора принимает захваченный аудиосигнал 211 из системы 201 аудиокодека. Следовательно, захваченный аудиосигнал 126 по фиг. 1 соответствует как захваченному аудиосигналу 211, так и дискретизированному с понижением сигналу 213.
[0043] При необходимости, детектор 401 одновременного разговора также может принимать аудиосигнал 212 воспроизведения, который система 103 аудиодрайверов вводит в систему 201 аудиокодека. Эта конфигурация при необходимости подробнее поясняется ниже с обращением к фиг. 5.
[0044] Поскольку дискретизированный с повышением сигнал 210, который вводится в громкоговоритель 106 для вывода, получается в результате повышающей дискретизации аудиосигнала 212 воспроизведения, в эхо-сигнале дискретизированного с повышением сигнала 210, захваченного посредством микрофона 108, отсутствует энергия сигналов на частотах выше половины частоты дискретизации аудиосигнала 212 воспроизведения, как подробнее указано с обращением к фиг. 3A-3B.
[0045] Фиг. 3A-3B являются графиками, показывающими спектр мощности дискретизированного с повышением сигнала 210 и захваченного аудиосигнала 211 в двух ситуациях. Фиг. 3A показывает спектр мощности, когда микрофон 108 захватывает только речь на дальнем конце, которая выведена посредством громкоговорителя 106 (см. фиг. 1-2), без захваченной речи на ближнем конце. Фиг. 3B показывает спектр мощности, когда микрофон 108 захватывает как речь на дальнем конце, которая выведена посредством громкоговорителя 106 (см. фиг. 1-2), так и речь на ближнем конце. Эти две ситуации иллюстрируют то, что когда микрофон 108 захватывает сигнал, система 100 обработки аудиоданных должна определять, происходит ли одновременный разговор (причем в этом случае она должна применять минимальное ослабление), или одновременный разговор не происходит (причем в этом случае она должна применять относительно большой объем ослабления вследствие эхо-сигнала сигнала на дальнем конце).
[0046] На фиг. 3A, ось Y является мощностью сигнала, и ось X является частотой. Показанные частоты составляют 1/2 fs0 и 1/2 fs1, поскольку согласно теореме дискретизации Найквиста-Шеннона, данная частота S дискретизации обеспечивает возможность точного восстановления сигнала с максимальной частотой, присутствующей в сигнале, в 1/2 S. Например, fs0 может составлять 24 кГц, и fs1 может составлять 48 кГц, причем в этом случае 1/2 fs0 составляет 12 кГц, и 1/2 fs1 составляет 24 кГц. Когда микрофон 108 захватывает только речь на дальнем конце, которая выведена посредством громкоговорителя 106, без захваченной речи на ближнем конце, дискретизированный с повышением сигнал 210 и захваченный аудиосигнал 211 имеют мощность сигнала только ниже 1/2 fs0. Это обусловлено тем, что аудиосигнал 212 воспроизведения имеет частоту дискретизации в fs0 и в силу этого не имеет энергии сигналов выше 1/2 fs0, так что выполнение повышающей дискретизации аналогично приводит к дискретизированному с повышением сигналу 210, также не имеющему энергию сигналов выше 1/2 fs0. Таким образом, в ситуации по фиг. 3A, отсутствие мощности сигнала выше 1/2 fs0 указывает отсутствие одновременного разговора.
[0047] На фиг. 3B, когда микрофон 108 захватывает как речь на дальнем конце, которая выведена посредством громкоговорителя 106 (см. фиг. 1-2), так и речь на ближнем конце, дискретизированный с повышением сигнал 210 имеет мощность сигнала только ниже 1/2 fs0, но захваченный аудиосигнал 211 имеет мощность сигнала выше 1/2 fs0 (как ниже 1/2 fs0, так и между 1/2 fs0 и 1/2 fs1). Это обусловлено тем, что захваченный аудиосигнал 211 имеет частоту дискретизации в fs1, и в силу этого речь на ближнем конце имеет энергию, которая захватывается вплоть до 1/2 fs1, но аудиосигнал 212 воспроизведения по-прежнему не имеет энергии сигналов выше 1/2 fs0. Таким образом, в ситуации по фиг. 3B, присутствие мощности сигнала выше 1/2 fs0 (например, между 1/2 fs0 и 1/2 fs1) указывает присутствие одновременного разговора.
[0048] Фиг. 4 является блок-схемой, показывающей дополнительные подробности детектора 401 одновременного разговора (см. также фиг. 1-2). Детектор 401 одновременного разговора включает в себя измеритель 405 мощности, модуль 404 отслеживания минимумов и модуль 406 принятия решений. Детектор 401 одновременного разговора может включать в себя другие компоненты, которые (для краткости) не поясняются подробно.
[0049] Измеритель 405 мощности в общем случае принимает захваченный аудиосигнал 211 (см. фиг. 2), измеряет мощность между 1/2 fs0 и 1/2 fs1 и формирует сигнал 402 мощности. Сигнал 402 мощности в общем случае соответствует среднеквадратической (RMS) входной мощности полосы частот между 1/2 fs0 и 1/2 fs1; она также может называться «мгновенной мощностью» или «сглаженной мощностью» захваченного аудиосигнала 211.
[0050] Модуль 404 отслеживания минимумов в общем случае принимает сигнал 402 мощности, отслеживает мощность фонового шума и формирует сигнал 403 мощности фонового шума. Сигнал 403 мощности фонового шума в общем случае соответствует мощности фонового шума между 1/2 fs0 и 1/2 fs1 сигнала 402 мощности.
[0051] Модуль 406 принятия решений в общем случае принимает сигнал 402 мощности и сигнал 403 мощности фонового шума, сравнивает их уровни и формирует управляющий сигнал 410. Модуль 406 принятия решений может работать согласно гистерезисному процессу принятия решений, например, фильтровать вводы таким образом, что вывод реагирует менее быстро, чем он должен реагировать в противном случае с учетом недавней системной предыстории. Когда отсутствует одновременный разговор, и уровень сигнала 402 мощности превышает уровень сигнала 403 мощности фонового шума на первую пороговую величину, модуль 406 принятия решений активируется. Если происходит одновременный разговор (т.е. модуль 406 принятия решений находится в состоянии активации), модуль 406 принятия решений изменяется на деактивированное состояние только тогда, когда сигнал 402 мощности опускается ниже второй пороговой величины.
[0052] Фиг. 5 является блок-схемой детектора 501 одновременного разговора. Детектор 501 одновременного разговора является аналогичным детектору 401 одновременного разговора (см. фиг. 4), с дополнительными компонентами, и он также принимает аудиосигнал 212 воспроизведения (см. фиг. 2). Устройства, такие как портативные компьютеры и мобильные телефоны, зачастую реализуют громкоговоритель 106 (см. фиг. 1) с использованием микродинамиков. Для микродинамиков, компоненты электроакустического преобразователя и общие механические искажения устройства могут создавать дополнительную мощность в частотном диапазоне в [1/2 fs0, 1/2 fs1]. Детектор 501 одновременного разговора может использоваться в таком случае, чтобы уменьшать частоту ложных оповещений (например, ложного оповещения вследствие обнаружения то, что голос на ближнем конце захватывается, когда в действительности отсутствует голос на ближнем конце).
[0053] Детектор 501 одновременного разговора включает в себя полосовой фильтр 511, измеритель 512 мощности и нелинейный регулятор 513. Детектор 501 одновременного разговора также включает в себя измеритель 555 мощности, модуль 554 отслеживания минимумов и модуль 556 принятия решений (которые являются аналогичными измерителю 405 мощности, модулю 404 отслеживания минимумов и модулю 406 принятия решений по фиг. 4).
[0054] Измеритель 555 мощности в общем случае принимает захваченный аудиосигнал 211 (см. фиг. 2) и формирует сигнал 552 мощности, способом, аналогичным способу измерителя 405 мощности. Модуль 554 отслеживания минимумов в общем случае принимает сигнал 552 мощности и формирует сигнал 553 мощности фонового шума, способом, аналогичным способу модуля 404 отслеживания минимумов.
[0055] Полосовой фильтр 511 в общем случае принимает аудиосигнал 212 воспроизведения, выполняет полосовую фильтрацию и формирует фильтрованный сигнал 521. Полоса пропускания полосового фильтра 511 может представлять собой полосу B частот вокруг резонансной частоты fres. Резонансная частота fres в общем случае соответствует конкретным компонентам, используемым для реализации громкоговорителя 106 и других компонентов устройства, реализующего систему 100 обработки аудиоданных, и может измеряться эмпирически. Полоса B частот также может определяться эмпирически на основе других компонентов устройства, реализующего систему 100 обработки аудиоданных. Примерный диапазон полосы B частот составляет 600 Гц, приводя к полосовому фильтру 511, имеющему полосу пропускания [fres-300, fres+300].
[0056] Измеритель 512 мощности в общем случае принимает фильтрованный сигнал 521, измеряет мощность сигнала и формирует сигнал 522 резонансной мощности. Сигнал (Pres) 522 резонансной мощности соответствует мощности сигнала для фильтрованного сигнала 521 (например, мощности механического резонанса громкоговорителя 106).
[0057] Нелинейный регулятор 513 в общем случае принимает сигнал 522 резонансной мощности, выполняет нелинейное регулирование и формирует сигнал (Pdist) 514 мощности искажения. Сигнал 514 мощности искажения соответствует мощности искажения в частотном диапазоне [1/2 fs0, 1/2 fs1]. Нелинейный регулятор 513 может выполнять нелинейное регулирование, чтобы формировать сигнал Pdist мощности искажения следующим образом:
[0058] В вышеприведенном уравнении, th0 является пороговым параметром, и k является параметром настройки; эти параметры могут регулироваться требуемым образом согласно эмпирическим измерениям. Регулирование называется «нелинейным» вследствие двух функций Pdist, которые зависят от взаимосвязи между Pres и th0. Наклон Pdist управляется посредством параметра k настройки, применяемого к разности между Pres и th0, и начальная точка, в которой Pdist начинает увеличиваться с нуля, управляется посредством взаимосвязи между Pres и th0.
[0059] Модуль 556 принятия решений в общем случае принимает сигнал 552 мощности, сигнал 553 мощности фонового шума и сигнал 514 мощности искажения, сравнивает их уровни и формирует управляющий сигнал 410. В общем, модуль 556 принятия решений использует сигнал 514 мощности искажения в качестве части определения того, исходит энергия главным образом из захваченного голоса на ближнем конце или из искажений устройства. Более конкретно, модуль 556 принятия решений использует сигнал 514 мощности искажения, чтобы увеличивать пороговое значение гистерезиса, применяемого к сигналу 552 мощности и сигналу 553 мощности фонового шума (например, первое пороговое значение, поясненное выше касательно модуля 406 принятия решений). Модуль 556 принятия решений в иных отношениях является аналогичным модулю 406 принятия решений.
[0060] Фиг. 6 является архитектурой 600 мобильного устройства для реализации признаков и процессов, описанных в данном документе, согласно варианту осуществления. Архитектура 600 может реализовываться в любом электронном устройстве, включающем в себя, не ограничиваясь: настольный компьютер, потребительское аудиовизуальное (AV) оборудование, широковещательное радиоустройство, мобильные устройства (например, смартфон, планшетный компьютер, портативный компьютер, носимое устройство) и т.д. В показанном примерном варианте осуществления, архитектура 600 служит для портативного компьютера и включает в себя процессор(ы) 601, периферийный интерфейс 602, аудиоподсистему 603, громкоговорители 604, микрофон 605, датчики 606 (например, акселерометры, гироскопы, барометр, магнитометр, камера), процессор 607 определения местоположения (например, приемное устройство GNSS), подсистемы 608 беспроводной связи (например, Wi-Fi, Bluetooth, сотовую) и подсистему(ы) 609 ввода-вывода, которая включает в себя сенсорный контроллер 610 и другие контроллеры 611 ввода, сенсорную поверхность 612 и другие устройства 613 ввода/управления. Другие архитектуры с большим или меньшим числом компонентов также могут использоваться для реализации раскрытых вариантов осуществления.
[0061] Интерфейс 614 запоминающего устройства соединен с процессорами 601, периферийным интерфейсом 602 и запоминающим устройством 615 (например, флэш-памятью, RAM, ROM). Запоминающее устройство 615 сохраняет компьютерные программные инструкции и данные, в том числе, не ограничиваясь: инструкции 616 операционной системы, инструкции 617 связи, GUI-инструкции 618, инструкции 619 обработки датчиков, телефонные инструкции 620, инструкции 621 обмена электронными сообщениями, инструкции 622 для просмотра веб-страниц, инструкции 623 обработки аудиоданных, GNSS-/навигационные инструкции 624 и приложения/данные 625. Инструкции 623 обработки аудиоданных включают в себя инструкции для выполнения обработки аудиоданных, описанной в данном документе.
[0062] Фиг. 7 является блок-схемой способа 700 обработки аудиоданных. Способ 700 может осуществляться посредством устройства (например, портативного компьютера, мобильного телефона и т.д.) с компонентами архитектуры 600 по фиг. 6, чтобы реализовывать функциональность системы 100 обработки аудиоданных (см. фиг. 1), системы 201 аудиокодека (см. фиг. 2), детектора 401 одновременного разговора (см. фиг. 4), детектора 501 одновременного разговора (см. фиг. 5) и т.д., например, посредством выполнения одной или более компьютерных программ.
[0063] На 702, принимается первый аудиосигнал. Первый аудиосигнал имеет первую частоту дискретизации. Например, система 201 аудиокодека (см. фиг. 2) может принимать аудиосигнал 212 воспроизведения, который имеет частоту дискретизации в fs0.
[0064] На 704, первый аудиосигнал дискретизируется с повышением, чтобы формировать второй аудиосигнал. Второй аудиосигнал имеет вторую частоту дискретизации, которая больше первой частоты дискретизации. Например, модуль 220 повышающей дискретизации (см. фиг. 2) может выполнять повышающую дискретизацию аудиосигнала 212 воспроизведения для формирования дискретизированного с повышением сигнала 210, имеющего частоту дискретизации fs1. В качестве конкретного примера, fs0 может составлять 24 кГц, и fs1 может составлять 48 кГц.
[0065] На 706, выходной сигнал громкоговорителя, соответствующий второму аудиосигналу, может выводиться посредством громкоговорителя. Например, громкоговоритель 106 (см. фиг. 2) может выводить выходной аудиосигнал, соответствующий дискретизированному с повышением сигналу 210.
[0066] На 708, третий аудиосигнал захватывается посредством микрофона. Третий аудиосигнал имеет третью частоту дискретизации, которая больше первой частоты дискретизации. Третья частота дискретизации может быть равной второй частоте дискретизации. Например, микрофон 108 (см. фиг. 2) может захватывать захваченный аудиосигнал 211, имеющий частоту дискретизации в fs1. Захваченный аудиосигнал 211 может включать в себя эхо-сигнал (например, выходной сигнал громкоговорителя, соответствующий второму аудиосигналу), захваченную речь на ближнем конце (например, локальный разговор), механическое искажение устройства, которое осуществляет способ 700 (например, другое локальное аудио), и т.д.
[0067] На 710, определяется мощность сигнала для третьего аудиосигнала. Например, детектор 401 одновременного разговора (см. фиг. 4) может определять мощность сигнала для захваченного аудиосигнала 211. В качестве другого примера, детектор 501 одновременного разговора (см. фиг. 5) может определять мощность сигнала для захваченного аудиосигнала 211.
[0068] На 712, одновременный разговор обнаруживается, когда имеется мощность сигнала для третьего аудиосигнала, определенная в полосе частот, большей первой частоты дискретизации. Например, детектор 401 одновременного разговора может обнаруживать одновременный разговор на основе мощности сигнала в полосе частот [1/2 fs0, 1/2 fs1]; когда отсутствует мощность сигнала (например, как показано на фиг. 3A), одновременный разговор не обнаруживается, а когда имеется мощность сигнала (например, как показано на фиг. 3B), одновременный разговор обнаруживается.
[0069] На 714, по выбору формируется управляющий сигнал, если обнаружен одновременный разговор. Например, детектор 401 одновременного разговора (см. фиг. 4) может формировать управляющий сигнал 410, когда обнаруживается одновременный разговор. В качестве другого примера, детектор 501 одновременного разговора (см. фиг. 5) может формировать управляющий сигнал 410, когда обнаруживается одновременный разговор.
[0070] На 716, регулирование эхо выполняется для третьего аудиосигнала согласно управляющему сигналу. Например, система 130 регулирования эхо (см. фиг. 1) может выполнять компенсацию эхо, подавление эхо и т.д. для захваченного аудиосигнала 126, на основе управляющего сигнала 410, чтобы формировать захваченный аудиосигнал 122.
[0071] Способ 700 может включать в себя дополнительные этапы, соответствующие другим функциональностям системы 100 обработки аудиоданных, описанной в данном документе.
[0072] Дополнительные варианты применения
[0073] Как пояснено выше, система 100 обработки аудиоданных имеет возможность обнаруживать одновременный разговор в качестве части процесса регулирования эхо. Помимо этого, система 100 обработки аудиоданных имеет возможность обнаруживать другие аудиоискажения, например, вследствие перемещения устройства либо иных факторов, когда устройство подвергается тактильным взаимодействиям. В таком случае, система 130 регулирования эхо может адаптировать модуль 132 компенсации эхо с возможностью выполнения компенсации эхо, даже при отсутствии речи на ближнем конце или захваченной речи на дальнем конце.
[0074] Подробности реализации
[0075] Вариант осуществления может реализовываться в аппаратных средствах, в исполняемых модулях, сохраненных на машиночитаемом носителе, либо в комбинации вышеозначенного (например, в программируемых логических матрицах). Если не указано иное, этапы, выполняемые посредством вариантов осуществления, не должны внутренне относиться к какому-либо конкретному компьютеру или другому устройству, хотя в конкретных вариантах осуществления они могут относиться. В частности, различные машины общего назначения могут использоваться с программами, написанными в соответствии с идеями в данном документе, или может быть более удобным конструировать более специализированное устройство (к примеру, интегральные схемы) для выполнения требуемых этапов способа. Таким образом, варианты осуществления могут реализовываться в одной или более компьютерных программ, выполняющихся на одной или более программируемых компьютерных систем, каждая из которых содержит по меньшей мере один процессор по меньшей мере одну систему хранения данных (включающую в себя энергозависимые и энергонезависимые запоминающие элементы и/или элементы хранения данных) по меньшей мере одно устройство или порт ввода и по меньшей мере одно устройство или порт вывода. Программный код применяется к входным данным для выполнения функций, описанных в данном документе, и формирования выходной информации. Выходная информация применяется к одному или более устройств вывода известным способом.
[0076] Каждая такая компьютерная программа предпочтительно сохраняется или загружается на носители или устройства хранения данных (к примеру, на полупроводниковые запоминающие устройства или носители либо на магнитные или оптические носители), считываемые посредством программируемого компьютера общего или специального назначения, для конфигурирования и работы с компьютером, когда носители или устройства хранения данных считываются посредством компьютерной системы, чтобы выполнять процедуры, описанные в данном документе. Изобретаемая система также может рассматриваться как реализованная в качестве машиночитаемого носителя данных, конфигурированного с помощью компьютерной программы, при этом носитель данных, конфигурированный таким образом, предписывает компьютерной системе работать конкретным и заданным способом для выполнения функций, описанных в данном документе. (Само по себе программное обеспечение и нематериальные или непостоянные сигналы исключаются в той степени, в которой они представляют собой непатентоспособный объект изобретения).
[0077] Аспекты систем, описанных в данном документе, могут реализовываться в надлежащем компьютерном сетевом окружении звуковой обработки для обработки цифровых или оцифрованных аудиофайлов. Части адаптивной аудиосистемы могут включать в себя одну или более сетей, которые содержат любое требуемое число отдельных машин, включающих в себя один или более маршрутизаторов (не показаны), которые служат для буферизации и маршрутизации данных, передаваемых между компьютерами. Эта сеть может быть основана на различных специальных сетевых протоколах и может представлять собой Интернет, глобальную вычислительную сеть (WAN), локальную вычислительную сеть (LAN) или любую комбинацию вышеозначенного.
[0078] Один или более компонентов, блоков, процессов или других функциональных компонентов могут быть реализованы через компьютерную программу, которая управляет выполнением процессорного вычислительного устройства системы. Также следует отметить, что различные функции, раскрытые в данном документе, могут быть описаны с использованием любого числа сочетаний аппаратных средств, микропрограммного обеспечения и/или в качестве данных и/или инструкций, осуществленных на различных машиночитаемых или считываемых компьютером носителях, с точки зрения их поведения, межрегистровых пересылок, логических компонентов и/или других характеристик. Машиночитаемые носители, на которых могут быть осуществлены такие форматированные данные и/или инструкции, включают в себя, не ограничиваясь, физические (постоянные), энергонезависимые носители данных в различных формах, такие как оптические, магнитные или полупроводниковые носители данных.
[0079] Вышеприведенное описание иллюстрирует различные варианты осуществления настоящего изобретения наряду с примерами того, как могут быть реализованы аспекты настоящего изобретения. Вышеприведенные примеры и варианты осуществления не должны считаться единственными вариантами осуществления, и они представлены для иллюстрации гибкости и преимуществ настоящего изобретения, определяемого прилагаемой формулой изобретения. На основе вышеописанного изобретения и прилагаемой формулы изобретения специалистам в данной области техники могут стать очевидными другие конфигурации, варианты осуществления, реализации и эквиваленты, которые могут использоваться без отступления от сущности и объема изобретения, определяемых формулой изобретения.
Список литературы
Патенты США №№ 7,764,783; 8,971,523; 6,496,795; 9,509,852; 8,811,601; 9,277,059; 9,538,299; 9,589,556; 7,046,794.
A. Gilloire и M. Vetterli "Adaptive filtering in subbands with critical sampling: analysis, experiments and application to acoustic echo cancellation", in IEEE Transactions on Signal Processing, издание 40, номер 8, стр. 1862-1875, август 1992 г., doi: 10.1109/78.149989.
название | год | авторы | номер документа |
---|---|---|---|
ПОДАВЛЕНИЕ ОСТАТОЧНОГО ЭХО | 2021 |
|
RU2834267C1 |
СПОСОБ КОМПЕНСАЦИИ ПОТЕРИ СЛУХА В ТЕЛЕФОННОЙ СИСТЕМЕ И В МОБИЛЬНОМ ТЕЛЕФОННОМ АППАРАТЕ | 2013 |
|
RU2568281C2 |
УПРАВЛЕНИЕ АКУСТИЧЕСКОЙ ЭХОКОМПЕНСАЦИЕЙ ДЛЯ РАСПРЕДЕЛЕННЫХ АУДИОУСТРОЙСТВ | 2020 |
|
RU2818982C2 |
СПОСОБ И УСТРОЙСТВО ДЛЯ ОСУЩЕСТВЛЕНИЯ ЗАПИСИ ОБЪЕКТНОГО АУДИОСИГНАЛА И ЭЛЕКТРОННАЯ АППАРАТУРА | 2015 |
|
RU2630187C1 |
ОБРАБОТКА АУДИОСИГНАЛА | 2016 |
|
RU2727968C2 |
СПОСОБ И УСТРОЙСТВО ОЦЕНКИ АУДИОПОМЕХИ | 2013 |
|
RU2651616C2 |
СПОСОБ И СИСТЕМА ДЛЯ РЕАЛИЗАЦИИ БЕСПРОВОДНОЙ СВЯЗИ БЛИЖНЕГО РАДИУСА ДЕЙСТВИЯ | 2012 |
|
RU2573225C2 |
УПРАВЛЕНИЕ ДОЗАМИ АУДИО | 2006 |
|
RU2419964C2 |
СПОСОБ И УСТРОЙСТВО ДЛЯ АУДИООБРАБОТКИ | 2014 |
|
RU2664717C2 |
ОЦЕНКА НАПРАВЛЕНИЯ ПРИХОДА СИГНАЛА С ИСПОЛЬЗОВАНИЕМ АУДИОСИГНАЛОВ С ВОДЯНЫМИ ЗНАКАМИ И МАССИВА МИКРОФОНОВ | 2012 |
|
RU2575535C2 |
Изобретение относится к обработке аудиоданных и, в частности, к обнаружению одновременного разговора. Техническим результатом изобретения является повышение качества связи и улучшение пользовательского восприятия. Заявленный способ обработки аудиоданных, позволяющий обнаруживать одновременный разговор, включает в себя использование повышающей дискретизации. Аудиосигналы, принимаемые с дальнего конца, дискретизируются с повышением перед выводом посредством громкоговорителя на ближнем конце. Микрофон на ближнем конце захватывает аудио на повышенной частоте дискретизации, и выходной аудиосигнал посредством громкоговорителя является обнаруживаемым вследствие отсутствия энергии в дискретизированных с повышением полосах частот. Детектор одновременного разговора использует эту информацию для формирования сигнала для подавления эхо-сигнала в аудио на дальнем конце из захваченного аудиосигнала, который передается в дальний конец. Заявлены также постоянный машиночитаемый носитель и устройство для выполнения способа обработки аудиоданных. 3 н. и 10 з.п. ф-лы, 7 ил.
1. Реализуемый компьютером способ обработки аудиоданных, при этом способ содержит этапы, на которых:
- принимают (702) первый аудиосигнал, при этом первый аудиосигнал имеет первую частоту дискретизации;
- выполняют (704) повышающую дискретизацию первого аудиосигнала для формирования второго аудиосигнала, при этом второй аудиосигнал имеет вторую частоту дискретизации, которая больше первой частоты дискретизации;
- выводят (706) посредством громкоговорителя выходной сигнал громкоговорителя, соответствующий второму аудиосигналу;
- захватывают (708) посредством микрофона третий аудиосигнал, при этом третий аудиосигнал дискретизируется со второй частотой дискретизации;
- определяют (710) мощность сигнала для третьего аудиосигнала; и
- обнаруживают (712) одновременный разговор, если имеется мощность сигнала для третьего аудиосигнала, определенная в полосе частот, имеющей частоты, все из которых больше половины первой частоты дискретизации.
2. Способ по п. 1, дополнительно содержащий этапы, на которых:
- формируют (714) по выбору управляющий сигнал, если обнаружен одновременный разговор; и
- выполняют (716) регулирование эхо для третьего аудиосигнала согласно управляющему сигналу.
3. Способ по п. 2, в котором выполнение регулирования эхо включает в себя этап, на котором:
- выполняют компенсацию эхо для третьего аудиосигнала согласно управляющему сигналу, при этом при компенсации эхо выполняется линейное ослабление для третьего аудиосигнала.
4. Способ по любому из пп. 2-3, в котором выполнение регулирования эхо включает в себя этап, на котором:
- выполняют подавление эхо для третьего аудиосигнала согласно управляющему сигналу, при этом при подавлении эхо выполняется нелинейное ослабление для конкретных полос частот третьего аудиосигнала.
5. Способ по любому из пп. 1-4, в котором третий аудиосигнал включает в себя локальное аудио и выходной сигнал громкоговорителя, при этом локальное аудио соответствует аудио, отличному от выходного сигнала громкоговорителя, и при этом локальное аудио не выводится посредством громкоговорителя и захватывается посредством микрофона.
6. Способ по любому из пп. 1-5, в котором первая частота дискретизации составляет 8 кГц, при этом вторая частота дискретизации составляет по меньшей мере 16 кГц.
7. Способ по любому из пп. 1-6, дополнительно содержащий этапы, на которых:
- выполняют понижающую дискретизацию третьего аудиосигнала для формирования четвертого аудиосигнала, при этом четвертый аудиосигнал имеет третью частоту дискретизации, которая меньше второй частоты дискретизации; и
- передают четвертый аудиосигнал в устройство на дальнем конце.
8. Способ по п. 7, в котором третья частота дискретизации и первая частота дискретизации представляют собой одинаковую частоту дискретизации.
9. Способ по любому из пп. 1-8, в котором определение мощности сигнала для третьего аудиосигнала и обнаружение одновременного разговора включает в себя этапы, на которых:
- измеряют мощность сигнала для третьего аудиосигнала в полосе частот, большей, чем первая частота дискретизации;
- отслеживают мощность фонового шума третьего аудиосигнала в полосе частот, большей, чем первая частота дискретизации; и
- обнаруживают одновременный разговор в результате сравнения мощности сигнала для третьего аудиосигнала в полосе частот, имеющей частоты, все из которых больше, чем половина первой частоты дискретизации, и мощности фонового шума третьего аудиосигнала в полосе частот, имеющей частоты, все из которых больше, чем половина первой частоты дискретизации.
10. Способ по любому из пп. 1-8, в котором определение мощности сигнала для третьего аудиосигнала и обнаружение одновременного разговора включает в себя этапы, на которых:
- измеряют мощность сигнала для третьего аудиосигнала в полосе частот, большей, чем первая частота дискретизации;
- отслеживают мощность фонового шума третьего аудиосигнала в полосе частот, большей, чем первая частота дискретизации;
- измеряют мощность искажения первого аудиосигнала; и
- обнаруживают одновременный разговор на основе мощности сигнала для третьего аудиосигнала в полосе частот, имеющей частоты, все из которых больше, чем половина первой частоты дискретизации, мощности фонового шума третьего аудиосигнала в полосе частот, имеющей частоты, все из которых больше, чем половина первой частоты дискретизации, и мощности искажения первого аудиосигнала.
11. Способ по п. 10, в котором измерение мощности искажения первого аудиосигнала включает в себя этапы, на которых:
- формируют фильтрованный сигнал посредством выполнения полосовой фильтрации для первого аудиосигнала;
- измеряют мощность сигнала для фильтрованного сигнала; и
- определяют мощность искажения посредством выполнения нелинейного регулирования для мощности сигнала для фильтрованного сигнала.
12. Постоянный машиночитаемый носитель, сохраняющий компьютерную программу, которая при выполнении процессором управляет устройством для выполнения обработки, включающей в себя способ по любому из пп. 1-11.
13. Устройство для обработки аудиоданных, причем устройство содержит:
- громкоговоритель (106);
- микрофон (108); и
- процессор (601);
- при этом процессор выполнен с возможностью управления устройством для выполнения способа по любому из пп. 1-11.
US 2003133565 A1, 17.07.2003 | |||
US 8625775 B2, 07.01.2014 | |||
US 2014205105 A1, 24.07.2014 | |||
WO 2007062287 A2, 31.05.2007 | |||
УСТРОЙСТВО И СПОСОБ РАСЧЕТА ПАРАМЕТРОВ УПРАВЛЕНИЯ ФИЛЬТРА ЭХОПОДАВЛЕНИЯ И УСТРОЙСТВО И СПОСОБ РАСЧЕТА ВЕЛИЧИНЫ ЗАДЕРЖКИ | 2009 |
|
RU2495506C2 |
СПОСОБ И УСТРОЙСТВО ДЛЯ АУДИООБРАБОТКИ | 2014 |
|
RU2664717C2 |
Авторы
Даты
2024-12-28—Публикация
2021-03-19—Подача