Показать метаданные Скрыть метаданные

(19)

(11)

2 704 747

(13)

(51)

МПК

G10L19/00(2013-01-01)

H04L29/14(2006-01-01)

(21) (22)

Заявка

2018128779, 2015-05-12

(24)

Дата начала отсчета патента

2015-05-12

(22)

дата подачи заявки

2015-05-12

(45)

опубликовано

2019-10-30

(72)

авторы

Брун Стефан

(73)

патентообладатели

Телефонактиеболагет Лм Эрикссон

(56)

Документы, цитированные в отчете о поиске

US 6456719 B1, 24.09.2002US 8015000 B2, 06.09.2011

ВЫБОР ПРОЦЕДУРЫ МАСКИРОВАНИЯ ПОТЕРИ ПАКЕТА Российский патент 2019 года по МПК G10L19/00 H04L29/14

Описание патента на изобретение RU2704747C2

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Раскрытие относится к декодированию аудио и более конкретно к выбору процедуры маскирования потери пакета при декодировании аудио.

УРОВЕНЬ ТЕХНИКИ

Сети сотовой связи развиваются в направлении более высоких скоростей передачи данных вместе с улучшенной емкостью сети и зоной покрытия. В организации по стандартизации Проекта партнерства систем связи 3-го поколения (3GPP) были разработаны несколько технологий, а также разрабатываются в настоящее время.

«Долгосрочное развитие сетей связи» (LTE) является современной стандартизированной технологией. Она использует технологию доступа на основе мультиплексирования с ортогональным частотным разделением (OFDM) для нисходящей линии связи и множественного доступа с частотным разделением с одной несущей (SC-FDMA) для восходящей линии связи. Распределение ресурсов беспроводным терминалам (также известным как единицы пользовательского оборудования, UE) и на нисходящей линии связи, и на восходящей линии связи обычно выполняют адаптивно, используя быстрое планирование, учитывая мгновенные схемы трафика и характеристики распространения радиоволн для каждого беспроводного терминала. Назначение ресурсов и в нисходящей линии связи, и в восходящей линии связи выполняется в планировщике, находящемся в базовой станции.

Относительно передач аудиоданных, как и в случае всех данных, через беспроводные интерфейсы, имеются случаи, когда данные теряются, например, из-за потери в тракте передачи, взаимовлияния и т.д. Когда аудио кадр теряется, приемный декодер аудио может обнаружить потерянный аудио кадр и затем может выполнить процедуру маскирования потери пакета (PLC), чтобы сгенерировать аудио, которое насколько возможно снижает влияние потерянного пакета на аудио.

Однако есть несколько возможных процедур PLC, и будет полезным корректно выбирать, какую процедуру PLC использовать в различных ситуациях.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Изобретение теперь описывается на примере со ссылкой на сопроводительные чертежи, на которых:

Фиг.1 - схематичное представление, иллюстрирующее сеть сотовой связи, где могут применяться варианты осуществления, представленные в документе;

Фиг.2 - схематичное представление, иллюстрирующее передачи аудио кадра на беспроводной терминал по Фиг.1;

Фиг.3 - схематичный график, иллюстрирующий огибающую спектра для сигналов принятых аудио кадров;

Фигуры Фиг. 4A-B - структурные схемы, иллюстрирующие способы, выполняемые в хост-устройстве по Фиг.1, для выбора процедуры маскирования потери пакета;

Фиг.5 - схематичное представление, показывающее некоторые компоненты беспроводного терминала по Фиг.1;

Фиг.6 - схематичное представление, показывающее некоторые компоненты узла транскодирования по Фиг.1; и

Фиг.7 - показ одного примера компьютерного программного продукта, содержащего читаемое компьютером средство.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

Изобретение теперь будет более полно описано ниже со ссылкой на сопроводительных чертежи, на которых показаны некоторые варианты осуществления изобретения. Это изобретение может, однако, осуществляться во многих различных формах и не должно толковаться ограниченным вариантами осуществления, изложенными в документе; предпочтительнее эти варианты осуществления приведены в качестве примера с тем, чтобы раскрытие было исчерпывающим и завершенным и полностью передало объем изобретения специалистам в данной области техники. Одинаковые ссылочные позиции относятся к одинаковым элементам по всему описанию.

Фиг.1 является схематичным представлением, иллюстрирующим сеть 8 сотовой связи, где могут применяться варианты осуществления, представленные в документе. Сеть 8 сотовой связи содержит базовую сеть 3 и одну или несколько базовых радиостанций 1, здесь в виде усовершенствованных Узлов B (Node B), также известных как узлы eNode B или узлы eNB. Базовая радиостанция 1 также может быть в форме Узлов B, базовых приемопередающих станций (BTS) и/или подсистем базовой станции (BSS) и т.д. Базовая радиостанция 1 обеспечивает возможность подключения множеству беспроводных терминалов 2. Термин «беспроводной терминал» также известен как терминал мобильной связи, пользовательское оборудование (UE), мобильный терминал, пользовательский терминал, агент пользователя, беспроводное устройство, межмашинные устройства и т.д., и может быть, например, тем, что сегодня общеизвестно как мобильный телефон или планшет/ноутбук с поддержкой беспроводной связи или стационарно установленный терминал.

Сеть 8 сотовой связи может, например, соответствовать одной любой или комбинации сетей из LTE (долгосрочное развитие сетей связи), W-CDMA (широкополосный множественный доступ с кодовым разделением), EDGE (повышенные скорости передачи данных для усовершенствованной GSM (глобальная система мобильной связи)), GPRS (обобщенные услуги пакетной радиосвязи), CDMA2000 (множественный доступ с кодовым разделением), или любой другой настоящей или будущей беспроводной сети, такой как LTE-Advanced (усовершенствованная LTE), если только применимы принципы, описанные ниже.

Передача по восходящей линии связи (UL) 4a от беспроводного терминала 2 и передача по нисходящей линии связи (DL) 4b на беспроводной терминал 2 между беспроводным терминалом 2 и базовой станцией 1 происходят через интерфейс радиосвязи. Качество интерфейса радиосвязи по отношению к каждому беспроводному терминалу 2 может изменяться во времени и в зависимости от позиции беспроводного терминала 2 из-за эффектов, таких как затухание, многолучевое распространение, взаимовлияние и т.д.

Базовая радиостанция 1 также соединена с базовой сетью 3 для возможности подключения к центральным функциям и внешней сети 7, такой как телефонная коммутируемая сеть общего пользования (PSTN) и/или сеть Интернет.

Аудиоданные могут кодироваться и декодироваться беспроводным терминалом 2 и/или узлом 5 транскодирования, являющимся сетевым узлом, выполненным с возможностью выполнять транскодирование аудио. Узел 5 транскодирования, например, может быть реализован в MGW (медиашлюз), SBG (пограничный шлюз сеанса)/BGF (функция пограничного шлюза) или MRFP (процессор функции ресурсов среды передачи). Следовательно, и беспроводной терминал 2, и узел 5 транскодирования являются хост-устройствами, которые содержат соответственный декодер аудио.

Фиг.2 является схематичным представлением, иллюстрирующим передачи аудио кадра на беспроводной терминал по Фиг.1. При приеме аудио, например, для речевого диалога или даже потокового аудио, беспроводной терминал 2 принимает поток последовательных аудио кадров 15a-c. Каждый аудио кадр, длительностью, например, 20-40 мс, представлен в цифровой форме набором данных и содержит сигнал, то есть, аудиосигнал, закодированный в соответственном формате.

В этом примере беспроводной терминал 2 принимает первый аудио кадр 15a и второй аудио кадр 15b успешно. Это позволяет беспроводному терминалу 2 декодировать звуковой сигнал, содержащийся в аудио кадрах 15a-b. Однако, например, из-за плохих условий радиосвязи, третий аудио кадр 15c не принимается успешно. Декодер аудио в беспроводном терминале 2 обнаруживает, что потерян третий аудио кадр, и может затем выполнить процедуру маскирования потери пакета (PLC), чтобы сгенерировать аудио, которое насколько возможно хорошо снижает влияние потерянного пакета на аудио.

Проблема состоит в том, каким образом принимать решение из числа множества процедур PLC в декодере аудио так, что выбирают процедуру, которая обеспечивает наилучшее качество аудио.

Более конкретно, декодер аудио может размещать, по меньшей мере, две различные процедуры PLC, где одна из них является особенно подходящей для музыкальных сигналов, тогда как вторая процедура PLC является более подходящей для немузыкальных сигналов, например, речевых. Для обеспечения способности избирать наиболее подходящую процедуру PLC, анализируют (кодированный) аудиосигнал, который был принят в хороших, то есть, безошибочных или неразрушенных пакетах (15a-b), и на основании такого анализа делают выбор процедуры PLC.

Конкретной проблемой является приспособить принятие решения о процедуре выбора PLC таким образом, что специфические отдельные сильные стороны доступных процедур PLC используются выгодным образом. Это подразумевает нахождение подходящей, относящейся к сигналу метрики, которая связана с анализом принятого аудиосигнала (или параметрами кодирования такового), и нахождение подходящей процедуры принятия решения, которая выбирает процедуру PLC на основе метрики. Для основанных на кадре аудиокодеков также желательно, чтобы принятие решение о процедуре PLC могло приниматься на покадровой основе, то есть, что решение можно было принимать в ответ на текущий принятый хороший аудиокадр и принятые ранее аудиоданные.

Одной современной процедурой PLC для аудио является так называемая Phase ECU. Это процедура, которая обеспечивает особо высокое качество восстановленного звукового сигнала после потери пакета в случае, если сигналом является музыкальный сигнал.

Способ Phase ECU состоит в маскировании на основе синусоидального (постепенного) изменения фазы. Он основан на парадигме анализа и синтеза синусоидальных сигналов, действующей в домене DFT (дискретное преобразование Фурье). Полагают, что звуковой сигнал состоит из ограниченного числа отдельных синусоидальных составляющих. На этапе анализа идентифицируют синусоидальные составляющие синтезированного ранее аудио кадра. На этапе синтеза эти синусоидальные составляющие изменяют по фазе до момента времени потерянного кадра. Интерполяционное синусоидальное уточнение частоты делают, чтобы повысить разрешение по частоте над таковым дискретного преобразования Фурье (DFT). Вместо обнуления или корректировки величины коэффициентов DFT, не принадлежащих пикам спектра, сохраняют исходные величины DFT, тогда как используется адаптивная рандомизация фазы.

Другим классом процедур PLC являются те, которые включают в себя модель основного тона. Лежащее в основе предположение для таких процедур состоит в том, что сигнал может содержать вокализованные сегменты речи человека, при котором сигнал является периодическим с собственной частотой возбуждения голосовой щели. Посредством введения такой модели основного тона процедура PLC может достигать особенно хорошего качества восстановленного звукового сигнала в случае, если сигналом является вокализованная речь.

Известно, что Phase ECU работает очень хорошо для тональных музыкальных (одиночный инструмент или множество инструментов, воспроизводящих непрерывный звук) и также для сложных музыкальных сигналов (оркестровых, поп-музыки). С другой стороны, иногда имеются недостатки Phase ECU для речевого сигнала и конкретно для вокализованной речи.

С другой стороны известно, что процедуры PLC, включающие в себя модель основного тона, часто не работают оптимально на музыкальных сигналах и периодических обобщенных аудио сигналах. Предпочтительнее отмечают, что обычные периодические звуковые сигналы, подобные тональным музыкальным (одиночный инструмент или множество инструментов, воспроизводящих непрерывный звук), меньше подходят для процедур PLC, использующих модель основного тона.

Фиг.3 является схематичным графиком, иллюстрирующим огибающую 10 спектра сигналов принятых аудио кадров. Горизонтальная ось представляет частоту, и вертикальная ось представляет амплитуду, например, энергию (мощность) и т.д.

Теперь с обращением на обе Фиг.2 и 3, будут представлены концепции относительно того, каким образом выбирают процедуру PLC в декодере аудио. Нужно отметить, что это может выполняться в декодере аудио беспроводного терминала и/или узле транскодера по Фиг.1.

Одно решение для выбора процедуры PLC в декодере аудио, размещающем, по меньшей мере, две различные процедуры PLC, состоит в использовании меры устойчивости огибающей спектра в выборе процедуры PLC. Это подразумевает первый этап анализа, по меньшей мере, ранее принятого кадра звукового сигнала по отношению к устойчивости его огибающей спектра относительно огибающей спектра, по меньшей мере, одного, дополнительного ранее принятого кадра звуковой сигнала. Результатом этого этапа анализа является мера (величина) устойчивости огибающей, которая используется на втором этапе. На этом втором этапе мера устойчивости огибающей используется в алгоритме принятия решения, который в ответ на, по меньшей мере, эту меру выбирает одну из множества процедур PLC в случае, если последующий аудио кадр разрушен или испорчен как следствие потери или ошибки передачи пакета аудио.

Полагают, что декодер аудио принимает пакеты кодированных аудиоданных, которые структурированы в наборы, как показано на Фиг.2. Каждый набор кодированных аудиоданных представляет кадр 15a-c кодированного аудиосигнала. Наборы кодированных аудиоданных выдаются кодером аудио в качестве результата кодирования исходного звукового сигнала. Наборы кодированных аудиоданных передаются в пакетах на декодер, обычно в виде одного или нескольких наборов на каждый пакет или в некоторых случаях в виде частичных наборов на каждый пакет.

После приема пакетов приемник аудио идентифицирует корректно принятые наборы кодированных аудиоданных, которые могут декодироваться декодером аудио. Наборы, соответствующие поврежденным или потерянным пакетам, являются недоступными для декодирования, и соответствующие кадры звукового сигнала требуют предпочтительнее подлежать восстановлению с помощью одной из доступных процедур PLC. Выбор процедуры PLC, подлежащей использованию для данного потерянного аудио кадра, описывается в последующем.

Сначала обнаруживают (идентифицируют) тип аудио (см. этап 40 по фигурам Фиг. 4A-B), где, по меньшей мере, один ранее корректно принятый аудио кадр или его связанные параметры кодирования анализируют и для потенциальной потери последующего кадра сохраняют в некоторой памяти (например, в памяти 53 данных по Фиг.5 или 63 Фиг.6). Обычно, этот анализ делают с последним по времени корректно принятым аудио кадром до момента потери. Анализ оценивает, вероятно ли, что звуковой сигнал является вокализованным сигналом или музыкальным сигналом. Результат этого анализа может быть мерой, определенной в диапазоне значений, например, от 0 до 1, где близкое к 0 значение представляет высокую вероятность, что сигнал является речевым, и где близкое к 1 значение представляет высокую вероятность, что сигнал является музыкальным, или наоборот.

Один вариант осуществления этапа анализа состоит в использовании устойчивости огибающей спектра в качестве меры вероятности, является ли кадр сигнала речевым или музыкальным. Предпосылкой использования устойчивости огибающей спектра как такого показателя является наблюдение, что музыкальный сигнал имеет тенденцию наличия относительно устойчивой огибающей спектра во времени, или что огибающая спектра медленно изменяется во времени, тогда как для речи наблюдается противоположное. Эта мера оценивает изменчивость огибающей спектра звукового сигнала в области энергий спектральных поддиапазонов (также известных как масштабные коэффициенты или нормы). Известно, что эта мера может например, также использоваться в аудиокодеке для управления нижним порогом шумов спектральных поддиапазонов.

Один способ вычисления меры устойчивости огибающей спектра состоит в сравнении представления огибающей спектра, например, амплитуды спектра последнего по времени корректно принятого кадра с представлением огибающей спектра, по меньшей мере, одного ранее принятого кадра, для которого представление было сохранено в памяти. Если имеется тенденция наличия относительно значительных изменений огибающей, сигнал полагают речеподобным, иначе его полагают представляющим музыку. Соответственно, значение устойчивости огибающей будет установлено в близкие к 0 значения или, соответственно, в близкие к 1. Изобретательская догадка состоит в том, что относительно потерь кадров сигналов, где показатель устойчивости огибающей до момента потери указывает высокую устойчивость, будет выбрана PLC, более подходящая для музыкальных сигналов.

Фактическое принятие решение о процедуре PLC делается на втором этапе, см. этап 44 по фигурам Фиг.4A-B. Здесь меру устойчивости огибающей, вычисленную в хорошем кадре до момента потери кадра, сначала восстанавливают из памяти и затем сравнивают с пороговым значением. В качестве примера порогового значения может быть 0,5. Если мера устойчивости огибающей превышает пороговое значение, выбирают процедуру PLC для музыкальных сигналов, иначе - таковую для речевых сигналов.

Согласно одному варианту осуществления, описанный способ принятия решения на основе устойчивости огибающей используется на одном уровне в способе многоуровневого принятия решения. Здесь, первое принятие решение делается на основе меры устойчивости огибающей, выбирается ли процедура PLC, более подходящая для музыки. Снова, если мера устойчивости выше некоторого порогового значения, будет выбираться PLC для музыкального сигнала. Если, однако, это не так, может привлекаться способ второго принятия решения, который сравнивает другие меры, выведенные во время последнего хорошего аудио кадра, с некоторым пороговым значением. Примерами других мер являются параметры, которые могут использоваться для различения вокализованной речи от невокализованной речи, подобные предсказанному коэффициенту усиления основного тона (коэффициенту усиления по долгосрочному предсказанию) или, например, наклону спектра огибающей. Если эти значения указывают (посредством относительно больших значений), что звуковой сигнал, вероятно, является вокализованной речью, то селектор выбирает процедуру PLC, которая является более подходящей для речевых сигналов, иначе выбирается процедура PLC, подходящая для музыкальных сигналов.

Согласно дополнительному варианту осуществления принятие решения о процедуре PLC может кроме меры устойчивости огибающей в качестве одного критерия выбора также предусматривать вычисление дополнительных мер и их сравнения с надлежащим пороговым значением. Такими мерами могут, например, быть флаг VAD (детектор активности речи (голосового сигнала)), параметры энергии, меры тональности сигнала, меры того, насколько гармоническим является сигнал, меры того, насколько спектрально сложным является сигнал, и т.д. Истинный тональный сигнал будет иметь относительно небольшое число четких пиков спектра, которые относительно устойчивы по сравнению с некоторым более ранним аудио кадром. Гармонический сигнал будет иметь четкие пики спектра на собственной частоте и кратной таковой. Спектрально сложный звуковой сигнал (как например, от оркестровой музыки с несколькими вносящими вклад инструментами) будет иметь относительно большое число пиков спектра с нечеткой взаимосвязью друг с другом. Способ принятия решения может учитывать такие дополнительные меры, кроме устойчивости огибающей, при определении процедуры PLC, подлежащей использованию для потерянного кадра.

Согласно одному варианту осуществления, процедурой PLC, которая является наиболее подходящей, чтобы использоваться для обнаруженных музыкальных сигналов, или для сигналов с относительно устойчивой огибающей спектра, тональных сигналов, и/или спектрально сложных сигналов, является Phase ECU. Сигналы, где предпочтительнее следует выбирать другую процедуру PLC с наличием модели основного тона, являются такими, которые классифицированы как речевые и особенно - вокализованной речи, и сигналы, которые имеют гармоническую спектральную структуру и/или наклон спектра, типичный для вокализованной речи.

Фигуры Фиг. 4A-B являются структурными схемами, иллюстрирующими способы, выполняемые в декодере аудио в хост-устройстве (беспроводном терминале и/или узле транскодирования по Фиг.1) для выбора процедуры маскирования потери пакета.

На этапе 40 «обнаружить тип аудио» обнаруживают тип аудио принятого аудио кадра. Это может содержать определение типа аудио, являющегося или «музыкальным», или «речевым». Факультативно, имеются больше возможных типов аудио, потенциально содержащих тип аудио 'неизвестный'.

В одном варианте осуществления определяют, что тип аудио будет музыкальным, в случае, если огибающая спектра принятых звуковых сигналов является устойчивой. В таком случае определяют, что тип аудио будет речевым, если огибающая спектра принятых звуковых сигналов является неустойчивой. «Устойчивая» и «неустойчивая» может, например, задаваться путем сравнения с пороговым значением, когда устойчивость огибающей спектра является скалярным значением.

Факультативно, на этом этапе используется гистерезис (неоднозначная зависимость), чтобы препятствовать перескоку назад и вперед при обнаружении типа аудио. Альтернативно или дополнительно, может использоваться цепь Маркова, чтобы повысить устойчивость классификации.

На этапе 44 «определить процедуру PLC» процедуру маскирования потери пакета определяют на основании типа аудио.

Способ может повторяться, если принимают новые аудио кадры, чтобы гарантировать, что определен последний по времени тип аудио.

Фиг.4B иллюстрирует способ для выбора процедуры маскирования потери пакета согласно одному варианту осуществления. Этот способ подобен способу, проиллюстрированному на Фиг.4A, и будут описаны только новые или модифицированные этапы в отношении Фиг.4A.

Здесь, этап 40 «обнаружить тип аудио» содержит необязательный этап 41 «определить устойчивость огибающей спектра» и/или необязательный этап 42 «определить 2^-ое измерение».

На необязательном этапе 41 «определить устойчивость огибающей спектра» определяют устойчивость огибающей спектра сигналов принятых аудио кадров. Как пояснено выше, это может обеспечиваться путем сравнения огибающей спектра сигналов двух (или более) корректно принятых последовательных аудио кадров.

Факультативно, скалярное значение измерения, связанное с огибающей спектра принятых сигналов принятых аудио кадров, вычисляют, например, с помощью значений между 0 и 1, как описано выше.

На необязательном этапе 42 «определить 2^-ое измерение», определяют второе измерение для принятого аудио кадра. Второе измерение содержит показатель, выбранный из группы, состоящей из предсказанного коэффициента усиления основного тона, наклона огибающей спектра, флага детектора активности речи, параметров энергии, меры тональности сигнала, меры того, насколько гармоническим является сигнал, и меры того, насколько спектрально сложным является сигнал.

Фиг.5 является схематичным представлением, показывающим некоторые компоненты беспроводного терминала 2 по Фиг.1. Процессор 50 обеспечивают, используя любую комбинацию одного или нескольких из подходящих центрального процессора (ЦП, CPU), многопроцессорной системы, микроконтроллера, цифрового процессора сигналов (DSP), специализированной интегральной схемы и т.д., способных исполнять программные инструкции 56, сохраненные в памяти 54, каковая таким образом может быть компьютерным программным продуктом. Процессор 50 может быть сконфигурирован для исполнения программных инструкций 56, чтобы выполнять любой один или несколько вариантов осуществления способов, описанных со ссылкой на Фиг. 4A-B выше.

Память 54 может быть любой комбинацией из памяти для чтения-записи (RAM) и постоянной памяти (ROM). Память 54 также содержит долговременную память, которая, например, может быть любой одиночной или комбинацией из магнитной памяти, оптической памяти, твердотельной памяти или даже удаленно установленной памяти.

Также обеспечивают память 53 данных для считывания и/или сохранения данных в ходе исполнения программных инструкций в процессоре 50. Память 53 данных может быть любой комбинацией из памяти для чтения-записи (RAM) и постоянной памяти (ROM).

Беспроводной терминал 2 дополнительно содержит интерфейс 52 ввода-вывода для осуществления связи с другими внешними объектами. Интерфейс 52 ввода-вывода также включает в себя пользовательский интерфейс, содержащий микрофон, динамик, устройство отображения и т.д. Необязательно, внешний микрофон и/или динамик/наушники могут подключаться к беспроводному терминалу.

Беспроводной терминал 2 также содержит один или несколько приемопередатчиков 51, содержащих аналоговые и цифровые компоненты, и надлежащее количество антенн 55 для беспроводной связи с беспроводными терминалами, как показано на Фиг.1.

Беспроводной терминал 2 содержит кодер аудио и декодер аудио. Они могут быть реализованы в виде программных инструкций 56, исполнимых процессором 50, или с использованием отдельных аппаратных средств (не показаны).

Другие компоненты беспроводного терминала 2 опущены, чтобы не затенять концепции, представленные в документе.

Фиг.6 является схематичным представлением, показывающим некоторые компоненты узла 5 транскодирования по Фиг.1. Процессор 60 обеспечивают, используя любую комбинацию одного или нескольких из подходящего центрального процессора (ЦП), многопроцессорной системы, микроконтроллера, цифрового процессора сигналов (DSP), специализированной интегральной схемы и т.д., способных исполнять программные инструкции 66, сохраненные в памяти 64, каковая таким образом может быть компьютерным программным продуктом. Процессор 60 может быть сконфигурирован для исполнения программных инструкций 66, чтобы выполнять любой один или несколько вариантов осуществления способов, описанных со ссылкой на Фиг. 4A-B выше.

Память 64 может быть любой комбинацией из памяти с возможностью чтения-записи (RAM) и постоянной памяти (ROM). Память 64 также содержит долговременную память, которая, например, может быть любой одиночной или комбинацией из магнитной памяти, оптической памяти, твердотельной памяти или даже удаленно установленной памяти.

Память 63 данных также обеспечивают для считывания и/или сохранения данных в ходе исполнения программных инструкций в процессоре 60. Память 63 данных может быть любой комбинацией из памяти для чтения-записи (RAM) и постоянной памяти (ROM).

Узел 5 транскодирования дополнительно содержит интерфейс 62 ввода-вывода (I/O) для осуществления связи с другими внешними объектами, такими как беспроводной терминал Фиг.1 (через базовую станцию 1).

Узел 5 транскодирования дополнительно содержит кодер аудио и декодер аудио. Они могут быть реализованы в виде программных инструкций 66, исполнимых процессором 60, или с использованием отдельных аппаратных средств (не показаны).

Другие компоненты узла 5 транскодирования опущены, чтобы не затенять концепции, представленные в документе.

Фиг.7 показывает один пример компьютерного программного продукта 90, содержащего читаемое компьютером средство. На этом читаемом компьютером средстве может быть сохранена компьютерная программа 91, каковая компьютерная программа может обеспечить выполнение процессором способа согласно вариантам осуществления, описанным в документе. В этом примере компьютерный программный продукт являет собой оптический диск, такой как CD (компакт-диск) или DVD (цифровой многофункциональный диск) или диск по технологии Blu-ray. Как пояснено выше, компьютерный программный продукт также может быть реализован в памяти устройства, например, компьютерный программный продукт 54 по Фиг.5 или компьютерный программный продукт 64 по Фиг.6. Хотя компьютерная программа 91 здесь схематично показана как дорожка на изображенном оптическом диске, компьютерная программа может сохраняться любым образом, подходящим для компьютерного программного продукта, такого как съемная твердотельная память (например, карта с портом универсальной последовательной шины (USB)).

Здесь теперь следует ряд вариантов осуществления, чтобы дополнительно описать концепции, представленные в документе.

Первый вариант осуществления содержит способ для выбора процедуры маскирования потери пакета, способ выполняется в декодере аудио и содержит этапы: обнаружения (40) типа аудио принятого аудио кадра; и определения (44) процедуры маскирования потери пакета на основе типа аудио.

Второй вариант осуществления содержит способ по первому варианту осуществления, причем этап обнаружения (40) типа аудио содержит этап: определения (41) устойчивости огибающей спектра сигналов принятых аудио кадров.

Третий вариант осуществления содержит способ по второму варианту осуществления, причем этап определения (41) устойчивости огибающей спектра сигналов принятых аудио кадров содержит сравнение огибающей спектра сигналов из двух (или более) корректно принятых последовательных аудио кадров.

Четвертый вариант осуществления содержит способ по второму или третьему варианту осуществления, причем этап определения (41) устойчивости огибающей спектра принятых сигналов из принятых аудио кадров содержит вычисление скалярного значения измерения, связанного с огибающей спектра принятых сигналов из принятых аудио кадров.

Пятый вариант осуществления содержит способ по любому из второго, третьего и четвертого вариантов осуществления, причем этап обнаружения (40) типа аудио дополнительно содержит этап: определения (42) второго измерения принятого аудио кадра, второе измерение содержит показатель, выбранный из группы, состоящей из предсказанного коэффициента усиления основного тона, наклона огибающей спектра, флага детектора активности речи, параметров энергии, меры тональности сигнала, меры того, насколько гармоническим является сигнал, и меры того, насколько спектрально сложным является сигнал.

Шестой вариант осуществления содержит способ по любому из предыдущих вариантов осуществления, причем этап обнаружения (40) типа аудио содержит определение типа аудио, являющегося либо музыкальным, либо речевым.

Седьмой вариант осуществления содержит способ по шестому варианту осуществления при зависимости от второго варианта осуществления, причем этап обнаружения (40) типа аудио содержит определение, что типом аудио будет музыкальный, когда огибающая спектра принятых звуковых сигналов является устойчивой, и определение, что типом аудио будет речевой, когда огибающая спектра принятых звуковых сигналов является неустойчивой.

Восьмой вариант осуществления содержит хост-устройство (2, 5) для выбора процедуры маскирования потери пакета, хост-устройство содержит процессор (50, 60) и память (54, 64), сохраняющую инструкции (56, 66), которые при исполнении процессором побуждают хост-устройство (2, 5): обнаруживать тип аудио принятого аудио кадра; и определять процедуру маскирования потери пакета на основе типа аудио.

Девятый вариант осуществления содержит хост-устройство (2, 5) по восьмому варианту осуществления, причем инструкции для обнаружения типа аудио содержат инструкции, которые при исполнении процессором побуждает хост-устройство (2, 5) определять устойчивость огибающей спектра сигналов принятых аудио кадров.

Десятый вариант осуществления содержит хост-устройство (2, 5) по девятому варианту осуществления, причем инструкции для определения устойчивости огибающей спектра сигналов принятых аудио кадров содержат инструкции, которые при исполнении процессором побуждают хост-устройство (2, 5) сравнивать огибающую спектра сигналов из двух (или более) корректно принятых последовательных аудио кадров.

Одиннадцатый вариант осуществления содержит хост-устройство (2, 5) согласно девятому или десятому варианту осуществления, причем инструкции для определения устойчивости огибающей спектра принятых сигналов принятых аудио кадров содержат инструкции, которые при исполнении процессором побуждают хост-устройство (2, 5) вычислять скалярное значение измерения, связанное с огибающей спектра принятых сигналов из принятых аудио кадров.

Двенадцатый вариант осуществления содержит хост-устройство (2, 5) по любому из девятого, десятого и одиннадцатого вариантов осуществления, причем инструкции для определения процедуры маскирования потери пакета дополнительно содержат инструкции, которые при исполнении процессором побуждают хост-устройство (2, 5) определять второе измерение для принятого аудио кадра, второе измерение содержит показатель, выбранный из группы, состоящей из предсказанного коэффициента усиления основного тона, наклона огибающей спектра, флага детектора активности речи, параметров энергии, меры тональности сигнала, меры того, насколько гармоническим является сигнал, и меры того, насколько спектрально сложным является сигнал.

Тринадцатый вариант осуществления содержит хост-устройство (2, 5) по любому из восьмого - двенадцатого вариантов осуществления, причем инструкции для обнаружения типа аудио содержат инструкции, которые при исполнении процессором побуждают хост-устройство (2, 5) определять, что типом аудио будет либо музыкальный, либо речевой.

Четырнадцатый вариант осуществления содержит хост-устройство (2, 5) по тринадцатому варианту осуществления, при зависимости от девятого варианта осуществления, причем инструкции для обнаружения типа аудио содержат инструкции, которые при исполнении процессором побуждают хост-устройство (2, 5) определять, что типом аудио будет музыкальный, когда огибающая спектра принятых звуковых сигналов является устойчивой, и определять, что типом аудио будет речевой, когда огибающая спектра принятых звуковых сигналов является неустойчивой.

Пятнадцатый вариант осуществления содержит хост-устройство (2) по любому из восьмого - четырнадцатого вариантов осуществления, причем хост-устройство является беспроводным терминалом (2).

Шестнадцатый вариант осуществления содержит хост-устройство (5) по любому из восьмого - четырнадцатого вариантов осуществления, причем хост-устройство (5) является узлом транскодирования, выполненным с возможностью выполнять транскодирование аудио.

Семнадцатый вариант осуществления содержит компьютерную программу (66, 91) для выбора процедуры маскирования потери пакета, компьютерная программа содержит код компьютерной программы, который при работе на хост-устройстве (2, 5) побуждает хост-устройство (2, 5): обнаруживать тип аудио принятого аудио кадра; и определять процедуру маскирования потери пакета на основе типа аудио.

Восемнадцатый вариант осуществления содержит компьютерный программный продукт (64, 90), содержащий компьютерную программу по семнадцатому варианту осуществления и читаемое компьютером средство, на котором сохранена компьютерная программа.

Изобретение в основном было описано выше со ссылкой на несколько вариантов осуществления. Однако, как с легкостью оценит специалист в данной области техники, другие варианты осуществления, отличные от раскрытых выше, в равной степени возможны в рамках объема изобретения.

Иллюстрации к изобретению RU 2 704 747 C2

Реферат патента 2019 года ВЫБОР ПРОЦЕДУРЫ МАСКИРОВАНИЯ ПОТЕРИ ПАКЕТА

Изобретение относится к декодированию аудио и предназначено для выбора процедуры маскирования потери пакета при декодировании аудио. Технический результат – выбор процедуры PLC, обеспечивающей наилучшее качество аудио. Данные способ и устройство осуществляют выбор процедуры маскирования потери пакета для потерянного аудио кадра принятого звукового сигнала. Способ для выбора процедуры маскирования потери пакета содержит обнаружение типа аудио принятого аудио кадра и определение процедуры маскирования потери пакета на основании типа аудио. В способе обнаружение типа аудио содержит определение устойчивости огибающей спектра сигналов принятых аудио кадров. 3 н. и 12 з.п. ф-лы, 8 ил.

Формула изобретения RU 2 704 747 C2

1. Способ для выбора процедуры маскирования потери пакета, причем способ содержит:

классифицирование принятого аудио кадра как речевого или музыкального посредством определения (41) устойчивости огибающей спектра сигналов принятых аудио кадров, причем устойчивость классифицирования увеличивается с использованием цепи Маркова; и

определение (44) процедуры маскирования потери пакета на основе, по меньшей мере частично, классификации речевой/музыкальный.

2. Способ по п.1, в котором определение (41) устойчивости огибающей спектра сигналов принятых аудио кадров содержит сравнение огибающей спектра сигналов по меньшей мере двух принятых аудио кадров, которые являются последовательными и были корректно приняты.

3. Способ по п.1 или 2, в котором определение (41) устойчивости огибающей спектра упомянутых сигналов принятых аудио кадров содержит вычисление скалярного значения измерения, связанного с огибающей спектра упомянутых сигналов принятых аудио кадров.

4. Способ по любому из предшествующих пунктов, в котором классифицирование принятого аудио кадра в качестве речевого или музыкального содержит классифицирование принятого аудио кадра в качестве музыкального в ответ на определение того, что огибающая спектра сигналов принятых аудио кадров является устойчивой, и классифицирование принятого аудио кадра в качестве речевого в ответ на определение того, что огибающая спектра сигналов принятых аудио кадров является неустойчивой.

5. Способ по любому из предшествующих пунктов, в котором определение (44) процедуры маскирования потери пакета содержит выбор способа блока (ECU) маскирования фазовой ошибки на основе синусоидального изменения фазы, в ответ на классифицирование принятого аудио кадра в качестве музыкального.

6. Способ по любому из предшествующих пунктов, в котором определение (44) процедуры маскирования потери пакета содержит выбор модели основного тона, в ответ на классифицирование принятого аудио кадра в качестве речевого.

7. Способ по любому из предшествующих пунктов, в котором определение (44) процедуры маскирования потери пакета дополнительно содержит определение (42) второго измерения принятого аудио кадра и сравнение второго измерения с определенным пороговым значением, причем второе измерение содержит показатель, выбранный из группы, состоящей из предсказанного коэффициента усиления основного тона, наклона огибающей спектра, флага детектора активности речи, параметров энергии, меры тональности сигнала, меры того, насколько гармоническим является сигнал, и меры того, насколько спектрально сложным является сигнал.

8. Хост-устройство (2, 5) для выбора процедуры маскирования потери пакета, причем устройство содержит:

процессор (50, 60); и

память (54, 64), сохраняющую инструкции, которые при исполнении процессором (50, 60) побуждают устройство (2, 5):

классифицировать принятый аудио кадр как речевой или музыкальный посредством определения устойчивости огибающей спектра сигналов принятых аудио кадров, причем устойчивость классифицирования увеличивается с использованием цепи Маркова; и

определять процедуру маскирования потери пакета на основе, по меньшей мере частично, классификации речевой/музыкальный.

9. Хост-устройство (2, 5) по п.8, в котором инструкции для определения устойчивости огибающей спектра сигналов принятых аудио кадров содержат инструкции, которые при исполнении процессором побуждают устройство сравнивать огибающую спектра сигналов по меньшей мере двух принятых аудио кадров, которые являются последовательными и были корректно приняты.

10. Хост-устройство (2, 5) по п.8 или 9, в котором инструкции для определения устойчивости огибающей спектра упомянутых сигналов принятых аудио кадров содержат инструкции, которые при исполнении процессором побуждают устройство вычислять скалярное значение измерения, связанное с огибающей спектра упомянутых сигналов принятых аудио кадров.

11. Хост-устройство (2, 5) по любому из пп.8-10, в котором инструкции для классифицирования принятого аудио кадра в качестве речевого или музыкального содержат инструкции, которые при исполнении процессором побуждают устройство классифицировать принятый аудио кадр в качестве музыкального, когда огибающая спектра сигналов принятых аудио кадров является устойчивой, и классифицировать принятый аудио кадр в качестве речевого, когда огибающая спектра сигналов принятых аудио кадров является неустойчивой.

12. Хост-устройство (2, 5) по любому из пп.8-11, в котором инструкции для определения процедуры маскирования потери пакета дополнительно содержат инструкции, которые при исполнении процессором побуждают устройство определять второе измерение принятого аудио кадра и сравнивать упомянутое второе измерение с определенным пороговым значением, причем второе измерение содержит показатель, выбранный из группы, состоящей из предсказанного коэффициента усиления основного тона, наклона огибающей спектра, флага детектора активности речи, параметров энергии, меры тональности сигнала, меры того, насколько гармоническим является сигнал, и меры того, насколько спектрально сложным является сигнал.

13. Хост-устройство (2) по любому из пп.8-12, в котором хост-устройство является беспроводным терминалом (2).

14. Хост-устройство (5) по любому из пп.8-12, в котором хост-устройство является узлом транскодирования, выполненным с возможностью выполнять транскодирование аудио.

15. Читаемое компьютером средство, содержащее инструкции, которые при исполнении процессором побуждают упомянутый процессор осуществлять способ по любому из пп. 1-7.

Документы, цитированные в отчете о поиске Патент 2019 года RU2704747C2

Устройство автоматической смены инструмента	1986	Кордыш Леонид Моисеевич Косовский Воля Львович Шигин Анатолий Николаевич	SU1458145A1
Устройство для измельчения пней	1990	Смердов Максим Викторович Смердов Виктор Васильевич Сипливых Валентин Иванович Костин Виктор Дмитриевич Балакин Станислав Владимирович	SU1791115A1
СПОСОБ ГЕНЕРАЦИИ КАДРОВ МАСКИРОВАНИЯ В СИСТЕМЕ СВЯЗИ	2006	Андерсен Сёрен Ванг	RU2407071C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ЭФФЕКТИВНОГО МАСКИРОВАНИЯ СТЕРТЫХ КАДРОВ В РЕЧЕВЫХ КОДЕКАХ НА ОСНОВЕ ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ	2003	Желинек Милан Гурнай Филипп	RU2325707C2
СПОСОБ КОНКАТЕНАЦИИ КАДРОВ В СИСТЕМЕ СВЯЗИ	2006	Андерсен Сёрен Ванг	RU2417457C2
US 6456719 B1, 24.09.2002
US 8015000 B2, 06.09.2011
Способ и аппарат для получения гидразобензола или его гомологов	1922	В. Малер	SU1998A1
Топчак-трактор для канатной вспашки	1923	Берман С.Л.	SU2002A1

RU 2 704 747 C2

Авторы

Брун Стефан

Даты

2019-10-30—Публикация

2015-05-12—Подача

название	год	авторы	номер документа
ВЫБОР ПРОЦЕДУРЫ МАСКИРОВАНИЯ ПОТЕРИ ПАКЕТА	2015	Брун Стефан	RU2665889C2
КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ АУДИОСИГНАЛОВ	2015	Норвелл Эрик Брун Стефан	RU2668111C2
КЛАССИФИКАЦИЯ И КОДИРОВАНИЕ АУДИОСИГНАЛОВ	2015	Норвелл, Эрик Брун, Стефан	RU2765985C2
УСТРОЙСТВО И СПОСОБ, РЕАЛИЗУЮЩИЕ УЛУЧШЕННЫЕ КОНЦЕПЦИИ ДЛЯ TCX LTP	2014	Шнабель Михаэль Маркович Горан Шпершнайдер Ральф Леконт Жереми Хельмрих Кристиан	RU2665279C2
УСТРОЙСТВО И СПОСОБ, РЕАЛИЗУЮЩИЕ ПЛАВНОЕ ИЗМЕНЕНИЕ СПЕКТРА MDCT К БЕЛОМУ ШУМУ ПЕРЕД ПРИМЕНЕНИЕМ FDNS	2014	Шнабель Михаэль Маркович Горан Шпершнайдер Ральф Леконт Жереми Хельмрих Кристиан	RU2676453C2
УСТРОЙСТВО И СПОСОБ ДЛЯ УЛУЧШЕННОГО ПЛАВНОГО ИЗМЕНЕНИЯ СИГНАЛА ДЛЯ ПЕРЕКЛЮЧАЕМЫХ СИСТЕМ КОДИРОВАНИЯ ЗВУКА ВО ВРЕМЯ МАСКИРОВАНИЯ ОШИБОК	2014	Шнабель Михаэль Маркович Горан Шпершнайдер Ральф Леконт Жереми Хельмрих Кристиан	RU2666250C2
УСТРОЙСТВО И СПОСОБ ДЛЯ ГЕНЕРАЦИИ АДАПТИВНОЙ ФОРМЫ СПЕКТРА КОМФОТНОГО ШУМА	2014	Шнабель, Михаэль Маркович, Горан Шпершнайдер, Ральф Леконт, Жереми Хельмрих, Кристиан	RU2658128C2
УСТРОЙСТВО И СПОСОБ УЛУЧШЕННОГО ПЛАВНОГО ИЗМЕНЕНИЯ СИГНАЛА В РАЗЛИЧНЫХ ОБЛАСТЯХ ВО ВРЕМЯ МАСКИРОВАНИЯ ОШИБОК	2014	Шнабель, Михаэль Маркович, Горан Шпершнайдер, Ральф Леконт, Жереми Хельмрих, Кристиан	RU2675777C2
КОДИРОВАНИЕ ЗВУКА ВЫСОКОГО РАЗРЕШЕНИЯ	2020	Гао, Ян	RU2800626C2
АУДИОДЕКОДЕР, ПОДДЕРЖИВАЮЩИЙ НАБОР РАЗНЫХ ИНСТРУМЕНТОВ МАСКИРОВАНИЯ ПОТЕРЬ	2018	Томасек, Адриан Равелли, Эммануэль Шнелль, Маркус Чекалинский, Александр Шнабель, Михаэль Шпершнайдер, Ральф	RU2759092C1