Изобретение относится к маскированию отброшенных кадров в системе радиосвязи и касается, в частности, устройства и способа для улучшения декодирования сигналов звуковой частоты в таких системах.
Способы кодирования/декодирования речевых сигналов в системах радиосвязи хорошо известны и даже стандартизированы (например, стандарты IS - 54 в США и GSM в Европе). Известны также способы улучшения кодирования/декодирования фоновых шумов, предназначенные в основном для цифровых сотовых систем радиотелефонной связи. Эти способы предназначены главным образом для такой ситуации, когда связь между кодером и декодером близка к идеальной в том смысле, что после канального декодирования остается лишь небольшое число ошибок в битах или ошибок передачи. Однако поскольку связь осуществляется по радиоканалу, принятый сигнал может содержать немало ошибок в битах или ошибок передачи. Кроме того, помимо плохого качества канала передачи, кадры могут теряться и по иным причинам. Например, согласно американскому стандарту IS-54 для цифровой сотовой связи быстродействующий совмещенный канал управления (FACCH) образуется путем изъятия кадров речи из канала полезного трафика (аналогичный канал предусмотрен в европейской сотовой системе подвижной связи GSM). Похожая ситуация возникает и в сетях с коммутацией пакетов, когда пакеты (кадры) теряются или приходят слишком поздно для того, чтобы использовать их для воспроизведения речи в реальном времени (пакеты могут иметь различные маршруты между передатчиком и приемником). Во всех этих случаях может требоваться модификация известных способов.
Целью настоящего изобретения является разработка устройства и способа, в которых применяется маскирование отброшенных кадров принимаемых сигналов для того, чтобы сделать декодирование сигналов звуковой частоты более устойчивым или нечувствительным к ошибкам передачи и потерям кадров.
В соответствии с изобретением заданная цель достигается с помощью способа по п.1 формулы изобретения.
Кроме того, в соответствии с изобретением вышеупомянутая цель достигается с помощью устройства по п.10 формулы изобретения.
Изобретение поясняется с помощью чертежей.
Фиг. 1 представляет собой структурную схему соответствующих узлов приемника в системе радиосвязи, содержащей устройство в соответствии с настоящим изобретением.
На фиг. 2 показана блок-схема алгоритма для способа в соответствии с настоящим изобретением.
Для пояснения изобретения кратко рассмотрим работу типичного канала в цифровой сотовой системе радиосвязи, а также типичные методы и алгоритмы маскирования ошибочных и потерянных кадров.
В линии связи цифровой сотовой радиотелефонной системы сигнал звуковой частоты сначала преобразуется в цифровую форму, а затем подвергается обработке согласно алгоритму кодирования речи (см., например, [1]). Этот алгоритм сжимает речевой сигнал и преобразует его в некоторое число квантованных параметров (обычно на основе кадров). Полученные биты затем защищаются путем создания избыточности при кодировании, осуществляемом с использованием способов канального кодирования (см., например, [2]). Полученный в результате поток битов модулирует несущую (см., например, [3]) и передается, например, с применением метода многостанционного доступа с временным разделением каналов. В приемнике сигнал демодулируется. Возможная временная дисперсия или дисперсия, вызванная многолучевым распространением радиоволн, может быть скомпенсирована различными способами выравнивания, например выравниванием по методу Витерби или с использованием обратной связи по решению (см., например, [3]). Затем используется канальное декодирование (см., например, вышеуказанную работу [2] ) для того, чтобы декодировать квантованные параметры, необходимые декодеру речи для восстановления переданного речевого сигнала. Из вышеизложенного очевидно, что помехи в канале передачи или потеря кадров могут оказывать вредное влияние на восстановленный речевой сигнал, ухудшая его качество.
Несмотря на то что способы канального кодирования/декодирования могут значительно уменьшить чувствительность к помехам, одного канального кодирования для цифровой сотовой системы обычно недостаточно. Напротив, обычно дополнительно используют методы так называемого маскирования ошибок для того, чтобы добавочно замаскировать воспринимаемые последствия ошибок, остающихся на входе декодера речи. Все эти методы используют некоторую информацию о качестве канала передачи, которая поступает на приемный конец или оценивается на приемном конце. Когда такая информация свидетельствует о плохом качестве канала передачи, методы маскирования ошибок предусматривают специальные действия в декодере речи с целью уменьшить отрицательное воздействие ошибок на восстановленный речевой сигнал. Уровень сложности методов маскирования ошибок зависит от характера информации о качестве канала передачи. Несколько путей получения такой информации будет описано ниже.
Непосредственная информация о качестве канала может быть получена измерением уровня сигнала. В этом случае низкое значение уровня сигнала будет указывать на низкое отношение сигнал/шум, означающее, что можно ожидать плохое качество канала. Методы канального кодирования обеспечивают более высокий уровень сложности. Одним из таких методов является использование избыточного канального кодирования, например контроля с использованием циклического избыточного кода (см., например, [2]), в частности, когда код используется для обнаружения ошибок. Кроме того, "мягкая" (не двоично-квантованная) информация может быть поручена от сверточного декодера (в случае, если используется сверточный код), от демодулятора, от выравнивателя и/или декодера блочного кода (см., например, [3]). Одним из методов, который часто используется, является разделение информационных битов, поступающих из кодера речи, на различные классы, для каждого из которых используются различные схемы исправления/обнаружения ошибок, в зависимости от различной важности различных битов (см. , например, [4]). Следовательно, фрагменты информации, в которых применены коды, позволяющие обнаруживать/исправлять ошибки, могут быть использованы в качестве индикаторов возможного наличия в кадре речи ошибок в битах.
Маскирование отброшенных кадров для речи.
Рассмотрим кратко несколько методов маскирования ошибок в обычных декодерах речи с целью маскирования кадров, которые считаются содержащими ошибки в битах. Когда обнаружен плохой кадр, обычно используют информацию из предыдущего принятого кадра. Этот способ часто комбинируется с заглушением (уменьшением выходного уровня) в случае, когда наблюдается несколько плохих кадров подряд (см., например, [4]). Такая ситуация является обычной в системах подвижной радиотелефонной связи, где глубокие замирания могут существовать в течение довольно длительных периодов времени в случае низкой скорости перемещения подвижного абонента. Результат заглушений заключается в том, что помехи в восстановленном сигнале маскируются. В частности, устраняются громкие "щелчки". Если имеется более подробная информация о качестве каждой принятой части приходящего потока битов, то становится возможным проследить воздействие возможных ошибок передачи на определенные параметры декодера речи. Так как упомянутые параметры моделируют различные явления речи, то могут быть разработаны методы маскирования ошибок, оптимизированные с учетом физического смысла каждого отдельного параметра. Одним из частных примеров такого параметра является так называемое усиление основного тона (см. , например, [5] ). Для этого параметра в кратковременные периоды речи бывает необходимо значение, большее чем единица. Однако такое значение соответствует нестабильной модели фильтра, а это значит, что его в некоторой степени опасно использовать. В частности, можно использовать методы маскирования ошибок, которые ограничивают усиление основного тона значением, меньшим единицы, каждый раз, когда обнаруживается возможная ошибка в битах этого параметра. Следующим примером является модель спектрального фильтра, которая обычно используется в современных алгоритмах кодирования речи (см., например, [5] ). В этом случае методы маскирования ошибок могут быть использованы для того, чтобы предотвратить применение нестабильных фильтров, если в соответствующей спектральной информации отмечены ошибки в битах. Возможно также и обратное: каждый раз, когда обнаруживается нестабильный фильтр, кадр считается плохим и применяются методы маскирования ошибок.
Например, в американской цифровой сотовой системе в соответствии со стандартом IS-54 кадр, изъятый для быстродействующего совмещенного канала управления, будет приводить к потере кадра речи в декодере речи приемника. Декодер речи решает эту проблему путем "замещения" подходящей информацией. Обычно вместо потерянного кадра используется информация из предыдущего кадра.
Маскирование отброшенных кадров для случая фоновых шумов.
Если декодер обеспечивает так называемые "антивихревые" операции для фоновых шумов (эти операции будут описаны ниже), то при использовании вышеописанных способов маскирования для случая речи качество полученного в результате сигнала звуковой частоты может быть неприемлемым.
Антивихревые операции могут быть выполнены несколькими путями. Одной из возможных операций является увеличение полосы пропускания фильтра. Это означает, что полюса фильтра смещаются по направлению к началу координат на комплексной плоскости. Другим возможным вариантом является низкочастотная фильтрация параметров фильтра во временной области, то есть быстрые изменения от кадра к кадру параметров фильтра или значений, представляющих их, ослабляются путем фильтрации нижних частот по крайней мере некоторых из упомянутых параметров. Частным случаем этого способа является усреднение значений, представляющих параметры фильтра, за несколько кадров.
Таким образом, поскольку фоновые шумы кодируются и/или декодируются иначе, чем речь, естественно, что используемые для речи способы маскирования отброшенных кадров могут быть не удовлетворительными для фоновых шумов. Настоящее изобретение решает эту проблему путем реализации разных процедур маскирования для речи и фоновых шумов.
С учетом приведенной информации о современном уровне техники обратимся к фиг. 1. На ней показаны необходимые для описания настоящего изобретения блоки приемника системы радиосвязи с подвижными объектами. Антенна получает информацию переданного сигнала и подает ее по входной линии 10 на демодулятор 12. Демодулятор 12 демодулирует сигнал и подает его по линии 14 на выравниватель 16, например выравниватель Витерби, который преобразует принятый и демодулированный сигнал в одну или несколько последовательностей битов, направляемых по линии 18 на первые решающие средства 20. Первые решающие средства 20 определяют, содержит ли принятый кадр биты из канала полезного трафика или же из быстродействующего совмещенного канала управления. Если принятый кадр содержит биты из канала полезного трафика, то последовательность битов по линии 22 направляется на канальный декодер 24. Канальный декодер 24 преобразует последовательность битов в последовательность параметров фильтра и последовательность параметров возбуждения для декодирования речи. Если же принятый кадр содержит биты из быстродействующего совмещенного канала управления, то последовательность битов на канальный декодер 24 не направляется. Вместо этого средства 32 маскирования информируются по линии 33 о том, что принятый кадр не содержит данных речи. Средства 32 маскирования могут быть выполнены с помощью микропроцессора как конечный автомат, а различные переходы из одного состояния в другое будут более подробно пояснены при рассмотрении фиг. 2, также они описаны в модуле программы на языке Паскаль в приложении, приведенном в конце текста описания.
Демодулятор 12 и выравниватель 16 также подают "мягкую" информацию о принятых битых или символах по линиям 50 и 52 соответственно на вторые решающие средства 28. Как было упомянуто выше, канальный декодер 24 преобразует последовательность битов в последовательность параметров фильтра и последовательность параметров возбуждения, необходимых для декодирования речи. Кроме того, канальный декодер 24 осуществляет декодирование циклического избыточного кода контроля, по меньшей мере в части каждого принятого кадра. Результаты этого контроля подаются на вторые решающие средства 28 по линии 26.
Фактически первые и вторые решающие средства 20 и 28 представляют собой средства для признания годными или отбрасывания принятых кадров в зависимости от того, представляют ли содержащиеся в них параметры надлежащие сигналы звуковой частоты.
Приемник содержит также детектор 34 речи (называемый также детектором голосовой активности), который представляет собой средство для определения того, представляют ли признанные годными кадры в основном речь или фоновые шумы. Подходящий детектор речи описан в заявке WO 89/08910 компании British Telecom PLC. Детектор 34 речи определяет по упомянутым параметрам фильтра и возбуждения, содержит ли принятый кадр главным образом речь или фоновые шумы. Решение детектора 34 речи по линии 36 подается на модификатор 38 параметров с целью модификации принятых параметров фильтра (между детектором 34 речи и модификатором 38 параметров может быть включен дискриминатор сигнала для определения, являются принятые сигналы, представляющие фоновые шумы, стационарными или нет). Эта модификация будет рассмотрена ниже. Параметры фильтра, возможно модифицированные, и параметры возбуждения подаются на декодер 40 речи, который выдает сигнал звуковой частоты по выходной линии 42.
Чтобы описать методы маскирования отброшенных кадров согласно настоящему изобретению, необходимо кратко рассмотреть результаты воздействия ошибок в битах на так называемые антивихревые алгоритмы. Эти результаты воздействия можно грубо разделить следующим образом:
1. Детектор 34 речи или голосовой активности, который используется для управления антивихревым алгоритмом, обычно является адаптивным [6]. Это означает, что имеются пороги и соответствующие состояния, которые автоматически обновляются внутри в детекторе голосовой активности с использованием либо измеряемого речевого сигнала, либо, если этот детектор входит в состав приемника, как в данном описании, декодированных параметров из канального декодера. Когда в приходящих параметрах имеются ошибки, пороги или переменные внутреннего состояния обновляются неправильно, что может привести к неправильным решениям. Следствием этого будет ухудшенное качество восстановленного сигнала звуковой частоты.
2. Детектор 34 речи или голосовой активности формирует решение о наличии речи/фоновых шумов, используя входящие параметры фильтра и возбуждения, а также обновленные внутренние состояния, то есть старые входящие параметры и дополнительную априорную информацию. Поэтому ошибки в битах могут сразу же привести к неправильным решениям в приемнике, что приводит к ухудшенному качеству восстановленного сигнала звуковой частоты. Кроме того, поскольку текущее решение зависит также от старых входящих параметров, ошибки в битах могут также влиять на будущие решения.
3. Реальные антивихревые операции в модификаторе 38 параметров (по существу - спектральная фильтрация нижних частот в сочетании с расширением полосы пропускания) подвергаются воздействию ошибок в битах. Один из эффектов возникает вследствие неправильных решений, поступающих от детектора 34 речи или голосовой активности (или от дискриминатора сигналов, если он имеется). В этих случаях может начинаться или прерываться обновление фильтра нижних частот в отличие от идеального канала. Другой эффект проявляется, когда имеются ошибки в битах, поражающие спектральную информацию, которая используется в фильтрах нижних частот и для расширения полосы частот. Оба эти эффекта могут вызвать ухудшение качества.
Из вышесказанного ясно, что отбрасывание кадров может приводить к неправильному обновлению в модификаторе 38 параметров. В соответствии с настоящим изобретением эти недостатки полностью или частично устраняются путем модификации процесса обновления в течение отбрасываемых кадров. Это модифицированное обновление будет описано более подробно с помощью фиг. 2.
На шаге 100 (фиг. 2) принимается новый кадр. На шаге 102 принимается решение, является данный кадр приемлемым или нет. Это решение может приниматься или первыми решающими средствами 20, которые отбрасывают кадры, не содержащие звуковых сигналов, или вторыми решающими средствами 28, которые отбрасывают кадры звуковых сигналов, содержащие ошибки передачи. Если решено, что принятый кадр является приемлемым, алгоритм переходит к шагу 128, на котором принятые параметры используются без маскирования ошибок. Кроме того, два ограничителя времени, а именно ВРЕМЯ-1 и ВРЕМЯ-2, устанавливаются в исходное положение. Эти ограничители времени будут дополнительно описаны ниже.
Если на шаге 102 решено, что принятый кадр должен быть отброшен, алгоритм переходит к шагу 104, на котором решается, содержит ли предыдущий (признанный пригодным) кадр речь или же фоновые шумы. Этот шаг может выполняться средствами 32 маскирования, так как детектор 34 речи сообщает средствам 32 маскирования о своих решениях по линии 48. Важно заметить, что решение должно быть основано на предыдущем (признанном пригодным) кадре, так как имеющийся в данное время кадр был отброшен.
Речь.
Если предыдущий кадр на шаге 104 был определен как кадр речи, то выполняется цикл S (фиг. 2), который представляет собой первый алгоритм маскирования. На шаге 106 некоторые из принятых параметров, а именно энергия кадра RO и коэффициенты отражения, интерполируются с параметрами, принятыми в предыдущем кадре, в то время как остальные параметры берутся из текущего кадра. В зависимости от качества принятых битов в отброшенном кадре, которое указывается "мягкой" информацией на линиях 26, 50 и 52, весовые коэффициенты предыдущего и текущего кадра при интерполяции могут изменяться. Таким образом, если текущий кадр является действительно плохим или был "изъят" для другой цели, интерполяция придает больший весовой коэффициент предыдущему кадру, чем текущему. С другой стороны, почти приемлемому кадру при интерполяции будет назначаться более высокий весовой коэффициент. Менее сложный способ описан также в стандарте EIA/TIA IS-54, раздел 2.2.2.2.3.2. Интерполированные параметры используются затем на шаге 107 для управления по линии 46 декодером 40 речи.
Затем алгоритм переходит к шагу 108, на котором принимается новый кадр. На шаге 110 проверяется, является этот кадр приемлемым или нет. Если кадр является приемлемым, то алгоритм переходит к шагу 128. Если кадр отбрасывается, то алгоритм переходит к шагу 112, на котором параметры интерполируются с вычисленными в конечном итоге параметрами предыдущего кадра. Одновременно понижается уровень сигнала на выходе декодера 40 речи. Затем на шаге 114 проверяется, не превышен ли предел ВРЕМЯ-1. ВРЕМЯ-1 обычно составляет 120 мс, что соответствует 6 кадрам. Если предел ВРЕМЯ-1 превышен, то выходной сигнал, формируемый декодером 40, заглушается на шаге 116. После этого алгоритм возвращается назад к шагу 107. Таким образом, для речи маскирования отброшенного кадра состоит по существу из интерполяции параметров и снижения выходного уровня до тех пор, пока не будет превышен предел ВРЕМЯ-1, после чего выходной сигнал заглушается.
Фоновые шумы.
Если предыдущий кадр содержал фоновые шумы, то после шага 104 выполняется цикл B, который представляет собой второй алгоритм маскирования. На шаге 118 коэффициенты фильтра в декодере 40 речи сохраняются равными их значениям для предыдущего кадра. Например, средствам 32 маскирования дается команда так управлять по линии 44 модификатором 38 параметров, чтобы сохранить параметры фильтра предыдущего кадра. На шаге 118 параметры усиления в декодере речи также устанавливаются равными их значениям в предыдущем кадре. Это осуществляется средствами 32 маскирования по линии 46. Параметры усиления представляют собой параметры, которые определяют смесь векторов, выбранных из различных кодовых словарей в кодере и декодере. Остальные параметры, например индексы кодовых словарей, задержки и т.п., берутся непосредственно из текущего (отбрасываемого) кадра.
После использования этих частично сохраненных параметров для воспроизведения звука на шаге 119 алгоритм переходит в шагу 120, на котором принимается новый кадр. На шаге 112 проверяется, является этот кадр приемлемым или нет. Если кадр признается пригодным, алгоритм переходит к шагу 128. Если кадр отбрасывается, на шаге 124 проверяется, не был ли превышен предел ВРЕМЯ-2. ВРЕМЯ-2 обычно составляет порядка 2 секунд, что соответствует 100 кадрам. Если предел ВРЕМЯ-2 был превышен, то на шаге 126 понижается выходной уровень. После этого алгоритм возвращается назад к шагу 119, на котором для декодирования используется вышеупомянутая комбинация ранее сохраненных и принятых в настоящий момент (в текущем кадре) параметров. Если предел ВРЕМЯ-2 не был превышен, алгоритм возвращается назад к шагу 119 без понижения выходного уровня.
Одно из очевидных различий между циклами S и B заключается в том, что ВРЕМЯ-1 значительно меньше, чем ВРЕМЯ-2. Таким образом, если следующие друг за другом кадры отбрасываются, то речевой сигнал будет скоро заглушен. Это вполне естественно, так как нет дальнейшей достоверной речевой информации для передачи слушателю. С другой стороны, фоновые шумы более стационарны по своей сущности и по этой причине цикл B может продолжаться дольше без раздражающих воздействий на слушателя.
Более тонкое различие состоит в том, что параметры фильтра в цикле B сохраняются равными своим значениям в последнем признанном пригодным кадре. Так как этот кадр содержал фоновые шумы, с ним были проведены вышеуказанные антивихревые операции. Таким образом, полоса пропускания фильтра была увеличена или параметры фильтра (или представляющие их значения) были отфильтрованы фильтром нижних частот. Следовательно, в некотором смысле антивихревые операции применяются также и к тем кадрам, которые отбрасываются.
В приведенном выше описании предполагалось, что параметры признанных пригодными кадров декодируются по-разному в зависимости от того, представляют они речь или фоновые шумы. Однако существует другой метод - кодирование в передатчике параметров для речи иначе, чем для фоновых шумов. В таком варианте осуществления изобретения модификатор 38 может быть исключен. Возможно также разделение модифицированного кодирования/декодирования между передатчиком и приемником.
В предпочтительном варианте осуществления изобретения антивихревые операции включают усреднение коэффициентов автокорреляции, которые вычисляются из принятых коэффициентов отражения, и энергии кадра RO, например, за последние 8 признанных пригодными кадров. Текущие коэффициенты фильтра могут быть вычислены из этих усредненных коэффициентов автокорреляции и энергии кадра RO при помощи еще одного анализа с использованием линейного кодирования с предсказанием в декодере. Все эти преобразования, связывающие между собой коэффициенты отражения, коэффициенты автокорреляции и коэффициенты фильтра изложены в [6] и в стандарте IS-54 EIA/TIA (Ассоциации электронной промышленности/Промышленной ассоциации в области связи). В рамках данной заявки эти параметры могут рассматриваться как эквивалентные друг другу.
От шага 128 алгоритм возвращается назад к шагу 100. Таким образом, если никакие кадры не отбрасываются, алгоритм выполняет лишь циклы между шагами 100, 102 и 128.
Предпочтительный вариант осуществления способа согласно изобретению поясняется с помощью модуля программы на языке Паскаль в приложении, приведенном в конце текста описания.
Очевидно, что возможны различные усовершенствования настоящего изобретения в пределах его сущности и объема, определенного формулой изобретения.
Источник информации:
1. Lawrence R. Rabiner. Applications of voice processing to telecommunications. - Proc. IEEE, v. 82, N 2, p. 199-228.
2. Clark G. C., Cain J. B. Error Correction Coding for Digital Communication. - Plenum Press, 1981.
3. Proakis J. G. Digital Communication. - 2nd edition, McGraw - Hill, 1989.
4. TR-45 Full Rate Speech Codec Compatibility Standart PN-2972. Electronic Industries Association, 1990 (IS-54).
5. Minde T. B., et al. Techniques for low bit rate speech coding using long analysis frames. - ICASSP, Minneapolis, USA. 1993.
6. Voice Activity Detection. Recommendation GSM 06.32, ETSI/GSM, 1991.
В приемнике системы радиосвязи, использующей передачу сигналов в виде кадров, отброшенные кадры маскируются в соответствии с первым алгоритмом (цикл S), если последний кадр, признанный пригодным, был кадром речи, и в соответствии со вторым алгоритмом (цикл B), если последний кадр, признанный пригодным, был кадром, содержащим фоновые шумы. Технический результат настоящего изобретения состоит в разработке способа и устройства, в которых применяется маскирование отброшенных кадров принимаемых сигналов для того, чтобы сделать декодирование сигналов звуковой частоты более устойчивым или нечувствительным к ошибкам передачи и потерям кадров. 2 с. и 16 з.п. ф-лы, 2 ил.
US 4357491 A, 02.11.87 | |||
Связующее | 1974 |
|
SU522213A1 |
Цифровой решетчатый фильтр синтезатора речи | 1978 |
|
SU886760A3 |
РАЗБРАСЫВАТЕЛЬ МУЛЬЧИ | 2002 |
|
RU2239971C2 |
US 5319736 A, 07.06.94. |
Авторы
Даты
1998-10-20—Публикация
1994-06-02—Подача