Область техники, к которой относится изобретение
Изобретение в целом относится к кодированию речи и, более конкретно, к улучшенным критериям кодирования для адаптации шумоподобных сигналов для пepeдaчи при пониженных скоростях передачи информации в битах.
Уровень техники
Наиболее современные речевые кодеры основаны на некоторой форме модели для формирования кодированного речевого сигнала. Параметры и сигналы модели подвергают квантованию, и информацию, описывающую их, передают по каналу. Доминирующей моделью кодера в применениях сотовой телефонной связи является способ линейного предсказания с кодовым возбуждением (ЛПКВ).
Обычный декодер ЛПКВ изображен на фиг.1. Кодированная речь формируется сигналом возбуждения, подаваемым через полюсный синтезирующий фильтр с порядком, обычно равным 10. Сигнал возбуждения формируют как сумму двух сигналов са и cf, которые выбирают из соответствующих кодовых книг (одна фиксированная и одна адаптивная) и затем умножают на соответствующие коэффициенты усиления gа и gf. Сигналы кодовой книги обычно имеют длительность 5 мс (подкадр), тогда как синтезирующий фильтр обычно корректируется каждые 20 мс (кадр). Параметрами, связанными с моделью ЛПКВ, являются коэффициенты синтезирующего фильтра, записи кодовой книги и коэффициенты усиления.
На фиг.2 изображен обычный кодер ЛПКВ. Точную копию декодера ЛПКВ (фиг. 1) используют для сформирования варианта кодированных сигналов для каждого подкадра. Кодированный сигнал сравнивают с некодированным (оцифрованным) сигналом в блоке 21 и используют взвешенный сигнал ошибки для управления процессом кодирования. Синтезирующий фильтр определяют, используя линейное предсказание (ЛП). Эту обычную процедуру кодирования называют анализом линейного предсказания через синтез (АЛПС).
Как понятно из вышеприведенного описания, кодеры АЛПС используют совпадение формы сигнала во взвешенной речевой области, то есть сигнал ошибки фильтруют взвешивающим фильтром. Это может быть выражено как минимизация следующего критерия квадратичной ошибки:
где S - вектор, содержащий один подкадр некодированных речевых выборок, SW - представляет собой S, умноженный на W взвешивающего фильтра, са и cf - кодовые векторы из адаптивной и фиксированной кодовых книг соответственно, W - матрица, выполняющая операцию взвешивающего фильтра, Н - матрица, выполняющая операцию синтезирующего фильтра, CSW - кодированный сигнал, умноженный на W взвешивающего фильтра. Обычно операцию кодирования для минимизации критерия по уравнению 1 выполняют в соответствии со следующими этапами:
этап 1: вычисляют синтезирующий фильтр посредством линейного предсказания и квантования коэффициентов фильтра. Взвешивающий фильтр вычисляют, исходя из коэффициентов фильтра линейного предсказания.
этап 2: кодовый вектор са находят посредством поиска в адаптивной кодовой книге, чтобы минимизировать DW в уравнении 1, предполагая, что gf равно нулю и что gа равно оптимальному значению. Поскольку каждый кодовый вектор са обычно связан с оптимальным значением да, поиск осуществляют, подставляя каждый кодовый вектор са в уравнение 1 вместе с его связанным оптимальным значением gа.
этап 3: кодовый вектор cf находят посредством поиска в фиксированной кодовой книге, чтобы минимизировать DW, используя кодовый вектор са и коэффициент усиления gа, найденные на этапе 2. Фиксированный коэффициент усиления gf принимают равным оптимальному значению.
этап 4: коэффициенты усиления gа и gf квантуют. Заметим, что gа может быть квантован после этапа 2, если используют скалярные квантователи.
Процедура сопоставления формы сигнала, описанная выше, как известно, работает хорошо, по меньшей мере, для скоростей передачи информации в битах, скажем, до 8 кбит/с, или больше. Однако при понижении скорости передачи информации в битах способность осуществлять сопоставление формы сигнала непериодических, шумоподобных сигналов, таких как вокализированная речь и фоновый шум, уменьшается. Для сегментов вокализированной речи критерий сопоставления формы сигнала все еще работает хорошо, но слабая способность сопоставления формы сигнала для шумоподобных сигналов часто ведет к получению кодированного сигнала со слишком низким уровнем и раздражающим изменяющимся характером (известным как "завихрение").
Хорошо известно, что для шумоподобных сигналов лучше сопоставлять спектральный характер сигнала и иметь хорошее совпадение (соответствие) уровня сигналов (коэффициента усиления). Так как синтезирующий фильтр с линейным предсказанием обеспечивает спектральный характер сигнала, то для шумоподобных сигналов может использоваться альтернативный приведенному выше уравнению 1 критерий:
где ES - энергия некодированного речевого сигнала, и ECS - энергия кодированного сигнала CS= Н•(gа•са+gf•cf). Уравнение 2 подразумевает соответствие энергии в противоположность соответствию формы сигнала в уравнении 1. Этот критерий может также использоваться во взвешенной речевой области посредством включения W взвешивающего фильтра. Заметим, что операции извлечения квадратного корня включены в уравнение 2 только для того, чтобы иметь критерий в той же области, что и уравнение 1; это не является необходимым и не является ограничением. Имеются также другие возможные критерии совпадения энергии, такие как DE = |ES-ECS|.
Критерий может быть также сформулирован в остаточной области следующим образом:
где Еr является энергией остаточного сигнала r, полученного фильтрацией S через инверсию (Н-1) синтезирующего фильтра, и Ex - энергия сигнала возбуждения, заданного х=ga•ca+gf•cf.
Различные рассмотренные выше критерии используют в обычном многорежимном кодировании, причем различные режимы кодирования (например, соответствие энергии) используют для вокализированной речи и фонового шума. В этих режимах используют критерии совпадения энергии, как в уравнениях 2 и 3. Недостаток этого подхода заключается в необходимости выбора режима, например, выбор режима совпадения формы сигнала (уравнение 1) для вокализированной речи и выбор режима совпадения энергии (уравнения 2 или 3) для шумоподобных сигналов, подобных вокализированной речи и фоновому шуму. Выбор режима требует осторожного обращения и вызывает раздражающие артефакты при неправильном выборе. Также резкое изменение стратегии кодирования между режимами может вызывать нежелательные звуки.
Поэтому необходимо создать улучшенное кодирование шумоподобных сигналов при пониженных скоростях передачи информации в битах без вышеуказанных недостатков многорежимного кодирования.
Настоящее изобретение выгодно объединяет критерии совпадения формы сигнала и совпадения энергии для улучшения кодирования шумоподобных сигналов на пониженных скоростях передачи информации в битах без недостатков многорежимного кодирования.
Краткое описание чертежей
Фиг.1 схематически иллюстрирует обычный декодер ЛПКВ.
Фиг.2 схематически иллюстрирует обычный кодер ЛПКВ.
Фиг. 3 графически иллюстрирует коэффициент симметрии согласно изобретению.
Фиг. 4 графически иллюстрирует конкретный пример коэффициента симметрии фиг.3.
Фиг. 5 схематически иллюстрирует соответствующую часть примера кодера ЛПКВ согласно изобретению.
Фиг. 6 является блок-схемой, которая иллюстрирует примеры операций части кодера ЛПКВ, изображенного на фиг.5.
Фиг.7 схематически иллюстрирует систему связи согласно изобретению.
Подробное описание
Настоящее изобретение объединяет критерии совпадения (соответствия) формы сигнала и совпадения энергии в один единственный критерий DWE. Баланс между совпадением формы сигнала и совпадением энергии мягко адаптивно корректируют весовыми коэффициентами:
DWE=K•DW+L•DE, (4)
где К и L являются весовыми коэффициентами, определяющими относительные веса между искажением DW совпадения формы сигнала и искажением DE совпадения энергии. Весовые коэффициенты К и L могут быть соответственно установлены равными 1-α и α следующим образом:
DWE = (1-α)•DW+α•DE, (5)
где α - коэффициент симметрии, имеющий значение от 0 до 1, чтобы обеспечить баланс между частью DW совпадения формы сигнала, и частью DE совпадения энергии критерия. Значение α предпочтительно является функцией уровня голоса, или периодичности, в текущем речевом сегменте, α = α(V), где V - показатель уровня голоса. Принципиальный эскиз примера функции α(V) показан на фиг. 3. При уровнях голоса ниже а, α=d, при уровнях голоса выше b, α = c, и α уменьшается постепенно от d до с при уровнях голоса между а и b.
В одной конкретной формулировке критерий по уравнению 5 может быть выражен как:
где ESW - энергия сигнала SW; ECWS - энергия сигнала CSW.
Хотя приведенный выше критерий по уравнению 6 или его разновидности могут быть выгодно использованы для всего процесса кодирования в кодере ЛПКВ, значительное улучшение получают, когда он используется только в части квантования коэффициента усиления (то есть, этап 4 способа кодирования, приведенный выше). Хотя описание ниже детализирует применение критерия по уравнению 6 для квантования коэффициента усиления, он может быть использован при поиске в кодовых книгах са и cf аналогичным образом.
Заметим, что ECWS в уравнении 6 может быть выражено как:
ECSW = ||CSW||2, (7)
так, что уравнение 6 может быть переписано как:
Из уравнения 1 можно видеть, что:
CSW=W•H•(ga•ca+gf•cf). (9)
Как только кодовые векторы са и cf определены, например, с использованием приведенных выше уравнения 1 и этапов 1-3, задача состоит в том, чтобы найти соответствующие квантованные значения коэффициента усиления. Для векторного квантования эти квантованные значения коэффициента усиления задаются в виде записей из кодовой книги векторного квантователя. Эта кодовая книга содержит в себе множество записей, и каждая запись включает в себя пару квантованных значений gаQ и gfQ коэффициента усиления.
Подставляя все пары квантованных значений gaQ и gfQ коэффициента усиления из кодовой книги векторного квантователя в уравнение 9, и затем, подставляя каждое получившееся значение CSW в уравнение 8, вычисляют все возможные значения DW в уравнении 8. Пару значений коэффициента усиления из кодовой книги векторного квантователя, дающую наименьшее значение DWE, выбирают для квантованных значений коэффициента усиления.
В нескольких современных кодерах используют квантование с предсказанием для значений коэффициента усиления, или, по меньшей мере, для значения коэффициента усиления фиксированной кодовой книги. Его непосредственно включают в уравнение 9, так как предсказание осуществлено перед поиском. Вместо подстановки в уравнение 9 значений коэффициента усиления из кодовой книги в уравнение 9 подставляют значения коэффициента усиления из кодовой книги, умноженные на предсказанные значения коэффициента усиления. Каждое получающееся значение CSW затем подставляют в уравнение 8, как указано выше.
Для скалярного квантования коэффициентов усиления часто используют простой критерий, при котором оптимальное усиление является квантованным непосредственно, то есть, используют критерий, подобный
DSGQ=(gOPT-g)2, (10)
где DSGQ является критерием скалярного квантования коэффициента усиления, gOPT - оптимальное усиление (или gаOPT или gfOPT), которое обычно определено на этапе 2 или 3, упомянутых выше, и g является квантованным значением коэффициента усиления из кодовой книги скалярного квантователя или gа или gf. Выбирают квантованное значение коэффициента усиления, которое минимизирует DSGQ.
При квантовании коэффициентов усиления слагаемое совпадения энергии при необходимости может быть выгодно использовано только для коэффициента усиления фиксированной кодовой книги, так как адаптивная кодовая книга обычно играет незначительную роль для шумоподобных речевых сегментов. Таким образом, критерий по уравнению 10 может быть использован для квантования коэффициента усиления адаптивной кодовой книги, в то время как новый критерий DgfG используют для квантования коэффициента усиления фиксированной кодовой книги, а именно:
где gfOPT - оптимальное значение gf, определенное из приведенного выше этапа 3, и gаQ - квантованный коэффициент усиления адаптивной кодовой книги, определенный с использованием уравнения 10. Все квантованные значения коэффициента усиления из кодовой книги скалярного квантователя gf подставляют как gf в уравнение 11, и выбирают квантованное значение коэффициента усиления, которое минимизирует DgfG.
Адаптация коэффициента симметрии α является ключом к получению хорошей характеристики с новым критерием. Как описано ранее, α является предпочтительно функцией уровня голоса. Коэффициент усиления кодирования адаптивной кодовой книги - пример хорошего показателя уровня голоса. Примеры определения уровня голоса, таким образом, включают в себя:
где VV является мерой уровня голоса для векторного квантования, VS - мера уровня голоса для скалярного квантования, и r - остаточный сигнал, определенный выше.
Хотя уровень голоса определяют в остаточной области, используя уравнения 12 и 13, уровень голоса может также быть определен, например, во взвешенной речевой области, заменяя r на SW в уравнениях 12 и 13, и умножая члены gа•са уравнений 12 и 13 на W•H.
Чтобы избежать локальных флуктуаций в значениях V, значения V могут быть фильтрованы перед отображением в α область. Например, может использоваться медианный фильтр текущего значения и значений для предыдущих 4 подкадров следующим образом:
Vm=median(V-1, V-2, V-3, V-4), (14)
где V-1, V-2, V-3, V-4 являются значениями V для предыдущих 4-х подкадров.
Функция, показанная на фиг.4, иллюстрирует пример отображения показателя Vm голоса в коэффициент α симметрии. Эта функция математически выражается следующим образом:
Заметим, что максимальное значение α, меньшее 1, означает, что полное совпадение энергии никогда не происходит, и некоторое совпадение формы сигнала всегда остается в критерии (см. уравнение 5).
В начале речи, когда энергия сигнала значительно увеличивается, коэффициент усиления кодирования адаптивной кодовой книги часто является малым вследствие того, что адаптивная кодовая книга не содержит соответствующих сигналов. Однако соответствие формы сигнала важно в начале речи, и вследствие этого α принудительно устанавливают равным нулю, если обнаружено начало речи. Простое обнаружение начала речи на основании оптимального коэффициента усиления фиксированной кодовой книги, может использоваться следующим образом:
α(Vm) = 0, если gfOPT>2,0•gfOPT-1, (16)
где gfOPT-1 является оптимальным коэффициентом усиления фиксированной кодовой книги, определенным на этапе 3, приведенным выше, для предыдущего подкадра.
Также выгодно ограничить увеличение значения α, когда оно было нулевым в предыдущем подкадре. Это может быть осуществлено простым делением значения на подходящее число, например 2,0, когда предыдущее значение α было нулевым. Таким образом, избегают артефактов, вызванных переходом от простого совпадения формы сигнала к совпадению энергии в большей степени.
Как только коэффициент α симметрии был определен, используя уравнения 15 и 16, он может быть выгодно отфильтрован, например, усреднением его со значениями α предыдущих подкадров.
Как указанно выше, уравнение 6 (и таким образом уравнения 8 и 9) могут быть также использованы для выбора векторов са и cf адаптивной и фиксированной кодовых книг. Поскольку вектор са адаптивной кодовой книги еще не известен, измерения голоса по уравнениям 12 и 13 не могут быть вычислены, так что коэффициент симметрии по уравнению 15 также не может быть вычислен. Таким образом, чтобы использовать уравнения 8 и 9 для поисков в адаптивной и фиксированной кодовых книгах, коэффициент (симметрии предпочтительно устанавливают равным значению, которое было определено опытным путем, чтобы получить требуемые результаты для шумоподобных сигналов. Как только коэффициент α симметрии был определен опытным путем, тогда поиски в адаптивной и фиксированной кодовых книгах могут продолжаться способом, сформулированным на этапах 1-4, приведенных выше, но с использованием критерия по уравнениям 8 и 9. Альтернативно, после того, как са и gа определены на этапе 2 при использовании опытным путем определенного значения α, то уравнения 12-15 могут быть использованы в качестве соответствующих для определения значения α, которое должно быть использовано в уравнении 8 на этапе 3 поиска в фиксированной кодовой книге.
Фиг. 5 является блок-схемой представления примера части речевого кодера ЛПКВ согласно изобретению. Часть кодера, изображенная на фиг.5, включает в себя контроллер 51 критериев, имеющий вход для приема некодированного речевого сигнала, а также соединенный для обмена информацией с фиксированной и адаптивной кодовыми книгами 61 и 62 и с кодовыми книгами 50, 54 и 60 квантователя коэффициента усиления. Контроллер 51 критериев выполнен с возможностью выполнения всех обычных операций, связанных с конструкцией кодера ЛПКВ, изображенного на фиг.2, включая реализацию обычных критериев, представленных приведенными выше уравнениями 1-3 и 10, и выполнение обычных операций, описанных выше на этапах 1-4.
В дополнение к описанным выше обычным операциям контроллер 51 критериев также может осуществлять операции, описанные выше для уравнений 4-9 и 11-16. Контроллер 51 критериев подает на определитель 53 голоса сигнал са, как определено на этапе 2 выше, и сигнал gаOPT (или gаQ, если используется скалярное квантование), как определено выше выполнением этапов 1-4. Контроллер критериев далее применяет обратный синтезирующий фильтр Н-1 к некодированному речевому сигналу, чтобы таким образом определить остаточный сигнал r, который является также входным сигналом для определителя 53 голоса.
Определитель 53 голоса в ответ на свои вышеописанные входные сигналы определяет показатель V уровня голоса согласно уравнению 12 (векторное квантование) или уравнению 13 (скалярное квантование). Сигнал показателя V уровня голоса подают на вход фильтра 55, который подвергает сигнал показателя V уровня голоса операции фильтрации (типа операции фильтрации медианным фильтром, описанной выше), таким образом получают фильтрованный сигнал показателя Vf уровня голоса в качестве выходного сигнала. Для фильтрации медианным фильтром фильтр 55 может включать в себя запоминающее устройство 56, как показано, для сохранения показателей уровня голоса предыдущих подкадров.
Фильтрованный выходной сигнал показателя Vf уровня голоса, выданный из фильтра 55, подают на блок 57 определения коэффициента симметрии. Блок 57 определения коэффициента симметрии использует фильтрованный сигнал показателя Vf уровня голоса для определения коэффициента α симметрии, например способом, описанным выше относительно уравнения 15 (где Vm представляет собой конкретный пример Vf на фиг.5) и фиг.4. Контроллер 51 критериев подает на вход блока 57 определения коэффициента симметрии gfOPT для текущего подкадра, и это значение может быть сохранено в запоминающем устройстве 58 блока 57 определения коэффициента симметрии для использования в уравнении 16. Блок определения коэффициента симметрии также включает в себя запоминающее устройство 59 для сохранения значения α каждого подкадра (или, по меньшей мере, значений α, равных нулю), чтобы разрешить блоку 57 определения коэффициента симметрии ограничить увеличение значения α, когда значение, связанное с предыдущим подкадром, было нулевым.
Как только контроллер 51 критериев получил коэффициенты синтезирующего фильтра и применил требуемые критерии для определения векторов кодовой книги и связанных квантованных значений коэффициента усиления, тогда информация, указывающая эти параметры, выдается (52) из контроллера критериев для передачи по каналу связи.
Фиг. 5 также концептуально иллюстрирует кодовую книгу 50 векторного квантователя и кодовые книги 54 и 60 соответствующих скалярных квантователей для значения gа коэффициента усиления адаптивной кодовой книги и значения gf коэффициента усиления фиксированной кодовой книги. Как описано выше, кодовая книга 50 векторного квантователя включает в себя множество записей, причем каждая запись включает в себя пару квантованных значений gаQ и gfQ коэффициента усиления. Кодовые книги 54 и 60 скалярного квантователя каждая включают в себя одно квантованное значение коэффициента усиления на запись.
Фиг.6 иллюстрирует в виде блок-схемы пример работы (как описано подробно выше) примера части кодера на фиг.5. Когда новый подкадр некодированной речи принимают при операции 63, приведенные выше этапы 1-4 выполняют согласно требуемому критерию при операции 64 для определения са, gа, cf и gf. После этого определяют при операции 65 меру V уровня голоса и после этого при операции 66 определяют коэффициент симметрии. После этого при операции 67 используют коэффициент симметрии для определения критерия для квантования коэффициента усиления DWE по совпадению формы сигнала и совпадению энергии. Если при операции 68 используют векторное квантование, то при операции 69 для квантования обоих коэффициентов усиления используют объединенный критерий DWE совпадения формы сигнала/совпадения энергии. Если используется скалярное квантование, то при операции 70 коэффициент усиления gа адаптивной кодовой книги квантуют, используя DSGQ по уравнению 10, а при операции 71 коэффициент усиления gf фиксированной кодовой книги квантуют, используя объединенный критерий DgfQ соответствия формы сигнала/соответствия энергии по уравнению 11. После того, как коэффициенты усиления квантованы, ожидается приход следующего подкадра при операции 63.
Фиг. 7 изображает блок-схему примера системы связи, включающей в себя речевой кодер согласно настоящему изобретению. На фиг.7 согласно настоящему изобретению в приемопередатчик 73 встраивают кодер 72, при этом приемопередатчик 73 обменивается информацией с приемопередатчиком 74 по каналу связи 75. Кодер 72 принимает некодированный речевой сигнал и выдает в канал 75 информацию, из которой обычный декодер 76 (такой как описан выше для фиг.1) в приемопередатчике 74 может восстановить исходный речевой сигнал. Например, приемопередатчики 73 и 74 на фиг.7 могут быть сотовыми телефонами, а канал 75 может быть каналом связи в телефонной сети сотовой связи. Другие применения речевого кодера 72 по настоящему изобретению многочисленны и очевидны.
Специалистам в данной области техники ясно, что речевой кодер согласно изобретению может быть легко осуществлен с использованием, например, соответствующим образом запрограммированного процессора цифровых сигналов (ПЦС) или другого устройства обработки данных, или одного или в комбинации с внешними логическими схемами.
Новый критерий кодирования речи мягко объединяет совпадение формы сигнала и совпадение энергии. Поэтому можно избежать необходимости использования или одного или другого, но может использоваться соответствующее смешение критериев. Избегают проблемы неправильного выбора режима между критериями. Адаптивный характер критерия делает возможным плавное регулирование баланса соответствия энергии и формы сигнала. Поэтому, артефактами из-за резкого изменения критерия можно управлять.
Некоторое совпадение формы сигнала может всегда поддерживаться в новом критерии. Можно таким образом избежать проблем, связанных с полностью неподходящим сигналом с высоким уровнем, подобным всплеску шумов.
Хотя наилучшие варианты осуществления настоящего изобретения подробно описаны выше, они не ограничивают объем изобретения, которое может быть осуществлено в виде множества вариантов осуществления.
Изобретение относится к распознаванию речи. Его использование при кодировании речи для адаптации шумоподобных сигналов позволяет обеспечить технический результат в виде улучшения кодирования шумоподобных сигналов при пониженных скоростях передачи информации без формирования нежелательных звуков при многорежимном кодировании. Этот технический результат достигается в способе получения из исходного речевого сигнала множества параметров, из которых может быть восстановлена аппроксимация исходного речевого сигнала, заключающемся в том, что формируют в ответ на исходный речевой сигнал дополнительный сигнал, который предназначен для представления исходного речевого сигнала, определяют первую разность между формой сигнала, связанной с исходным речевым сигналом, и формой сигнала, связанной с дополнительным сигналом, определяют вторую разность между параметром энергии, полученным из исходного речевого сигнала, и соответствующим параметром энергии, связанным с дополнительным сигналом, и используют первую и вторую разности для определения по меньшей мере одного из параметров, из которых может быть восстановлена аппроксимация исходного речевого сигнала. Этот способ реализуется в соответствующем устройстве кодирования речи, а также в приемопередатчике системы связи с таким устройством кодирования. 3 с. и 24 з.п. ф-лы, 7 ил.
US 5060269 А, 22.10.1991 | |||
Сборная перредварительно напряженная ферма | 1974 |
|
SU523979A1 |
СПОСОБ СЖАТИЯ РЕЧЕВОГО СИГНАЛА ПУТЕМ КОДИРОВАНИЯ С ПЕРЕМЕННОЙ СКОРОСТЬЮ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ, КОДЕР И ДЕКОДЕР | 1993 |
|
RU2107951C1 |
US 5717824 А, 10.02.1998 | |||
US 5787391 A, 28.07.1998. |
Авторы
Даты
2004-02-10—Публикация
1999-08-06—Подача