Область техники
Настоящее изобретение относится к усовершенствованному способу цифрового кодирования звукового сигнала, в частности речевого сигнала, для передачи и синтезирования этого звукового сигнала.
Описание предшествующего уровня техники
Потребность в эффективных методах цифрового кодирования речи с хорошим субъективным компромиссом между качеством и скоростью передачи битов возрастает в таких областях применения, как передача речи через спутники, наземные подвижные объекты, посредством цифровой радиосвязи или сети с пакетной коммутацией, речевыми базами данных, автоответчиками и радиотелефонией.
Одним из лучших способов, который дает хорошее соотношение качества/скорости передачи битов, является так называемый способ линейного прогноза с возбуждением кода (ЛПВК). Согласно этому способу используют образец речевого сигнала и обрабатывают его в виде последовательных блоков L-образцов, т. е. векторов, где L является некоторым заданным числом. В способе ЛПВК используют шифровальную книгу.
Шифровальная книга является индексированным множеством последовательностей, длина которых есть длина L-образца и которые называют L-мерными кодовыми векторами. Шифровальная книга содержит индекс k, диапазон которого от 1 до М, где М представляет размер шифровальной книги, который иногда выражают числом битов b:
М = 2b
Шифровальную книгу могут запоминать в физической памяти, например в справочной таблице, или могут применять некоторый механизм для соотнесения индекса с соответствующим кодовым вектором, например формулу.
Для синтезирования речи согласно ЛПВК каждый блок речевых образцов синтезируют фильтрацией соответствующего кодового вектора из шифровальной книги посредством изменяющихся во времени фильтров, моделирующих спектральные характеристики речевого сигнала. На стороне кодера синтезированный выходной сигнал вычисляют для всех кодовых векторов шифровальной книги (поиск по шифровальной книге) или для их субкомплекта. Сохраняемый кодовый вектор является вектором, который производит синтетический выходной сигнал, который является ближайшим по отношению к оригинальному речевому сигналу в соответствии с взвешенной на основе восприятия степенью искажения.
Первым типом шифровальных книг являются так называемые "стохастические" шифровальные книги. Недостаток этих шифровальных книг заключается в том, что для них часто требуется значительный объем физической памяти. Они являются "стохастическими", т.е. произвольными в том смысле, что маршрут от индекса к соответствующему кодовому вектору предполагает наличие справочных таблиц, которые являются результатом произвольно генерированных чисел или статических методов, применимых к крупным комплектам речевого обучения. Размер стохастических шифровальных книг ограничивается запоминающим устройством и/или сложностью поиска.
Вторым типом шифровальных книг являются алгебраические шифровальные книги. В противоположность стохастическим шифровальным книгам алгебраические шифровальные книги не являются произвольными и не требуют значительной памяти. Алгебраическая шифровальная книга является комплектом индексированных кодовых векторов, по которым амплитуды и позиции импульсов k-ого кодового вектора можно вывести из соответствующего индекса k посредством определенного правила, не требующего физической памяти, или для которого требуется минимальная физическая память. Поэтому размер алгебраических шифровальных книг не ограничен предъявляемыми к памяти требованиями. Алгебраические шифровальные книги можно также составлять для эффективного поиска.
Краткое изложение существа изобретения
Целью настоящего изобретения является создание способа и устройства для проведения поиска по шифровальной книге при кодировании звукового сигнала, которые позволяют значительно снизить сложность поиска. Этот способ и устройство можно применять для крупного класса шифровальных книг.
Предложен способ проведения поиска в глубину по шифровальной книге для кодирования звукового сигнала, в котором
используют шифровальную книгу, которая содержит комплект кодовых векторов Ak, каждый из которых определяет множество разных позиций p и содержит N импульсов ненулевой амплитуды, каждый из которых соответствует заранее определенным действительным позициям p кодового вектора,
для поиска в глубину используют древовидную структуру, определяющую число M заданных уровней, причем каждый уровень m соответствует заранее определенному числу Nm импульсов ненулевой амплитуды, Nm ≥ 1, а сумма заранее определенных чисел соответствует всем М уровням и равна числу N импульсов ненулевой амплитуды, содержащихся в кодовых векторах, причем каждый уровень m древовидной структуры соответствует операции построения маршрута с помощью заданного правила задания импульса и заданного критерия выбора,
способ проведения поиска первой глубины по шифровальной книге согласно изобретению содержит следующие этапы
в уровне 1 древовидной структуры осуществляют построение маршрута, заключающееся в том, что
отбирают число N1 из N импульсов ненулевой амплитуды в соответствии с правилом задания импульса,
выбирают по меньшей мере одну действительную позицию p в N1 импульсах ненулевой амплитуды в соответствии с критерием выбора для определения по меньшей мере одного маршрута-кандидата уровня-1,
в уровне m древовидной структуры построение маршрута рекурсивно определяет маршрут-кандидат уровня-m путем продолжения маршрута-кандидата уровня-(m-1), для чего осуществляют следующие вспомогательные операции
отбирают Nm импульсов ненулевой амплитуды, которые ранее не выбирались в ходе построения маршрута уровня-(m-1) в соответствии с правилом задания импульса,
выбирают по меньшей мере одну действительную позицию p для Nm импульсов ненулевой амплитуды в соответствии с критерием выбора для формирования по меньшей мере одного маршрута-кандидата уровня-m,
причем маршрут-кандидат уровня-М, созданный на уровне 1 и продолженный при построении маршрута, относящегося к последующим уровням древовидной структуры, определяет соответствующие p позиции N импульсов ненулевой амплитуды кодового вектора и тем самым определяет кодовый вектор-кандидат Ak.
Также предложен способ проведения поиска в глубину в шифровальной книге для кодирования звукового сигнала, в котором
используют шифровальную книгу, содержащую комплект кодовых векторов Ak, каждый из которых определяет множество разных p позиций и содержит N импульсов ненулевой амплитуды, каждый из которых соответствует заданным действительным p позициям кодового вектора,
для поиска в глубину осуществляют (а) разделение N импульсов ненулевой амплитуды на число M субкомплектов, каждый из которых содержит по меньшей мере один импульс ненулевой амплитуды, и (b) используют древовидную структуру, содержащую узлы, характеризующие действительные p позиции N импульсов ненулевой амплитуды, и определяющую множество уровней поиска, каждый из которых относится к одному из М субкомплектов,
причем каждый уровень поиска также относится к данному правилу задания импульса и к данному критерию выбора,
способ проведения поиска первой глубины по шифровальной книге согласно изобретению содержит этапы
на первом уровне поиска древовидной структуры
отбирают по меньшей мере один из N импульсов ненулевой амплитуды в соответствии с правилом задания импульсов для формирования соответствующего субкомплекта,
выбирают по меньшей мере одну действительную p позицию по меньшей мере одного импульса ненулевой амплитуды в соответствии с критерием выбора для определения по меньшей мере одного маршрута по узлам древовидной структуры,
на каждом последующем уровне поиска древовидной структуры
отбирают по меньшей мере один импульс ненулевой амплитуды, который ранее не был выбран в соответствии с правилом задания импульса, для формирования соответствующего субкомплекта, и
выбирают по меньшей мере одну действительную p позицию по меньшей мере одного импульса ненулевой амплитуды соответствующего субкомплекта в соответствии с критерием выбора для продолжения по меньшей мере одного маршрута по узлам древовидной структуры,
при этом каждый маршрут, определенный на первом уровне поиска и продолженный во время последующих уровней поиска, определяет соответствующие p позиции N импульсов ненулевой амплитуды кодового вектора Ak, составляющего кодовый вектор-кандидат для кодирования звукового сигнала.
Данное изобретение также относится к устройству для проведения поиска в глубину в шифровальной книге для кодирования звукового сигнала, в котором
шифровальная книга содержит комплект кодовых векторов Ak, каждый из которых определяет множество разных p позиций и содержит N импульсов ненулевой амплитуды, каждый из которых соответствует заранее определенным действительным p позициям кодового вектора,
поиск в глубину включает (а) разделение N импульсов ненулевой амплитуды на число М субкомплектов, каждый из которых содержит по меньшей мере один импульс ненулевой амплитуды, и (b) использование древовидной структуры, содержащей узлы, характеризующие действительные p позиции N импульсов ненулевой амплитуды, и определяющие множество уровней поиска, каждый из которых относится к одному из М субкомплектов, причем каждый уровень поиска соответствует заданному правилу задания импульса и заданному критерию выбора,
устройство проведения поиска первой глубины по шифровальной книге согласно изобретению содержит
для первого уровня поиска древовидной структуры
первое средство для отбора по меньшей мере одного импульса из числа N импульсов ненулевой амплитуды в соответствии с правилом задания импульса для формирования соответствующего субкомплекта,
первое средство для выбора по меньшей мере одной действительной позиции из числа действительных p позиций по меньшей мере одного импульса ненулевой амплитуды в соответствии с критерием выбора для определения по меньшей мере одного маршрута по узлам древовидной структуры,
для каждого последующего уровня поиска древовидной структуры содержит
второе средство для отбора по меньшей мере одного импульса ненулевой амплитуды, который ранее не был выбран, в соответствии с правилом задания импульса для формирования соответствующего субкомплекта, и
второе средство для выбора в последующем уровне поиска по меньшей мере одной действительной p позиции по меньшей мере одного импульса ненулевой амплитуды соответствующего субкомплекта в соответствии с критерием выбора для продолжения по меньшей мере одного маршрута по узлам древовидной структуры,
причем каждый маршрут, определенный на первом уровне поиска и продолженный на последующих уровнях поиска, определяет соответствующие p позиции N импульсов ненулевой амплитуды кодового вектора Ak, составляющего кодовый вектор-кандидат для кодирования звукового сигнала.
Целью настоящего изобретения также является разработка системы сотовой связи для обслуживания крупного географического района, подразделяемого на множество сотов, содержащей
мобильные передающие/приемные аппараты,
базовые сотовые станции, соответственно расположенные в этих сотах,
средство для управления связью между сотовыми базовыми станциями,
двухстороннюю субсистему радиосвязи между каждым мобильным аппаратом, расположенным в одной единице сотов, и сотовой базовой станцией одной единицы сотов, причем двухсторонняя субсистема радиосвязи содержит и в мобильном аппарате, и в сотовой базовой станции (а) передатчик, содержащий средство для кодирования речевого сигнала и средство для передачи кодированного речевого сигнала, и (b) приемник, содержащий средство для приема переданного кодированного речевого сигнала и средство для декодирования принятого кодированного речевого сигнала,
при этом средство кодирования речевого сигнала содержит устройство для проведения поиска в глубину в шифровальной книге для кодирования речевого сигнала, в котором
шифровальная книга содержит комплект кодовых векторов Ak, каждый из которых определяет множество разных p позиций и содержит N импульсов ненулевой амплитуды, каждый из которых присваивают заданным действительным p позициям кодового вектора,
поиск в глубину включает (а) разделение N импульсов ненулевой амплитуды на число M субкомплектов, каждый из которых содержит по меньшей мере один импульс ненулевой амплитуды, и (b) использование древовидной структуры, содержащей узлы, характеризующие действительные p позиции N импульсов ненулевой амплитуды, и определяющие множество уровней поиска, каждый из которых относится к одному из M субкомплектов, причем каждый уровень поиска определяется заданным правилом задания импульса и заданным критерием выбора,
устройство проведения поиска в глубину по шифровальной книге согласно изобретению содержит
для первого уровня поиска древовидной структуры
первое средство для отбора по меньшей мере одного импульса из числа N импульсов ненулевой амплитуды в соответствии с правилом задания импульса для формирования соответствующего субкомплекта,
первое средство для выбора по меньшей мере одной действительной p позиции по меньшей мере одного импульса ненулевой амплитуды в соответствии с критерием выбора для определения по меньшей мере одного маршрута по узлам древовидной структуры,
для каждого последующего уровня поиска древовидной структуры
второе средство для отбора по меньшей мере одного импульса ненулевой амплитуды, который ранее не был выбран, в соответствии с функцией задания импульса для формирования соответствующего субкомплекта, и
второе средство для выбора на последующем уровне поиска по меньшей мере одной действительной p позиции по меньшей мере одного импульса ненулевой амплитуды соответствующего субкомплекта в соответствии с критерием выбора для продолжения по меньшей мере одного маршрута по узлам древовидной структуры,
причем каждый маршрут, определенный на первом уровне поиска и продолженный во время последующих уровней поиска, определяет соответствующие p позиции N импульсов ненулевой амплитуды кодового вектора Ak, составляющего кодовый вектор-кандидат для кодирования звукового сигнала.
Краткое описание чертежей
В дальнейшем преимущества изобретения станут более очевидны из представленного ниже описания предпочтительных вариантов осуществления со ссылкой на чертежи, на которых
фиг. 1 изображает блок-схему предпочтительного варианта осуществления системы кодирования в соответствии с данным изобретением, содержащую оценку вероятности позиции импульса и оптимизирующий контроллер, согласно изобретению;
фиг. 2 - блок-схему системы декодирования, относящуюся к системе кодирования, согласно изобретению;
фиг. 3 - схематичное представление множества вложенных циклов, используемых оптимизирующим контроллером кодирующей системы для вычисления оптимальных кодовых векторов, согласно изобретению;
фиг. 4a - древовидную структуру, иллюстрирующую в качестве примера некоторые признаки способа "поиска вложенных циклов", согласно изобретению;
фиг. 4b - древовидную структуру фиг. 4а, когда обработка на более низких уровнях производится при том условии, что рабочие показатели превышают некоторый заданный порог; это более быстрый способ для поиска по дереву, когда внимание уделяют только перспективным участкам дерева;
фиг. 5 - алгоритм поиска в глубину по древовидной структуре по некоторым сочетаниям позиций импульсов, этот пример относится к десятиимпульсной шифровальной книге 40-позиционных кодовых векторов, выведенных в соответствии с чередованными одноимпульсными перестановками согласно изобретению;
фиг. 6 - блок-схему оператора оценки вероятности позиции импульса и оптимизирующего контроллера согласно изобретению;
фиг. 7 - блок-схему инфраструктуры системы сотовой связи, согласно изобретению.
Подробное описание предпочтительных вариантов осуществления изобретения.
В системе сотовой связи 1 (фиг. 7) обслуживание осуществляется в крупном географическом районе, подразделяя этот крупный район на некоторое число более мелких сотов. Каждая единица сотов имеет сотовую базовую станцию 2 для формирования сигнальных радиоканалов, аудиоканалов и каналов данных.
Сигнальные радиоканалы используют для поискового вызова мобильных радиотелефонов 3 (мобильные аппараты передачи/приема) в пределах зоны приема данной сотовой базовой станции (единица сотов) и для направления вызовов другим радиотелефонам 3 либо внутри данной единицы сотов базовой станции, либо вне ее, или их направления к другой сети, такой как Телефонная Сеть Общественного Пользования (ТСОП) 4.
После того, как радиотелефон 3 успешно сделал вызов или принял вызов, устанавливают аудиоканал или канал данных с сотовой базовой станцией 2, соответствующей данной единице сотов, в которой расположен радиотелефон 3, и связь между базовой станцией 2 и радиотелефоном 3 осуществляется по этому аудиоканалу или каналу данных. Радиотелефон 3 может также принимать контролирующую или хронирующую информацию по сигнальному каналу во время осуществления вызова.
Если радиотелефон выходит за пределы данной единицы сотов во время вызова и входит в другую единицу сотов, то радиотелефон передает вызов имеющемуся аудиоканалу или каналу данных в новой единице сотов. Аналогично, если никакого вызова не имеется, контрольное сообщение направляют по сигнальному каналу, в результате чего радиотелефон 3 регистрируется на базовой станции 2, относящейся к новой единице сотов. Таким образом, появляется возможность связаться с подвижными объектами в крупном по площади географическом районе.
Сотовая система связи 1 также содержит терминал 5 для управления связью между сотовыми базовыми станциями 2 и ТСОП 4, например во время связи между радиотелефоном 3 и ТСОП 4 или между радиотелефоном 3 в первой единице сотов и радиотелефоном 3 во второй единице сотов.
Разумеется, для установления связи между каждым радиотелефоном 3, расположенным в одной единице сотов, и сотовой базовой станцией 2 этой единицы сотов, требуется субсистема двухсторонней радиосвязи. Такая система двухсторонней радиосвязи обычно содержит как в радиотелефоне 3, так и в сотовой базовой станции 2 (а) передатчик для кодирования речевого сигнала и для передачи кодированного речевого сигнала по антенне 6 или 7, и (b) приемник для приема переданного кодированного речевого сигнала по этой же антенне 6 или 7 и для декодирования принятого кодированного речевого сигнала. Специалистам хорошо известно, что кодирование речи требуется для сокращения полосы частот, необходимой для передачи речи по системе двухсторонней радиосвязи, т.е. между радиотелефоном 3 и базовой станцией 2.
Целью данного изобретения является создание эффективного способа цифрового кодирования речи с хорошим соотношением качества/скорости передачи битов, например для двухсторонней передачи речевых сигналов между сотовой базовой станцией 2 и радиотелефоном 3 по аудиоканалу или каналу передачи данных. На фиг. 1 представлена блок-схема кодирующего устройства, осуществляющего этот способ.
Нужно иметь в виду, что данное изобретение не ограничивается применением речевого сигнала. Можно также предусматривать прочие типы звукового сигнала.
В описываемом варианте выполнения блок входного речевого образца S (фиг. 1) содержит L следующих друг за другом образцов. В литературе ЛПВК L обозначают как "субблоковую" длину, и она обычно находится в диапазоне от 20 до 80. Блоки L-образцов также называют L-мерными векторами. В ходе процедуры кодирования получают различные L-мерные векторы. Перечень этих векторов, которые показаны в фиг. 1 и 2, и также перечень передаваемых параметров даются ниже.
Перечень основных L-мерных параметров
S - входной речевой вектор,
R' - вектор невязок после удаления основного тона,
X - целевой вектор,
D - обращенно фильтрованный целевой вектор,
Ak - кодовый вектор индекса k из шифровальной книги, и
Ck - инновационный вектор (фильтрованный кодовый вектор).
Перечень передаваемых параметров
k индекс кодового вектора (вход алгебраической шифровальной книги),
g усиление,
STP параметры краткосрочного прогнозирования (определяющие A(z)),
LTP параметры долгосрочного прогнозирования (определяющие усиление основного тона b и задержку основного тона T)
Принцип декодирования
Предпочтительнее сначала описать устройство декодирования речи (фиг. 2), где изображены разные этапы, выполняемые между цифровым входом - вход демультиплексора 205, и речью, образец которой взят на выходе - выход фильтра синтеза 204.
Демультиплексор 205 извлекает четыре разных параметра из двоичной информации, принятой от канала цифрового входа: индекс k, усиление g, параметры краткосрочного прогнозирования STP и параметры долгосрочного прогнозирования LTP. Текущий L-мерный вектор S речевого сигнала синтезируют на основе этих четырех параметров в соответствии со следующим.
Устройство декодирования речи содержит динамическую шифровальную книгу 208, которая состоит из генератора алгебраического кода 201 и адаптивного пред-фильтра 202, усилителя 206, сумматора 207 и устройства долгосрочного прогнозирования 203 фильтра синтеза 204.
На первом этапе генератор алгебраического кода 201 производит кодовый вектор Ak при реагировании на индекс k.
На втором этапе кодовый вектор Ak обрабатывают посредством адаптивного пред-фильтра 202, на который поступают параметры краткосрочного прогнозирования STP для выведения выходного инновационного вектора Ck. Задача адаптивного пред-фильтра 202 заключается в том, чтобы динамически управлять частотным содержанием выходного инновационного вектора Ck для улучшения качества речи, т.е. для снижения слышимого искажения, вызываемого неприятными на слух частотами. Обычные передаточные функции F(z) для адаптивного пред-фильтра 202 представлены ниже:
Fa(z) - формирующий пред-фильтр, в котором O < γ1< γ2< 1 являются константами. Этот пред-фильтр увеличивает формирующие участки и действует очень эффективно особенно при скорости кодирования, равной 5 кбит/сек.
Fb(z) - пред-фильтр основного тона, где T - изменяющаяся во времени задержка основного тона, b0 является либо константой, либо равна квантованному параметру долгосрочного предсказания основного тона из текущих или предыдущих субблоков. Fb(z) очень эффективна для увеличения гармонических частот основного тона на всех скоростях. Поэтому F(z) обычно содержит пред-фильтр основного тона иногда в сочетании с формирующим пред-фильтром, т. е. F(z) = Fa(z)Fb(z). Также можно эффективно применять другие формы пред-фильтра.
В соответствии со способом ЛПВК выходной взятый для образца сигнал получают первым масштабированием инновационного вектора Ck из шифровальной книги 208 усилением g посредством усилителя 206. Сумматор 207 затем суммирует масштабированную форму сигнала gCk в выход E (компонент долгосрочного прогноза возбуждения сигнала фильтра синтеза 204) устройства долгосрочного прогнозирования 203, на который поступают параметры LTP, помещенные в контур обратной связи и имеющие функцию B(z), определяемую следующим образом:
B(z) = bz-T
где b и T являются определяемыми выше усилением и задержкой основного тона соответственно.
Устройство прогнозирования 203 является фильтром, имеющим передаточную функцию в соответствии с последними принятыми параметрами b и T для моделирования периодичности речи по основному тону. Это устройство вводит должное усиление основного тона b задержку T образцов. Составной сигнал E + gCk составляет возбуждение сигнала фильтра синтеза 204, который имеет передаточную функцию 1/A(z). Фильтр 204 обеспечивает правильное формирование спектра в соответствии с последними принятыми параметрами STP. Конкретнее: фильтр 204 моделирует резонансные частоты (форманты) речи. Выходной блок S является синтезированным, взятым в качестве образца речевым сигналом, который можно преобразовать в аналоговый сигнал при помощи соответствующей фильтрации защиты от наложения спектров согласно хорошо известному в имеющемся уровне техники способу.
Имеется много способов составления алгебраической шифровальной книги 208. Согласно данному изобретению алгебраическая шифровальная книга 208 состоит из кодовых векторов, имеющих импульсы ненулевой амплитуды (или для краткости - ненулевые импульсы).
Обозначим позицию и амплитуду i-го импульса через pi и Spi соответственно. Предположим, что амплитуда Spi известна либо потому, что i-ая амплитуда является фиксированной, либо потому, что имеется способ выбора Spi до поиска кодового вектора.
Назовем "дорожкой i", обозначенной как Ti, комплект позиций, которые pi может занимать между 1 и L. Некоторые типичные комплекты дорожек даны ниже с предположением, что L = 40. Первым примером является структура, названная "Чередованные Одноимпульсные Перестановки" (ЧОИП). В первом примере структуры, обозначенной как ЧОИП (40, 5), комплект 40 позиций разделяется на 5 чередованных дорожек, каждая из которых имеет 40/5 = 8 действительных позиций. Три бита нужны для определения 8 = 23 действительных позиций данного импульса. Поэтому для определения позиций импульсов для этой конкретной структуры алгебраической шифровальной книги всего требуется 5 • 3 = 15 кодирующих битов (см. табл. 1).
Эти ЧОИП являются совершенными в том смысле, что любая из 40 позиций относится к одной и только одной дорожке. Есть много способов выведения структуры шифровальной книги из одной или более структуры ЧОИП, чтобы выполнить определенные требования в отношении числа импульсов или кодирующих битов. Например, четырехимпульсную шифровальную книгу можно вывести из ЧОИП (40, 5) простым пропуском дорожки 5 или рассматривая объединения дорожек 4 и 5 как единую дорожку. Примеры структур 2 и 3 также представляют собой совершенные структуры ЧОПП (см. табл. 2 и 3).
Следует отметить, что в структуре 3 позиция последнего импульса дорожек с T5 по T12 выпадает из длины субблока L = 40. В этом случае последний импульс просто пропускают.
В примере структуры 4 (см. табл. 4) дорожки T1 и T2 предусматривают возможность любой из 40 позиций. Отметим, что позиции T1 и T2 налагаются. Если более одного импульса занимают одну и ту же позицию, то их амплитуды просто суммируют.
В соответствии с общим принципом структур ЧОИП можно создать широкий ассортимент шифровальных книг.
Принцип кодирования
Взятый в качестве образца речевой сигнал S кодируют поблочно системой кодирования (фиг. 1), подразделяемой на 11 модулей, пронумерованных от 102 до 112. Несмотря на то, что следующее ниже описание будет по меньшей мере вкратце излагать функцию и действие каждого модуля, основное внимание в нем будет уделено новизне.
Для каждого блока L образцов речевого сигнала в соответствии с методом имеющего уровня техники при помощи спектроанализатора кодирования с линейным предсказанием (КЛП) 102 получают множество параметров Кодирования Линейного Прогноза (КЛП), которые называют параметрами краткосрочного прогноза. Более конкретно, анализатор 102 моделирует спектральные характеристики каждого блока S образцов L.
Входной блок S L-образца отбеливают отбеливающим фильтром 103, имеющим следующую передаточную функцию, основанную на текущих значениях параметров STP:
где а0 = 1 и z является обычной переменной z-преобразования. В соответствии с фиг. 1 отбеливающий фильтр 103 дает вектор невязок R.
Выделитель основного тона 104 используют для вычисления и квантования параметров LTP, а именно задержки основного тона T и усиления основного тона g. В исходном состоянии выделителя 104 он установлен на значение FS от выделителя исходного состояния 110. Подробная процедура вычисления и квантования параметров LTP предполагается, что хорошо известна специалистам данной области. Соответственно, в данном описании она не будет излагаться более подробно.
Определитель характеристик фильтра 105 (фиг. 1) обеспечивают параметрами STP и LTP для определения характеристик фильтра для использования в последующих операциях. Информация о характеристиках фильтра состоит из следующих трех компонентов, где n = 1, 2,...L.
• f(n): характеристика F(z).
Нужно отметить, что F(z) обычно содержит пред-фильтр основного тона.
• h(n): ответ на f(n),
где γ является фактором восприятия.
В общем случае h(n) есть импульсная характеристика F(z)W(z)/A(z), являющаяся каскадом пред-фильтра F(z), фильтра взвешивания восприятия W(z) и фильтра синтеза 1/A(z). Нужно отметить, что F(z) и 1/A(z) являются теми же фильтрами, которые используются в декодере.
• U(i,j): автокорреляция h(n) согласно следующему выражению:
для 1 ≤ i ≤ L и i ≤ j ≤ L; h(n)=0 для n < 1
На устройство долгосрочного прогноза 106 подают прошедший сигнал возбуждения, т. е. E + gCk предыдущего субблока, для формирования нового компонента E при помощи соответствующей задержки T и усиления b основного тона.
Исходное состояние фильтра восприятия 107 устанавливают на значение FS, обеспеченное от выделителя исходного состояния 110. Вектор невязок после удаления основного тона R' = R - E, вычисленный вычитателем 121 (фиг. 1), затем направляют к фильтру восприятия 107 для получения целевого вектора X на выходе этого фильтра. Параметры STP прилагают к фильтру 107 для изменения его передаточной функции относительно этих параметров. В общем, X = R' - P, где P представляет эффект долгосрочного предсказания (LTP), включающего в себя переходный процесс в виде затухающих колебаний от прошлых возбуждений. Критерий среднеквадратичной ошибки, применимый к ошибке Δ, можно теперь выразить следующей матричной записью:
где a являются соответственно и S, обработанных взвешивающим фильтром восприятия, и имеют следующую передаточную функцию:
где γ = 0,8 константа восприятия, H есть L х L нижняя треугольная матрица Теплица, сформированная из характеристики h(n) следующим образом. Член h(0) занимает диагональ матрицы, а члены h(1), h(2),... и h(L-l) занимают соответствующие нижние диагонали.
Этап обращенной фильтрации выполняют фильтром 108 (фиг. 1). При установке вывода указанного уравнения на ноль относительно усиления g оптимальное усиление определяется следующим выражением:
При таком значении g минимизация имеет следующий вид:
Задача заключается в том, чтобы найти конкретный индекс k, для которого достигается минимизация. Отметим, что поскольку является фиксированной величиной, этот же индекс можно найти путем максимизирования следующей величины:
где
В обращенном фильтре 108 вычисляют отфильтрованный целевой вектор D = (XH). Термин "обращенная фильтрация" для этой операции происходит от истолкования (XH) как фильтрации обращенного во времени X.
Задача оптимизирующего контроллера 109 заключается в поиске кодовых векторов, имеющихся в шифровальной книге, для выбора самого оптимального кодового вектора для кодирования текущего блока L-образца. Главным критерием выбора самого оптимального кодового вектора из множества кодовых векторов, каждый из которых имеет N импульсов ненулевой амплитуды, дают в виде максимизируемого отношения:
Основной Критерий Выбора:
где
и где Ak имеет N импульсов ненулевой амплитуды. Числителем в указанном уравнении является квадрат
DA
где D является обращенно отфильтрованным целевым вектором, а Ak является алгебраическим кодовым вектором, имеющим N импульсов ненулевой амплитуды Spi.
Знаменателем является представляющий энергию член, который можно выразить следующим выражением:
где U(Pi, Pi) является корреляцией, относящейся к двум импульсам единичной амплитуды, один из которых расположен в Pi, другой - в Pj. Эту матрицу вычисляют в соответствии с указанным уравнением в модуле 105 определения характеристик фильтра и включают во множество параметров, обозначаемых как FRC в блок-схеме (фиг. 1).
Быстрый способ вычисления этого знаменателя предполагает наличие N вложенных циклов (фиг. 4), где обозначения S(i) и SS(i, j) используют вместо соответствующих величин "Spi" и "SpiSpj". Наибольшего времени требует вычисление α
где pi - позиция i-гo ненулевого импульса.
Предыдущее уравнение можно упростить, если выполнить некоторое предварительное вычисление оптимизирующим контроллером 109 для преобразования матрицы U(i,j), полученной определителем характеристик фильтра 105, в матрицу U'(i,j) согласно следующему уравнению:
U'(j,k) = SjSkU(j,k)
где Sk является амплитудой, выбранной для отдельного импульса в позиции k после квантования соответствующей оценки амплитуды, излагаемой ниже. Коэффициент 2 в последующем изложении опускается для упрощения уравнений.
С новой матрицей U'(j,k) вычисление (фиг. 3) для каждого цикла быстродействующего алгоритма можно записать на отдельной строке, от крайнего цикла к центральному:
Фиг. 4а и 4b изображают два примера древовидной структуры для иллюстрации некоторых особенностей способа "поиска вложенного цикла", описанного выше. Заключительные узлы в нижней части дерева (фиг. 4а) изображают все возможные сочетания позиций импульса для пятиимпульсного примера (N = 5), где каждый импульс может принимать одну из четырех возможных позиций. Исчерпывающий способ "поиска вложенных циклов" проходит по узлам дерева в основном слева направо, как показано.
Недостаток способа "поиска вложенных циклов" заключается в том, что сложность поиска возрастает как функция числа импульсов N. Для обработки шифровальных книг с еще большим числом И импульсов нужно организовать частичный поиск по шифровальной книге. Фиг. 4b изображает то же дерево, в котором более быстрый поиск производят, сосредоточившись только на наиболее перспективном участке дерева. Точнее, переход к более нижним уровням не является систематическим, а обусловлен превышением некоторых данных пороговых величин.
Поиск в глубину
Обратимся к альтернативному более быстрому способу, составляющему объект данного изобретения, и выполняемому устройству оценки вероятности 112 позиции импульса и оптимизирующим контроллером 109 (фиг. 1). Сначала будут излагаться общие признаки этого способа. Затем будет дано изложение некоторых типичных вариантов воплощения ускоренного способа.
Цель поиска заключается в определении кодового вектора с наиболее оптимальным комплектом N позиций импульсов, исходя из того, что амплитуды импульсов либо фиксированные, либо выбраны некоторым механизмом на основе сигнала до осуществления поиска. Основным критерием выбора является максимизация указанного выше отношения Qk.
Для уменьшения сложности поиска позиции импульсов определены как NМ импульсов в единицу времени. Точнее, N имеющихся импульсов разделены (шаг 601, фиг. 6) на М непустых субкомплектов Nm импульсов, где N1 + N2... + Nm... + NM = N. Конкретный выбор позиций для первых J= N1 + N2... + Nm-1 рассматриваемых импульсов называют маршрутом уровня-m или маршрутом длины J. Основным критерием для маршрута J позиций импульсов является отношение Qk(J), когда рассматривают только J соответствующих импульсов.
Поиск начинается с субкомплекта N1 и идет по последующим субкомплектам в соответствии с древовидной структурой, при этом в субкомплекте m поиск производят на m-ом уровне дерева.
Задача поиска на уровне 1 заключается в рассмотрении N1 импульсов субкомплекта N1 и их действительных позиций для определения одного или нескольких маршрутов-кандидатов с длиной N1, которые являются узлами дерева уровня 1.
Маршрут на каждом окончательном узле уровня m-1 продолжают до длины N1 + N2. .. + Nm на уровне m рассмотрением Nm новых импульсов и их действительных позиций. Один или несколько продолженных маршрутов-кандидатов определяют для составления узлов уровня-m.
Наиболее оптимальный кодовый вектор относится к такому маршруту длины N, который максимизирует критерий Qk(N) относительно всех узлов уровня-М.
Поскольку просматривают в заранее заданном порядке (i = 1, 2, ... N), в данном изобретении они считаются разными порядками. Фактически их можно рассматривать в соответствии с именно тем порядком, который считается наиболее перспективным при данных обстоятельствах в то или иное время в ходе поиска. В этих целях используют новый хронологический индекс n (n = 1, 2, ... N), а идентификационный номер n-го импульса, рассматриваемый в поиске, лается "функцией порядка импульса": i = i(n). Например, в некоторое определенное время маршрут поиска для 5-импульсной шифровальной книги может идти согласно следующей функции порядка импульса:
Для рационального предсказания наиболее перспективного порядка импульса в то или иное время данное изобретение вводит "вектор оценки вероятности позиции импульса" B, который основан на относящихся к речи сигналах. p-ый компонент Bp этого вектора оценки B характеризует вероятность импульса, занимающего позицию p (p = 1, 2, ... L) в наиболее оптимальном кодовом векторе, поиск которого осуществляют. Этот наиболее оптимальный вектор все еще неизвестен, и задача данного изобретения заключается в раскрытии того, как некоторые свойства этого наиболее оптимального вектора можно вывести из относящихся к речи сигналов.
Вектор оценки B можно использовать следующим образом.
Во-первых, вектор оценки B служит основой определения следующего: для каких дорожек i или j легче предсказать позицию импульса. Сначала следует обработать дорожку, для которой позицию импульса легче предсказать. Это свойство часто используют в правиле задания импульса для отбора Nm импульсов на первых уровнях древовидной структуры.
Во-вторых, для данной дорожки вектор оценки B указывает относительную вероятность каждой действительной позиции. Это свойство эффективно используют в качестве критерия выбора в первых нескольких уровнях древовидной структуры вместо основного критерия выбора Qk(j), который так или иначе в первых нескольких уровнях действует на слишком немногих импульсах, чтобы быть в состоянии обеспечивать надежную работу по выбору действительных позиций.
Предпочтительный способ для получения вектора оценки вероятности позиции импульса B из относящихся к речи сигналов заключается в вычислении суммы нормализованного, обращенно отфильтрованного целевого вектора D:
и нормализованного остаточного сигнала после удаления основного тона R':
для получения вектора оценки вероятности позиции импульса B:
где β является фиксированной константой с типичным значением 1/2 (β выбирают между 0 и 1 в зависимости от процента ненулевых импульсов, применяемых в алгебраическом коде).
Следует отметить, что тот же вектор оценки B используют в разных контекстах для разных целей, например, в заявке на патент США N 08/383968 от 6 февр. 1995 "Алгебраическая шифровальная книга с амплитудами импульсов, выбранными по сигналу, для быстрого кодирования речи", в которой раскрыт способ выбора заранее около оптимального сочетания амплитуд импульсов. Этот способ выгодно использовать в контексте алгебраической шифровальной книги такой структуры, где ненулевые амплитуды импульсов могут принимать одно из значений q, где q > 1. Этим наблюдением подтверждается то обстоятельство, что обнаружение таких хороших оценок, как B, которые можно выводить из самого сигнала, имеет очень важное значение для эффективного кодирования речи. Фактически, помимо того, что они являются оценками либо для позиций, либо амплитуд, они также являются оценками для самого кодового вектора Ak. Поэтому любой способ поиска находится в рамках концепции данного изобретения. Это является примером типичной комбинированной методики в концепции данного изобретения. Выше было указано, что когда два или более импульса от накладывающихся дорожек разделяют совместно одну и ту же позицию в цикле, их следует суммировать. Этот компромисс между позицией и амплитудой можно совместно оптимизировать "решетчатым" поиском.
Для удобства в табл. 5 дано перечисление уже определенных констант и переменных величин.
Примеры поиска в глубину
Рассмотрим несколько типичных примеров поиска в глубину. В табл. 6 представлен способ поиска N 1.
Правило R1
10 способов выбора первой позиции импульса pi(1) для операции построения маршрута уровня-1 заключается в рассмотрении каждой из 5 дорожек по очереди и выбора по очереди для каждой дорожки одной из двух позиций, которые максимизируют Bp для рассматриваемой дорожки.
Правило R2
Правило 2 определяет функцию порядка импульсов, которую используют для четырех импульсов, рассматриваемых на уровнях 2 и 3, следующим образом. Располагают четыре остающихся индекса по кругу и перенумеровывают их по часовой стрелке, начиная с правого i(1) импульса (т.е. рассматривают номер импульса определенного узла уровня-1).
Мы теперь обращаемся к второму примеру поиска по шифровальной книге в глубину, который называют способом поиска N 2 (см. табл. 7) и который является ярким примером принципа в глубину.
Правило R3
Отбирают импульс i(1) и выбирают его позицию согласно максимуму Bp по всем p. Для i(2) выбирают по очереди каждый из остающихся 9 импульсов. Критерий выбора для данного i(2) заключается в выборе позиции, которая максимизирует Bp в его дорожке.
Правило R4
В конце уровня 1. Всю функцию порядка импульса определяют расположением восьми остающихся индексов n по кругу и их перенумерацией по часовой стрелке, начиная справа от i(2).
Способ поиска N 2 изображен на фиг. 5 и 6. Фиг. 5 иллюстрирует древовидную структуру способа N 2 поиска первой глубины применительно к 10-импульсной шифровальной книге кодовых векторов 40 позиций, построенных по чередованным одноимпульсным перестановкам. Соответствующая блок-схема показана на фиг. 6.
Позиции L = 40 подразделяются на 10 дорожек, каждая из которых относится к одному из N = 10 импульсов ненулевой амплитуды кодовых векторов. Десять дорожек чередуют в соответствии с N чередованными одноимпульсными перестановками.
Шаг 601
Вычисляют указанный выше вектор оценки вероятности позиции импульса B.
Шаг 602
Вычисляют позицию p максимального абсолютного значения оцененного Bp.
Шаг 603 (начало операций построения маршрута уровня-1)
Выбирают импульс, т.е. дорожку i(1), и выбирают его действительную позицию, которая совпадает с позицией, найденной на шаге 602 (см. 501, фиг. 5).
Шаг 604 (окончание операций построения маршрута уровня-1)
Для i(2) по очереди выбирают каждый из остающихся 9 импульсов. Критерий выбора для данного i(2) заключается в выборе позиции, которая максимизирует Bp в данной дорожке при данном i(2). Таким образом получают происхождение 9 отличающихся друг от друга маршрутов-кандидатов уровня-1 (см. 502, фиг. 5). Каждый из указанных маршрутов-кандидатов уровня-1 затем продолжают по последующим уровням древовидной структуры для формирования 9 отличных друг от друга кодовых векторов-кандидатов. Задача уровня-1, разумеется, состоит в том, чтобы отобрать девять хороших начальных пар импульсов на основе оценки B. По этой причине операции построения маршрута уровня-a называют "отбором импульса на основе сигнала", фиг. 5.
Шаг 605 (Правило R4)
Для экономии времени вычислений задают заранее порядок импульсов для использования в последующих 4 уровнях. Именно, функцию порядка импульсов i(n) для n = 3, 4, ... 10 определяют расположением восьми остающихся индексов n по кругу и их перенумерацией по часовой стрелке, начиная справа от i(2). В соответствии с этим порядком импульсы i(3) и i(4) выбирают для уровня-2, импульсы i(5) и i(6) уже выбраны для уровня-3, и т.д.
Шаги 606, 607, 608, 609. (Уровни с 2 по 5)
Уровни с 2 по 5 созданы для эффективности и соответствуют одинаковым процедурам. А именно, исчерпывающий поиск применяют ко всем шестнадцати сочетаниям четырех позиций рассматриваемых двух импульсов (см. 503, фиг. 5) согласно соответствующему критерию выбора Qk(2m), где m = 2, 3, 4, 5 является числом уровня.
Поскольку от каждой операции построения маршрута (см. 504, фиг. 5), связанной с уровнями с 2 по 5 (т. е. коэффициент ветвления 1), получают только один маршрут-кандидат, то сложность поиска возрастает по существу только линейно с общим числом импульсов. Поэтому поиск, проводимый в уровнях с 2 по 5, можно точно охарактеризовать как поиск первой глубины. Методы поиска по дереву сильно отличаются друг от друга по структурам, критериям и проблемным областям, но в области искусственного интеллекта обычно противопоставляют два широких класса поисковой стратегии, а именно "поиски первой ширины" и "поиски в глубину".
Шаг 610
9 отличных друг от друга маршрутов-кандидатов уровня-1, выведенных на этапе 604 и продолженных по уровням с 2 по 5 (т.е. шаги 605 - 609), составляют 9 кодовых векторов-кандидатов Ak (см. 505, фиг. 5).
Задача шага 610 заключается в сравнении 9 кодовых векторов-кандидатов Ak и выбора наиболее оптимального согласно критерию выбора, относящемуся к последнему уровню - Qk(10).
Далее следует изложение третьего примера поиска шифровальной книги в глубину, называемого "способ поиска N 3" (см. табл. 8), для иллюстрирования случая, когда импульсам числом более одного разрешают занимать одну и ту же позицию.
Правило R5
Нужно отметить, что два импульса могут занимать одну и ту же позицию и поэтому их амплитуды суммируются вместе для получения импульса двойной амплитуды. Правило R5 определяет способ выбора первых двух импульсов для обеспечения множества маршрутов-кандидатов уровня-1. Узлы в количестве маршрутов-кандидатов уровня-1 соответствуют одному импульсу двойной амплитуды на каждой позиции, максимизирующей Bp в пяти отличных друг от друга дорожках, и всем сочетаниям позиций двух импульсов из числа 10 позиций импульсов, выбранных отбором двух позиций, максимизирующих Bp в каждой из пяти отличных друг от друга дорожек.
Правило R6 аналогично Правилу R4
Хотя в данном описании подробно изложены предпочтительные варианты осуществления данного изобретения, эти осуществления можно модифицировать в рамках прилагаемой формулы изобретения, оставаясь в пределах сути и концепции данного изобретения. Также данное изобретение не ограничивается обработкой речевого сигнала, можно обрабатывать прочие типы звукового сигнала, такие как аудиосигнал. Эти модификации, сохраняя основной принцип данного изобретения, не выходят из его рамок.
При кодировании звукового сигнала поиск по шифровальной книге, которая состоит из комплекта кодовых векторов, каждый из которых состоит из 40 позиций и содержит N импульсов ненулевой амплитуды, которые присваивают заранее определенным действительным позициям, для уменьшения сложности поиска используют поиск в глубину, который предлагает древовидную структуру с уровнями, расположенными в порядке от 1 до М. На нижнем уровне производят операцию построения маршрута, в результате чего маршрут-кандидат от предыдущего уровня продолжают путем отбора заранее определенного числа новых импульсов и выбора действительных позиций для указанных новых импульсов в соответствии с данным правилом задания импульсов и данного критерия выбора. Маршрут, происшедший на первом уровне и продолженный операциями построения маршрута последующих уровней, определяет соответствующие позиции N импульсов ненулевой амплитуды кодового вектора-кандидата. Использование оценки вероятности позиции импульса, исходя из сигнала во время первых нескольких уровней, позволяет осуществлять первоначальный просмотр импульсов для начала поиска благоприятных условий. Критерий выбора, основанный на максимизировании отношения, используют для оценки результативности и для отбора наиболее оптимального кодового вектора из числа контролирующих кодовых векторов-кандидатов, что позволяет снизить сложность поиска, в чем состоит технический результат, достигаемый при реализации группы изобретений. 7 с. и 54 з.п. ф-лы, 7 ил., 8 табл.
с остаточным сигналом R' после удаления основного тона в нормализованном виде
для получения тем самым вектора В оценки вероятности позиции импульса в виде
где β является фиксированной константой.
с остаточным сигналом R' после удаления основного тона в нормализованном виде
для получения тем самым вектора В оценки вероятности позиции импульса в виде
где β является фиксированной константой.
с остаточным сигналом R' после удаления основного тона в нормализованном виде
для получения тем самым вектора В оценки вероятности позиции импульса в виде
где β является фиксированной константой.
с остаточным сигналом R' после удаления основного тона в нормализованном виде
для получения тем самым вектора В оценки вероятности позиции импульса в виде
где β является фиксированной константой.
с остаточным сигналом R' после удаления основного тона в нормализованном виде
для получения тем самым вектора В оценки вероятности позиции импульса в виде
где β является фиксированной константой.
с остаточным сигналом R' после удаления основного тона в нормализованном виде
для получения тем самым вектора В оценки вероятности позиции импульса в виде
где β является фиксированной константой.
Приоритет по пунктам:
10.03.1995 - по пп.1-21;
31.07.1995 - по пп.22-61.
Способ идентификации говорящего | 1989 |
|
SU1629917A1 |
Способ распознавания речи | 1987 |
|
SU1483481A1 |
Устройство для распознавания речевых сигналов | 1989 |
|
SU1695376A1 |
Автоматический огнетушитель | 0 |
|
SU92A1 |
Очаг для массовой варки пищи, выпечки хлеба и кипячения воды | 1921 |
|
SU4A1 |
ПРОТИВООПУХОЛЕВОЕ СРЕДСТВО, СОДЕРЖАЩЕЕ ПРОТИВООПУХОЛЕВЫЙ КОМПЛЕКС ПЛАТИНЫ, И УСИЛИТЕЛЬ ПРОТИВООПУХОЛЕВОГО ЭФФЕКТА | 2015 |
|
RU2678103C2 |
Очаг для массовой варки пищи, выпечки хлеба и кипячения воды | 1921 |
|
SU4A1 |
Авторы
Даты
2001-10-27—Публикация
1996-03-05—Подача