Область техники, к которой относится изобретение
Настоящее изобретение относится к улучшенному методу цифрового кодирования звукового сигнала, в частности - но не исключительно - речевого сигнала, при передаче и синтезировании этого звукового сигнала.
Уровень техники
Потребность в эффективных методах цифрового узкополосного и широкополосного речевого кодирования с хорошим компромиссом между субъективным качеством и битовой скоростью передачи увеличивается в различных областях применения, таких как телеконференция, мультимедиа и беспроводная связь. До недавнего времени полоса частот телефонной связи, ограниченная в диапазоне 200-3400 Гц, использовалась главным образом в приложениях речевого кодирования. Однако широкополосные речевые приложения обеспечивают увеличенную разборчивость и естественность при передаче по сравнению с обычной полосой частот телефонной связи. Найдено, что полоса частот в интервале 50-7000 Гц достаточна для получения хорошего качества, дающего ощущение личного общения. Для общих аудиосигналов эта полоса частот дает приемлемое субъективное качество, которое все же ниже, чем качество FM радиосигнала или компакт-диска в диапазонах 20-16000 и 20-20000 Гц соответственно.
Речевой кодер преобразует речевой сигнал в цифровой битовый поток, который передается по каналу передачи или сохраняется на носителе данных. Речевой сигнал оцифровывается, то есть дискретизируется и квантуется обычно по 16 битов на выборку. Речевой кодер выполняет функцию представления этих цифровых отсчетов числом битов при поддержании хорошего субъективного качества речи. Речевой декодер или синтезатор работает на передаваемом или сохраненном битовом потоке и преобразует его обратно в звуковой сигнал.
Кодирование линейного предсказания с кодовым возбуждением (ЛПКВ) (CELP) является одним из лучших существующих методов для достижения хорошего компромисса между субъективным качеством и битовой скоростью передачи. Этот метод кодирования составляет основу для нескольких стандартов речевого кодирования как в беспроводных, так и в проводных приложениях. В кодировании ЛПКВ дискретизированный речевой сигнал обрабатывается в последовательных блоках из L выборок, обычно называемых кадрами, где L является заранее определенным числом, соответствующим обычно 10-30 мс. Фильтр линейного предсказания (ЛП) (LP) вычисляется и передается на каждый кадр. Для вычисления фильтра ЛП обычно необходим упреждающий просмотр, то есть речевой сегмент 5-15 мс из последующего кадра. Кадр из L выборок делится на меньшие блоки, называемые подкадрами. Обычно число подкадров равняется трем или четырем, что дает подкадры по 4-10 мс. В каждом подкадре сигнал возбуждения обычно получается из двух компонент: прошлого возбуждения и нового возбуждения из фиксированной кодовой книги. Компонент, сформированный из прошлого возбуждения, часто именуется адаптивной кодовой книгой или возбуждением основного тона. Параметры, характеризующие сигнал возбуждения, кодируются и передаются в декодер, где восстановленный сигнал возбуждения используется как входной сигнал для фильтра ЛП.
В беспроводных системах с помощью технологии множественного доступа с кодовым разделением каналов (МДКР) (CDMA) использование речевого кодирования с управляемой источником переменной битовой скоростью передачи (ПБСП) (VBR) значительно улучшает пропускную способность системы. При кодировании с управляемой источником ПБСП кодек работает на нескольких битовых скоростях передачи, а модуль выбора скорости используется для определения того, какая битовая скорость передачи используется для кодирования каждого речевого кадра, на основании природы речевого кадра (например, вокализованный, невокализованный, переходный, фоновый шум и так далее). Цель состоит в том, чтобы достигнуть наилучшего качества речи на данной средней битовой скорости передачи, также именуемой средней скоростью передачи данных (ССПД) (ADR). Кодек может работать с различными режимами, настраивая модуль выбора скорости для достижения различных ССПД в различных режимах работы, т.к. характеристика кодека улучшается при повышенных ССПД. Режим работы задается системой в зависимости от канальных условий. Это обеспечивает кодек механизмом компромисса между качеством речи и пропускной способностью системы. В системах МДКР (например, CDMA-one и CDMA2000) обычно используются 4 битовых скорости, именуемые как полная (вся) скорость (ВС) (FR), половинная скорость (ПС) (HR), скорость в одну четверть (СОЧ) (QR) и скорость в одну восьмую (СОВ) (ER). В этой системе поддерживаются два набора скоростей, именуемых как Набор I скоростей и Набор II скоростей. В Наборе II скоростей кодек переменной скорости с механизмом выбора скорости работает на битовых скоростях кодирования источника 13,3 (ВС), 6,2 (ПС), 2,7 (СОЧ) и 1,0 (СОВ) кбит/с, соответствующих главным битовым скоростям 14,4, 7,2, 3,6 и 1,8 кит/с (с некоторыми битами, добавленными для обнаружения ошибок).
Как правило, при кодировании ПБСП для систем МДКР используется скорость в одну восьмую для кодирования кадров без речевой активности (кадры паузы или только шума). Когда кадр является стационарным вокализованным или стационарным невокализованным, то используется половинная скорость или скорость в одну четверть в зависимости от режима работы. Когда используется половинная скорость для стационарных невокализованных кадров, то используется модель ЛПКВ без кодовой книги основного тона. Когда используется половинная скорость в случае стационарных голосовых кадров, используется изменение сигнала для увеличения периодичности и уменьшения числа битов для индексов основного тона. Если режим работы задает скорость в одну четверть, то никакое согласование формы сигнала обычно не возможно, поскольку число битов недостаточно, и обычно применяется некоторое параметрическое кодирование. Полная скорость используется для приступов (начальных согласных слога), переходных кадров и смешанных вокализованных кадров (обычно используется типичная модель ЛПКВ). В дополнение к управляемой источником работе кодека в системах МДКР, система может ограничить максимальную битовую скорость в некоторых вокализованных кадрах для того, чтобы послать канальную информацию сигнализации (называемую неясной и импульсной сигнализацией) или в течение плохих канальных условий (таких как вблизи границ ячейки), для того чтобы улучшить устойчивость кодека. Это именуется как максимум половинной скорости. Когда модуль выбора скорости выбирает кадр, который будет закодирован как кадр полной скорости, и система задает, например, кадр ПС, характеристика речи ухудшается, так как выделенные режимы ПС не способны эффективно кодировать приступы и переходные сигналы. Разработана другая общая модель кодирования ПС для обработки этих особых случаев.
Адаптивный многоскоростной широкополосный (АМС-ШП) (AMR-WB) речевой кодек был принят ITU-T (Международным союзом электросвязи - сектором стандартизации телекоммуникаций (МСЭ-ССТ)) для широкополосной речевой телефонии и услуг, и 3GPP (Проектом партнерства третьего поколения (ППТП)) для беспроводных систем третьего поколения GSM и Ш-МДКР (Широкополосный МДКР) (W-CDMA). Кодек АМС-ШП состоит из девяти битовых скоростей, а именно 6,60, 8,85, 12,65, 14,25, 15,85, 18,25, 19,85, 23,05 и 23,85 кбит/с. Проектирование управляемого источником основанного на АМС-ШП кодека ПБСП для систем МДКР имеет преимущество обеспечения взаимодействия между МДКР и другими системами, использующими кодек АМС-ШП. Битовая скорость АМС-ШП 12,65 кбит/с является ближайшей скоростью, которая может соответствовать полной скорости 13,3 кбит/с в Наборе II скоростей. Эта скорость может быть использована как общая скорость между широкополосным кодеком ПБСП МДКР и АМС-ШП, чтобы обеспечить функциональную совместимость, не требуя перекодирования (которое ухудшает качество речи). Типы кодирования с более низкими скоростями должны быть разработаны специально для широкополосного решения применительно к ПБСП МДКР, чтобы обеспечить эффективную работу в пределах Набора II скоростей. Кодек затем может работать в нескольких специфичных для МДКР режимах с использованием всех скоростей, но он будет иметь режим, который допускает функциональную совместимость с системами, использующими кодек АМС-ШП.
При кодировании ПБСП на основании ЛПКВ обычно все классы, за исключением невокализованных и неактивных вокализованных классов, используют кодовую книгу основного тона (или адаптивную) и кодовую книгу нововведения (или фиксированную) для представления сигнала возбуждения. Таким образом, кодированное возбуждение состоит из задержки основного тона (или индекса кодовой книги основного тона), усилия основного тона, индекса кодовой книги нововведения и усиления кодовой книги нововведения. Как правило, усиление основного тона и усиление нововведения совместно квантуются или векторно квантуются для снижения битовой скорости. Если они квантуются отдельно, то усиление основного тона требует 4 бита, а усиление кодовой книги нововведения требует 5 или 6 битов. Однако при совместном квантовании достаточно 6 или 7 битов (экономия 3 бита на подкадр 5 мс эквивалентна экономии 0,6 кбит/с). В общем, таблица квантования или кодовая книга формируется с использованием речевых сегментов всех типов (например, вокализованных, невокализованных, переходных, приступов, смещений и так далее). В контексте кодирования ПБСП модели кодирования с половинной скоростью являются обычно специфическими для класса. Поэтому различные модели с половинной скоростью разрабатываются для различных классов сигналов (вокализованных, невокализованных или общих). Таким образом, новые таблицы квантования должны быть разработаны для таких ориентированных на классы сигналов моделей кодирования.
Сущность изобретения
Настоящее изобретение относится к способу квантования усиления для воплощения в методе кодирования дискретизированного звукового сигнала, обрабатываемого в процессе кодирования последовательными кадрами из L выборок, в котором:
- каждый кадр делится на некоторое число подкадров;
- каждый подкадр включает в себя некоторое число N выборок, где N<L; и
- способ квантования усиления включает в себя: вычисление начального усиления основного тона на основании некоторого числа f подкадров; выбор части кодовой книги квантования усиления по отношению к начальному усилению основного тона; идентификацию выбранной части кодовой книги квантования усиления с использованием, по меньшей мере, одного бита на последующую группу из f подкадров; и совместное квантование усилений основного тона и фиксированной кодовой книги.
Объединенное квантование усилений основного тона и фиксированной кодовой книги включает в себя, для некоторого числа f подкадров, поиск в кодовой книге квантования усиления во взаимосвязи с критерием поиска. Поиск в кодовой книге квантования усиления включает в себя ограничение поиска в кодовой книге до выбранной части кодовой книги квантования усиления и нахождение индекса выбранной части кодовой книги квантования усиления, наилучшим образом отвечающего критерию поиска.
Настоящее изобретение также относится к устройству квантования усиления для воплощения в системе для кодирования дискретизированного звукового сигнала, обрабатываемого, в процессе кодирования, последовательными кадрами из L выборок, в котором:
каждый кадр делится на некоторое число подкадров;
каждый подкадр включает в себя некоторое число N выборок, где N<L; и
устройство квантования усиления включает в себя: средство для вычисления начального усиления основного тона на основании некоторого числа f подкадров; средство для выбора части кодовой книги квантования усиления по отношению к начальному усилению основного тона; средство для идентификации выбранной части кодовой книги квантования усиления с использованием, по меньшей мере, одного бита на последующую группу из f подкадров; и средство для совместного квантования усилений основного тона и фиксированной кодовой книги.
Средство для объединенного квантования усилений основного тона и фиксированной кодовой книги включает в себя средство для поиска в кодовой книге квантования усиления во взаимосвязи с критерием поиска. Упомянутое средство поиска в кодовой книге квантования усиления включает в себя средство для ограничения - для некоторого числа f подкадров - поиска в кодовой книге до выбранной части кодовой книги квантования усиления и средство для нахождения индекса выбранной части кодовой книги квантования усиления, наилучшим образом отвечающего критерию поиска.
Настоящее изобретение далее относится к устройству квантования усиления для воплощения в методе кодирования дискретизированного звукового сигнала, обрабатываемого, в процессе кодирования, последовательными кадрами из L выборок, в котором:
- каждый кадр делится на некоторое число подкадров;
- каждый подкадр включает в себя некоторое число N выборок, где N<L; и
- устройство квантования усиления включает в себя: вычислитель начального усиления основного тона на основании некоторого числа f подкадров; селектор части кодовой книги квантования усиления по отношению к начальному усилению основного тона; идентификатор выбранной части кодовой книги квантования усиления с использованием, по меньшей мере, одного бита на последующую группу из f подкадров; и совместный квантователь для совместного квантования усилений основного тона и фиксированной кодовой книги.
Совместный квантователь включает в себя средство поиска в выбранной части кодовой книги квантования усиления во взаимосвязи с критерием поиска, причем это средство поиска в кодовой книге квантования усиления ограничивает поиск в кодовой книге до выбранной части кодовой книги квантования усиления и находит индекс выбранной части кодовой книги квантования усиления, наилучшим образом отвечающий критерию поиска.
Настоящее изобретение еще далее относится к способу квантования усиления для воплощения в методе для кодирования дискретизированного звукового сигнала, обрабатываемого, в процессе кодирования, последовательными кадрами из L выборок, в котором каждый кадр делится на некоторое число подкадров и каждый подкадр включает в себя некоторое число N выборок, где N<L. Этот способ квантования усиления содержит:
вычисление начального усиления основного тона на основании периода К длиннее, чем подкадр;
выбор части кодовой книги квантования усиления по отношению к начальному усилению основного тона;
идентификацию выбранной части кодовой книги квантования усиления с использованием, по меньшей мере, одного бита на последующую группу из f подкадров; и
совместное квантования усилений основного тона и фиксированной кодовой книги, причем совместное квантования усилений основного тона и фиксированной кодовой книги содержит:
поиск в кодовой книге квантования усиления во взаимосвязи с критерием поиска, причем поиск в кодовой книге квантования усиления включает в себя ограничение поиска в кодовой книге до выбранной части кодовой книги квантования усиления и поиск индекса выбранной части кодовой книги квантования усиления, наилучшим образом отвечающего критерию поиска; и
вычисление начального усиления основного тона на основании периода К длиннее, чем подкадр, содержит использование следующего отношения:
,
где TOL является задержкой основного тона без обратной связи, а sw(n) является сигналом, полученным из перцепционно взвешенного варианта дискретизированного звукового сигнала.
Наконец, настоящее изобретение относится к устройству квантования усиления для воплощения в методе для кодирования дискретизированного звукового сигнала, обрабатываемого в процессе кодирования последовательными кадрами из L выборок, в котором каждый кадр делится на некоторое число подкадров и каждый подкадр включает в себя некоторое число N выборок, где N<L, причем устройство квантования усиления содержит:
вычислитель начального усиления основного тона на основании периода К длиннее, чем подкадр;
селектор части кодовой книги квантования усиления по отношению к начальному усилению основного тона;
идентификатор выбранной части кодовой книги квантования усиления с использованием, по меньшей мере, одного бита на последующую группу из f подкадров; и
совместный квантователь для совместного квантования усилений основного тона и фиксированной кодовой книги, причем совместный квантователь содержит:
средство поиска в выбранной части кодовой книги квантования усиления по отношению к критерию поиска, это средство поиска в кодовой книге квантования усиления ограничивает поиск в кодовой книге до выбранной части кодовой книги квантования усиления и находит индекс выбранной части кодовой книги квантования усиления, наилучшим образом отвечающий критерию поиска; и
вычислитель начального усиления основного тона содержит последующее отношение, используемое для вычисления начального усиления основного тона:
,
где TOL является задержкой основного тона без обратной связи, а sw(n) является сигналом, полученным из перцепционно взвешенного варианта дискретизированного звукового сигнала.
Предшествующие и другие цели, преимущества и признаки настоящего изобретения поясняются в последующем неограничивающем описании иллюстративных вариантов осуществления со ссылками на чертежи.
Краткое описание чертежей
Фиг.1 - блок-схема системы передачи речи, иллюстрирующая контекст, в котором используются устройства речевого кодирования и декодирования в соответствии с настоящим изобретением;
Фиг.2 - функциональная блок-схема адаптивного многоскоростного широкополосного (АМС-ШП) (AMR-WB) кодера;
Фиг.3 - блок-схема алгоритма иллюстративного варианта осуществления способа согласно настоящему изобретению;
Фиг.4 - блок-схема алгоритма иллюстративного варианта осуществления устройства согласно настоящему изобретению.
Подробное описание предпочтительного варианта осуществления
Хотя иллюстративные варианты осуществления настоящего изобретения описаны ниже по отношению к речевому сигналу, следует иметь в виду, что настоящее изобретение может быть применено для других видов звуковых сигналов, таких как, например, аудиосигналы.
Фиг.1 показывает систему 100 передачи речи, изображающую контекст, в котором используются устройства речевого кодирования и декодирования в соответствии с настоящим изобретением. Система 100 передачи речи поддерживает передачу и воспроизведение речевого сигнала по каналу 105 связи. Хотя он может содержать, например, проводную, оптическую или оптоволоконную линию, канал 105 связи обычно содержит, по меньшей мере частично, радиочастотную линию. Радиочастотная линия зачастую поддерживает множество одновременных речевых передач, требующих совместного использования ресурсов полосы частот, как это имеет место в вариантах осуществления сотовой телефонии. Хотя и не показано, но канал 105 связи может быть заменен блоком памяти в варианте осуществления отдельного устройства системы связи, которое записывает и хранит кодированный речевой сигнал для последующего воспроизведения.
На передающей стороне микрофон 101 преобразует речь в аналоговый речевой сигнал 110, подаваемый на аналого-цифровой (АЦ) (A/D) преобразователь 102. Функция аналого-цифрового преобразователя 102 заключается в преобразовании аналогового речевого сигнала 110 в цифровой речевой сигнал 111. Речевой кодер 103 кодирует цифровой речевой сигнал, чтобы получить набор параметров 112 кодирования сигнала в двоичной форме, доставляемых к опциональному канальному кодеру 104. Опциональный канальный кодер 104 добавляет избыточность к двоичному представлению параметров 112 кодирования сигнала перед их передачей (113) по каналу 105 связи.
На приемной стороне канальный декодер 106 использует избыточную информацию в принимаемом битовом потоке 114 для обнаружения и исправления ошибок канала, возникающих в процессе передачи. Речевой декодер 107 преобразует битовый поток 115, принимаемых из канального декодера, обратно в набор параметров кодирования сигнала для восстановления синтезируемого речевого сигнала 116. Синтезируемый речевой сигнал 116, восстановленный в речевом декодере 107, преобразуется обратно в аналоговый речевой сигнал 117 в цифроаналоговом (ЦА) (D/A) преобразователе 108. Наконец, аналоговый речевой сигнал 117 воспроизводится через блок 109 громкоговорителя.
Краткий обзор кодера АМС-ШП
Ниже представлен обзор кодера АМС-ШП, работающего с битовой скоростью 12,65 кбит/с. Этот кодер АМС-ШП используется как кодер полной скорости в иллюстративных вариантах осуществления настоящего изобретения.
Входной дискретизированный звуковой сигнал 212, например, речевой сигнал, обрабатывается или кодируется на поблочной основе посредством кодера 200 на Фиг.2, который разделен на одиннадцать модулей, пронумерованных от 201 до 211.
Входной дискретизированный звуковой сигнал 212 преобразуется в вышеупомянутые последовательные блоки из L выборок, называемых кадрами.
Согласно Фиг.2 частота дискретизации входного дискретизированного речевого сигнала 112 понижается в средстве 201 понижения частоты дискретизации. Частота дискретизации входного речевого сигнала 212 понижается с частоты дискретизации 16 кГц до частоты дискретизации 12,8 кГц с помощью методов, общеизвестных специалистам в этой области техники. Понижение частоты дискретизации увеличивает эффективность кодирования, так как кодируется меньшая ширина полосы частот. Понижение частоты дискретизации также понижает алгоритмическую сложность, так как число выборок в кадре уменьшается. После понижения частоты кодирования кадр из 320 выборок, имеющий длительность в 20 мс, уменьшается до кадра 213 из 256 выборок (отношение понижения частоты дискретизации 4/5).
Кадр 213 с пониженной частотой дискретизации затем подается на опциональный блок предварительной обработки. В примере по Фиг.2 блок предварительной обработки состоит из фильтра 202 верхних частот с частотой отсечки 50 Гц. Этот фильтр 202 верхних частот удаляет нежелательные звуковые компоненты ниже 50 Гц.
Заранее обработанный сигнал с пониженной частотой дискретизации обозначается sp(n), где n=0, 1, 2, ..., L-1, а L является длиной кадра (256 на частоте дискретизации 12,81 кГц). Согласно неограничивающему примеру сигнал sp(n) предварительно корректируется с помощью фильтра 203 предварительной коррекции, имеющего следующую передаточную функцию:
(1)
где μ является коэффициентом предварительной коррекции со значением, расположенным между 0 и 1 (обычно значение μ = 0,7). Функция фильтра 203 предварительной коррекции заключается в усилении высокочастотных составляющих входного речевого сигнала. Фильтр 203 предварительной коррекции также понижает динамический диапазон входного речевого сигнала, что делает его более подходящим для реализации с фиксированной запятой. Предварительная коррекция также играет важную роль в реализации надлежащего общего перцепционного взвешивания ошибки квантования, что способствует улучшению качества звука. Это объяснено более подробно ниже.
Выходной сигнал фильтра 203 предварительной коррекции обозначен s(n). Этот сигнал s(n) используется для выполнения анализа ЛП в модуле 204 анализа ЛП, квантования и интерполяции. Анализ ЛП является методом, общеизвестным специалистам. В иллюстративном примере на Фиг.2 используется автокорреляционный метод. Согласно автокорреляционному методу сигнал s(n) сначала обрабатывается методом окна, в типовом случае окна Хемминга, имеющего обычно длину порядка 30-40 мс. Вычисляются автокорреляции из сигнала, обработанного методом окна, и используется рекурсия Левинсона-Дурбина для вычисления коэффициентов ai фильтра ЛП, где i=1, 2,..., p и где p является порядком ЛП, который обычно равен 16 при широкополосном кодировании. Параметры ai являются коэффициентами функции передачи фильтра ЛП, который задается следующим отношением:
(2)
Анализ ЛП выполняется в модуле 204 анализа ЛП, квантования и интерполяции, который также выполняет квантование и интерполяцию коэффициентов фильтра ЛП. Коэффициенты ai фильтра ЛП сначала преобразуются в другую эквивалентную область, более подходящую для целей интерполяции и квантования. Области линейной спектральной пары (ЛСП) (LSP) и иммитансной спектральной пары (ИСП) (ISP) являются двумя областями, в которых могут быть эффективно выполнены квантование и интерполяция. 16 коэффициентов ai фильтра ЛП могут быть квантованы числом битов порядка 30-50 с помощью расщепленного или многоступенчатого квантования или их комбинации. Назначение интерполяции состоит в обеспечении обновления коэффициентов ai фильтра ЛП каждого подкадра при передаче их один раз на каждый кадр, что улучшает производительность кодера без увеличения битовой скорости. В остальном квантование и интерполяция коэффициентов фильтра ЛП известны специалистам и поэтому далее не описываются.
Ниже описаны остальные операции кодирования, выполняемые на основе подкадров. В иллюстративном примере на Фиг.2 входной кадр делится на 4 подкадра по 5 мс (64 выборки при частоте дискретизации 12,8 кГц). В последующем описании фильтр A(z) означает неквантованный интерполированный фильтр ЛП подкадра, а фильтр означает квантованный интерполированный фильтр ЛП подкадра.
В кодерах анализа через синтез оптимальный основной тон и инновационные параметры определяются путем минимизации среднеквадратичной ошибки между входной речью и синтезированной речью в перцепционно взвешенной области. Перцепционно взвешенный сигнал, обозначенный sw(n) на Фиг.2, вычисляется в перцепционно взвешивающем фильтре 205. Используется перцепционно взвешивающий фильтр 205 с фиксированным знаменателем, пригодный для широкополосных сигналов. Пример передаточной функции для перцепционно взвешивающего фильтра 205 дается следующим отношением:
Чтобы упростить анализ основного тона, сначала методом разомкнутого контура оценивается задержка TOL основного тона в модуле 206 поиска основного тона методом разомкнутого контура с помощью взвешенного речевого сигнала sw(n). Затем анализ основного тона методом замкнутого контура, который выполняется в модуле 207 поиска основного тона методом замкнутого контура на основе подкадра, ограничивается относительно задержки TOL основного тона разомкнутого контура, чтобы посредством этого значительно уменьшить сложность поиска параметров Т и gp ДВП (долговременного предсказания) (LTP) (задержка основного тона и усиление основного тона соответственно). Анализ основного тона разомкнутого контура обычно выполняется в модуле 206 каждые 10 мс (два подкадра) с помощью методов, общеизвестных специалисту.
Сначала вычисляется вектор x значения для анализа долговременного предсказания (ДВП) (LTP). Это обычно делается вычитанием нулевого входного отклика s0 взвешенного синтезирующего фильтра из взвешенного речевого сигнала sw(n). Этот нулевой входной отклик s0 вычисляется вычислителем 208 нулевого входного отклика в ответ на фильтр ЛП квантованной интерполяции из модуля 204 анализа ЛП, квантования и интерполяции и на исходные состояния взвешенного синтезирующего фильтра , хранящегося в модуле обновления памяти, в ответ на фильтры А(z) и и вектор u возбуждения. Это действие общеизвестно специалистам и поэтому далее не описывается.
N-мерный вектор h импульсного отклика взвешенного синтезирующего фильтра вычисляется в генераторе 209 с помощью коэффициентов A(z) и фильтра ЛП из модуля 204 анализа ЛП, квантования и интерполяции. Это действие также известно специалистам и поэтому далее не описывается.
Параметры gр, T и j основного тона замкнутого контура (или кодовой книги основного тона) вычисляются в модуле 207 поиска основного тона методом замкнутого контура, который использует целевой вектор x(n), вектор h(n) импульсного отклика и задержку TOL основного тона разомкнутого контура, как входные сигналы.
Поиск основного тона состоит из нахождения наилучших задержки T и усиления gр, которые минимизируют среднеквадратичную ошибку предсказания взвешенного основного тона, например,
,
между целевым вектором x(n) и взвешенным фильтрованным вариантом прошлого возбуждения gр, yT(n).
Более конкретно поиск кодовой книги основного тона выполняется в три стадии.
На первой стадии оценивается задержка TOL основного тона разомкнутого контура в модуле 206 поиска методом основного тона разомкнутого контура в ответ на взвешенный речевой сигнал sw(n). Как показано выше, этот анализ основного тона разомкнутого контура обычно выполняется каждые 10 мс (два подкадра) известными методами.
На второй стадии отыскивается критерий С поиска в модуле 207 поиска основного тона методом замкнутого контура для целочисленных задержек основного тона вокруг оцененной задержки TOL основного тона разомкнутого контура (обычно ±5), что значительно упрощает процедуру поиска в кодовой книге основного тона. Используется простая процедура для обновления фильтрованного кодового вектора yT(n) (этот вектор определен ниже) без необходимости вычисления свертки для каждой задержки основного тона. Примером критерия С поиска может служить:
, где t означает транспонирование.
Когда оптимальная целочисленная задержка основного тона найдена на второй стадии, третья стадия поиска (модуль 207 поиска основного тона методом замкнутого контура) проверяет, посредством критерия С поиска, участки вокруг этой оптимальной целочисленной задержки основного тона. Например, кодер АМС-ШП использует разрешение в 1/4 и 1/2 выборки.
В широкополосных сигналах гармоническая структура существует только до некоторой частоты в зависимости от речевого сегмента. Таким образом, для обеспечения эффективного представления вклада основного тона в голосовые сегменты широкополосного речевого сигнала необходима гибкость для изменения величины периодичности по широкополосному спектру. Это достигается обработкой кодового вектора основного тона посредством множества частотных формирующих фильтров (например, низкочастотные или высокочастотные фильтры) и выбором частотного формирующего фильтра, который минимизирует выше определенную среднеквадратичную взвешенную ошибку e(y). Выбранный частотный формирующий фильтр обозначается индексом j.
Индекс Т кодовой книги основного тона кодируется и передается мультиплексору 214 для передачи по каналу связи. Усиление gр основного тона квантуется и передается мультиплексору 214. Дополнительный бит используется для кодирования индекса j, и этот дополнительный бит также подается на мультиплексор 214.
Как только определены основной тон и параметры gр, Т и j долговременного предсказания (ДВП) (LTP), следующий шаг состоит в поиске оптимального инновационного (фиксированной кодовой книги) возбуждения посредством модуля 210 поиска инновационного возбуждения по Фиг.2. Сначала целевой вектор x(n) обновляется вычитанием вклада ДВП:
где gр является усилением основного тона, а yT(n) является отфильтрованным вектором кодовой книги основного тона (прошлое возбуждение при задержке T основного тона, отфильтрованное выбранным частотным формирующим фильтром (индекс j) и подвергнутое свертке с импульсным откликом h(n)).
Процедура поиска инновационного возбуждения в ЛПКВ выполняется в инновационной (фиксированной) кодовой книге, чтобы найти оптимальные кодовый вектор ck возбуждения (фиксированной кодовой книги) и усиление gс, которые минимизируют среднеквадратичную ошибку E между целевым вектором x'(n) и масштабированным отфильтрованным вариантом кодового вектора ck, например:
где H является нижней треугольной сверточной матрицей, полученной из вектора h(n) импульсного отклика. Индекс k инновационной кодовой книги, соответствующий найденным оптимальным кодовому вектору ck, и усиление gс подаются на мультиплексор 214 для передачи через канал связи.
Следует отметить, что использованная инновационная кодовая книга может быть динамической кодовой книгой, состоящей из алгебраической кодовой книги, за которой следует адаптивный предварительный фильтр F(z), который усиливает заданные спектральные компоненты для того, чтобы улучшить качество речевого синтеза, согласно патенту США № 5444816, выданному на имя Adoul et al. 22 августа 1995. Конкретнее, поиск в инновационной кодовой книге может быть выполнен в модуле 210 посредством алгебраической кодовой книги, как описывается в патентах США № 5444816 (Adoul et al.), опубликованном 22 августа 1995; 5699482, выданном на имя Adoul et al. 17 декабря 1997; 5754976, выданном на имя Adoul et al. 19 Мая 1998, и 5701392 (Adoul et al.), датированном 23 декабря 1997.
Передается индекс k оптимального инновационного кодового вектора. В качестве неограничивающего примера алгебраическая кодовая книга используется, когда индекс состоит из положений и знаков импульсов ненулевой амплитуды в векторе возбуждения. Усиление gр основного тона и инновационное усиление gс окончательно квантуются с помощью процедуры совместного квантования, которая описана ниже.
Распределение битов кодера АМС-ШП, работающего в режиме 12,65 кбит/с, приводится в таблице 1.
Битовое распределение в режиме 12,65 кбит/с в соответствии со стандартом АМС-ШП
Совместное квантование усилений
Усиления gp кодовой книги основного тона и усиления gc инновационной кодовой книги могут быть проквантованы либо скалярно, либо векторно.
При скалярном квантовании усиление основного тона квантуется независимо с помощью обычно 4 битов (неравномерное квантование в пределах 0-1,2). Усиление инновационной кодовой книги обычно квантуется с помощью 5 или 6 битов; знак квантуется 1 битом, а величина 4 или 5 битами. Величина усилений обычно квантуется равномерно в логарифмической области.
При объединенном или векторном квантовании таблица квантования или кодовая книга квантования проектируется и сохраняется как на стороне кодера, так и на стороне декодера. Эта кодовая книга может быть двумерной кодовой книгой, имеющей размер, который зависит от числа битов, используемых для квантования двух усилений gр и gс. Например, 7-битовая кодовая книга, используемая для квантования двух усилений gр и gc, содержит 128 элементов записей с размерностью 2. Наилучший элемент записи для некоторого подкадра определяется минимизацией некоторого критерия ошибки. Например, наилучший элемент записи кодовой книги может быть найден минимизацией среднеквадратичной ошибки между входным сигналом и синтезируемым сигналом.
Для дальнейшего использования корреляции сигналов может быть выполнено предсказание на основе усиления gc инновационной кодовой книги. Как правило, предсказание выполняется на основе масштабированной энергии инновационной кодовой книги в логарифмической области.
Предсказание может быть проведено, например, с помощью предсказания скользящего среднего (ПС) (МА) с фиксированными коэффициентами. Например, предсказание MA четвертого порядка выполняется на основе энергии инновационной кодовой книги следующим образом. Пусть E(n) будет средней удаленной энергией инновационной кодовой книги (в дБ) в подкадре n и задается:
(3)
где N является размером подкадра, c(i) является возбуждением инновационной кодовой книги и является средним значением энергии инновационной кодовой книги в дБ. В этом примере N=64 соответствует 5 мс при частоте дискретизации 12,8 кГц и =30 дБ. Предсказанная энергия инновационной кодовой книги задается:
(4)
где [b1, b2, b3, b4] = [0,5, 0,4, 0,3, 0,2] являются коэффициентами предсказания ПС, а является квантованной энергией ошибки предсказания в подкадре n-i. Предсказанная энергия инновационной кодовой книги используется для вычисления предсказанного инновационного усиления g'с, согласно уравнению (3), путем подстановки E(n) вместо и gс вместо g'с. Это делается следующим образом. Сначала вычисляется средняя энергия инновационной кодовой книги с помощью следующего отношения:
, (5)
а затем предсказанное инновационное усиление g'с находится как
.(6)
Коэффициент корреляции между усилением gс, который вычисляется в процессе обработки входного речевого сигнала 212, и оцененным предсказанным усилением g'с задается как:
.(7)
Заметим, что ошибка предсказания энергии задается как:
(8)
Усиление gр основного тона и коэффициент γ корреляции являются вектором, совместно квантованным с помощью шестибитовой кодовой книги для скоростей АМС-ШП 8,85 кбит/с и 6,60 кбит/с и семибитовой кодовой книги для других скоростей АМС-ШП. Поиск кодовой книги квантования усиления выполняется минимизацией среднеквадратичной взвешенной ошибки между первоначальной и восстановленной речью, что задается следующим соотношением:
, (9)
где x является целевым вектором, y является фильтрованным сигналом основного тона кодовой книги (сигнал y(n) обычно вычисляется как свертка между вектором кодовой книги основного тона и импульсным откликом h(n) взвешенного синтезирующего фильтра), z является вектором инновационной кодовой книги, отфильтрованным посредством взвешенного синтезирующего фильтра, а t обозначает "транспонирование". Ошибка предсказания квантованной энергии, связанная с выбранными усилениями, используется для обновления R(n).
Квантование усиления при кодировании с переменной битовой скоростью
Использование управляемого источником речевого кодирования ПБС значительно улучшает пропускную способность множества систем связи, особенно беспроводных систем, использующих метод МДКР. При управляемом источником кодировании ПБС кодек работает на нескольких битовых скоростях, а модуль выбора скорости используется для определения битовой скорости, которая используется для кодирования каждого речевого кадра на основе характера речевого кадра, например, вокализованного, невокализованного, переходного, шумового и т.д. Цель состоит в том, чтобы получить наилучшее качество речи на заданной средней битовой скорости. Кодек может работать в различных режимах путем настройки модуля выбора скорости для достижения различных средних скоростей передачи (ССПД) (ADR), где производительность кодека улучшается с увеличением ССПД. В некоторых системах связи режим работы может определяться системой в зависимости от канальных условий. Это обеспечивает кодек механизмом принятия компромиссных решений между качеством речи и пропускной способностью системы. Кодек далее включает в себя алгоритм классификации сигналов для анализа входного речевого сигнала и для классификации каждого речевого кадра в один из набора заранее заданных классов, например, шумовой, вокализованный, невокализованный, смешанный вокализованный, переходный и так далее. Кодек также содержит алгоритм выбора скорости для принятия решения о том, какая битовая скорость и какая модель кодирования должны использоваться, на основании определенного класса речевого кадра и желаемой средней битовой скорости.
Например, когда используется система CDMA2000 (эта система далее упоминается как система МДКР), то обычно используются четырехбитовые скорости, именуемые как полная (вся) скорость (ВС) (FR), половинная скорость (ПС) (HR), скорость в одну четверть (СОЧ) (QR) и скорость в одну восьмую (СОВ) (ER). Также два набора скоростей, именуемые как Набор I скоростей и Набор II скоростей, поддерживаются системой МДКР. В Наборе II скоростей кодек переменной скорости с механизмом выбора скорости работает на кодируемых источником битовых скоростях 13,3 (ВС), 6,2 (ПС), 2,7 (СОЧ) и 1,0 (СОВ) кбит/с. В Наборе I скоростей кодируемыми источником битовыми скоростями являются 8,55 (ВС), 4,0 (ПС), 2,0 (СОЧ) и 0,8 (СОВ) кбит/с. Набор II скоростей рассматривается в иллюстративных вариантах осуществления настоящего изобретения.
При многорежимном кодировании ПБС различные режимы работы, соответствующие различным средним битовым скоростям, могут быть получены определением процента использования отдельных битовых скоростей. Таким образом, алгоритм выбора скорости выбирает битовую скорость, которая будет использоваться для некоторого речевого кадра, на основании характера речевого кадра (классификационной информации) и желаемой средней битовой скорости.
В дополнение к определению режима работы, система МДКР может также ограничивать максимальную битовую скорость в некоторых речевых кадрах для того, чтобы посылать канальную информацию сигнализации (называемую неясной и пакетной сигнализацией), или в течение плохих канальных условий (таких как вблизи границ ячейки), для того чтобы улучшить устойчивость кодека.
В иллюстративных вариантах осуществления настоящего изобретения используется управляемая источником многорежимная система кодирования с переменной битовой скоростью, которая может работать в Наборе II скоростей систем CDMA2000. Она называется далее переменным многоскоростным широкополосным (ПМС-ШП) (VMR-ВБ) кодеком. Этот кодек основывается на адаптивном многоскоростном широкополосном (АМС-ШП) речевом кодеке, как описано выше. Кодирование на полной скорости (ВС) (FR) основано на АМС-ШП при 12,65 кбит/с. Для стационарных вокализованных кадров разработана вокализованная модель кодирования ПС. Для невокализованных кадров разработаны невокализованная модель ПС и невокализованная модель СОЧ кодирования. Для фоновых шумовых кадров (неактивная речь) разработан генератор комфортного шума СОВ (ГКШ) (CNG). Когда алгоритм выбора скорости передачи выбирает модель ВС для конкретного кадра, но система связи вынуждает использовать ПС для целей сигнализации, тогда ни вокализованная ПС, ни невокализованная ПС не пригодны для кодирования кадра. Для этой цели разработана модель основной ПС. Модель основной ПС может также использоваться для кодирования кадров, не классифицированных как вокализованные или невокализованные, но с относительно низкой энергией по отношению к долговременной средней энергии, поскольку эти кадры имеют малую важность для восприятия.
Способы кодирования для вышеупомянутой системы обобщены в Таблице 2 и в общем упоминаются как типы кодирования. Другие типы кодирования могут использоваться без потери общности.
Конкретные кодеры ПМС-ШП и их краткое описание
АМС-ШП при 12,65 кбит/с
Кодовая книга квантования усиления для кодирования типа ВС разработана для всех классов сигнала, таких как вокализованный, невокализованный, переходный, приступ, смещение и т.д., с помощью обучающих процедур, известных специалистам. В контексте кодирования ПБС вокализованный и основной типы кодирования ПС используют как кодовую книгу основного тона, так и инновационную кодовую книгу для формирования сигнала возбуждения. Таким образом, подобно типу кодирования ВС, усиление основного тона и инновационное усиление (усиление кодовой книги основного тона и усиление инновационной кодовой книги) должны быть проквантованы. На более низких битовых скоростях, однако, выгодно снижать число битов квантования, что требует проектирования новых кодовых книг. Более того, для вокализованной ПС требуется новая кодовая книга квантования для этого типа кодирования конкретного класса. Поэтому иллюстративные варианты осуществления настоящего изобретения обеспечивают квантование усиления в кодировании ПБС, основанном на ЛПКВ, позволяющем уменьшить число битов для квантования усиления, не требуя проектирования новых кодовых книг квантования для типов кодирования с меньшей скоростью передачи. Более конкретно, используется часть кодовой книги, разработанной для типа кодирования основной ПС. Кодовая книга квантования усиления упорядочивается на основании значений усиления основного тона. Часть кодовой книги, используемая при квантовании, определяется на основе начального значения усиления основного тона, вычисленного по более долговременному периоду, например, по двум подкадрам или более, или синхронно с основным тоном в течение одного или нескольких периодов основного тона. Это приведет к снижению битовой скорости, так как информация, касающаяся части кодовой книги, не посылается на основе подкадров. Более того, это приведет к качественному улучшению в случае стационарных голосовых кадров, так как вариация усиления в пределах кадра будет уменьшаться.
Неквантованное усиление основного тона в подкадре вычисляется как
, (10)
где x(n) является целевым сигналом, y(n) является фильтрованным вектором кодовой книги основного тона и N является размером подкадра (число отсчетов в подкадре). Сигнал y(n) обычно вычисляется как свертка между вектором кодовой книги основного тона и импульсным откликом h(n) взвешенного синтезирующего фильтра. Вычисление целевого вектора и фильтрованного вектора кодовой книги основного тона при кодировании, основанном на ЛПКВ, известно специалистам. Пример этого вычисления описан в ссылках [ITU-T Recommendation G.722.2 «Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)», Geneva, 2002] и [3GPP TS 26.190, «AMR Wideband Speech Codec; Transcoding Functions», 3GPP Technical Specification]. Для того чтобы уменьшить нестабильность в случае канальных ошибок, вычисленное усиление основного тона ограничивается диапазоном от 0 до 1,2.
Первый иллюстративный вариант осуществления
В первом неограничивающем иллюстративном варианте осуществления при кодировании первого подкадра в кадре с четырьмя подкадрами усиление gi начального основного тона вычисляется на основании первых двух подкадров одного и того же кадра с помощью уравнения (10), но для длины 2N (два подкадра). В этом случае уравнение (10) становится:
(11)
Затем вычисление целевого сигнала x(n) и фильтрованного сигнала y(n) кодовой книги основного тона также выполняется в течение двух подкадров, например, первый и второй подкадры кадра. Вычисление целевого сигнала x(n) в течение периода большего, чем один подкадр, выполняется расширением вычисления взвешенного речевого сигнала sw(n) и нулевого входного отклика s0 по более длинному периоду при использовании того же самого фильтра ЛП, как в начальном подкадре из двух первых подкадров для всего расширенного периода; целевой сигнал x(n) вычисляется как взвешенный речевой сигнал sw(n) после вычитания нулевого входного отклика s0 взвешенного синтезирующего фильтра . Подобным же образом вычисление взвешенного сигнала y(n) кодовой книги основного тона выполняется расширением вычисления вектора v(n) кодовой книги основного тона и импульсного отклика h(n) взвешенного синтезирующего фильтра первого подкадра по периоду большему, чем длина подкадра; взвешенный сигнал кодовой книги основного тона является сверткой между вектором v(n) кодовой книги и импульсным откликом h(n), где свертка в этом случае вычисляется по более длинному периоду.
После вычисления начального усиления gi основного тона по двум подкадрам, затем в течение кодирования ПЛП (половинной скорости передачи) первых двух подкадров, объединенное квантование усилений gр и gc основного тона и инновационного усиления ограничивается частью кодовой книги, используемой для квантования усилений на полной скорости (ВС), при этом данная часть определяется значением начального усиления основного тона, вычисленным по двум подкадрам. В первом иллюстративном варианте осуществления, при типе кодирования ВС, усиления gр и gс совместно квантуются с помощью 7 битов согласно процедуре квантования, описанной ранее; предсказание ПС применяется к инновационной энергии возбуждения в логарифмической области для получения предсказанного усиления инновационной кодовой книги, а коэффициент γ корреляции квантуется. Содержимое таблицы квантования, использованного в типе кодирования ВС (полная скорость), показано в Таблице 3 (как используется в АМС-ШП [ITU-T Recommendation G.722.2 «Wideband coding of speech at around 16 kbit/s using Adaptive Multi-Rate Wideband (AMR-WB)», Geneva, 2002] и [3GPP TS 26.190, «AMR Wideband Speech Codec; Transcoding Functions,» 3GPP Technical Specification]). В первом иллюстративном варианте осуществления квантование усиления gр и gc двух подкадров выполняется ограничением поиска в Таблице 3 (таблице квантования или кодовой книге) до первой или второй половины этой таблицы квантования согласно начальному значению gi усиления основного тона, вычисленного по двум подкадрам. Если начальное значение gi усиления основного тона меньше, чем 0,768606, то квантование в первых двух подкадрах ограничивается первой половиной Таблицы 3 (таблицы квантования или кодовой книги). Иначе, квантование ограничивается второй половиной Таблицы 3. Значение основного тона 0,768606 соответствует квантованному значению gс усиления основного тона в начале второй половины таблицы квантования (в верхней части пятой колонки в Таблице 3). Один бит необходим на каждые два подкадра для отображения того, какая часть таблицы квантования или кодовой книги используется для квантования.
Кодовая книга квантования усиления основного тона и коэффициента корреляции инновационного усиления в иллюстративном варианте осуществления согласно настоящему изобретению
Следует отметить, что для третьего и четвертого подкадров выполняется подобная же процедура квантования усиления. А именно, начальное усиление gi вычисляется по третьему и четвертому подкадрам, затем часть таблицы 3 квантования усиления (кодовая книга квантования усиления), которая будет использоваться в процедуре квантования, определяется на основе значения этого начального усиления gi основного тона. Наконец, совместное квантование двух усилений gр и gс ограничивается определенной частью кодовой книги, и один бит передается, чтобы указать, какая часть используется; один бит требуется, чтобы указать часть таблицы или кодовой книги, когда каждая часть кодовой книги соответствует половине кодовой книги квантования усиления.
На Фиг.3 и 4 показаны блок-схема алгоритма и блок-схема, обобщающая описанный выше первый вариант осуществления способа и устройства согласно настоящему изобретению.
Шаг 301 на Фиг.3 состоит из вычисления начального усиления gi основного тона по двум подкадрам. Шаг 301 выполняется вычислителем 401, как показано на Фиг.4.
Шаг 302 состоит из поиска, например, в семибитовой кодовой книге совместного квантования усиления, где начальный индекс ассоциируется с усилением основного тона, ближайшем к начальному усилению gi основного тона. Шаг 302 управляется блоком 402 поиска.
Шаг 303 состоит из выбора части (например, половины) кодовой книги квантования, содержащей начальный индекс, определенный в течение шага 302, и определения выбранной части кодовой книги (например, половины) с помощью, по меньшей мере, одного бита на два подкадра. Шаг 303 выполняется селектором 403 и идентификатором 404.
Шаг 304 состоит из ограничения поиска в таблице или кодовой книге в двух подкадрах для выбора части кодовой книги (например, половины) и определения выбранного индекса с, например, шестью битами на подкадр. Шаг 304 выполняется средством 405 поиска и квантователем 406.
В описанном выше первом иллюстративном варианте осуществления 7 битов на подкадр используются при кодировании ВС (с полной скоростью) для квантования усилений gр и gc, что дает 28 битов на кадр. При речевом и основном кодировании ПС (половинной скорости) используется та же самая кодовая книга квантования, как и при кодировании ВС (полной скорости). Однако используются только 6 битов на подкадр, а 2 дополнительных бита необходимы для целого кадра для указания, в случае половинной части, части кодовой книги при квантовании каждых двух подкадров. Это дает всего 26 битов на подкадр без увеличения объема памяти и с улучшенным качеством по сравнению с проектированием новой шестибитовой кодовой книги, как было найдено экспериментально. Фактически эксперименты показали объективные результаты (например, сегментное соотношение сигнал-шум (Сегм-С/Ш) (Seg-SNR), средняя битовая скорость, ...), эквивалентные или лучшие, чем результаты, полученные с помощью первоначального семибитового квантователя. Представляется, что эта улучшенная характеристика обусловлена уменьшением вариаций усиления в кадре. Таблица 4 показывает распределение битов различных моделей кодирования согласно первому иллюстративному варианту осуществления.
Выделение битов для методов кодирования,
используемых в решении ПМС-ШП
СОЧ
ЛП
тона
тона
кодовая
книга
FER
биты
Другой вариант первого иллюстративного варианта осуществления может быть легко получен для достижения большей экономии числа битов. Например, начальное усиление основного тона может быть вычислено по всему кадру, а часть кодовой книги (например, половина кодовой книги), используемая при квантовании двух усилений gр и gc, может быть определена для всех подкадров на основании начального значения gi усиления основного тона. В этом случае только 1 бит на кадр необходим для указания части кодовой книги (например, половины кодовой книги), что дает всего 25 битов.
Согласно другому примеру кодовая книга квантования усилия, которая сортируется на основании усиления основного тона, делится на 4 части, а начальное значение gi усиления основного тона используется для определения части кодовой книги, которая используется для процесса квантования. Для примера семибитовой кодовой книги, данной в Таблице 3, кодовая книга делится на 4 части по 32 элемента записи, соответствующих следующим диапазонам усиления основного тона: менее 0,445842, от 0,445842 до 0,768606, от 0,768606 до 0,962625 и более 0,962625. Только 5 битов необходимо для передачи индекса квантования в каждой части каждого подкадра, затем 2 бита необходимы каждые 2 подкадра для указаний используемой части кодовой книги. Это дает всего 24 бита. Далее та же самая часть кодовой книги может быть использована для всех четырех подкадров, для чего будут необходимы только 2 лишних бита на кадр, что дает всего 22 бита.
Также декодер (не показан) согласно первому иллюстративному варианту осуществления содержит, например, семибитовую кодовую книгу, используемую для хранения квантованных векторов усиления. Каждые два подкадра декодер принимает один бит (в случае половины кодовой книги) для идентификации части кодовой книги, которая использовалась для кодирования усилений gр и gс, и 6 битов на подкадр для извлечения квантованных усилений из этой части кодовой книги.
Второй иллюстративный вариант осуществления
Второй иллюстративный вариант осуществления подобен первому, объясненному выше в связи с Фиг.3 и 4, за исключением того, что начальное усиление gi основного тона вычисляется по-иному. Для упрощения вычисления в уравнении (11) может быть использован взвешенный звуковой сигнал sw(n) или низкочастотный фильтрованный прореженный взвешенный звуковой сигнал. Получается следующее соотношение:
(12)
где TOL является задержкой основного тона разомкнутого контура и K является временным периодом, по которому вычисляется начальное усиление gi основного тона. Временной период может быть равен 2 или 4 подкадрам, как описано выше, или может быть равен кратному значению периода TOL основного тона разомкнутого контура. Например, K может быть набором, равным TOL, 2TOL, 3TOL и так далее согласно значению TOL: большее число циклов основного тона может быть использовано для коротких периодов основного тона. Другие сигналы могут быть использованы в уравнении (12) без потери общности, такие как остаточный сигнал, выработанный в процессе кодирования, основанные на ЛПКВ.
Третий иллюстративный вариант осуществления
В третьем иллюстративном варианте осуществления настоящего изобретения используется идея ограничения части кодовой книги квантования усиления, которая определяется согласно начальному значению gi усиления основного тона, вычисленному по более длинному периоду времени, как это объяснено выше. Однако цель использования этого подхода заключается не в уменьшении битовой скорости, а в улучшении качества. Таким образом, нет необходимости в уменьшении числа битов на подкадр и посылке лишней информации относительно использованной части кодовой книги, поскольку индекс всегда квантуется для всего размера кодовой книги (7 битов согласно примеру Таблицы 3). Это не даст ограничения на часть кодовой книги, используемой для поиска. Ограничение поиска до части кодовой книги согласно начальному значению gi усиления основного тона, вычисленного по большему временному периоду, уменьшает флюктуацию в значениях квантованных усилений и улучшает общее качество, обеспечивая более плавное изменение формы сигнала.
Согласно неограничивающему примеру кодовая книга квантования в Таблице 3 используется в каждом подкадре. Начальное усиление gi основного тона может быть вычислено согласно уравнению (12) или уравнению (11) или любым другим соответствующим способом. Когда используется уравнение (12), примеры значений K (множество из периода основного тона разомкнутого контура) являются следующими: для значений основного тона TOL<50 K устанавливается 3TOL; для значений основного тона 51<TOL<96 K устанавливается 2TOL; в других случаях K устанавливается TOL.
После вычисления начального усиления gi основного тона поиск в кодовой книге квантования вектора ограничивается пределом от до , где является индексом вектора кодовой книги квантования усиления, у которого значения усиления основного тона наиболее близко к начальному значению gi основного тона. Обычное значение p равняется 15 с ограничениями и . Как только индекс квантования усиления найден, оно кодируется с помощью 7 битов, как в обыкновенном квантовании усиления.
Конечно, множество других изменений и вариаций возможны для заявленного изобретения. Ввиду вышеизложенного подробного описания настоящего изобретения и иллюстрирующих чертежей такие другие изменения и вариации будут очевидны специалистам. Также понятно, что такие другие вариации могут быть осуществлены в объеме формулы изобретения, не отступая от сущности и объема настоящего изобретения.
Изобретение относится к способу и устройству квантования усиления для воплощения в методе кодирования дискретизированного звукового сигнала, обработанного в процессе кодирования последовательными кадрами из L выборок, где каждый кадр делится на некоторое число подкадров и каждый подкадр содержит некоторое число N выборок, где N<L. В способе и устройстве квантования усиления вычисляется начальное усиление основного тона на основании некоторого числа f подкадров, часть кодовой книги квантования усиления выбирается по отношению к начальному усилению основного тона, а усиления основного тона и фиксированной кодовой книги совместно квантуются. Это совместное квантование усилений основного тона и фиксированной кодовой книги содержит для некоторого числа f подкадров поиск в кодовой книге квантования усиления во взаимосвязи с критерием поиска. Поиск в кодовой книге ограничивается выбранной частью кодовой книги квантования усиления и индексом выбранной части кодовой книги квантования усиления, наилучшим образом отвечающим найденному критерию поиска. Технический результат - повышение пропускной способности системы. 8 н. и 45. з.п. ф-лы, 3 табл., 4 ил.
вычисление начального усиления основного тона на основании заранее заданного числа f подкадров;
выбор части кодовой книги квантования по отношению к начальному усилению основного тона;
ограничение поиска в кодовой книге квантования выбранной частью кодовой книги квантования для двух или более последовательных подкадров;
поиск в выбранной части кодовой книги квантования индекса записи для идентификации элемента записи кодовой книги квантования, наилучшим образом представляющего параметр усиления gp кодовой книги основного тона и параметра усиления gc инновационной кодовой книги для подкадра из выбранной части кодовой книги квантования, и использование индекса записи, ассоциированного с идентифицируемым элементом записи, для представления параметра усиления gp кодовой книги основного тона и параметра усиления gc инновационной кодовой книги подкадра.
где К представляет количество выборок, используемых при вычислении упомянутых первого и второго значений корреляции, х(n) является целевым сигналом, у(n) является фильтрованным адаптивным сигналом кодовой книги.
где g'p является усилением основного тона, TOL является задержкой основного тона разомкнутого контура, К является временным периодом, sw(n) является сигналом, получаемым из перцепционной взвешенной версии дискретизированного звукового сигнала.
прием битового потока, из которого выделяют индикатор, указывающий на выбранную часть кодовой книги квантования, используемую при квантовании упомянутых параметра усиления gp кодовой книги основного тона и параметра усиления gc инновационной кодовой книги, для двух или более подкадров, и
выделение для каждого из упомянутых двух или более подкадров параметра усиления gp кодовой книги основного тона и параметра усиления gc инновационной кодовой книги, из указанной части кодовой книги квантования.
где К представляет некоторое количество выборок, используемых при вычислении упомянутых первого и второго значений корреляции, х(n) является целевым сигналом, у(n) является фильтрованным адаптивным сигналом кодовой книги.
где является усилением основного тона, TOL является задержкой основного тона разомкнутого контура, К является временным периодом, a sw(n) является сигналом, получаемым из перцепционной взвешенной версии дискретизированного звукового сигнала.
Печь для непрерывного получения сернистого натрия | 1921 |
|
SU1A1 |
ПОИСК В ГЛУБИНУ ПО АЛГЕБРАИЧЕСКОЙ ШИФРОВАЛЬНОЙ КНИГЕ ДЛЯ БЫСТРОГО КОДИРОВАНИЯ РЕЧИ | 1996 |
|
RU2175454C2 |
DE 19722705 A1, 02.07.1998 | |||
US 5444816 A, 22.08.1995 | |||
Устройство для измерения распределения натяжения по ширине полосы | 1976 |
|
SU575511A1 |
Авторы
Даты
2008-01-27—Публикация
2004-03-12—Подача