Предпосылки создания изобретения
Область техники, к которой относится изобретение
Настоящее изобретение касается способа и устройства воспроизведения речевых сигналов, в которых входной речевой сигнал делят на множество кадров в качестве элементов и кодируют для обнаружения параметров кодирования, основанных на том, какие, по меньшей мере, гармонические волны синтезируются для воспроизведения речевого сигнала. Изобретение касается также способа передачи видоизмененных параметров кодирования, полученных при интерполировании параметров кодирования,
Описание родственной техники
В настоящее время известно множество способов кодирования, предназначенных для сжатия сигналов посредством использования статических свойств сигналов звуковых частот, включающих речевые сигналы и сигналы звукового сопровождения, во временной области и в частотной области и относящиеся к психологии слухового восприятия характеристики системы человеческого слухового аппарата. Эти способы кодирования грубо классифицируются на кодирование по временной области, кодирование по частотной области и кодирование посредством анализа-синтеза.
Между тем, при высокоэффективном способе кодирования речи посредством обработки сигналов на временной оси, иллюстрируемого линейным предсказанием с возбуждением кода (ЛПBK), встречаются трудности при преобразовании (изменении) скорости временной оси скорее из-за длительных операций по обработке сигналов, выводимых с декодирующего устройства.
Кроме того, вышеупомянутый способ нельзя использовать, например, для преобразования частоты основного тона, потому что управление скоростью выполняется в декодируемом линейном диапазоне.
Ввиду вышеизложенного, целью настоящего изобретения является обеспечить способ и устройство, предназначенные для воспроизведения речевых сигналов, в которых управление скоростью произвольной частоты в широком диапазоне можно легко выполнять с высоким качеством при оставлении неизменными фонемы и высоты тона.
В одном аспекте, настоящее изобретение обеспечивает способ воспроизведения входного речевого сигнала на основании параметров кодирования, получаемых посредством разделения входного речевого сигнала исходя из заранее установленных кадров на временной оси и кодирования такого разделенного входного речевого сигнала на кадровой основе, включающий в себе этапы интерполирования параметров кодирования, предназначенных для определения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и вырабатывания отличия модифицированного речевого сигнала по частоте от упомянутого входного речевого сигнала на основании видоизмененных параметров кодирования. Таким образом, управление скоростью на произвольной частоте в широком диапазоне можно легко выполнять с высоким качеством сигнала при оставлении неизменными фонемы и высоты тона.
В другом аспекте, настоящее изобретение обеспечивает устройство, предназначенное для воспроизведения речевого сигнала, в котором входной речевой сигнал восстанавливается на основании параметров кодирования, полученных посредством разделения входного речевого сигнала исходя из заранее установленных кадров на временной оси, и кодирования такого разделенного входного речевого сигнала на кадровой основе, включающее в себя средство интерполирования, предназначенное для интерполирования параметров кодирования для обнаружения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и средство вырабатывания речевого сигнала, предназначенное для вырабатывания отличия видоизмененного речевого сигнала по частоте от упомянутого входного речевого сигнала на основании видоизмененных параметров кодирования. Таким образом, становится возможным регулировать скорость передачи битов. Следовательно, управление скоростью на произвольной частоте в широком диапазоне можно легко выполнять с высоким качеством сигнала, при оставлении неизменными фонемы и высоты тона.
Еще в одном аспекте, настоящее изобретение обеспечивает способ передачи речевых сигналов, в котором параметры кодирования обнаруживаются посредством разделения входного речевого сигнала исходя из заранее установленных кадров на временной оси в качестве элементов и посредством кодирования этого разделенного входного речевого сигнала на кадровой основе с целью обнаружения параметров кодирования, причем обнаруженные таким образом параметры кодирования интерполируются с целью определения видоизмененных параметров кодирования, связанных с требуемой временной точкой, и видоизмененные параметры кодирования передаются, обеспечивая, таким образом, возможность регулирования скорости передачи битов.
Благодаря делению входного речевого сигнала исходя из предварительно установленных кадров на временной оси и кодирования основанного на кадрах сигнала с целью обнаружения параметров кодирования, благодаря интерполированию параметров кодирования с целью определения видоизмененных параметров кодирования и благодаря синтезированию, по меньшей мере, гармонических волн на основании видоизмененных параметров кодирования для восстановления речевых сигналов, становится возможной регулировка скорости на произвольной частоте.
Краткое описание чертежей
Фиг.1 представляет структурную блок-схему, иллюстрирующую компоновку устройства воспроизведения речевого сигнала, соответствующего первому варианту осуществления настоящего изобретения.
Фиг.2 представляет структурную блок-схему, иллюстрирующую компоновку показанного на фиг.1 устройства воспроизведения речевого сигнала.
Фиг.3 представляет блок-схему, иллюстрирующую кодирующее устройство показанного на фиг.1 устройства воспроизведения речевого сигнала.
Фиг.4 представляет блок-схему, иллюстрирующую компоновку схемы анализа многополосного возбуждения (МПВ) в качестве иллюстративного примера схемы кодирования гармоник и шума кодирующего устройства.
Фиг.5 иллюстрирует компоновку векторного квантователя.
Фиг.6 представляет график, иллюстрирующий средние значения входного сигнала вокализированного звука, невокализированного звука и собранных вместе вокализированного и невокализированного звуков.
Фиг.7 представляет график, иллюстрирующий средние значения весового множителя для вокализированного звука, невокализированного звука и для собранных вместе вокализированного и невокадизированного звуков.
Фиг.8 представляет график, иллюстрирующий способ формирования кодового словаря векторного квантования для вокализированного звука, невокализироаанного звука и для собранных вместе вокализированного и невокализированного звуков.
Фиг.9 представляет алгоритм, иллюстрирующий схематическую работу схемы вычисления видоизмененных параметров кодирования, используемой в показанном на фиг.1 устройстве воспроизведения речевого сигнала.
Фиг.10 представляет схематический вид, иллюстрирующий видоизмененные параметры кодирования, получаемые посредством схемы вычисления видоизмененных параметров на временной оси.
Фиг.11 представляет алгоритм, иллюстрирующий подробную работу схемы вычисления видоизмененных параметров кодирования, используемой в показанном на фиг.1 устройстве воспроизведения речевых сигналов.
Фиг.12A, 12B и 12C представляют схематические виды, показывающие иллюстративную работу схемы вычисления видоизмененных параметров кодирования.
Фиг.13A, 13B и 13С представляют схематические виды, показывающие другую иллюстративную работу схемы вычисления видоизмененных параметров кодирования.
Фиг.14 представляет блок-схему, иллюстрирующую декодирующее устройство, используемое а устройстве воспроизведения речевых сигналов.
Фиг.15 представляет электрическую блок-схему, иллюстрирующую компоновку схемы синтезирования многополосного возбуждения (МПВ) в виде иллюстративного примера схемы синтезирования гармоник и шума, используемой в декодирующем устройстве.
Фиг.16 представляет блок-схему, иллюстрирующую устройство передачи речевого сигнала в виде второго варианта осуществления настоящего изобретения.
Фиг.17 представляет алгоритм, иллюстрирующий работу передающей стороны устройства передачи речевых сигналов.
Фиг.18A, 18B и 18C иллюстрируют работу устройства передачи речевых сигналов.
Описание предпочтительных вариантов осуществления изобретения
Ниже будет приведено подробное описание со ссылкой на чертежи предпочтительных вариантов осуществления соответствующих настоящему изобретению способа и устройства, предназначенных для воспроизведения речевых сигналов, и способа передачи речевых сигналов.
Вначале приведем описание устройства, предназначенного для воспроизведения речевых сигналов, в котором применены соответствующие настоящему изобретению способ и аппаратура для воспроизведения речевых сигналов. На фиг.1 показана блок-схема устройства воспроизведения речевых сигналов 1, в котором входные речевые сигналы разделяются исходя из заранее установленных кадров в качестве элементов на временной оси и кодируются на кадровой основе с целью обнаружения параметров кодирования. На основании этих параметров кодирования синтезируются гармонические волны и шум с целью воспроизведения речевых сигналов.
В частности, в случае настоящего устройства воспроизведения речевых сигналов 1, параметры кодирования интерполируются с целью определения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и на основании этих видоизмененных параметров кодирования синтезируются гармонические волны и шум. Хотя на основании модифицированных параметров кодирования синтезируются гармонические волны и шум, можно также синтезировать, по меньшей мере, гармонические волны.
В данном случае устройство воспроизведения сигналов звуковой частоты включает в себя блок кодирования 2, предназначенный для разделения речевых сигналов, поступающих на входную клемму 10, на кадры в качестве элементов и для кодирования речевых сигналов на кадровой основе с целью вывода параметров кодирования, таких как параметры линейной спектральной пары (ЛСП), тон, вокализированные (V)- невокализированные (UV) сигналы или спектральные амплитуды Am. Устройство воспроизведения сигналов звуковой частоты 1 включает в себя также блок вычисления 3, предназначенный для интерполирования параметров кодирования с целью определения видоизмененных параметров кодирования, связанных с требуемыми временными точками, и блок декодирования 6, предназначенный для синтезирования гармоничных волн и шума на основании видоизмененных параметров кодирования с целью вывода синтезированных речевых параметров на выходную клемму 37. Блоком кодирования 2, блоком вычисления 3, предназначенным для вычисления видоизмененных параметров кодирования, и блоком декодирования 6 управляет контроллер (не показанный).
Блок вычисления 3, предназначенный для вычисления видоизмененных параметров кодирования устройства воспроизведения речевых сигналов 1, включает в себя схему изменения периода 4, предназначенную для сжатия-расширения временной оси параметров кодирования, получаемых в каждом заранее установленном кадре, с целью изменения периода вывода параметров кодирования, и схему интерполирования 5, предназначенную для интерполирования параметров с измененным периодом с целью создания видоизмененных параметров кодирования, связанных с основанными на кадрах временными периодами, как показано, например, на фиг.2. Далее будет приведено описание блока вычисления 3, предназначенного для вычисления видоизмененных параметров кодирования.
Вначале приведем описание блока кодирования 2. Блок кодирования 3 и блок декодирования 6 представляют остаточные значения краткосрочных предсказаний, например, остаточные значения кодирования с линейным предсказанием (КЛП), исходя из кодирования гармоник и шума. В качестве альтернативы, блок кодирования 3 и блок декодирования 6 выполняют кодирование многополосного возбуждения (МПВ) или анализ многополосного возбуждения (МПВ).
В случае обычного кодирования с линейным предсказанием возбуждаемого кода (ЛПВК), остаточные значения КЛП подвергаются направленному векторному квантованию в виде формы сигнала во времени. Поскольку блок кодирования 2 кодирует остаточные значения посредством кодирования гармоник или анализа МПВ, более ровную синтезированную форму волны можно получить при векторном квантовании амплитуд спектральной огибающей гармоник при меньшем количестве двоичных разрядов, тогда как выходной фильтр синтезированной формы волны КЛП также весьма соответствует качеству звука. Между тем, амплитуды спектральной огибающей квантуются с использованием метода пространственного преобразования или преобразования количества данных, предложенного настоящим заявителем в японской публикации патента Kokai JP-A-51800. То есть, амплитуды спектральной огибающей подвергаются векторному квантованию заранее установленным количеством векторных размеров.
На фиг.3 показана иллюстративная схема блока кодирования 2. Речевые сигналы, поступающие на входную клемму 10, освобождаются от сигналов ненужного диапазона частот посредством фильтра 11 и затем подаются на схему анализа кодирования с линейным предсказанием (КЛП) 12 и схему обратного фильтрования 21.
В схеме анализа КЛП 12 применена взвешивающая функция Хэмминга к входной форме волны при ее длине порядка 256 выборок в качестве блока, чтобы посредством метода автокорреляции обнаруживать коэффициенты линейного предсказания, то есть так называемые α-параметры. Интервал кодирования в виде блока вывода данных составляет порядка 160 выборок. Если частота выборки составляет, например, 8 кГц, интервал кодирования 160 выборок соответствует 20 миллисекунд.
α - параметр со схемы анализа КПП 12 подается на схему преобразования α - параметра в ЛСП 13, с целью преобразования в параметры линейной спектральной пары (ЛСП). То есть, α - параметры, обнаруженные в качестве коэффициентов фильтра направленного типа, преобразуются, например, в десять, то есть в пять пар, параметров ЛСП. Это преобразование выполняется с использованием, например, метода Ньютона-Рафсона. Причина преобразования α - параметров в параметры ЛСП состоит в том, что параметры ЛСП превосходят α - параметры по характеристикам интерполирования.
Параметры ЛСП со схемы преобразования параметров в ЛСП 13 подвергаются векторному квантованию посредством векторного квантователя ЛСП 14. В это время можно обнаруживать междукадровую разницу до перехода к векторному квантованию. В качестве альтернативы можно собирать и квантовать множество кадров посредством матричного квантования. Для квантования, рассчитываемые каждые 20 мс параметры ЛСП подвергаются векторному квантованию, при длительности одного кадра, равной 20 мс.
Квантованный выходной сигнал векторного квантователя ЛСП 14, который является показателем векторного квантователя ЛСП, выводится на клемму 15. Квантованные векторы ЛСП подаются на схему интерполирования ЛСП 16.
Схема интерполирования ЛСП 16 интерполирует векторы ЛСП, обеспечиваемые векторным квантованием каждые 20 мс, для обеспечения восьмикратной скорости. То есть, векторы ЛСП располагают таким образом, чтобы их можно было корректировать каждые 2,5 мс. Причина состоит в том, что если остаточная форма волны обрабатывается посредством анализа-синтеза методом кодирования-декодирования многополосного возбуждения (МПB), огибающая синтезированной формы волны представляет чрезвычайно ровную форму волны, так что если коэффициенты кодирования с линейным предсказанием (КЛП) действительно изменяются каждые 20 мс, то появляется тенденция создания своеобразных звуков. Образованию таких своеобразных звуков может создаваться препятствие, если коэффициенты КЛП постоянно изменяются каждые 2,5 миллисекунды.
Для обратного фильтрования входного речевого сигнала, используя интерполированные таким образом векторы ЛСП с интервалом 2,5 мс, параметры ЛСП преобразуются посредством схемы преобразования ЛСП в α - параметры, которые представляют собой коэффициенты фильтра направленного типа, например, десяти последовательностей. Выходные сигналы схемы 17 преобразования ЛСП в α подаются на схему обратного фильтрования 21, чтобы обеспечить выполнение обратного фильтрования при скорректированном α - параметре на интервале 2,5 мс с целью создания ровного выходного сигнала. Выходной сигнал схемы обратного фильтрования 21 поступает на схему кодирования гармоник и шума 22, а именно на схему анализа многополосного возбуждения (МПВ).
Схема кодирования гармоник и шума (схема анализа МПВ) 22 анализирует выходной сигнал схемы обратной фильтрации 21 методом, аналогичным методу анализа MПB. To есть, схема кодирования гармоник-шума 22 детектирует тон и рассчитывает амплитуду Аm каждой гармоники. Схема кодирования гармоник-шума 22 позволяет также выполнять установление различия вокализированного (V) - невокализированного (UV) речевого сигнала и преобразует количество амплитуд Аm гармоник, которое изменяется с изменением тона до постоянного количества посредством пространственного преобразования. Для определения тона используется автокоррелирование входных остаточных величин КЛП, как объясняется ниже.
На фиг.4 показан пример схемы анализа кодирования многополосного возбуждения (МПВ) в виде схемы кодирования гармоник и шума 22.
В случае показанной на фиг.4 схемы анализа МПВ разработано моделирование при предположении, что здесь присутствует вокализированная часть и невокализированная часть в частотном диапазоне той же временной точки, которая представляет тот же блок или кадр.
Остаточные значения KЛП или остаточные значения кодирования с линейным предсказанием (КЛП) со схемы обратного фильтрования 21 подаются на показанную на фиг. 4 входную клемму III. Таким образом, схема анализа МПВ выполняет анализ MПB и кодирование входных остаточных значений КЛП.
Остаточные значения кодирования с линейным предсказанием (КЛП), поступающие на входную клемму III, подаются на блок извлечения тона 113, блок взвешивания 114 и блок вычисления энергии субблока 126, как описано ниже.
Поскольку входной сигнал блока извлечения тона 113 представляет собой остаточное значение КЛП, определение тона можно выполнять посредством детектирования максимального значения автокорреляции остаточных значений. Блок извлечения тона 113 выполняет поиск тона посредством поиска с разомкнутым циклом. Извлеченные данные тона поступают на блок точного поиска тона 116, где точный поиск тона выполняется посредством поиска тона замкнутым циклом.
В блоке взвешивания 114 применяется заранее установленная функция взвешивания, например, взвешивающая функция Хэмминга, к каждому блоку из N выборок, для последовательного перемещения взвешенного блока по временной оси с интервалом между кадрами из α - выборок. Последовательность данных временной области с блока взвешивания 114 обрабатывается посредством блока ортогонального преобразования, например, посредством быстрого преобразования Фурье (БПФ).
Если обнаруживается, что все полосы в блоке невокализированы (UV), блок вычисления энергии субблока 126 извлекает характеристическую величину, представляющую огибающую формы сигнала во времени невокализированного звукового сигнала блока.
На блок точного поиска тона 116 подаются грубые данные тона в виде целых чисел, извлекаемые блоком выделения тона 113, и данные частотной области, вырабатываемые БПФ посредством блока ортогонального преобразования 115. Блок точного поиска тона 116 выполняет качание на ± несколько выборок с интервалом от 0,2 до 0,5 относительно значения грубых данных тона в качестве центра для приведения к точным данным тона с оптимальной десятичной запятой (плавающей). При способе точного поиска используется анализ методом синтезирования и выбирается шаг, который дает энергетический спектр при синтезировании, который находится ближе всего к первоначальному энергетическому спектру.
То есть, количество значений тона выше и ниже грубого тона, определяемого блоком выделения тона 113 в качестве центра, обеспечиваются с интервалом, например, равным 0,25. Для тех значений тона, которые ежеминутно отличаются друг от друга, определяется сумма погрешностей ∑∈m. В этом случае, если устанавливается тон, то устанавливается ширина полосы, так что используя энергетический спектр по данным частотной области и спектру сигнала возбуждения, определяется погрешность ∈m. Таким образом, можно определить сумму погрешностей ∑∈m для общего количества полос. Эта сумма погрешностей ∑∈m определяется для каждого значения тона, и в качестве оптимального тона выбирается тон, соответствующий минимальной сумме погрешностей. Таким образом определяется оптимальный точный тон с интервалом, примерно равным 0,25, посредством блока поиска точного тона, и определяется амплитуда для оптимальной высоты тона. Значение амплитуды вычисляется посредством блока оценки амплитуды 118 V для вокализированного звукового сигнала.
В вышеприведенном описании поиска точной высоты тона предполагается, что вся совокупность полос вокализирована. Однако, поскольку используемая в системе анализа-синтеза MПB модель такова, что в ней в той же временной точке на частотной оси имеется невокализированная область, становится необходимым в каждой последовательной полосе осуществлять установление различия вокализированных - невокализированных сигналов.
Оптимальный тон с блока поиска точного тона 116 и данные об амплитуде с блока оценки амплитуды для вокализированного звука 118 V поступают на блок установления различия вокализированного и невокализированного сигналов 117, в котором выполняется установление различия между вокализированным звуковым сигналом и невокализированным звуковым сигналом в каждой последовательной полосе. Дня этого установления различия используется отношение сигнала к шуму (ОСШ).
Между тем, поскольку количество полос, которые разделяются на основании фундаментальной частоты тона, то есть количество гармоник, колеблется в диапазоне примерно от 8 до 63, в зависимости от тона звукового сигнала, аналогичным образом колеблется количество признаков V/UV в каждой последовательной полосе. Таким образом, в настоящем варианте осуществления группируются или разлагаются результаты определения различия V и UV для каждого из заранее установленного количества полос постоянной ширины. В частности, предварительно установленный частотный диапазон, например, равный 0-4000 Гц, включающий звуковой диапазон, разделяется на NB полос, например 12 полос, и устанавливается различие взвешенного среднего значения величины ОСШ каждой полосы с заранее установленным пороговым значением Th2 для оценки различия V и UV в каждой последовательной полосе.
На блок оценки амплитуды 118 U для невокализированного звукового сигнала подаются данные частотной области с блока ортогонального преобразования 115, данные точного тона с блока поиска тона 116, данные амплитуды с блока оценки амплитуды для вокализированного звукового сигнала 118 V и данные установления различия между вокализированными и невокализированными (V/UV) звуками с блока установления различия вокализированного - невокализированного звуковых сигналов 117. И здесь блок оценки амплитуды 118 U для невокализированного звука обнаруживает амплитуду для полосы, определяемой блоком установления различия вокализированного - невокализированного сигналов 117 в виде невокализированного (UV) сигнала посредством осуществления переоценки амплитуды. Блок оценки амплитуды 118 U для невокализированного звука непосредственно выдает входное значение с блока оценки амплитуды вокализированного звука 118 V для полосы, обнаруживаемой в виде вокализированной.
Данные с блока оценки амплитуды 118 U невокализированного звука поступают на блок оценки количества данных 119, который представляет собой преобразователь частоты выборки. Блок преобразования количества данных 119 используется для образования постоянного количества данных, вследствие того, что количество разделенных полос из частотного спектра и количество данных, прежде всего количество амплитудных данных, в различных звуковых тонах различается. То есть, если эффективный частотный диапазон составляет, например, до 3400 кГц, то этот эффективный частотный диапазон разделяется на 8-63 полосы, в зависимости от тона, так что количество данных mMX+1 амплитуд , включающих амплитуду UV полосы UV, изменяется в диапазоне от 8 до 63. Таким образом, блок преобразования количества данных 119 преобразует амплитудные данные с переменным количеством данных mMX+1 в постоянное количество данных М, например 44.
Блок преобразования количества данных 119 добавляет к амплитудным данным, соответствующим одному эффективному блоку на частотной оси, такие фиктивные данные, которые интерполируют значения от последних данных в блоке к первым данным в блоке для увеличения количества данных до NF. Блок преобразования количества данных 119 в этом случае выполняет избыточную дискретизацию типа ограничения ширины полосы с коэффициентом избыточной дискретизации Os, например, равным 8, для обнаружения Os - кратного количества амплитудных данных. Это Os -кратное количество ((mMX+1)×Os) амплитудных данных линейно интерполируется с целью создания еще большего количества NM данных, например, 2048 данных. Количество NM данных прореживается с целью преобразования в заранее установленное постоянное количество М, например, 44 данных.
Данные (амплитудные данные с заранее установленным постоянным количеством М) с блока преобразования количества данных 119 поступают на векторный квантователь 23 с целью обеспечения вектора, имеющего количество данных М, или собираются в вектор, имеющий заранее установленное количество данных, для векторного квантования.
Данные о тоне с блока точного поиска тона 116 поступают через неподвижный контакт переключателя 27 на входную клемму 28. Этот способ, раскрытый в нашей японской заявке на патент № 5-185325 (1993 г.), состоит из переключения с информации, представляющей характеристическое значение, соответствующее форме сигнала во времени невокализированного сигнала, на информацию о тоне, если вся совокупность полос в блоке невокализирована (UV) и, следовательно, тоновая информация становится ненужной.
Эти данные получаются посредством обработки данных N-го количества, например, 256 выборок. Поскольку блок продвигается по временной оси на основе вышеупомянутого кадра из α выборок в качестве элемента, передаваемые данные получаются на кадровой основе. То есть, данные о тоне, данные установления различия V-UV и амплитудные данные корректируются в течение периода следования кадра. В качестве данных установления различия V-UV с блока установления различия между V и UV 117 можно использовать данные, количество полос которых уменьшено или сокращено до 12, или использовать данные, определяющие одно или более положения границ между вокализированными (V) и невокализированными (UV) областями во всем частотном диапазоне. В качестве альтернативы, всю совокупность полос можно представить одной из V и UV либо установление различия между V и UV можно выполнять на кадровой основе.
Если обнаруживается, что блок полностью невокализирован (UV), то один блок, например из 256 выборок, можно дополнительно разделить на множество субблоков, каждый из которых состоит из 32 выборок, которые поступают на блок вычисления энергии субблока 126.
Блок вычисления энергии субблока 126 вычисляет пропорцию или отношение средней мощности или среднеквадратичного значения совокупности выборок в блоке, например, 256 выборок, к средней мощности или среднеквадратичному значению каждой выборки в каждом субблоке.
То есть, определяется средняя мощность, например, к-го субблока и средняя мощность одного полного блока и рассчитывается квадратный корень отношения средней мощности всего блока к средней мощности р(к) к-го субблока.
Полагают, что определяемое таким образом значение квадратного корня представляет вектор заранее установленного размера для того, чтобы выполнять векторное квантование в векторном квантователе 127, расположенном рядом с блоком вычисления мощности субблока.
Векторный квантователь 127 осуществляет 8-мерное 8-разрядное прямое векторное квантование (объем кодового словаря равен 256 выборок). Выходной показатель UV- E этого векторного квантователя, то есть код, представляющий вектор, подается на неподвижную клемму переключателя 27. На неподвижную клемму переключателя 27 поступают данные о тоне с блока точного определения тона 116, тогда как выходной сигнал переключателя 27 поступает на выходную клемму 28.
Управление работой переключателя 27 осуществляется выходным сигналом установления различия с блока установления различия вокализированного-невокализированного сигналов 117, так что неподвижный контакт переключателя 27 устанавливается на неподвижные контакты , когда обнаруживается, что, по меньшей мере, одна из полос в блоке вокализирована (V), и когда обнаруживается, что вся совокупность полос вокализирована, соответственно.
Таким образом, выходные сигналы векторного квантования нормализованных на субблочной основе среднеквадратичных значений передаются посредством введения в интервалы, по существу используемые для передачи тоновой информации. То есть, если обнаруживается, что вся совокупность полос в блоке невокализирована (UV), то информация о тоне оказывается ненужной, поэтому, если, и только если, обнаруживается, что признаки установления различия V-UV являются полностью невокализированными, вместо информации о тоне передается указатель выходного сигнала векторного квантования VU-E.
Далее приводится описание со ссылкой на фиг.3 взвешиваемого векторного квантования спектральной огибающей (Am) в векторном квантователе 23.
Векторный квантователь 23 представляет собой 2-каскадную α-мерную, например, 44-мерную, конфигурацию.
То есть, сумма выходных векторов кодового словаря векторного квантования, который является 44-мерным и имеет объем кодового словаря, равный 32, умножается на коэффициент усиления gi и полученное произведение используется в качестве квантованного значения 44-мерного вектора спектральной огибающей. На фиг.5 позициями СВО и GBI показаны кодовые словари двух форм, выходными векторами которых являются и соответственно, где 0≤i и j≤31. Выходным сигналом кодового словаря СВg коэффициента усиления является ge, который представляет скалярную величину, где 0≤e≤31. Конечное выходное значение становится равным
Спектральная огибающая Am, получаемая при анализе многополосного возбуждения (МПВ) остаточных величин кодирования с линейным предсказанием (КЛП) и преобразуемая в заранее установленный размер, устанавливается на значение . Критическим является способ эффективного квантования .
Энергия ошибок квантования определяется следующим выражением:
где Н и W представляют, соответственно, место для характеристик на частотной оси синтезирующего фильтра КЛР и матрицу для взвешивания, представляющую характеристики взвешивания слухового восприятия на частотной оси.
Энергию ошибки квантования обнаруживают посредством выборки соответствующих α - мерных, например, 44-мерных, точек из частотных характеристик по формуле:
где αi при I≤i≤P представляет α - параметры, получаемые посредством анализа КЛП текущего кадра.
Для расчета Os заполняются после 1, α1, α2, ..., αP, чтобы получить I, αI, α2, ..., αP, 0, 0, ..., 0 с целью обеспечения, например, 256-точечных данных. После этого выполняется 256-точечное быстрое преобразование Фурье и вычисляются значения для точек, соответствующих периоду 0-π. Далее определяются обратные величины полученных в результате расчета значений и прореживаются, например, до 44 точек. Матрица, диагональные элементы которой соответствуют этим обратным величинам, определяется следующим образом:
Матрица взвешивания слухового восприятия W определяется следующим образом:
где αi представляет результат анализа КЛП выходных данных, а λа, λb являются постоянными величинами, например, такими, как λa=0,4, λв=0,9.
Матрицу W можно определить из частотных характеристик уравнения (3). В качестве примера обеспечиваются 1, α1, λв, ..., αрВр, 0, 0, ..., 0 целью получения 256-точечных данных, для которых используется быстрое преобразование Фурье с целью определения где 0≤i≤128. Затем обеспечиваются I, α1, λа, ..., αpаp, 0, 0, ..., 0 и вычисляются частотные характеристики знаменателя 256-точечным быстрым преобразованием Фурье по 128 точкам для области 0-π. В результате этого получаются значения где 0≤i≤128.
Частотные характеристики вышеприведенного уравнения (3) можно определять посредством уравнения:
где 0≤i≤128.
Частотные характеристики определяются следующим способом для соответствующих точек, например, 44-мерного вектора. Хотя для получения более точных результатов необходимо использовать линейное интерполирование, при подстановке в следующем примере используются значения ближайших точек.
То есть, ω[i]=ω0[nint(128i/L)],
где I≤i≤L, a nint (x) является функцией, которая отражает целое число, ближайшее к x.
Что касается величин Н, h(1), h(2), ..., h(L), то они определяются аналогичным способом. То есть
так что
В качестве видоизмененного варианта осуществления, частотные характеристики можно определять, с целью уменьшения количества операций быстрого преобразования Фурье, после первого определения Н(z) W(z).
То есть
Знаменатель уравнения (5) раскладывается следующим образом:
Посредством установки 1, β1, β2, ..., в2р, 0, 0, ..., 0, образуют, например, 256-точечные данные. Затем выполняют 256-точечное быстрое преобразование Фурье с целью обеспечения частотных характеристик амплитуд, так что
где 0≤i≤128. Отсюда выполняется следующее уравнение:
где 0≤i≤128.
Это значение определяется для каждой из соответствующих точек α - мерного вектора. Если количество точек БПФ незначительное, то необходимо использовать линейное интерполирование. Однако, в этом случае используются близкие значения. То есть
где 1≤i≤L.
Матрица W, имеющая эти самые близкие значения в качестве диагональных элементов, определяется следующим выражением:
Вышеприведенное уравнение (6) представляет такую же матрицу, как и уравнение (4).
Используя эту матрицу, то есть частотные характеристики взвешивающего синтезирующего фильтра, уравнение (1) можно переписать следующим образом:
Далее приводится описание способа обучения кодового словаря форм и кодового словаря усиления.
Во-первых, для всех кадров, которые выбирают кодовый вектор соответствующий СВО, минимизируется ожидаемое значение искажения. Если имеются М таких кадров, для минимизирования достаточно:
В этом уравнении (8) обозначают вес к-го кадра, входной сигнал к-го кадра, коэффициент усиления к-го кадра и выходной сигнал кодового словаря CBI для к-го кадра, соответственно.
Для минимизирования, уравнение (8) можно записать следующим образом
поэтому
отсюда
где {}-1 означает обратную матрицу, a означает транспонированную матрицу wk ’.
Далее рассмотрим оптимизирование в отношении коэффициента усиления.
Ожидаемое значение jg искажения для к-го кадра, выбирающего кодовое слово gc коэффициента усиления, определяется следующим образом.
Решая уравнение
получим
Вышеприведенные уравнения дают оптимальное центроидное условие для формы и коэффициента усиления gi, где 0≤i≤31, то есть оптимальный выходной сигнал декодирования. Оптимальный выходной сигнал декодирования для можно определить таким же образом, как и в случае для .
Далее рассмотрим оптимальное условие кодирования (ближайшее соседнее условие).
Формы которые минимизируют уравнение (7) для измерения искажения, то есть
определяются каждый раз, когда получаются входной сигнал и весовая матрица W, то есть для каждого кадра.
По своему существу, Е необходимо определять для всех сочетаний ge (0≤e≤31), (0≤i≤31) и (0≤j≤31), то есть 32×32×32 сочетаний, методом круговой системы, с целью определения набора , , который дает последнее значение Е. Однако, поскольку это ведет к объемистому количеству арифметических операций, блок кодирования 2 выполняет последовательный поиск формы и коэффициента усиления. Поиск по круговой системе необходимо выполнять для 32×32=1024 сочетаний . В последующем объяснении для простоты записываются в виде Sm.
Вышеприведенное уравнение можно записать в виде Для дальнейшего упрощения, обозначив , получим
Таким образом, полагая, что для gе обеспечивается достаточная точность, поиск можно выполнять в два этапа:
1) поиск , который доводится до максимума
и 2) поиск ge, который оказывается ближе всего к
Если вышеприведенные уравнения переписать, используя первоначальное представление, поиск можно выполнять в два этапа:
1)’ поиск группы , которая доводит до максимума
и 2)’ поиск gi, ближайшего к
Уравнение (15) дает оптимальное условие кодирования (условие ближайшей соседней записи).
Используя центроидное условие уравнений (11) и (12) и условие уравнения (15), можно одновременно тренировать кодовые словари CBO, CBI и СВg посредством обобщенного алгоритма Ллойда (ОАЛ).
Рассматривая фиг.3, отметим, что векторный квантователь 23 подсоединен через переключатель 24 к кодовому словарю для вокализованного звукового сигнала 25 V и к словарю для невокализеванного звука 25 U. Управляя переключением переключателя 24 в зависимости от выходного сигнала установления различия V-UV со схемы кодирования гармоник и шума 22, выполняется векторное квантование вокализованного звука и невокализованного звука, используя кодовый словарь для вокализованного звука 25 V и кодовый словарь для невокализованного звука 25 U, соответственно.
Причина переключения кодовых словарей в зависимости от оценки а отношении вокализированного звука (V) и невокализированного звука (UV) состоит в том, что поскольку взвешиваемое усреднение параметров и ge выполняется при вычислении новых центроидов, соответствующих уравнениям (11), (12), нежелательно определять и ge значения которых существенно отличается.
Между тем, в блоке кодирования 2 используется w', деленный на норму входного сигнала . То есть, при продвижении вперед во время обработки уравнений (11), (12) и (15), вместо w' подставляют .
При переключении между кодовыми словарями в зависимости от установления различия V и UV аналогичным образом распределяются обучающие данные с целью подготовки из соответствующих обучающих данных кодового словаря для вокализированного звука и кодового словаря для невокализированного звука.
Для уменьшения количества двоичных разрядов в V-UV в блоке кодирования 2 используется одиополосное возбуждение (ОПВ), и данный кадр считается вокализированным (V) кадром и невокализированным кадром (UV), если отношение V превышает 50 % и противоположное соотношение, соответственно.
На фиг.6 и 7 показаны средние значения входного сигнала и среднего значения весового коэффициента для вокализированного звука, для невокализированного звука и для сочетания вокализированного и невокализированного звуков, то есть без учета различия между вокализированным и невокализированным звуками.
На фиг.6 видно, что распределение энергии самого на частотной оси не сильно отличается при V и UV, хотя среднее значение коэффициента усиления () сильно различается между V и UV. Однако, из фиг.7 видно, что форма весового коэффициента различается между V и UV и весовой коэффициент такой, что он увеличивает назначение двоичных разрядов для низкого диапазона в случае V по сравнению с UV. Это объясняет возможность разработки кодового словаря с более высокими характеристиками посредством разделения обучения для V и UV.
На фиг.8 показан способ обучения для трех примеров, то есть для вокализированного звука (V), невокализированного звука (UV) и для объединенных вместе вокализированного и невокализированного звуков. То есть, кривые , и на фиг.8 устанавливают способ обучения только V, только UV и объединенных величин V и UV, причем конечные значения , и равны 3, 72, 7,011 и 6,25, соответственно.
На фиг.8 видно, что разделение обучения кодового словаря для V и кодового словаля для UV ведет к уменьшенному ожидаемому значению искажения выходного сигнала. Хотя состояние ожидаемого значения несколько ухудшается в случае кривой только для UV, ожидаемое значение в целом улучшается, поскольку область для V длиннее области для UV. В качестве примера частоты появления V и UV, полученные в результате измерений значения длин областей только для V и только для UV составляют 0,538 и 0,462 для длины обучающих данных 1. Таким образом, из конечных значений кривых , фиг.8 ожидаемое значение суммарного искажения определяется величиной:
3,72×0,538+7,011×0,467=5,24,
которая представляет улучшение примерно на 0,76 дБ по сравнению с ожидаемым значением, равным 6,25 для обучения объединенных вместе V и UV.
Исходя из способа тренировки, улучшение ожидаемого значения составляет порядка 0,76 дБ. Однако обнаружили, что если обрабатываются выборки речи четырех участников дискуссии из числа мужчин и четырех участников дискуссии из числа женщин вне обучающей группы с целью обнаружения ОСШ для случая, при котором квантование не выполняется, разделение на V и UV ведет к улучшению сегментного ОСШ порядка 1,3 дБ. Причина этого, вероятно, состоит в том, что отношение для V значительно выше отношения для UV.
Следует отметить, что хотя весовой коэффициент w’, используемый для взвешивания слухового восприятия при векторном квантовании векторным квантователем 23, как описано вышеприведенным уравнением (6), посредством определения текущего весового коэффициента w', учитывающего прошлый w', можно определить весовой коэффициент w', учитывающий временное маскирующее действие.
Что касается элементов wh(1), wh(2), ..., wh(L) в вышеприведенном уравнении (6), то рассчитанные в момент времени n эти элементы, то есть, рассчитанные для n-го кадра, они обозначаются элементами whn(1), whn(2), ..., whn(L).
Учитывающий предыдущее значение в момент времени n весовой коэффициент определяется величиной An(i), где I≤i≤L. В этом случае
An(i)=λAn-1(i)+(1-λ)wh(i) для whn(i)≤An-1(i)=whn(i)
для whn(i)>An-1(i),
где λ можно устанавливать таким образом, что, например, λ=0,2. An(i), где I≤i≤L, можно использовать в качестве диагональных элементов матрицы, которая используется в качестве вышеуказанных весовых коэффициентов.
Возвращаясь к фиг.1, отметим, что здесь представлен блок вычисления видоизмененных параметров кодирования 3. Устройство воспроизведения речевых сигналов 1 видоизменяет параметры кодирования, выводимые с блока кодирования 2 с определенной скоростью, посредством блока вычисления видоизмененных параметров кодирования 3, предназначенного для вычисления видоизмененных параметров кодирования, и декодирует видоизмененные параметры кодирования посредством блока декодирования с целью воспроизведения содержаний со сплошной записью со скоростью, в два раза выше скорости в реальном масштабе времени. Поскольку высота тона и фонема остаются неизменными, несмотря на более высокую скорость воспроизведения, записанное содержание можно слышать, даже если его воспроизводить на повышенной скорости.
Поскольку параметры кодирования видоизменены по скорости, блок вычисления видоизмененных параметров кодирования 3 не нуждается в обработке после декодирования и вывода сигналов и способен легко согласовываться с различными фиксированными скоростями при аналогичном алгоритме.
Рассматривая алгоритмы на фиг.9 и 11, отметим, что здесь приводится подробное описание работы блока вычисления видоизмененных параметров кодирования 3 устройства воспроизведения речевых сигналов 1. Как описывалось со ссылкой на фиг.2, блок вычисления видоизмененных параметров кодирования 3 состоит из схемы изменения периода 4 и схемы интерполирования 5.
Вначале, на этапе S1 фиг.9 на схему изменения периода 4 поступают через входные клеммы 15, 28, 29 и 26 параметры кодирования, такие как ЛСП, высота тона, V-UV и Am. Высота тона устанавливается на величину Pch[n], V-UV устанавливается на vuv[n], Am устанавливается на am[n][e] и ЛСР устанавливается на lsp[n][i]. Вычисленные в конечном итоге блоком вычисления видоизмененных параметров кодирования видоизмененные параметры кодирования устанавливаются на значения и где l обозначает количество гармоник, i обеспечивает число порядка ЛСП, а n и m соответствует номерам кадров, соответствующим, в свою очередь, индексу временной оси до и после преобразования временной оси, соответственно. Между тем, 0≤n<N1 и 0≤m<N2, где каждый из элементов n и m представляет указатель кадра при кадровом интервале, например, равном 20 мс.
Как описывалось выше, обозначает количество гармоник. Вышеуказанные условия можно выполнять после восстановления количества гармоник до величины am[n][e], соответствующей реальному количеству гармоник, или можно также выполнять в состоянии am[n][e] (e=0-43). То есть преобразование данных количества можно выполнять до или после декодирования декодирующим устройством.
На этапе S2 схема изменения периода 4 устанавливает количество кадров, соответствующих первоначальной длительности времени, на N1, устанавливая в то же время количество кадров, соответствующих длительности времени после изменения, на N2. Затем на этапе S3 схема изменения периода 4 сжимает временную ось скорости N1 до скорости N2. То есть коэффициент сжатия временной оси spd схемой изменения периода 4 определяется отношением N2/N1.
Далее на этапе S 4 схема интерполирования 5 устанавливает , соответствующую количеству кадров, в свою очередь, соответствующему показателю временной оси после преобразования временной оси, равную 2.
Далее на этапе S 5 схема интерполирования 4 определяет два кадра fr0 и fr1 и различия "левого" и "правого" между двумя кадрами fro и fr1 um/spd. Если параметры кодирования Рch, vuv, am и lsp обозначить звездочкой (*), то можно выразить в виде общей формулы
где 0≤m<N2. Однако, поскольку отношение m/spd является не целым числом, видоизмененный параметр кодирования для m/spd создается посредством интерполирования из двух кадров fr0=Lm/spd и fr1=f0+1. Следует отметить, что между кадром fr0, m/spd и кадром fr1 существует связь, как показано на фиг.10, то есть сохраняется связь, определяемая выражениями
левый = m/spoL,
правый= fr1-m/spd.
Параметр кодирования для m/spd на фиг.10, то есть видоизмененный параметр кодирования, создается посредством интерполирования, как показано на этапе 6. Видоизмененный параметр кодирования можно определить просто линейным интерполированием в виде:
.
Однако, если в случае интерполирования между fr0 и fr1 эти два кадра различаются в отношении V-UV; то есть если один из двух кадров является V, а другой UV, то нельзя применять вышеприведенную общую формулу. Следовательно, схема интерполирования 5 изменяет способ определения параметров кодирования в связи с вокализированными и невокализироаанными характеристиками этих двух кадров fr0 и fr1, как показано на этапе S11 следующей фиг.11.
Вначале следует принять решение в отношении того, являются ли два кадра fr0 и fr1 вокализированными (V) или невокализированными (UV). Если обнаруживается, что оба кадра fr0 и fr1 вокализированы (V), программа переходит к этапу S 12, где все параметры линейно интерполируются, а видоизмененные параметры кодирования представляются следующим образом:
где 0≤l≤L. Следует отметить, что L обозначает максимально возможное количество, которое можно принять в качестве гармоник, и что "0" заполняется в am[n][l], где отсутствуют гармоники. Если количество гармоник различается в кадрах fr0 и fr1,то считается, что при вышеописанном интерполировании значение эквивалентных гармоник равно нулю. Перед прохождением через блок преобразования количества данных, количество L может быть постоянным, например, L=43 при 0≤l<L.
Кроме того, видоизмененные параметры кодирования также воспроизводятся следующим образом:
где 0≤i≤1, и I показывает количество порядков ЛСП и обычно равно 10, и
Следует понимать, что при установлении различия V-UV, 1 и 0 показывают вокализированный (V ) и невокализированный (UV) кадры, соответственно.
Если на этапе S11 принимается решение, что ни один из двух кадров fr0 и fr1 не вокализируется (V ), дается оценка, аналогичная оценке, полученной на этапе S 13, то есть оценка в отношении того, невокализированы (UV) ли оба кадра fr0 и fr1. Если результат оценки положительный (ДA), то есть если оба кадра невокализируются (UV), схема интерполирования 5 устанавливает Pch на постоянную величину и определяет am и lsp посредством линейного интерполирования следующим образом
(максимальный тон)
для фиксирования значения тона на постоянной величине, например, на максимальной величине для невокализированного звука, равной MaxPitch=148;
Если оба кадра fr0 и fr1 невокализированы, программа переходит к этапу S15, где принимается решение в отношении того, вокализируется (V) ли кадр fr0 и не вокализируется (UV) кадр fr1. Если результат оценки положительный (ДА), то есть если кадр fr0 вокализируется (V), а кадр fr1 не вокализируется (UV), программа переходит к этапу S16. Если результат оценки отрицательный (НЕТ), то есть если кадр fr0 не вокализируется (UV), а кадр fr1 вокализируется (V), программа переходит к этапу S17.
Обработка на следующем этапе S 16 относится к случаям, когда fr0 и fr1 отличаются в отношении V-UV, то есть когда один из кадров вокализирован, а другой невокализирован. Это учитывает то, что интерполирование параметров между двумя кадрами fr0 и fr1, отличающимися в отношении V-UV, не имеет значения. В таком случае, используется значение параметра кадра, более близкого к времени m/spd без выполнения интерполирования.
Если кадр fr0 вокализирован (V), а кадр fr1 не вокализирован (UV), программа переходит к этапу S 16, где сравниваются друг с другом размеры "левого" (=m/spd-fr0 ) и "правого" (=fr1-m/spd) кадров, как показано на фиг.10. Это позволяет дать оценку в отношении того, который из кадров fr0 и fr1 находится ближе к m/spd. Вычисление видоизмененных параметров кодирования осуществляется с использованием значений параметров кадра, находящегося ближе к m/spd.
Если результат оценки на этапе S16 положительный (ДА), то это означает, что "правый" размер больше, а отсюда кадр fr1 находится дальше от m/spd. Таким образом, на этапе S18 определяются видоизмененные параметры кодирования, используя параметры кадра fr0, находящиеся ближе к m/spd следующим образом:
Если результат оценки на этапе S16 отрицательный (НЕТ), то размеры "левый" ≥ "правого", а отсюда кадр fr1 ближе к m/spd, поэтому программа переходит к этапу S19, где величина тона доводится до максимума и, используя параметры для кадра fr1, устанавливаются видоизмененные параметры следующим образом:
Далее, на этапе S17, под действием оценки на этапе S 15, состоящей в том, что два кадра fr0 и fr1 являются невокализированным (UV) и вокализированным (V), соответственно, дается оценка, аналогичная оценке на этапе S16. То есть, в этом случае, интерполирование не выполняется, а используются значения параметров кадра, находящегося ближе к времени m/spd.
Если результат оценки на этапе S 17 положительный (ДА), то высота тона доводится до максимума по величине на этапе S20 и, используя параметры более близкого кадра fr0 для остальных параметров, устанавливаются видоизмененные параметры кодирования следующим образом:
Если результат оценки на этапе S17 отрицательный (НЕТ), то, поскольку размеры "левый" ≥ "правого", а отсюда кадр fr1 ближе к m/spd, программа переходит к этапу S 21, где с помощью параметров для кадра fr1 устанавливаются видоизмененные параметры кодирования следующим образом:
Таким образом, схема интерполирования 5 выполняет различные интерполирующие операции на этапе S 6 фиг.9 в зависимости от соотношения вокализированных (V) и невокализированных (UV) характеристик между двумя кадрами fr0 и fr1. После окончания операции интерполирования на этапе S 6, программа переходит к этапу S 7, где производится приращение параметра m. Действия в соответствии с этапами S 5 и S 6 повторяются, пока значение m не станет равным N2.
Кроме того, последовательность краткосрочных среднеквадратичных значений невокализированных (UV) частей обычно используется для управления усилением шума. Однако, этот параметр здесь устанавливается на 1.
Работа блока вычисления видоизмененных параметров кодирования схематически показана на фиг.12. Модель параметров кодирования, извлекаемых каждые 20 мс блоком кодирования 2, показана на фиг.12A. Схема изменения периода 4 блока вычисления видоизмененных параметров кодирования 3 устанавливает период на 15 мс и выполняет сжатие по временной оси, как показано на фиг.12B. Показанные на фиг.12C видоизмененные параметры кодирования вычисляются посредством интерполирующего устройства, соответствующего установкам V-UV двух кадров fr0, fr1, как описано выше.
Схема вычисления видоизмененных параметров кодирования 3 может также изменять на обратную последовательность, в которой выполняются операции схемой изменения периода 4 и схемой интерполирования, то есть выполнять интерполирование параметров кодирования, показанное на фиг.13A, как показано на фиг.13B, и выполнять сжатие для вычисления видоизмененных параметров кодирования, как показано на фиг.13C.
Видоизмененные параметры кодирования со схемы вычисления видоизмененных параметров кодирования 3 поступают на схему декодирования 6, показанную на фиг.1. Схема декодирования 6 синтезирует гармонические волны и шум на основании видоизмененных параметров кодирования и выводит синтезированный звуковой сигнал на выходную клемму 37.
Описание работы схемы декодирования производится со ссылкой на фиг.14 и 15. В целях объяснения предполагается, что поступающие на схему декодирования 6 параметры являются обычными параметрами кодирования.
На фиг.14 на клемму 31 поступает выходной сигнал с векторным квантованием линейной спектральной пары (ЛСП), соответствующий выходному сигналу на клемме 15 фиг.3, то есть так называемый указатель.
Этот входной сигнал поступает на инверсный векторный квантователь ЛСП 32 для инверсного векторного квантования с целью вырабатывания данных линейной спектральной пары (ЛСП), которые затем поступают на схему интерполирования ЛСП 33 для интерполирования ЛСП. Получающиеся интерполированные данные преобразуются схемой преобразования ЛСП в α 32 в α - параметры кодов с линейным предсказанием (КЛП), Эти α - параметры поступают на синтезирующий фильтр 35.
На клемму 41 фиг.14 поступают данные показателя взвешенного кодового слова с векторным квантованием спектральной огибающей (Am), соответствующей выходному сигналу на клемме 26 кодирующего устройства, показанного на фиг.3. На клемму 43 поступает информация о тоне с клеммы 28 фиг.3 и данные, показывающие характеристическое качество формы сигнала во времени в блоке UV, тогда как на клемму 46 поступают данные установления различия V-UV с клеммы 29 фиг.3.
Данные с векторным квантованием амплитуды Am с клеммы 41 поступают на инверсный векторный квантователь 42 для обратного векторного квантования. Получающиеся данные спектральной огибающей поступают на схему синтезирования гармоник и шума или схему синтезирования многополосного возбуждения (МПВ) 45. На схему синтезирования 45 подаются данные с клеммы 43, которая переключается переключателем 44 между данными о тоне и данными, показывающими характеристическое значение формы сигнала для кадра UV в зависимости от данных установления различия V-UV. На схему синтезирования 45 поступают также данные установления различия V-UV с клеммы 46.
Ниже приводится описание со ссылкой на фиг.15 компоновки схемы синтезирования МПВ в качестве иллюстративной компоновки схемы синтезирования 45.
Со схемы синтезирования 45 берутся остаточные данные КЛП, соответствующие выходному сигналу инверсной фильтрующей схемы 21 фиг.3. Полученные таким образом остаточные данные поступают на схему синтезирования 35, где выполняется синтезирование КЛП с целью создания данных формы сигнала по времени, которые фильтруются последующим фильтром 36, так что на выходную клемму 37 выводятся воспроизведенные сигналы формы волны временной области.
Иллюстрируемый пример схемы синтезирования МПВ в качестве примера схемы синтезирования 45 описывается со ссылкой на фиг.15.
На фиг.15 показано, что данные спектральной огибающей с инверсного векторного квантователя 42 фиг.14 фактически данные спектральной огибающей остаточных значений КЛП подаются на входную клемму 131. Данные, поступающие на клеммы 43, 46, такие же, как и данные, показанные на фиг.14. Данные, поступающие на клемму 43, выбираются переключателем 44 таким образом, что данные о тоне и данные, показывающие характеристическое качество формы сигнала UV, поступают на блок синтезирования вокализированного звука 137 и на инверсный векторный квантователь 152, соответственно.
Данные спектральной амплитуды остаточных значений КЛП с клеммы 131 поступают на схему обратного преобразования количества данных 136 для обратного преобразования. Схема обратного преобразования количества данных 136 выполняет обратное преобразование, которое представляет обратную функцию преобразования, выполняемого блоком преобразования количества данных 119. Получающиеся амплитудные данные подаются на блок синтезирования вокализированного звука 137 и на блок синтезирования невокализированного звука 138. Данные о тоне, полученные с клеммы 43 через неподвижную клемму переключателя 44, подаются на блоки синтезирования 137, 138. На блоки синтезирования 137, 138 поступают также данные установления различия V-UV с клеммы 46.
Блок синтезирования вокализированного звука 137 синтезирует форму волны вокализированного звука временной области, например, посредством синтезирования косинусоидальной или синусоидальной волны, тогда как блоку синтезирования невокализированного звука 138 фильтрует, например, белый шум посредством полосового фильтра с целью синтезирования невокализированной формы сигнала временной области. Вокализированная форма сигнала и невокализированная форма сигнала суммируются вместе сумматором 141 таким образом, чтобы их можно было вывести на выходную клемму 142.
Если в качестве данных установления различия V и UV передается код V и UV, все полосы можно разделить в единственной точке разграничения на вокализированную (V) область и невокализированную (UV) область, и на основании этой точки разграничения можно получить основанные на полосе данные установления различия V-UV. Если количество полос уменьшается на стороне анализа (кодирующего устройства) до постоянного количества, равного 12 полосам, это уменьшение можно аннулировать для обеспечения изменяющегося количества полос при ширине полосы, соответствующей первоначальному тону.
Ниже приводится описание действия синтезирования невокализированного звука блоком синтезирования невокализированного звука 138.
Форма волны сигнала белого шума временной области с генератора белого шума 143 подается на блок взвешивания 144 для взвешивания с использованием соответственной финитной функции, например, взвешивающей функции Хэмминга, с заранее установленной длительностью, например, равной 256 выборок. Затем взвешенная форма волны сигнала подается на схему краткосрочного преобразования Фурье (КСПФ) 145 для краткосрочного преобразования Фурье с целью создания энергетического спектра частотной области белого шума. Энергетический спектр блока краткосрочного преобразования Фурье 145 подается на блок обработки амплитуды полосы 146, где полагают, что полосы невокализированы (UV) и умножаются на амплитуду , тогда как полагают, что ширина других полос, представляющих V, устанавливается на 0. На блок обработки амплитуды полосы 146 поступают амплитудные данные, данные о тоне и данные установления различия V и UV.
Выходной сигнал блока обработки амплитуды полосы частот 146 подается на блок инверсного краткосрочного преобразования Фурье (КСПФ), где производится инверсное КСПФ, используя в качестве фазы первоначальный белый шум, с целью преобразования в сигналы временной области. Выходной сигнал блока инверсного КСПФ 147 подается через блок формирования распределения мощности 156 и умножитель 157, описываемый ниже, на блок совмещения и сложения 148, где совмещение и добавление повторяются с соответствующим взвешиванием на временной оси для обеспечения возможности восстановления первичной непрерывной формы сигнала. Таким образом, непрерывная форма волны во временной области создается посредством синтеза. Выходной сигнал блока совмещения и добавления 148 поступает на сумматор 141.
Если, по меньшей мере, одна из полос в блоке вокализирована (V), то вышеупомянутая обработка выполняется в соответственном блоке синтезирования 137, 138. Если обнаруживается, что все полосы в блоке невокализированы, подвижный контакт 44 переключателя 44 установлен на неподвижной клемме , так что информация о форме сигнала во времени невокализированного сигнала подается вместо тоновой информации на блок инверсного векторного квантования 152.
То есть, на блок векторного деквантования 152 поступают данные, соответствующие данным, поступающим с блока векторного квантования 127 на фиг.4. Эти данные подвергаются инверсному векторному квантованию с целью вывода данных для извлечения характеристического качества формы волны невокализированного сигнала.
Выходной сигнал блока инверсного КСПФ 147 перед подачей на умножитель 157 подвергается распределению энергии временной области, регулируемому блоком формирования распределения мощности 156. Умножитель 157 перемножает выходной сигнал блока инверсного КСПФ 147 с сигналом, выводимым с блока векторного деквантования 152 через блок сглаживания 153. Быстрые изменения коэффициента усиления, которые кажутся резко выраженными, может подавить блок сглаживания 153.
Синтезированный таким образом невокализированный звуковой сигнал снимается с блока синтезирования невокализированного звукового сигнала 138 и подается на сумматор 141, где он складывается с сигналом, поступающим с блока синтезирования вокализированного звукового сигнала 137, так что с выходной клеммы 142 снимаются остаточные сигналы КЛП в качестве синтезированных выходных синалов МПВ.
Эти остаточные сигналы КЛП поступают на синтезирующий фильтр 35 фиг.14 для создания конечного речевого звукового сигнала воспроизведения.
Устройство воспроизведения речевого сигнала 1 заставляет блок вычисления видоизмененных параметров кодирования 3 производить вычисление видоизмененных параметров кодирования под управлением контроллера (не показанного) и синтезирует речевой звуковой сигнал, который представляет компандированный по временной оси первоначальный речевой сигнал с добавлением видоизмененных параметров кодирования.
В этом случае сигнал с блока вычисления видоизмененных параметров кодирования 3 используется вместо выходного сигнала схемы инверсного векторного квантователя ЛСП. Видоизмененный параметр кодирования используется вместо значения, присущего векторному квантованию. Видоизмененный параметр кодирования подается на схему интерполирования ЛСП 33 для интерполирования линейной спектральной пары (ЛСП), а отсюда подается на схему преобразования ЛСП в α 34, где он преобразуется в α - параметр кодов с линейным предсказанием (KЛП), с которой поступает на синтезирующий фильтр 35.
С другой стороны, видоизмененный параметр кодирования подается вместо выходного сигнала или входного сигнала схемы преобразования количества данных 136. На клеммы 43, 46 поступают сигналы и соответственно.
Видоизмененный параметр кодирования поступает на схему синтезирования гармоник и шума 45 в качестве данных спектральной огибающей. На схему синтезирования 45 поступает сигнал с клеммы 43 через переключатель 44 в зависимости от данных установления различия, тогда как на нее также поступает сигнал с клеммы 46.
Посредством вышеописанной показанной на фиг.15 схемы синтезируются компандированные по временной оси первоначальные речевые сигналы, используя вышеупомянутые видоизмененные параметры кодирования таким образом, чтобы их можно было выводить на выходную клемму 37.
Таким образом, устройство воспроизведения речевых сигналов 1 декодирует матрицу видоизмененных параметров кодирования (где 0≤m<N2) вместо неотъемлемой матрицы *[n] (0≤n<N1). Интервал между кадрами во время декодирования может быть постоянным, обычно равным, например 20 мс. Таким образом, если N2<N1 или N2>N1, производится сжатие временной оси с увеличением скорости или расширение временной оси, соответственно.
Если выполняется изменение временной оси, как описано выше, мгновенный спектр и тон остаются неизменными, так что несмотря на значительное изменение диапазона в пределах 0,5≤spd≤2, едва создается ухудшение.
В случае такой системы, поскольку в конечном итоге полученная последовательность параметров декодируется после расположения их в определенном порядке с неотъемлемым интервалом 20 мс, можно легко реализовать произвольное управление скоростью в направлении увеличения или уменьшения. С другой стороны, увеличение и уменьшение скорости можно выполнять посредством такой же обработки без точек перехода.
Таким образом, плотно записанное содержимое можно воспроизводить со скоростью, в два раза выше скорости в реальном масштабе времени. Поскольку тон и фонема остаются неизменными, несмотря на увеличенную скорость воспроизведения, плотно записанное содержание можно слышать, если воспроизведение выполняется на более высокой скорости. С другой стороны, что касается речевого кодека, то можно исключить дополнительные, например, арифметические операции после декодирования и выведения сигналов, которые требуются при использовании кодирования с линейным предсказанием возбуждаемого кода (ЛПВК).
Хотя блок вычисления видоизмененных параметров кодирования 3 изолируется при вышеописанном первом способе осуществления от блока декодирования 6, блок вычисления 3 можно также обеспечивать в блоке декодирования 6.
При вычислении параметров блоком вычисления видоизмененных параметров кодирования 3 в устройстве воспроизведения речевых сигналов 1, интерполирующие операции по параметру am выполняют на значении с векторным квантованием или на значении с обратным векторным квантованием.
Далее приводится описание устройства передачи речевых сигналов 50, предназначенного для выполнения соответствующего настоящему изобретению способа передачи звуковых сигналов. На фиг.16 видно, что устройство передачи речевых сигналов 50 включает в себя передающее устройство 51, предназначенное для разделения входного речевого сигнала исходя из заранее установленных кадров временной области в качестве элементов, и кодирования входного речевого сигнала на кадровой основе для обнаружения параметров кодирования, интерполирования параметров кодирования с целью обнаружения видоизмененных параметров кодирования и для передачи видоизмененных параметров кодирования. Устройство передачи речевых сигналов 50 включает в себя также приемное устройство 56, предназначенное для приема видоизмененных параметров кодирования и для синтезирования гармонических колебаний и шума.
То есть, передающее устройство 51 включает в себя кодирующее устройство 53, предназначенное для разделения входного речевого сигнала исходя из заранее установленных кадров временной области в качестве элементов и кодирования речевого сигнала на кадровой основе для извлечения параметров кодирования, интерполятор 54, предназначенный для интерполирования параметров кодирования с целью определения видоизмененных параметров кодирования, и блок передачи, предназначенный для передачи видоизмененных параметров кодирования. Приемное устройство 56 включает в себя блок приема 57, интерполятор 58, предназначенный для интерполирования видоизмененных параметров кодирования, и блок декодирования 59, предназначенный для синтезирования гармонических колебаний и шума на основании интерполированных параметров для вывода синтезированных речевых сигналов на выходную клемму 60.
Основная работа блока кодирования 53 и блока декодирования 59 аналогична работе таких же блоков в устройстве воспроизведения речевого сигнала 1, и поэтому здесь, для простоты, подробное их описание опускается.
Описание работы передающего устройства 51 производится со ссылкой на представленный на фиг.17 алгоритм, в котором совместно показаны действия кодирования блоком кодирования 53 и интерполирования интерполятором 54.
Блок кодирования 53 извлекает параметры кодирования, состоящие из ЛСП, тона Pch, V-UV и am на этапах S31 и S33. В частности ЛСП интерполируется и переупорядочивается интерполятором 54 на этапе S 31 и квантуется на этапе S 32, тогда как тон Pch, V-UV и am интерполируются и переупорядочиваются на этапе S 34 и квантуются на этапе S 35. Эти квантованные данные передаются посредством передающего устройства 55 на приемное устройство 56.
Квантованные данные, принимаемые посредством блока приема 57 в приемном устройстве 56, подаются на блок интерполирования 58, где параметры интерполируются и переупорядочиваются на этапе S 36. На этапе S 37 данные синтезируются посредством блока декодирования 59.
Таким образом, для увеличения скорости посредством сжатия временной оси, устройство передачи речевых сигналов 50 интерполирует параметры и изменяет интервал между кадрами параметров во время передачи. Между тем, поскольку воспроизведение выполняется во время приема посредством обнаружения параметров с постоянным интервалом между кадрами, равным 20 мс, алгоритм управления скоростью можно использовать непосредственно для преобразования скорости передачи битов.
То есть, предполагается, что если интерполирование параметров используется для управления скоростью, то это интерполирование выполняется в декодирующем устройстве. Однако, если эта обработка выполняется в кодирующем устройстве, так что данные со сжатой (прореженной) временной осью кодируются и расширяется (интерполируется) временная ось декодирующим устройством, скорость передачи битов можно регулировать по соотношению spd.
Если скорость передачи составляет, например, 1,975 килобитов в секунду, а кодирование выполняется на удвоенной скорости посредством такой установки, что spd=0,5, то поскольку кодирование выполняется со скоростью 5 секунд вместо присущей скорости 10 секунд, скорость передачи становится равной 1,975×0,5 килобитов в секунду.
Кроме того, параметры кодирования, полученные в блоке кодирования 53, показанные на фиг.18A, интерполируются и переупорядочиваются интерполятором 54 с произвольным интервалом, например, равным 30 мс, как показано на фиг.18B. Затем параметры кодирования интерполируются и переупорядочиваются интерполятором 58 приемного устройства 56 до 20 мс, как показано на фиг.18C, и синтезируются блоком декодирования 59.
Если аналогичную схему обеспечить в декодирующем устройстве, то можно восстанавливать скорость до первоначального значения, хотя речевой звуковой сигнал можно также слышать на высокой или низкой скорости. То есть, устройство регулирования скорости можно использовать в качестве кодера-декодера переменной скорости передачи битов.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ | 1996 |
|
RU2233010C2 |
СПОСОБ И УСТРОЙСТВО ВОКОДИРОВАНИЯ ПЕРЕМЕННОЙ СКОРОСТИ ПРИ ПОНИЖЕННОЙ СКОРОСТИ КОДИРОВАНИЯ | 1995 |
|
RU2146394C1 |
ИЗМЕНЕНИЕ МАСШТАБА ВРЕМЕНИ КАДРОВ В ВОКОДЕРЕ ПОСРЕДСТВОМ ИЗМЕНЕНИЯ ОСТАТКА | 2006 |
|
RU2371784C2 |
СИСТЕМЫ И СПОСОБЫ ЗАТЕНЕНИЯ ПЕРВОГО ПАКЕТА, СООТВЕТСТВУЮЩЕГО ПЕРВОЙ БИТОВОЙ СКОРОСТИ, ВО ВТОРОМ ПАКЕТЕ, СООТВЕТСТВУЮЩЕМ ВТОРОЙ БИТОВОЙ СКОРОСТИ | 2007 |
|
RU2440628C2 |
СПОСОБ МОДИФИКАЦИИ СИГНАЛА ДЛЯ ЭФФЕКТИВНОГО КОДИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ | 2002 |
|
RU2302665C2 |
СХЕМА АУДИОКОДИРОВАНИЯ/ДЕКОДИРОВАНИЯ С ПЕРЕКЛЮЧЕНИЕМ БАЙПАС | 2009 |
|
RU2483364C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ УМЕНЬШЕНИЯ ШУМА КВАНТОВАНИЯ В ДЕКОДЕРЕ ВРЕМЕННОЙ ОБЛАСТИ | 2014 |
|
RU2638744C2 |
УСТРОЙСТВО И СПОСОБ ДЛЯ КОДИРОВАНИЯ И ДЕКОДИРОВАНИЯ СИГНАЛА | 2007 |
|
RU2414009C2 |
СИСТЕМЫ, СПОСОБЫ И УСТРОЙСТВО ДЛЯ ОГРАНИЧЕНИЯ КОЭФФИЦИЕНТА УСИЛЕНИЯ | 2007 |
|
RU2420817C2 |
КВАНТОВАНИЕ ОСНОВНОГО ТОНА ДЛЯ РАСПРЕДЕЛЕННОГО РАСПОЗНАВАНИЯ РЕЧИ | 2004 |
|
RU2331932C2 |
Изобретение касается способа и устройства воспроизведения речевых сигналов, в которых речевой сигнал делят на множество кадров и кодируют для обнаружения параметров кодирования, основанных на том, какие, по меньшей мере, гармонические волны синтезируются для воспроизведения речевого сигнала. Сущность изобретения состоит в том, что при кодировании разделяют речевые сигналы на кадры и кодируют разделенные сигналы на кадровой основе для вывода параметров кодирования, таких, как параметры линейной спектральной пары, высоты тона, вокализованный - невокализованный сигналы или спектральная амплитуда. При вычислении видоизмененных параметров кодирования интерполируют параметры кодирования для вычисления видоизмененных параметров кодирования, связанных с основанными на кадрах временными периодами. При декодировании синтезируют гармонические волны и шум на основании видоизмененных параметров кодирования и выделяют синтезированные речевые сигналы. Технический результат, достигаемый при осуществлении изобретения, состоит в том, что при воспроизведении речевых сигналов осуществляют управление скоростью в широком диапазоне с высоким качеством звука при неизменных фонемах и высоты тона. 3 н. и 9 з.п. ф-лы, 24 ил.
Способ выделения речевого сигнала на фоне помех | 1985 |
|
SU1314373A1 |
Кран для дыхательных аппаратов | 1974 |
|
SU506394A1 |
US 5299281 А, 29.03.1994 | |||
Экономайзер | 0 |
|
SU94A1 |
Авторы
Даты
2005-06-27—Публикация
1996-06-19—Подача