Область техники, к которой относится изобретение
[0001] Настоящее изобретение относится к устройству кодирования/устройству декодирования и способу кодирования/способу декодирования, используемым в системе связи, в которой сообщение кодируется и передается и принимается и декодируется.
Уровень техники
[0002] Когда речевой/аудио сигнал передается в мобильной системе связи или системе пакетной связи, символизируемой Интернет-связью, часто используется технология сжатия/кодирования, чтобы повысить эффективность передачи речевого/аудио сигнала. Кроме того, в последние годы был разработан способ масштабируемого кодирования/декодирования, который позволяет получить декодированный сигнал хорошего качества из части кодированной информации, даже если ошибка передачи имеет место во время передачи.
[0003] Одной вышеописанной технологией сжатия/кодирования является технология кодирования с прогнозированием во временной области, которая повышает эффективность сжатия посредством использования временной корреляции речевого сигнала и/или аудиосигнала (ниже названного "речевой/аудио сигнал"). Например, в патентном документе 1 сигнал текущего кадра предсказывается из сигнала прошлого кадра, и способ кодирования с прогнозированием переключается согласно ошибке предсказания. Кроме того, в непатентном документе 1 описывается технология, посредством которой способ кодирования с прогнозированием переключается согласно степени изменения во временной области речевого параметра, такого как LSF (Линейная Спектральная Частота) и состояния наличия ошибки кадра.
Патентный документ 1: японская выложенная патентная заявка № HEI 8-211900.
Непатентный документ 1: Thomas Eriksson, Jan Linden, and Jan Skoglund, "Exploiting Inter-frame Correlation In Spectral Quantization," "Acoustics, Speech, and Signal Processing," 1996. ICASSP-96. Conference Proceedings, 7-10 Мая 1996, Стр.: 765-768, том 2.
Раскрытие изобретения
Проблемы, которые должны быть решены изобретением
[0004] Однако в любой из вышеупомянутых технологий прогнозирующее кодирование (кодирование с предсказанием) выполняется на основании параметра временной области на покадровой основе, и прогнозирующее кодирование на основании параметра не временной области, такого как параметр частотной области, не упоминается. Если способ кодирования с прогнозированием, основанный на параметре временной области, такой как описан выше, просто применяется к кодированию параметра частотной области, нет никакой проблемы, если целевой диапазон квантования является одинаковым в прошлом кадре и текущем кадре, но если целевой диапазон квантования является различным в прошлом кадре и текущем кадре, ошибка кодирования и степень ухудшения качества декодированного аудиосигнала сильно увеличивается, и речевой/аудио сигнал может быть не в состоянии быть декодированным.
[0005] Задача настоящего изобретения - обеспечить устройство кодирования и т.д., способное к сокращению объема кодированной информации речевого/аудио сигнала, а также способное уменьшить ошибки кодирования речевого/аудио сигнала и ухудшение качества декодированного аудиосигнала, когда частотный компонент отличного диапазона делается целью квантования в каждом кадре.
Средство для решения упомянутых проблем
[0006] Устройство кодирования согласно настоящему изобретению использует конфигурацию, имеющую: секцию преобразования, которая преобразовывает входной сигнал в частотную область, чтобы получить параметр частотной области; секцию выбора, которая выбирает целевой диапазон квантования из множества поддиапазонов, полученных при делении частотной области, и генерирует информацию диапазона, указывающую целевой диапазон квантования; секцию квантования формы (сигнала), которая квантует форму (сигнала) параметра частотной области в целевом диапазоне квантования; и секцию квантования усиления, которая кодирует (коэффициент или значение) усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию усиления.
[0007] Устройство декодирования согласно настоящему изобретению использует конфигурацию, имеющую: секцию приема, которая принимает информацию, указывающую целевой диапазон квантования, выбранный из множества поддиапазонов, полученных при делении частотной области входного сигнала; секцию деквантования формы (сигнала), которая декодирует информацию кодирования формы, в которой квантована форма параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированную форму (декодированный сигнал); секцию деквантования усиления, которая декодирует кодированную информацию усиления, в которой кодирован коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированный коэффициент усиления, и декодирует частотный параметр, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области; и секцию преобразования во временную область, которая преобразовывает декодированный параметр частотной области во временную область, чтобы получить декодированный сигнал временной области.
[0008] Способ кодирования согласно настоящему изобретению имеет: этап преобразования входного сигнала в частотную область, чтобы получить параметр частотной области; этап выбора целевого диапазона квантования из множества поддиапазонов, полученных посредством деления частотной области, и генерирования информации диапазона, указывающей целевой диапазон квантования; и этап квантования формы параметра частотной области в целевом диапазоне квантования, чтобы получить форму кодированной информации; и кодирование коэффициента усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию усиления.
[0009] Способ декодирования согласно настоящему изобретению имеет: этап приема информации, указывающей целевой диапазон квантования, выбранный из множества поддиапазонов, полученных при делении частотной области входного сигнала; этап декодирования кодированной информации формы, в которой квантована форма параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированную форму; этап декодирования кодированной информации усиления, в которой квантован коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы сгенерировать декодированный коэффициент усиления, и декодирование параметра частотной области, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области; и этап преобразования декодированного параметра частотной области во временную область, чтобы получить декодированный сигнал временной области.
Преимущества изобретения
[0010] Настоящее изобретение уменьшает объем кодированной информации речевого/аудио сигнала или подобного, и также может предотвратить резкое ухудшение качества декодированного сигнала, декодированной речи и т.д., и может уменьшить ошибку кодирования речевого/аудио сигнала или подобного и ухудшение качества декодированного сигнала.
Краткое описание чертежей
[0011] Фиг.1 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 1 настоящего изобретения;
фиг.2 - это чертеж, иллюстрирующий пример конфигурации областей, полученных секцией выбора диапазона, согласно Варианту осуществления 1 настоящего изобретения;
фиг.3 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 1 настоящего изобретения;
фиг.4 является блок-схемой, иллюстрирующей основную конфигурацию варианта устройства кодирования речи согласно Варианту осуществления 1 настоящего изобретения;
фиг.5 является блок-схемой, иллюстрирующей основную конфигурацию варианта устройства декодирования речи согласно Варианту осуществления 1 настоящего изобретения;
фиг.6 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 2 настоящего изобретения;
фиг.7 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 2 настоящего изобретения;
фиг.8 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 2 настоящего изобретения;
фиг.9 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 2 настоящего изобретения;
фиг.10 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 3 настоящего изобретения;
фиг.11 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 3 настоящего изобретения;
фиг.12 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 4 настоящего изобретения;
фиг.13 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 4 настоящего изобретения;
фиг.14 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 5 настоящего изобретения;
фиг.15 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования расширения диапазона согласно Варианту осуществления 5 настоящего изобретения;
фиг.16 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования корректирующего масштабного коэффициента согласно Варианту осуществления 5 настоящего изобретения;
фиг.17 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 5 настоящего изобретения;
фиг.18 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 5 настоящего изобретения;
фиг.19 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования расширения диапазона согласно Варианту осуществления 5 настоящего изобретения;
фиг.20 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 5 настоящего изобретения;
фиг.21 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 6 настоящего изобретения;
фиг.22 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 6 настоящего изобретения;
фиг.23 является чертежом, иллюстрирующим пример конфигурации областей, полученных секцией выбора диапазона согласно Варианту осуществления 6 настоящего изобретения;
фиг.24 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 6 настоящего изобретения;
фиг.25 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 6 настоящего изобретения;
фиг.26 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи согласно Варианту осуществления 7 настоящего изобретения;
фиг.27 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции кодирования второго уровня согласно Варианту осуществления 7 настоящего изобретения;
фиг.28 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи согласно Варианту осуществления 7 настоящего изобретения; и
фиг.29 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции декодирования второго уровня согласно Варианту осуществления 7 настоящего изобретения.
Лучший режим выполнения изобретения
[0012] В качестве краткого обзора примера настоящего изобретения, при квантовании частотного компонента различного диапазона в каждом кадре, если количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, определяется как большее или равное заранее определенному значению, выполняется прогнозирующее кодирование в отношении параметра частотной области, и если количество общих поддиапазонов определяется как меньшее, чем заранее определенное значение, параметр частотной области кодируется непосредственно. Посредством этого, объем кодированной информации речевого/аудио сигнала или подобного сокращается, а также сильное ухудшение качества декодированного сигнала, декодированной речи и т.д. может быть предотвращено, и ошибка кодирования речевого/аудио сигнала или подобного и ухудшение качества декодированного сигнала и ухудшение качества декодированной аудиоречи, в частности, могут быть уменьшены.
[0013] Варианты осуществления настоящего изобретения описаны ниже подробно со ссылками на сопроводительные чертежи. В нижеследующих описаниях устройство кодирования речи и устройство декодирования речи используются как примеры устройства кодирования и устройства декодирования согласно настоящему изобретению.
[0014] Вариант осуществления 1
Фиг.1 является блок-схемой, иллюстрирующей основную конфигурацию устройства 100 кодирования речи согласно Варианту осуществления 1 настоящего изобретения.
[0015] На этом чертеже устройство 100 кодирования речи снабжается секцией 101 преобразования в частотную область, секцией 102 выбора диапазона, секцией 103 квантования формы (сигнала), секцией 104 определения выполнения/невыполнения прогнозирующего кодирования, секцией 105 квантования (коэффициента или значения) усиления и секцией 106 мультиплексирования.
[0016] Секция 101 преобразования в частотную область выполняет Модифицированное дискретное косинусное преобразование (MDCT) с использованием входного сигнала, чтобы вычислить коэффициент MDCT, который является параметром частотной области, и выводит его на секцию 102 выбора диапазона.
[0017] Секция 102 выбора диапазона делит введенный коэффициент MDCT из секции 101 преобразования в частотную область на множество поддиапазонов, выбирает диапазон в качестве целевого диапазона квантования из множества поддиапазонов и выводит информацию диапазона, указывающую выбранный диапазон, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования и секцию 106 мультиплексирования. Кроме того, секция 102 выбора диапазона выводит коэффициент MDCT на секцию 103 квантования формы. Ввод коэффициента MDCT на секцию 103 квантования формы также может быть выполнен непосредственно из секции 101 преобразования в частотную область отдельно от ввода из секции 101 преобразования в частотную область на секцию 102 выбора диапазона.
[0018] Секция 103 квантования формы выполняет квантование формы (сигнала), используя коэффициент MDCT, соответствующий диапазону, указанному посредством информации диапазона, введенной из секции 102 выбора диапазона, из числа коэффициентов MDCT, введенных из секции 102 выбора диапазона, и выводит полученную информацию кодированной формы в секцию 106 мультиплексирования. Кроме того, секция 103 квантования формы находит идеальное значение усиления квантования формы и выводит полученное идеальное значение усиления на секцию 105 квантования усиления.
[0019] Секция 104 определения выполнения/невыполнения прогнозирующего кодирования находит количество поддиапазонов, общих для целевого диапазона квантования текущего кадра и целевого диапазона квантования прошлого кадра, используя информацию диапазона, введенную из секции 102 выбора диапазона. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования решает, что прогнозирующее кодирование должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее кодирование не должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов меньше, чем заранее определенное значение. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования выводит результат этого определения на секцию 105 квантования усиления.
[0020] Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что должно быть выполнено прогнозирующее кодирование, секция 105 квантования усиления выполняет прогнозирующее кодирование усиления целевого диапазона квантования текущего кадра, используя значение усиления квантования прошлого кадра, сохраненное во внутреннем буфере, и внутреннюю кодовую книгу усиления, чтобы получить кодированную информацию усиления. С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 105 квантования усиления получает кодированную информацию усиления посредством прямого (непосредственного) квантования идеального значения усиления, введенного из секции 103 квантования формы. Секция 105 квантования усиления выводит полученную кодированную информацию усиления к секции 106 мультиплексирования.
[0021] Секция 106 мультиплексирования мультиплексирует информацию диапазона, введенную из секции 102 выбора диапазона, кодированную информацию формы, введенную из секции 103 квантования формы, и кодированную информацию усиления, введенную из секции 105 квантования усиления, и передают полученный битовый поток к устройству декодирования речи.
[0022] Устройство 100 кодирования речи, имеющее конфигурацию, такую как описана выше, разделяет входной сигнал на секции из N выборок (где N - натуральное число) и выполняет кодирование на покадровой основе с выборками N как один кадр. Работа каждой секции устройства 100 кодирования речи описывается подробно ниже. В нижеследующем описании входной сигнал кадра, который является целью кодирования, представляется xn (где n=0, 1…, N-1). Здесь n указывает индекс каждой выборки в кадре, который является целью кодирования.
[0023] Секция 101 преобразования в частотную область имеет N внутренних буферов, и сначала инициализирует каждый буфер, используя значение 0 в соответствии с Уравнением (1) ниже.
[0024] В этом уравнении buf n (n=0…, N-1) указывает (n+1)-й из N буферов в секции 101 преобразования в частотную область.
[0025] Затем секция 101 преобразования в частотную область находит коэффициент MDCT Xk посредством выполнения модифицированного дискретного косинусного преобразования (MDCT) входного сигнала xn в соответствии с Уравнением (2) ниже
[0026] В этом уравнении k указывает индекс каждой выборки в одном кадре, и x'n - вектор, связывающий входной сигнал xn и bufn в соответствии с Уравнением (3) ниже.
[0027] Затем секция 101 преобразования в частотную область обновляет bufn (n=0…, N-1), как показано в Уравнении (4) ниже.
[0028] Затем секция 101 преобразования в частотную область выдает коэффициенты MDCT Xk в секцию 102 выбора диапазона.
[0029] Секция 102 выбора диапазона сначала делит коэффициент MDCT Xk на множество поддиапазонов. Здесь описание будет дано, принимая случай, в котором коэффициент MDCT Xk делится равным образом на J поддиапазонов (где J - натуральное число) в качестве примера. Затем секция 102 выбора диапазона выбирает L последовательных поддиапазонов (где L - натуральное число) из числа J поддиапазонов, и получает М видов групп поддиапазонов (где М является натуральным числом). Ниже эти М видов групп поддиапазонов называются областями.
[0030] Фиг.2 является чертежом, иллюстрирующим пример конфигурации областей, полученных секцией 102 выбора диапазона.
[0031] В этом чертеже количество поддиапазонов равно 17 (J=17), количество видов областей равно восьми (M=8), и каждая область состоит из пяти последовательных поддиапазонов (L=5). Из них, например, область 4 состоит из поддиапазонов 6-10.
[0032] Затем секция 102 выбора диапазона вычисляет среднюю энергию E (m) каждого из М видов областей в соответствии с Уравнением (5) ниже.
[0033] В этом уравнении j указывает индекс каждого из J поддиапазонов, m указывает индекс каждой из М видов областей, S(m) указывает минимальное значение среди индексов L поддиапазонов, составляющих область m, B(j) указывает минимальное значение среди индексов множества коэффициентов MDCT, составляющих поддиапазон j, и W(j) указывает ширину полосы поддиапазона j. В нижеследующем описании случай, в котором значения ширина полосы J поддиапазонов все равны, то есть случай, в котором W(j) является константой, описан как пример.
[0034] Затем секция 102 выбора диапазона выбирает область, например диапазон, состоящий из поддиапазонов j''-j''+L-1, для которого средняя энергия E(m) является максимальной, в качестве диапазона, который является целью квантования (целевой диапазон квантования), и выводит индекс m_max, указывающий эту область, в качестве информации диапазона, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования, и секцию 106 мультиплексирования. Секция 102 выбора диапазона также выводит коэффициент MDCT Xk на секцию 103 квантования формы. В следующем описании индексы диапазона, указывающие целевой диапазон квантования, выбранные секцией 102 выбора диапазона, предполагаются равными j''-j''+L-1.
[0035] Секция 103 квантования формы выполняет квантование формы (сигнала) на основе поддиапазон-за-поддиапазоном в отношении коэффициента MDCT, соответствующего диапазону, указанному информацией диапазона m_max, введенной из секции 102 выбора диапазона. Более конкретно, секция 103 квантования формы ищет внутреннюю кодовую книгу формы, состоящую из количества SQ векторов кода формы, для каждого из L поддиапазонов, и находит индекс вектора кода формы, для которого результат Уравнения (6) ниже является максимальным.
[0036] В этом уравнении SCi k указывает вектор кода формы, составляющий кодовую книгу формы, i указывает индекс вектора кода формы, и k указывает индекс элемента вектора кода формы.
[0037] Секция 103 квантования формы выводит индекс S_max вектора кода формы, для которого результат Уравнения (6) выше максимума, к секции 106 мультиплексирования в качестве кодированной информации формы. Секция 103 квантования формы также вычисляет идеальное значение Gain_i(j) усиления в соответствии с Уравнением (7) ниже, и выводит его на секцию 105 квантования усиления.
[0038] Секция 104 определения выполнения/невыполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 102 выбора диапазона, в прошлом кадре. Ниже посредством примера описан случай, в котором секция 104 определения выполнения/невыполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max для трех прошлых кадров. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования сначала находит количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 103 квантования формы в прошлом кадре, и информацию диапазона m_max, введенную из секции 103 квантования формы в текущем кадре. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования решает, что прогнозирующее кодирование должно быть выполнено, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее кодирование не должно быть выполнено, если количество общих поддиапазонов меньше, чем заранее определенное значение. Более конкретно, L поддиапазонов, указанные информацией диапазона m_max, введенных из секции 102 выбора диапазона на один кадр назад во времени, сравниваются с L поддиапазонами, указанными информацией диапазона m_max, введенной из секции 102 выбора диапазона в текущем кадре, и определяется, что прогнозирующее кодирование должно быть выполнено, если количество общих поддиапазонов равно P или больше, или определяется, что прогнозирующее кодирование не должно быть выполнено, если количество общих поддиапазонов меньше чем P. Секция 104 определения выполнения/невыполнения прогнозирующего кодирования выводит результат этого определения на секцию 105 квантования усиления. Затем секция 104 определения выполнения/невыполнения прогнозирующего кодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре.
[0039] Секция 105 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование должно быть выполнено, секция 105 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя значение Ct j квантования усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 105 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (8), приведенного ниже, является минимум.
Уравнение 8
[0040] В этом уравнении GCi j указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления и j указывает индекс элемента вектора кода усиления. Например, если количество поддиапазонов, составляющих область, равно пяти (L=5), j имеет значение от 0 до 4. Здесь Ct j указывает значение усиления t кадров назад во времени, так что, когда t=l, например, Ct j указывает значение усиления одного кадра назад во времени. Кроме того, α является линейным коэффициентом предсказания 4-го порядка, сохраненным в секции 105 квантования усиления. Секция 105 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора.
[0041] Секция 105 квантования усиления выводит индекс G_min вектора кода усиления, для которого результатом Уравнения (8) выше является минимум, к секции 106 мультиплексирования, в качестве кодированной информации усиления. Если во внутреннем буфере нет значения усиления поддиапазона, соответствующего прошлому кадру, секция 105 квантования усиления заменяет значением усиления ближайшего поддиапазона по частоте во внутреннем буфере в Уравнении (8) выше.
[0042] С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 105 квантования усиления непосредственно квантует идеальное значение усиления Gain_i(j), введенное из секции 103 квантования формы, в соответствии с Уравнением (9) ниже. Здесь секция 105 квантования усиления обрабатывает идеальное значение усиления как L-мерный вектор, и выполняет квантование вектора.
Уравнение 9
[0043] Здесь индекс кодовой книги, который делает Уравнение (9) выше минимума, обозначается G_min.
[0044] Секция 105 квантования усиления выводит G_min на секцию 106 мультиплексирования в качестве кодированной информации усиления. Секция 105 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (10) ниже с использованием кодированной информации G_min усиления и значения Ct j квантования усиления, полученного в текущем кадре.
[0045] Секция 106 мультиплексирования мультиплексирует информацию m_max диапазона, введенную из секции 102 выбора диапазона, кодированную информацию S_max формы, введенную из секции 103 квантования формы, и кодированную информацию G_min усиления, введенную из секции 105 квантования усиления, и передают полученный битовый поток к устройству декодирования речи.
[0046] Фиг.3 является блок-схемой, иллюстрирующей основную конфигурацию устройства 200 декодирования речи согласно этому варианту осуществления.
[0047] В этом чертеже устройство 200 декодирования речи снабжено секцией 201 демультиплексирования, секцией 202 деквантования формы, секцией 203 определения выполнения/невыполнения прогнозирующего декодирования, секцией 204 деквантования усиления и секцией 205 преобразования во временную область.
[0048] Секция 201 демультиплексирования демультиплексирует информацию диапазона, кодированную информацию формы и кодированную информацию усиления из битового потока, переданного от устройства 100 кодирования речи, выводит полученную информацию диапазона на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, выводит полученную кодированную информацию формы на секцию 202 деквантования формы, и выводит полученную кодированную информацию усиления на секцию 204 деквантования усиления.
[0049] Секция 202 деквантования формы находит значение формы коэффициента MDCT, соответствующего целевому диапазону квантования, указанному информацией диапазона, введенной из секции 201 демультиплексирования, посредством выполнения деквантования кодированной информации формы, введенной из секции 201 демультиплексирования, и выводит найденное значение формы на секцию 204 деквантования усиления.
[0050] Секция 203 определения выполнения/невыполнения прогнозирующего декодирования находит количество поддиапазонов, общих для текущего целевого диапазона квантования кадра и целевого диапазона квантования прошлого кадра, используя информацию диапазона, введенную из секции 201 демультиплексирования. Затем секция 203 определения выполнения/невыполнения прогнозирующего декодирования решает, что прогнозирующее декодирование должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее декодирование не должно быть выполнено в отношении коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона, если количество общих поддиапазонов меньше, чем заранее определенное значение. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования выводит результат этого определения на секцию 204 деквантования усиления.
[0051] Если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование должно быть выполнено, секция 204 деквантования усиления выполняет прогнозирующее декодирование в отношении кодированной информации усиления, введенной из секции 201 демультиплексирования, используя значение усиления прошлого кадра, сохраненное во внутреннем буфере, и внутреннюю кодовую книгу усиления, чтобы получить значение усиления. С другой стороны, если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование не должно быть выполнено, секция 204 деквантования усиления получает значение усиления посредством непосредственного выполнения деквантования кодированной информации усиления, введенной из секции 201 демультиплексирования, используя внутреннюю кодовую книгу усиления. Секция 204 деквантования усиления выводит полученное значение усиления к секции 205 преобразования во временную область. Секция 204 деквантования усиления также находит коэффициент MDCT целевого диапазона квантования, используя полученное значение усиления и значение формы, введенное из секции 202 деквантования формы, и выводит его к секции 205 преобразования во временную область в качестве декодированного коэффициента MDCT.
[0052] Секция 205 преобразования во временную область выполняет Обратное Модифицированное дискретное косинусное преобразование (IMDCT) в отношении декодированного коэффициента MDCT, введенного из секции 204 деквантования усиления, чтобы сгенерировать сигнал временной области, и выводит его в качестве декодированного сигнала.
[0053] Устройство 200 декодирования речи, имеющее конфигурацию, такую как описано выше, выполняет следующие операции.
[0054] Секция 201 демультиплексирования демультиплексирует информацию диапазона m_max, кодированную информацию S_max формы, и кодированную информацию G_min усиления из битового потока, переданного от устройства 100 кодирования речи, выводит полученную информацию диапазона m_max на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, выводит полученную информацию кодирования S_max формы на секцию 202 деквантования формы и выводит полученную кодированную информацию усиления G_min на секцию 204 деквантования усиления.
[0055] Секция 202 деквантования формы имеет внутреннюю кодовую книгу формы, аналогичную кодовой книге формы, которой снабжена секция 103 квантования формы устройства 100 кодирования речи, и ищет вектор кода формы, для которого кодированная информация формы S_max, введенная из секции 201 демультиплексирования, является индексом. Секция 202 деквантования формы выводит найденный вектор кода на секцию 204 деквантования усиления в качестве значения формы коэффициента MDCT целевого диапазона квантования, указанного информацией диапазона m_max, введенной из секции 201 демультиплексирования. Здесь, вектор кода формы, найденный в качестве значения формы, обозначается как Shape_q(k) (k=B(j'')…, B(j''+L)-1).
[0056] Секция 203 определения выполнения/невыполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 201 демультиплексирования в прошлом кадре. Здесь описан случай посредством примера, в котором секция 203 определения выполнения/невыполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования сначала находит количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 201 демультиплексирования в прошлом кадре, и информацию диапазона m_max, введенную из секции 201 демультиплексирования в текущем кадре. Затем секция 203 определения выполнения/невыполнения прогнозирующего декодирования решает, что прогнозирующее декодирование должно быть выполнено, если количество общих поддиапазонов больше или равно заранее определенному значению, или решает, что прогнозирующее декодирование не должно быть выполнено, если количество общих поддиапазонов меньше чем заранее определенное значение. Более конкретно, секция 203 определения выполнения/невыполнения прогнозирующего декодирования сравнивает L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 201 демультиплексирования на один кадр назад во времени, с L поддиапазонами, указанными информацией диапазона m_max, введенной из секции 201 демультиплексирования в текущем кадре, и решает, что прогнозирующее декодирование должно быть выполнено, если количество общих поддиапазонов равно P или больше, или решает, что прогнозирующее декодирование не должно быть выполнено, если количество общих поддиапазонов меньше чем P. Секция 203 определения выполнения/невыполнения прогнозирующего декодирования выводит результат этого определения на секцию 204 деквантования усиления. Затем секция 203 определения выполнения/невыполнения прогнозирующего декодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 201 демультиплексирования в текущем кадре.
[0057] Секция 204 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре. Если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование должно быть выполнено, секция 204 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя значение усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 204 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления как секция 105 квантования усиления устройства 100 кодирования речи, и получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (11) ниже. Здесь C''t j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C''t j указывает значение усиления одного кадра назад во времени. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 204 деквантования усиления. Секция 204 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора.
[0058] Если нет никакого значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 204 деквантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (11) выше.
[0059] С другой стороны, если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование не должно быть выполнено, секция 204 деквантования усиления выполняет деквантование значения усиления в соответствии с Уравнением (12), приведенным ниже, с использованием вышеописанной кодовой книги усиления. Здесь значение усиления обрабатывается как L-мерный вектор, и выполняется деквантование вектора. Следует сказать, когда прогнозирующее декодирование не выполняется, вектор GCjG_min кода усиления, соответствующий кодированной информации G_min усиления, берется непосредственно в качестве значения усиления.
[0060] Затем секция 204 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (13) ниже, с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (14) ниже. Здесь, вычисленный декодированный коэффициент MDCT обозначается X"k. Кроме того, при деквантовании коэффициента MDCT, если k присутствует в B(j")-B (j"+1)-1, значение усиления Gain_q'(j) принимает значение Gain_q'(j").
Уравнение 13
Уравнение 14
[0061] Секция 204 деквантования усиления выводит декодированный коэффициент MDCT X''k, вычисленный в соответствии с Уравнением (13) выше, к секции 205 преобразования во временную область.
[0062] Секция 205 преобразования во временную область сначала инициализирует внутренний буфер buf'k значением нуля в соответствии с Уравнением (15) ниже.
[0063] Затем секция 205 преобразования во временную область находит декодированный сигнал Yn в соответствии с Уравнением (16) ниже с использованием декодированного коэффициента MDCT X''k, введенного из секции 204 деквантования усиления.
В этом уравнении X2''k является вектором, связывающим декодированный коэффициент MDCT X''k и буфер buf' k.
[0064] Затем секции 205 преобразования во временную область обновляет буфер buf'k в соответствии с Уравнением (18) ниже.
[0065] Секция 205 преобразования во временную область выводит полученный декодированный сигнал Yn в качестве выходного сигнала.
[0066] Таким образом, согласно этому варианту осуществления, диапазон с большой энергией выбирается в каждом кадре в качестве целевого диапазона квантования, и параметр частотной области квантуется, разрешая создать смещение в распределении квантованного значения усиления, и улучшить эффективность квантования вектора.
[0067] Кроме того, согласно этому варианту осуществления, при квантовании параметра частотной области отличного целевого диапазона квантования каждого кадра, прогнозирующее кодирование выполняется в отношении параметра частотной области, если количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, определяется как большее или равное заранее определенному значению, и параметр частотной области кодируется непосредственно, если количество общих поддиапазонов определяется как меньшее, чем заранее определенное значение. Следовательно, объем кодированной информации при речевом кодировании уменьшается, и также резкое ухудшение качества речи может быть предотвращено, и ошибка кодирования речевого/аудио сигнала и ухудшение качества декодированного сигнала аудио могут быть уменьшены.
[0068] Кроме того, согласно этому варианту осуществления, на стороне кодирования целевой диапазон квантования может быть определен, и квантование параметра частотной области выполнено в единицах областей, каждая состоящая из множества поддиапазонов, и информация о параметре частотной области, какая область стала целью квантования, может быть передана к стороне декодирования. Следовательно, эффективность квантования может быть улучшена, и объем кодированной информации, переданной к стороне декодирования, может быть дополнительно уменьшен по сравнению с решением, должно ли прогнозирующее кодирование использоваться на основе «поддиапазон за поддиапазоном» и передачи информации, относительно того, какой поддиапазон стал целью квантования, к стороне декодирования.
[0069] В этом варианте осуществления был описан посредством примера случай, в котором квантование усиления выполняется в единицах областей, каждая из которых состоит из множества поддиапазонов, но настоящее изобретение не ограничивается этим, и цель квантования также может быть выбрана на основании «поддиапазон за поддиапазоном», то есть определение того, должно ли прогнозирующее квантование быть выполнено, также может быть выполнено на основе «поддиапазон за поддиапазоном».
[0070] В этом варианте осуществления был описан посредством примера случай, в котором способ прогнозирующего квантования усиления должен выполнить линейное предсказание во временной области для усиления того же самого частотного диапазона, но настоящее изобретение не ограничивается этим, и линейное предсказание также может быть выполнено во временной области для усиления отличных диапазонов частот.
[0071] В этом варианте осуществления был описан случай, в котором обычный речевой/аудио сигнал берется как пример сигнала, который становится целью квантования, но настоящее изобретение не ограничивается этим, и сигнал возбуждения, полученный посредством обработки речевого/аудио сигнала посредством обратного фильтра LPC (коэффициент линейного предсказания), может также использоваться в качестве цели квантования.
[0072] В этом варианте осуществления был описан посредством примера случай, в котором область, для который величина энергии отдельной области - то есть перцепционное значение - является наибольшей, выбирается в качестве опорной для того, чтобы выбрать целевой диапазон квантования, но настоящее изобретение не ограничивается этим, и в дополнение к перцепционному значению, частотная корреляция с диапазоном, выбранным в прошлом кадре, также может быть учтена в то же самое время. То есть, если существуют диапазоны - кандидаты, для которых количество поддиапазонов, общих для целевого диапазона квантования, выбранного в прошлом, больше или равно заранее определенному значению, и энергия больше или равна заранее определенному значению, диапазон с самой высокой энергией среди вышеупомянутых диапазонов - кандидатов может быть выбран в качестве целевого диапазона квантования, и если никакие такие диапазоны - кандидаты не существуют, диапазон с самой высокой энергией среди всех диапазонов частот может быть выбран в качестве целевого диапазона квантования. Например, если поддиапазон, общий для области с самой высокой энергией, и диапазон, выбранный в прошлом кадре, не существует, количество поддиапазонов, общих для области со второй самой высокой энергией, и диапазона, выбранного в прошлом кадре, больше или равно заранее определенному пороговому значению, и энергия области со второй самой высокой энергией больше или равна заранее определенному пороговому значению, выбирается область со второй самой высокой энергией, а не область с самой высокой энергией. Кроме того, секция выбора диапазона согласно этому варианту осуществления выбирает область, ближайшую к целевому диапазону квантования, выбранному в прошлом, из числа областей, энергия которых больше или равна заранее определенному значению, в качестве целевого диапазона квантования.
[0073] В этом варианте осуществления может быть выполнено квантование коэффициента MDCT после того, как интерполяция выполняется, используя прошлый кадр. Например, случай будет описан со ссылкой на фиг.2, в которой целевой диапазон квантования прошлого кадра - это область 3 (то есть поддиапазоны 5-9), целевой диапазон квантования текущего кадра - это область 4 (то есть поддиапазоны 6-10), и прогнозирующее кодирование текущего кадра выполняется, используя результат квантования прошлого кадра. В этом случае прогнозирующее кодирование выполняется в отношении поддиапазонов 6-9 текущего кадра с использованием поддиапазонов 6-9 прошлого кадра, и для поддиапазона 10 текущего кадра поддиапазон 10 прошлого кадра интерполируется, используя поддиапазоны 6-9 прошлого кадра, и затем прогнозирующее кодирование выполняется, используя поддиапазон 10 прошлого кадра, полученный интерполяцией.
[0074] В этом варианте осуществления был описан посредством примера случай, в котором квантование выполняется, используя одну и ту же кодовую книгу независимо от того, выполняется ли прогнозирующее кодирование, но настоящее изобретение не ограничивается этим, и различные кодовые книги могут также использоваться согласно тому, выполняется ли прогнозирующее кодирование или не выполняется при квантовании усиления и при квантовании формы.
[0075] В этом варианте осуществления был описан посредством примера случай, в котором все размеры поддиапазонов являются одинаковыми, но настоящее изобретение не ограничивается этим, и размеры отдельных поддиапазонов могут также отличаться.
[0076] В этом варианте осуществления был описан посредством примера случай, в котором одна и та же кодовая книга используется для всех поддиапазонов при квантовании усиления и при квантовании формы, но настоящее изобретение не ограничивается этим, и различные кодовые книги могут также использоваться на основе «поддиапазон за поддиапазоном» при квантовании усиления и при квантовании формы.
[0077] В этом варианте осуществления был описан посредством примера случай, в котором последовательные поддиапазоны выбираются в качестве целевого диапазона квантования, но настоящее изобретение не ограничивается этим, и непоследовательное множество поддиапазонов также может быть выбрано в качестве целевого диапазона квантования. В таком случае эффективность кодирования речи может быть также улучшена посредством интерполяции значения невыбранного поддиапазона, используя значения смежных поддиапазонов.
[0078] В этом варианте осуществления был описан посредством примера случай, в котором устройство 100 кодирования речи снабжается секция 104 определения выполнения/не выполнения прогнозирующего кодирования, но устройство кодирования речи согласно настоящему изобретению не ограничивается этим, и может также иметь конфигурацию, в которой не предоставляется секция 104 определения выполнения/невыполнения прогнозирующего кодирования, и прогнозирующее квантование не всегда выполняется секцией 105 квантования усиления, как иллюстрировано устройством 100а кодирования речи, показанном на фиг.4. В этом случае, как показано на фиг.4, устройство 100a кодирования речи снабжено секцией 101 преобразования в частотную область, секцией 102 выбора диапазона, секцией 103 квантования формы, секцией 105 квантования усиления и секцией 106 мультиплексирования. Фиг.5 является блок-схемой, иллюстрирующей конфигурацию устройства 200a декодирования речи, соответствующего устройству 100а кодирования речи, причем устройство 200a декодирования речи снабжено секцией 201 демультиплексирования, секцией 202 деквантования формы, секцией 204 деквантования усиления и секцией 205 преобразования во временную область. В таком случае устройство 100a кодирования речи выполняет частичный выбор диапазона, который будет квантован, из числа всех диапазонов, далее делит выбранный диапазон на множество поддиапазонов, и квантует усиление каждого поддиапазона. Таким образом квантование может быть выполнено при более низкой скорости передачи в битах, чем способом, в соответствии с которым квантуются компоненты всех диапазонов, и эффективность кодирования может быть улучшена. Кроме того, эффективность кодирования может быть также повышено посредством квантования вектора усиления, используя корреляцию усиления в частотной области.
[0079] Устройство кодирования речи согласно настоящему изобретению может также иметь конфигурацию, в которой не предоставляется секция 104 определения выполнения/невыполнения прогнозирующего кодирования, и прогнозирующее квантование всегда выполняется секцией 105 квантования усиления, как иллюстрируется устройством кодирования речи 100а, показанным на фиг.4. Конфигурация устройства 200a декодирования речи, соответствующего этому виду устройства 100a кодирования речи, показана на фиг.5. В таком случае устройство 100a кодирования речи выполняет частичный выбор диапазона, который должен быть квантован, из числа всех диапазонов, далее делит выбранный диапазон на множество поддиапазонов, и выполняет квантование усиления для каждого поддиапазона. Таким образом квантование может быть выполнено с более низкой скоростью передачи в битах, чем в способе, в соответствии с которым квантуются компоненты всех диапазонов, и эффективность кодирования может быть улучшена. Кроме того, эффективность кодирования может быть также улучшена посредством прогнозирующего квантования вектора усиления, используя корреляцию усиления во временной области.
[0080] В этом варианте осуществления был описан посредством примера случай, в котором способ выбора целевого диапазона квантования в секции выбора диапазона должен выбрать область с самой высокой энергией во всех диапазонах, но настоящее изобретение не ограничивается этим, и выбор также может быть выполнен, используя информацию диапазона, выбранного в предшествующем во времени кадре в дополнение к вышеупомянутому критерию. Например, возможный способ будет выбирать область, которая должна быть квантована, после выполнения умножения на весовой коэффициент таким образом, что область, которая включает в себя диапазон около диапазона, выбранного в предшествующем во времени кадре, становится более предпочтительной для выбора. Кроме того, если есть множество уровней, в которых выбирается диапазон, подлежащий квантованию, диапазон, квантованный в верхнем уровне, может быть выбран, используя информацию диапазона, выбранного в нижнем уровне. Например, возможный способ должен выбрать область, которая должна быть квантована после выполнения умножения на весовой коэффициент таким образом, что область, которая включает в себя диапазон около диапазона, выбранного в нижнем уровне, становится более предпочтительной для выбора.
[0081] В этом варианте осуществления был описан посредством примера случай, в котором способ выбора целевого диапазона квантования должен выбрать область с самой высокой энергией во всех диапазонах, но настоящее изобретение не ограничивается этим, и некоторый диапазон также может быть предварительно выбран заранее, после чего целевой диапазон квантования окончательно выбирается в предварительно выбранном диапазоне. В таком случае предварительно выбранный диапазон может быть определен согласно частоте дискретизации входного сигнала, кодирования скорости передачи в битах, или подобное. Например, один способ должен выбрать низкий диапазон предварительно, когда скорость передачи в битах или частота дискретизации являются низкими.
[0082] Например, возможно использовать способ в секции 102 выбора диапазона, посредством которого область, которая должна быть квантована, определяется посредством вычисления энергии области после ограничения выбираемых областей областями с более низкими диапазонами из числа всех выбираемых областей - кандидатов. Как пример этого, возможный способ должен выполнить ограничение пятью кандидатами из более низких диапазонов из числа общего количества из восьми областей - кандидатов, показанных на фиг.2, и выполнить выбор области с самой высокой энергией среди них. Альтернативно, секция 102 выбора диапазона может сравнить энергии после умножения энергии на весовой коэффициент так, чтобы область из более низкой зоны стала пропорционально более предпочтительной для выбора. Другая возможность для секции 102 выбора диапазона заключается в том, чтобы выбрать фиксированный поддиапазон из более низких диапазонов. Особенностью речевого сигнала является то, что структура гармоник становится пропорционально сильнее к стороне более низких диапазонов, в результате чего сильный пик присутствует на стороне более низких диапазонов. Поскольку этот сильный пик трудно маскировать, это приводит к тому, что воспринимается как шум. Здесь посредством увеличения вероятности выбора к стороне более низкого диапазона вместо того, чтобы просто выбрать область, основанную на величине энергии, возможность области, которая включает в себя сильный выбираемый пик, увеличивается, и восприятие шума в результате уменьшается. Таким образом, качество декодированного сигнала может быть улучшено посредством ограничения выбранных областей стороной более низкого диапазона, или посредством выполнения умножения на весовой коэффициент таким образом, что вероятность выбора увеличивается по направлению к стороне более низкого диапазона, таким образом.
[0083] Устройство кодирования речи согласно настоящему изобретению было описано в терминах конфигурации, посредством которого квантование формы (информации формы сигнала) сначала выполняется в отношении компонента диапазона, который должен быть квантован, с последующим квантованием усиления (информации усиления), но настоящее изобретение не ограничивается этим, и может также использоваться конфигурация, посредством которой квантование усиления выполняется сначала, с последующим квантованием формы (сигнала).
[0084] Вариант осуществления 2
Фиг.6 - это блок-схема, иллюстрирующая основную конфигурацию устройства 300 кодирования речи согласно Варианту осуществления 2 настоящего изобретения.
[0085] На этом чертеже устройство 300 кодирования речи снабжено секцией 301 понижения дискретизации, секцией 302 кодирования первого уровня, секцией 303 декодирования первого уровня, секцию 304 повышения дискретизации, первой секцией 305 преобразования в частотную область, секцией 306 задержки, второй секцией 307 преобразования в частотную область, секцией 308 кодирования второго уровня и секцией 309 мультиплексирования, и имеет масштабируемую конфигурацию, содержащую два уровня. В первом уровне применяется способ кодирования речи CELP (линейное предсказание с кодовым возбуждением), и во втором уровне применяется способ кодирования речи, описанный в Варианте осуществления 1 настоящего изобретения.
[0086] Секция 301 понижения дискретизации выполняет обработку по уменьшению дискретизации в отношении входного речевого/аудио сигнала, чтобы преобразовать частоту дискретизации речевого/аудио сигнала с частоты 1 к частоте 2 (где частота 1 > частоты 2), и выводит этот сигнал на секцию 302 кодирования первого уровня.
[0087] Секция 302 кодирования первого уровня выполняет кодирование CELP речи, в отношении речевого/аудио сигнала после (сигнала) понижения дискретизации, введенного из секции 301 понижения дискретизации, и выводит кодированную полученную информацию первого уровня к секции 309 декодирования первого уровня и секции 303 мультиплексирования. Более конкретно, секция 302 кодирования первого уровня кодирует речевое сообщение, содержащее информацию вокального участка и информацию возбуждения, посредством нахождения параметра LPC для информации вокального участка и для информации возбуждения, выполняет кодирование посредством нахождения индекса, который идентифицирует, какая ранее сохраненная речевая модель должна использоваться, то есть индекс, который идентифицирует, какой вектор возбуждения адаптивной кодовой книги и фиксированной кодовой книги должен быть сгенерирован.
[0088] Секция 303 декодирования первого уровня выполняет CELP декодирование речи в отношении кодированной информации первого уровня, введенной из секции 302 кодирования первого уровня, и выводит полученный декодированный сигнал первого уровня к секции 304 повышения дискретизации.
[0089] Секция 304 повышения дискретизации выполняет обработку по повышению дискретизации в отношении декодированного сигнала первого уровня, введенного из секции 303 декодирования первого уровня, чтобы преобразовать частоту дискретизации декодированного сигнала первого уровня от частоты 2 к частоте 1, и выводит этот сигнал к первой секции 305 преобразования в частотную область.
[0090] Первая секция 305 преобразования в частотную область выполняет MDCT над декодированным сигналом первого уровня после повышения дискретизации, введенного из секции 304 повышения дискретизации, и выводит коэффициент MDCT первого уровня, полученный в качестве параметра частотной области, на секцию 308 кодирования второго уровня. Фактический способ преобразования, используемый в первой секции 305 преобразования в частотную область, аналогичен способу преобразования, используемому в секции 101 преобразования в частотную область устройства 100 кодирования речи согласно Варианту осуществления 1 настоящего изобретения, и поэтому его описание здесь опускается.
[0091] Секция 306 задержки выводит задержанный речевой/аудио сигнал к второй секции 307 преобразования в частотную область посредством выдачи входного речевого/аудио сигнала после хранения этого входного сигнала во внутреннем буфере в течение заранее определенного времени. Заранее определенное время задержки здесь - время, которое принимает во внимание задержку алгоритма, которая возникает в секции 301 понижения дискретизации, секции 302 кодирования первого уровня, секции 303 декодирования первого уровня, секции 304 повышения дискретизации, первой секции 305 преобразования в частотную область и второй секции 307 преобразования в частотную область.
[0092] Вторая секция 307 преобразования в частотную область выполняет MDCT в отношении задержанного речевого/аудио сигнала, введенного из секции 306 задержки, и выводит коэффициент MDCT второго уровня, полученный в качестве параметра частотной области, на секцию 308 кодирования второго уровня. Фактический способ преобразования, используемый во второй секции 307 преобразования в частотную область, аналогичен способу преобразования, используемому в секции 101 преобразования в частотную область устройства 100 кодирования речи согласно Варианту осуществления 1 настоящего изобретения, и поэтому его описание здесь опускается.
[0093] Секция 308 кодирования второго уровня выполняет кодирование второго уровня, используя коэффициент MDCT первого уровня, введенный из первой секции 305 преобразования в частотную область, и коэффициент MDCT второго уровня, введенный из второй секции 307 преобразования в частотную область, и выводит полученную кодированную информацию второго уровня к секции 309 мультиплексирования. Основная внутренняя конфигурация и фактическая работа секции 308 кодирования второго уровня описаны ниже.
[0094] Секция 309 мультиплексирования мультиплексирует кодированную информацию первого уровня, введенную из секции 302 кодирования первого уровня, и кодированную информацию второго уровня, введенную из секции 308 кодирования второго уровня, и передает полученный битовый поток к устройству декодирования речи.
[0095] Фиг.7 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 308 кодирования второго уровня. Секция 308 кодирования второго уровня имеет базовую конфигурацию, аналогичную таковой устройства 100 кодирования речи согласно Варианту осуществления 1 (см. фиг.1), и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описания здесь опускаются.
[0096] Секция 308 кодирования второго уровня отличается от устройства 100 кодирования речи тем, что оборудована секцией 381 вычисления разностного коэффициента MDCT вместо секции 101 преобразования в частотную область. Обработка секцией 106 мультиплексирования аналогична обработке секцией 106 мультиплексирования устройства 100 кодирования речи, и для целей описания название выходного сигнала из секции 106 мультиплексирования согласно этому варианту осуществления дается как "кодированная информация второго уровня".
[0097] Информация диапазона, кодированная информация формы и кодированная информация усиления также могут быть введены непосредственно в секцию 309 мультиплексирования и мультиплексированы с кодированной информацией первого уровня, не проходя через секцию 106 мультиплексирования.
[0098] Секция 381 вычисления разностного коэффициента MDCT находит остаток коэффициента MDCT первого уровня, введенного из первой секции 305 преобразования в частотную область, и коэффициента MDCT второго уровня, введенного из второй секции 307 преобразования в частотную область, и выводит их на секцию 102 выбора диапазона как разностный коэффициент MDCT.
[0099] Фиг.8 является блок-схемой, иллюстрирующей основную конфигурацию устройства 400 декодирования речи согласно Варианту осуществления 2 настоящего изобретения.
[0100] В этом чертеже устройство 400 декодирования речи снабжено секцией 401 управления, секцией 402 декодирования первого уровня, секцией 403 повышения дискретизации, секцией 404 преобразования в частотную область, секцией 405 декодирования второго уровня, секцией 406 преобразования во временную область и коммутатором 407.
[0101] Секция 401 управления анализирует элементы конфигурации битового потока, переданного от устройства 300 кодирования речи, и согласно этим элементам конфигурации битового потока адаптивно выводит соответствующую кодированную информацию к секции 402 декодирования первого уровня и секции 405 декодирования второго уровня, и также выводит информацию управления на коммутатор 407. Более конкретно, если битовый поток содержит кодированную информацию первого уровня и кодированную информацию второго уровня, секция 401 управления выводит кодированную информацию первого уровня к секции 402 декодирования первого уровня, и выводит кодированную информацию второго уровня к секции 405 декодирования второго уровня, тогда как если битовый поток содержит только кодированную информацию первого уровня, секция 401 управления выводит эту кодированную информацию первого уровня к секции 402 декодирования первого уровня.
[0102] Секция 402 декодирования первого уровня выполняет CELP декодирование в отношении кодированной информации первого уровня, введенной из секции 401 управления, и выводит полученный декодированный сигнал первого уровня к секции 403 повышения дискретизации и коммутатору 407.
[0103] Секция 403 повышения дискретизации выполняет обработку по повышению дискретизации в отношении декодированного сигнала первого уровня, введенного из секции 402 декодирования первого уровня, чтобы преобразовать первую частоту дискретизации декодированного сигнала уровня от частоты 2 к частоте 1, и выводит этот сигнал к секции 404 преобразования в частотную область.
[0104] Секция 404 преобразования в частотную область выполняет MDCT в отношении декодированного сигнала первого уровня после повышения дискретизации, введенного из секции 403 повышения дискретизации, и выводит декодированный коэффициент MDCT первого уровня, полученный в качестве параметра частотной области, на секцию 405 декодирования второго уровня. Фактический способ преобразования, используемый в секции 404 преобразования в частотную область, аналогичен способу преобразования, используемому в секции 101 преобразования в частотную область устройства 100 кодирования речи согласно Варианту осуществления 1, и поэтому его описание здесь опускается.
[0105] Секция 405 декодирования второго уровня выполняет деквантование усиления, и деквантование формы, используя кодированную информацию второго уровня, введенную из секции 401 управления, и декодированный коэффициент MDCT первого уровня, введенный из секции 404 преобразования в частотную область, чтобы получить декодированный коэффициент MDCT второго уровня. Секция 405 декодирования второго уровня суммирует вместе полученный декодированный коэффициент MDCT второго уровня и декодированный коэффициент MDCT первого уровня, и выводит полученный результат суммирования к секции 406 преобразования во временную область как суммарный коэффициент MDCT. Основная внутренняя конфигурация и фактическая операция секции 405 декодирования второго уровня описаны ниже.
[0106] Секция преобразования 406 временной области выполняет IMDCT в отношении суммарного коэффициента MDCT, введенного из секции 405 декодирования второго уровня, и выводит декодированный сигнал второго уровня, полученный в качестве компонента временной области, на коммутатор 407.
[0107] На основании информации управления, введенной из секции 401 управления, если битовый поток, введенный на устройство 400 декодирования речи, содержит кодированную информацию первого уровня и кодированную информацию второго уровня, коммутатор 407 выводит декодированный сигнал второго уровня, введенный из секции 406 преобразования во временную область, в качестве выходного сигнала, тогда как если битовый поток содержит только кодированную информацию первого уровня, коммутатор 407 выводит декодированный сигнал первого уровня, введенный из секции 402 декодирования первого уровня, в качестве выходного сигнала.
[0108] Фиг.9 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 405 декодирования второго уровня. Секция 405 декодирования второго уровня имеет базовую конфигурацию, аналогичную таковой из устройства 200 декодирования речи согласно Варианту осуществления 1 (см. фиг.3), и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0109] Секция 405 декодирования второго уровня отличается от устройства 200 декодирования речи тем, чтобы также оборудована секцией 452 вычисления суммарного коэффициента MDCT. Кроме того, обработка отличается, в частности, между обработкой секцией 451 демультиплексирования секции 405 декодирования второго уровня и обработкой секцией 201 демультиплексирования устройства 200 декодирования речи, и различные ссылочные позиции указывают это.
[0110] Секция 451 демультиплексирования демультиплексирует информацию диапазона, кодированную информацию формы и кодированную информацию усиления из кодированной информации второго уровня из секции 401 управления, и выводит полученную информацию диапазона на секцию 202 деквантования формы и секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, полученную кодированную информацию формы на секцию 202 деквантования формы, и полученную кодированную информацию усиления на секцию 204 деквантования усиления.
[0111] Секция 452 вычисления суммарного коэффициента MDCT суммирует вместе декодированный коэффициент MDCT первого уровня, введенный из секции 404 преобразования в частотную область, и декодированный коэффициент MDCT второго уровня, введенный из секции 204 деквантования усиления, и выводит полученный результат суммирования к секции 406 преобразования во временную область в качестве суммарного коэффициента MDCT.
[0112] Таким образом, согласно этому варианту осуществления, когда частотный компонент отличного диапазона делается целью квантования в каждом кадре, прогнозирующее кодирование невременного параметра выполняется адаптивно в дополнение к применению масштабируемого кодирования, таким образом позволяя уменьшить объем кодированной информации при кодировании речи, уменьшить ошибку кодирования речевого/аудио сигнала и ухудшение качества декодированного сигнала аудио.
[0113] В этом варианте осуществления был описан посредством примера случай, в котором секция 308 кодирования второго уровня принимает разностный компонент коэффициента MDCT первого уровня и коэффициента MDCT второго уровня в качестве цели кодирования, но настоящее изобретение не ограничивается этим, и секция 308 кодирования второго уровня может также принимать разностный компонент коэффициента MDCT первого уровня и коэффициента MDCT второго уровня в качестве цели кодирования для диапазона заранее определенной частоты или ниже, или может принимать коэффициент MDCT входного сигнала непосредственно в качестве цели кодирования для диапазона выше, чем заранее определенная частота. То есть переключение может быть выполнено между использованием или неиспользованием разностного компонента согласно диапазону.
[0114] В этом варианте осуществления был описан посредством примера случай, в котором способ выбора целевого диапазона квантования при кодировании второго уровня должен выбрать область, для которой энергия разностного компонента коэффициента MDCT первого уровня и коэффициент MDCT второго уровня является самой высокой, но настоящее изобретение не ограничивается этим, и область, для которой энергия коэффициента MDCT первого уровня является самой высокой, также может быть выбрана. Например, энергия каждого поддиапазона коэффициента MDCT первого уровня может быть вычислена, после чего энергии каждого поддиапазона суммируются вместе на основе область-за-областью, и область, для которой энергия является самой высокой, выбирается в качестве целевого диапазона квантования при кодировании второго уровня. На стороне устройства декодирования область, для которой энергия является самой высокой среди областей декодированного коэффициента MDCT первого уровня, полученного декодированием первого уровня, выбирается в качестве целевого диапазона деквантования при декодировании второго уровня. Посредством этого скорость передачи в битах кодирования может быть уменьшена, так как информация диапазона, касающаяся диапазона квантования при кодировании второго уровня, не передается от стороны устройства кодирования.
[0115] В этом варианте осуществления был описан посредством примера случай, в котором секция 308 кодирования второго уровня выбирает и выполняет квантование в отношении целевого диапазона квантования для разностного компонента коэффициента MDCT первого уровня и коэффициента MDCT второго уровня, но настоящее изобретение не ограничивается этим, и секция 308 кодирования второго уровня может также предсказать коэффициент MDCT второго уровня из коэффициента MDCT первого уровня, и выбрать и выполнить квантование в отношении целевого диапазона квантования для разностного компонента этого предсказанного коэффициента MDCT и фактического коэффициента MDCT второго уровня. Это позволяет, разрешает дополнительно повысить эффективность кодирования при использовании корреляции между коэффициентом MDCT первого уровня и коэффициентом MDCT второго уровня.
[0116] Вариант осуществления 3
Фиг.10 является блок-схемой, иллюстрирующей основную конфигурацию устройства 500 кодирования речи согласно Варианту осуществления 3 настоящего изобретения. Устройство 500 кодирования речи имеет базовую конфигурацию, аналогичную таковой из устройства 100 кодирования речи, показанного на фиг.1, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и его описание здесь опускается.
[0117] Устройство 500 кодирования речи отличается от устройства 100 кодирования речи тем, что дополнительно снабжено секцией 504 вычисления значения интерполяции. Кроме того, обработка отличается, в частности, между секцией 505 квантования усиления устройства 500 кодирования речи и секцией 105 квантования усиления устройства 100 кодирования речи, и отличные ссылочные коды указывают на это.
[0118] Секция 504 вычисления значения интерполяции имеет внутренний буфер, который хранит информацию диапазона, указывающую целевой диапазон квантования прошлого кадра. Используя значение усиления квантования целевого диапазона квантования прошлого кадра, считанного из секции 505 квантования усиления, секция 504 вычисления значения интерполяции интерполирует значение усиления диапазона, который не был квантован в прошлом кадре, среди целевых диапазонов квантования текущего кадра, указанных информацией диапазона, введенной из секции 102 выбора диапазона. Секция 504 вычисления значения интерполяции выводит полученное значение интерполяции усиления на секцию 505 квантования усиления.
[0119] Секция 505 квантования усиления отличается от секции 105 квантования усиления устройства 100 кодирования речи использованием значения интерполяции усиления, введенного из секции 504 вычисления значения интерполяции, в дополнение к значению усиления квантования прошлого кадра, сохраненному во внутреннем буфере, и внутренней кодовой книги усиления посредством выполнения прогнозирующего кодирования.
[0120] Способ интерполяции значения усиления, используемый секцией 504 вычисления значения интерполяции, описан ниже более подробно.
[0121] Секция 504 вычисления значения интерполяции имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 102 выбора диапазона в прошлом кадре. Здесь описан посредством примера случай, в котором обеспечивается внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров.
[0122] Секция 504 вычисления значения интерполяции сначала вычисляет значение усиления диапазона, отличного от диапазона, указанного информацией диапазона m_max для прошлых трех кадров, посредством выполнения линейной интерполяции. Значение интерполяции вычисляется в соответствии с Уравнением (19) для значения усиления более низкого диапазона, чем диапазон, указанный информацией диапазона m_max, и значение интерполяции вычисляется в соответствии с Уравнением (20) для значения усиления более высокого диапазона чем диапазон, указанный информацией диапазона m_max.
В Уравнении (19) и Уравнении (20) βi указывает коэффициент интерполяции, qi указывает значение усиления целевого диапазона квантования, указанного информацией диапазона m_max прошлого кадра, и g указывает значение интерполяции усиления неквантованного диапазона, смежного с целевым диапазоном квантования, указанным информацией диапазона m_max прошлого кадра. Здесь более низкое значение i указывает пропорционально более низкий диапазон частот, и в Уравнении (19) g указывает значение интерполяции усиления смежного диапазона со стороны более высокого диапазона от целевого диапазона квантования, указанного информацией диапазона m_max прошлого кадра, в то время как в Уравнении (20) g указывает значение интерполяции усиления смежного диапазона на стороне более низкого диапазона целевого диапазона квантования, указанного информацией диапазона m_max прошлого кадра. Для коэффициента интерполяции βi предполагается для использования значение, которое было найдено заранее статистически так, чтобы удовлетворять Уравнению (19) и Уравнению (20). Здесь описывается случай, в котором различные коэффициенты интерполяции βi используются в Уравнении (19) и Уравнении (20), но аналогичный набор коэффициентов предсказания αi также может использоваться в Уравнении (19) и Уравнении (20).
[0123] Как показано в Уравнении (19) и Уравнении (20), возможно интерполировать значение усиления одного диапазона со стороны более высокого диапазона или стороны более низкого диапазона, смежного с целевым диапазоном квантования, указанным информацией диапазона прошлого кадра m_max прошлого кадра, в секции 504 вычисления значения интерполяции. Секция 504 вычисления значения интерполяции последовательно интерполирует значения усиления смежных неквантованных диапазонов посредством повторения операций в Уравнении (19) и Уравнении (20), используя результаты, полученные из Уравнения (19) и Уравнения (20).
[0124] Таким образом, секция 504 вычисления значения интерполяции интерполирует значения усиления диапазонов, отличных от диапазона, указанного информацией диапазона m_max прошлых трех кадров, из целевых диапазонов квантования текущего кадра, указанных информацией диапазона, введенной из секции 102 выбора диапазона, используя квантованные значения усиления прошлых трех кадров, считанных из секции 505 квантования усиления.
[0125] Ниже описана операция прогнозирующего кодирования в секции 505 квантования усиления.
[0126] Секция 505 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя сохраненное значение усиления квантования прошлого кадра, значение интерполяции усиления, введенное из секции 504 вычисления значения интерполяции, и внутреннюю кодовую книгу усиления. Более конкретно, секция 505 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (21) ниже является минимум.
Уравнение 21
[0127] В Уравнении (21) GCi j указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления и j указывает индекс элемента вектора кода усиления. Здесь Ct j указывает значение усиления квантования t кадров назад во времени так, чтобы, когда t=1, например, Ct j указывает значение усиления квантования одного кадра назад во времени. Кроме того, α является коэффициентом 4-го порядка линейного предсказания, сохраненным в секции 505 квантования усиления. Значение интерполяции усиления, вычисленное в соответствии с Уравнением (19) и Уравнением (20) секцией 504 вычисления значения интерполяции, используется как значение усиления диапазона, не выбранного в качестве целевого диапазона квантования в прошлых трех кадрах. Секция 505 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора.
[0128] Секция 505 квантования усиления выводит индекс G_min вектора кода усиления, для которого результатом Уравнения (21) выше является минимум, к секции 106 мультиплексирования в качестве кодированной информации усиления. Секция 505 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (22) ниже с использованием кодированной информации усиления, G_min и значения Ct j усиления квантования, полученного в текущем кадре.
[0129] Фиг.11 является блок-схемой, иллюстрирующей основную конфигурацию устройства 600 декодирования речи согласно Варианту осуществления 3 настоящего изобретения. Устройство 600 декодирования речи имеет базовую конфигурацию, аналогичную таковой из устройства 200 декодирования речи, показанного на фиг.3, и поэтому идентичные элементы конфигурации обозначены одинаковыми ссылочными позициями, и их описание здесь опускается.
[0130] Устройство 600 декодирования речи отличается от устройства 200 декодирования речи тем, что дополнительно снабжено секцией 603 вычисления значения интерполяции. Кроме того, обработка отличается, в частности, между секцией 604 деквантования усиления устройства 600 декодирования речи и секцией 204 деквантования усиления устройства 200 декодирования речи, и различные ссылочные позиции указывают на это.
[0131] Секция 603 вычисления значения интерполяции имеет внутренний буфер, который хранит информацию диапазона, указывающую информацию диапазона, деквантованную в прошлом кадре. Используя значение усиления диапазона, деквантованного в прошлом кадра, считанное из секции 604 деквантования усиления, секция 603 вычисления значения интерполяции интерполирует значение усиления диапазона, который не был деквантован в прошлом кадре среди целевых диапазонов квантования текущего кадра, указанных информацией диапазона, введенной из секции 201 демультиплексирования. Секция 603 вычисления значения интерполяции выводит полученное значение интерполяции усиления на секцию 604 деквантования усиления.
[0132] Секция 604 деквантования усиления отличается от секции 204 деквантования усиления устройства 200 декодирования речи использованием значения интерполяции усиления, введенного из секции 603 вычисления значения интерполяции, в дополнение к сохраненному деквантованному значению усиления прошлого кадра, и внутреннюю кодовую книгу усиления при выполнении прогнозирующего кодирования.
[0133] Способ интерполяции значения усиления, используемый секцией 603 вычисления значения интерполяции, аналогичен способу интерполяции значения усиления, используемому секцией 504 вычисления значения интерполяции, и поэтому подробное его описание здесь опускается.
[0134] Ниже описана процедура прогнозирующего декодирования в секции 604 деквантования усиления.
[0135] Секция 604 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя сохраненное значение усиления, деквантованное в прошлом кадре, значение усиления интерполяции, введенное из секции 603 вычисления значения интерполяции, и внутреннюю кодовую книгу усиления. Более конкретно, секция 604 деквантования усиления получает значение Gain_q' усиления посредством выполнения деквантования усиления в соответствии с Уравнением (23) ниже.
[0136] В Уравнении (23) C''t j указывает значение усиления t кадров назад во времени, так, чтобы когда t=1, например, C''t j указывает значение усиления одного кадра ранее. Кроме того, α является коэффициентом 4-го порядка линейного предсказания, сохраненным в секции 604 деквантования усиления. Снова значение интерполяции, вычисленное секцией 603 вычисления значения интерполяции, используется как значение усиления диапазона, не выбранного в качестве цели квантования в прошлых трех кадрах. Секция 604 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора.
[0137] Затем секция 604 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (24) ниже, с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (25) ниже. Здесь вычисленный декодированный коэффициент MDCT обозначается X''k. Также при деквантовании коэффициента MDCT, если k присутствует в B(j'')-B (j''+1)-1, значение усиления Gain_q'(j) принимает значение Gain_q' (j'').
Уравнение 24
Таким образом, согласно этому варианту осуществления, при выполнении квантования параметра частотной области отличного целевого диапазона квантования каждого кадра, значения соседних неквантованных диапазонов последовательно интерполируются от квантованного значения в прошлом кадре, и выполняется прогнозирующее квантование, используя значение интерполяции. Следовательно, точность кодирования речевого кодирования может быть дополнительно улучшена.
[0138] В этом варианте осуществления был описан посредством примера случай, в котором фиксированный коэффициент интерполяции β, найденный заранее, используется при вычислении значения интерполяции усиления, но настоящее изобретение не ограничивается этим, и интерполяция также может быть выполнена после корректировки ранее найденного коэффициента β интерполяции. Например, коэффициент предсказания может быть откорректирован согласно распределению усиления диапазона, квантованного в каждом кадре. Более конкретно, возможно улучшить точность кодирования при кодировании речи посредством выполнения регулировки так, чтобы коэффициент предсказания был уменьшен, и вес усиления текущего кадра увеличен, когда изменение в усилении, квантованном в каждом кадре, является большим.
[0139] В этом варианте осуществления был описан посредством примера случай, в котором последовательное множество диапазонов (одна область), содержащая диапазон, квантованный в каждом кадре, делается целевой, но настоящее изобретение не ограничивается этим, и множество областей также могут быть сделаны целью квантования. В таком случае возможно улучшить точность кодирования при кодировании речи посредством использования способа, посредством которого линейное предсказание конечных значений соответствующих областей выполняется для диапазона между выбранными областями в дополнение к способу интерполяции согласно Уравнению (19) и Уравнению (20).
[0140] Вариант осуществления 4
Фиг.12 является блок-схемой, иллюстрирующей основную конфигурацию устройства 700 кодирования речи согласно Варианту осуществления 4 настоящего изобретения. Устройство 700 кодирования речи имеет базовую конфигурацию, аналогичную таковой устройства 100 кодирования речи, показанного на фиг.1, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0141] Устройство 700 кодирования речи отличается от устройства 100 кодирования речи тем, что дополнительно снабжено секцией 704 определения коэффициента предсказания. Кроме того, обработка отличается, в частности, между секцией 705 квантования усиления устройства 700 кодирования речи и секцией 105 квантования усиления устройства 100 кодирования речи и различные ссылочные позиции указывают на это.
[0142] Секция 704 определения коэффициента предсказания имеет внутренний буфер, который хранит информацию диапазона, указывающую целевой диапазон квантования прошлого кадра, определяет коэффициент предсказания, который должен быть использован при квантовании секцией 705 квантования усиления на основании информации диапазона прошлого кадра и выводит определенный коэффициент предсказания на секцию 705 квантования усиления.
[0143] Секция 705 квантования усиления отличается от секции 105 квантования усиления устройства 100 кодирования речи использованием коэффициента предсказания, введенного из секции 704 определения коэффициента предсказания вместо коэффициента предсказания, определенного заранее, при выполнении прогнозирующего кодирования.
[0144] Операция определения коэффициента предсказания в секции 704 определения коэффициента предсказания описана ниже.
[0145] Секция 704 определения коэффициента предсказания имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 102 выбора диапазона в прошлом кадре. Здесь описан посредством примера случай, в котором обеспечен внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров.
[0146] Используя информацию диапазона m_max, сохраненную во внутреннем буфере, и информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре, секция 704 определения коэффициента предсказания находит количество поддиапазонов, общих для целевого диапазона квантования текущего кадра и целевого диапазона квантования прошлого кадра. Секция 704 определения коэффициента предсказания определяет коэффициенты предсказания как набор A, и выводит его на секцию 705 квантования усиления, если количество общих поддиапазонов больше или равно заранее определенному значению, или определяет коэффициенты предсказания как набор B и выводит их на секцию 705 квантования усиления, если количество общих поддиапазонов меньше чем заранее определенное значение. Здесь набор A коэффициентов предсказания есть набор параметров, который больше акцентируется на значении прошлого кадра, и делает вес значения усиления прошлого кадра большим, чем в случае набора В коэффициентов предсказания. Например, в случае коэффициентов предсказания 4-го порядка возможно, что набор А был определен как (αa0=0,60, αa1=0,25, αa2=0,10, αa3=0,05), и что набор B был определен как (αb0=0,80, αb1=0,10, αb2=0,05, αb3=0,05).
[0147] Затем секция 704 определения коэффициента предсказания обновляет внутренний буфер, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре.
[0148] Ниже описана операция прогнозирующего кодирования в секции 705 квантования усиления.
[0149] Секция 705 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Секция 705 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя коэффициент предсказания, введенный из секции 704 определения коэффициента предсказания, и значение Ct j усиления квантования прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 705 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (26) ниже является минимум, если коэффициентом предсказания является набор А, или находит индекс вектора кода усиления, для которого результатом Уравнения (27) ниже является минимум, если коэффициентом предсказания является набор В.
Уравнение 26
Уравнение 27
[0150] В Уравнении (26) и Уравнении (27) GCi j указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления, и j указывает индекс элемента вектора кода усиления. Здесь Ct j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, Ct j указывает значение усиления одного кадра назад во времени. Кроме того, коэффициент 4-го порядка линейного предсказания сохраняется в секции 705 квантования усиления. Секция 705 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора. Если нет значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 705 квантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (26) или Уравнении (27) выше.
[0151] Фиг.13 является блок-схемой, иллюстрирующей основную конфигурацию устройства декодирования речи 800 согласно Варианту осуществления 4 настоящего изобретения. Устройство декодирования речи 800 имеет базовую конфигурацию, аналогичную таковой из устройства 200 декодирования речи, показанной на фиг.3, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0152] Устройство 800 декодирования речи отличается от устройства 200 декодирования речи тем, что дополнительно снабжено секцией 803 определения коэффициента предсказания. Кроме того, обработка отличается, в частности, между секцией 804 деквантования усиления устройства 800 декодирования речи и секцией 204 деквантования усиления устройства 200 декодирования речи, и различные ссылочные позиции указывают на это.
[0153] Секция 803 определения коэффициента предсказания имеет внутренний буфер, который сохраняет информацию диапазона, введенную из секции 201 демультиплексирования в прошлом кадре, определяет коэффициент предсказания, который должен использоваться при квантовании секцией 804 деквантования усиления, на основании информации диапазона прошлого кадра, и выводит определенный коэффициент предсказания на секцию 804 деквантования усиления.
[0154] Секция 804 деквантования усиления отличается от секции 204 деквантования усиления устройства 200 декодирования речи использованием коэффициента предсказания, введенного из секции 803 определения коэффициента предсказания, вместо коэффициента предсказания, определенного заранее, при выполнении прогнозирующего декодирования.
[0155] Способ определения коэффициента предсказания, используемый секцией 803 определения коэффициента предсказания, аналогичен способу определения коэффициента предсказания, используемому секцией 704 определения коэффициента предсказания устройства 700 кодирования речи, и поэтому подробное описание работы секции 803 определения коэффициента предсказания здесь опускается.
[0156] Ниже описана операция прогнозирующего декодирования в секции 804 деквантования усиления.
[0157] Секция 804 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре. Секция 804 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя коэффициент предсказания, введенный из секции 803 определения коэффициента предсказания, и значение усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 804 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления как секция 705 квантования усиления устройства 700 кодирования речи, и получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (28) ниже, если коэффициент предсказания, введенный из секции 803 определения коэффициента предсказания, есть набор A, или в соответствии с Уравнением (29) ниже, если коэффициент предсказания есть набор B.
[0158] В Уравнении (28) и Уравнении (29) C''t j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C''t j указывает значение усиления одного кадра прежде. Кроме того, αai и αbi указывают набор A и набор В коэффициентов предсказания, введенные из секции 803 определения коэффициента предсказания. Секция 804 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора.
[0159] Таким образом, согласно этому варианту осуществления, при выполнении квантования параметра частотной области отличного целевого диапазона квантования каждого кадра, прогнозирующее кодирование выполняется посредством выбора из множества наборов коэффициентов предсказания набора коэффициентов предсказания, который делает вес значения усиления прошлого кадра пропорционально тем больше, чем больше количество поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра. Следовательно, точность кодирования речевого кодирования может быть дополнительно улучшена.
[0160] В этом варианте осуществления был описан посредством примера случай, в котором два вида наборов коэффициентов предсказания предоставляются заранее, и коэффициент предсказания, используемый в прогнозирующем кодировании, переключается согласно количеству поддиапазонов, общих для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, но настоящее изобретение не ограничивается этим, и три или более видов наборов коэффициентов предсказания могут также быть обеспечены заранее.
[0161] В этом варианте осуществления был описан посредством примера случай, в котором, если целевой диапазон квантования в текущем кадре не был квантован в прошлом кадре, значение ближайшего диапазона в прошлом кадре заменяется, но настоящее изобретение не ограничивается этим, и если значение целевого диапазона квантования в текущем кадре не было квантовано в прошлом кадре, прогнозирующее кодирование также может быть выполнено посредством принятия соответствующего коэффициента предсказания прошлого кадра равным нулю, суммирования коэффициента предсказания этого кадра с коэффициентом предсказания текущего кадра, вычисления нового набора коэффициентов предсказания, и использования этих коэффициентов предсказания. Таким образом эффект прогнозирующего кодирования может быть переключен более гибко, и точность кодирования речевого кодирования может быть дополнительно улучшена.
[0162] Вариант осуществления 5
Фиг.14 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи 1000 согласно Варианту осуществления 5 настоящего изобретения. Устройство кодирования речи 1000 имеет базовую конфигурацию, аналогичную таковой из устройства 300 кодирования речи, показанного на фиг.6, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0163] Устройство кодирования речи 1000 отличается от устройства 300 кодирования речи тем, что дополнительно снабжено секцией 1007 кодирования улучшения (усиления) диапазона. Кроме того, обработка отличается, в частности, между секцией 1008 кодирования второго уровня и секцией 1009 мультиплексирования устройства кодирования речи 1000 и секцией 308 кодирования второго уровня и секцией 309 мультиплексирования устройства 300 кодирования речи, и различные ссылочные коды указывают на это.
[0164] Секция 1007 кодирования улучшения диапазона выполняет кодирование улучшения диапазона, используя коэффициент MDCT первого уровня, введенный из первой секции 305 преобразования в частотную область, и входной коэффициент MDCT, введенный из второй секции 307 преобразования в частотную область, и выводит полученную кодированную информацию улучшения диапазона к секции 1009 мультиплексирования.
[0165] Секция 1009 мультиплексирования отличается от секции 309 мультиплексирования только также мультиплексированием кодированной информации улучшения диапазона в дополнение к кодированной информации первого уровня и кодированной информации второго уровня.
[0166] Фиг.15 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1007 кодирования улучшения диапазона.
[0167] На фиг.15 секция 1007 кодирования улучшения диапазона снабжена секцией 1071 оценки спектра более высокого диапазона и секцией 1072 кодирования корректирующего масштабного коэффициента.
[0168] Секция 1071 оценки спектра более высокого диапазона оценивает спектр более высокого диапазона диапазонов FL-FH сигналов с использованием спектра более низкого диапазона диапазонов 0-FL сигналов входного коэффициента MDCT, введенного из второй секции 307 преобразования в частотную область, чтобы получить оцененный спектр. Способ получения оцененного спектра должен найти оцененный спектр таким образом, что степень подобия со спектром более высокого диапазона становится максимальной посредством преобразования спектра более низкого диапазона на основании этого спектра более низкого диапазона. Секция 1071 оценки более высокого диапазона спектра кодирует информацию, касающуюся этого оцененного спектра (информацию оценки), выводит полученный параметр кодирования, и также выдает сам оцененный спектр непосредственно на секцию 1072 кодирования корректирующего масштабного коэффициента.
[0169] В следующем описании оцененный спектр, выведенный из секции 1071 оценки более высокого диапазона спектра, называют первым спектром, и коэффициент MDCT первого уровня (спектр более высокого диапазона), выведенный из первой секции 305 преобразования в частотную область, называют вторым спектром.
[0170] Вышеописанные виды спектров и соответствующих диапазонов сигналов могут быть получены в итоге следующим образом.
[0171]
Секция 1072 кодирования корректирующего масштабного коэффициента корректирует масштабный коэффициент первого спектра так, чтобы масштабный коэффициент первого спектра приблизился к масштабному коэффициенту второго спектра, и кодирует и выводит информацию, касающуюся этого корректирующего масштабного коэффициента.
[0172] Кодированная информация улучшения диапазона, введенная из секции 1007 кодирования улучшения диапазона к секции 1009 мультиплексирования, включает в себя параметр кодирования информации оценки, введенный из секции 1071 оценки спектра более высокого диапазона, и параметр кодирования корректирующего масштабного коэффициента, введенный из секции 1072 кодирования корректирующего масштабного коэффициента.
[0173] Фиг.16 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1072 кодирования корректирующего масштабного коэффициента.
[0174] Секция 1072 кодирования корректирующего масштабного коэффициента снабжена секциями 1721 и 1722 вычисления масштабного коэффициента, кодовой книгой 1723 корректирующего масштабного коэффициента, умножителем 1724, вычитающим устройством 1725, секцией 1726 определения, секцией 1727 вычисления ошибок взвешивания и секцией 1728 поиска. Эти секции выполняют следующие операции.
[0175] Секция 1721 вычисления масштабного коэффициента делит диапазоны FL-FH входного сигнала второго спектра на множество поддиапазонов, находит размер спектра, включенного в каждый поддиапазон, и выводит его на вычитающее устройство 1725. Более конкретно, разделение на поддиапазоны выполняется ассоциированным с критическим диапазоном, и разделение выполняется на равные интервалы шкалы Барка. Кроме того, секция 1721 вычисления масштабного коэффициента находит среднюю амплитуду спектров, включенных в эти поддиапазоны, и принимает ее как второй масштабный коэффициент SF2(k) {0≤k<NB}, где NB представляет количество поддиапазонов. Максимальное значение амплитуды или подобное могут использоваться вместо средней амплитуды.
[0176] Секция 1722 вычисления масштабного коэффициента делит введенные диапазоны FL-FH сигналов первого спектра на множество поддиапазонов, вычисляет первый масштабный коэффициент SF1(k) {0≤k<NB} поддиапазонов и выводит его на умножитель 1724. Как и с секцией 1721 вычисления масштабного коэффициента, максимальное значение амплитуды или подобное могут быть использованы вместо средней амплитуды.
[0177] В последующей обработке параметры во множестве поддиапазонов объединяются в одно векторное значение. Например, количество NB масштабных коэффициентов представляется как один вектор. Описание ниже приводится для случая, в котором каждая операция по обработке выполняется для каждого из этих векторов - то есть случая, в котором выполняется квантование вектора - в качестве примера.
[0178] Кодовая книга 1723 корректирующего масштабного коэффициента хранит множество корректирующих масштабных коэффициентов - кандидатов, и последовательно выдает один из сохраненных корректирующих масштабных коэффициентов - кандидатов на умножитель 1724 в соответствии с директивой из секции 1728 поиска. Множество корректирующих масштабных коэффициентов - кандидатов, сохраненных в кодовой книге 1723 корректирующего масштабного коэффициента, представляется вектором.
[0179] Умножитель 1724 умножает первый масштабный коэффициент, выведенный из секции 1722 вычисления масштабного коэффициента на корректирующий масштабный коэффициент - кандидат, выведенный из кодовой книги 1723 корректирующего масштабного коэффициента, и выдает результат умножения на вычитающее устройство 1725.
[0180] Вычитающее устройство 1725 вычитает выходной сигнал умножителя 1724, то есть произведение первого масштабного коэффициента и корректирующего масштабного коэффициента, из второго масштабного коэффициента, выведенного из секции 1721 вычисления масштабного коэффициента, и выдает сигнал ошибки, полученный таким образом, к секции 1727 вычисления ошибки взвешивания и секции 1726 определения.
[0181] Секция 1726 определения определяет вектор взвешивания, который должен быть подан на секцию 1727 вычисления ошибки взвешивания, на основании знака сигнала ошибки, выданного от вычитающего устройства 1725. Более конкретно, сигнал d(k) ошибки, выданный из вычитающего устройства 1725, представляется Уравнением (30) ниже.
[0182] Здесь vi(k) представляет i-й корректирующий масштабный коэффициент - кандидат. Секция 1726 определения проверяет знак d(k), выбирает wpos в качестве веса, если d(k) положительный, или выбирает wneg в качестве веса, если d(k) является отрицательным, и выводит вектор w(k) взвешивания, состоящий из них, к секции 1727 вычисления ошибки взвешивания. Эти веса имеют относительные соотношения размеров, показанные в Уравнении (31) ниже.
[0183] Например, если количество поддиапазонов NB=4, и знаками d(k) являются {+, -, -, +}, вектор w(k) взвешивания, выведенный к секции 1727 вычисления ошибки взвешивания, представляется w(k) = {wpos, wneg, wneg, wpos}.
[0184] Секция 1727 вычисления ошибки взвешивания сначала вычисляет квадрат сигнала ошибки, выданного из вычитающего устройства 1725, и затем умножает вектор взвешивания w(k), выданный из секции 1726 определения, на квадрат сигнала ошибки, чтобы вычислить взвешенную ошибку E квадрата, и выдает результат этого вычисления на секцию 1728 поиска. Здесь взвешенная ошибка E квадрата представляется как показано в Уравнении (32) ниже.
[0185] Секция 1728 поиска управляет кодовой книгой 1723 корректирующего масштабного коэффициента и последовательно выводит сохраненные корректирующие масштабные коэффициенты - кандидаты, и посредством обработки с замкнутым контуром находит корректирующий масштабный коэффициент - кандидат, для которого взвешенная ошибка E квадрата, выведенная из секции 1727 вычисления ошибки взвешивания, является минимальной. Секция 1728 поиска выводит индекс iopt найденного корректирующего масштабного коэффициента - кандидата в качестве параметра кодирования.
[0186] Когда вес, используемый при вычислении взвешенной ошибки E квадрата, устанавливается согласно знаку сигнала ошибки, и вид отношений, показанных в Уравнении (30), относится к этому весу, как описано выше, получается следующий вид эффекта, а именно случай, в котором сигнал ошибки d(k) является положительным, является случаем, в котором декодированное значение, сгенерированное на стороне декодирования (в терминах стороны кодирования, значение, полученное умножением первого масштабного коэффициента на корректирующий масштабный коэффициент), меньше чем второй масштабный коэффициент, который является целевым значением. Также, случай, в котором сигнал ошибки d(k) является отрицательным, является случаем, в котором декодированное значение, сгенерированное на стороне декодирования, больше чем второй масштабный коэффициент, который является целевым значением. Поэтому, посредством установки веса, когда сигнал ошибки d(k) является положительным, так чтобы быть меньше веса, когда сигнал ошибки d(k) является отрицательным, когда значения ошибки квадрата имеют тот же самый порядок, корректирующий масштабный коэффициент - кандидат, который генерирует декодированное значение, меньшее чем второй масштабный коэффициент, становится предпочтительным для выбора.
[0187] Следующий вид эффекта усовершенствования получается посредством обработки секцией 1007 кодирования улучшения диапазона. Например, когда спектр более высокого диапазона оценивается, используя спектр более низкого диапазона, как в этом варианте осуществления, более низкая скорость передачи в битах обычно может быть достигнута. Однако в то время как более низкая скорость передачи в битах может быть достигнута, о точности оцененного спектра - то есть подобии между оцененным спектром и спектром более высокого диапазона - нельзя говорить, что является достаточно высокой, как описывается выше. В этом случае, если декодированное значение масштабного коэффициента становится больше, чем целевое значение, и масштабный коэффициент пост-квантования работает в направлении усиления оцененного спектра, низкая точность оцененного спектра имеет тенденцию быть заметной человеческому уху как ухудшение качества. Наоборот, когда декодированное значение масштабного коэффициента становится меньшим, чем целевое значение, и масштабный коэффициент пост-квантования работает в направлении уменьшения этого оцененного спектра, низкая точность оцененного спектра прекращает быть заметной, и получается эффект улучшения качества аудио декодированного сигнала. Эта тенденция была также подтверждена в компьютерном моделировании.
[0188] Фиг.17 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1008 кодирования второго уровня. Секция 1008 кодирования второго уровня имеет аналогичную базовую конфигурацию таковой из секции 308 кодирования второго уровня, показанной на фиг.7, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается. Обработка отличается, в частности, между секцией 1081 вычисления разностного коэффициента MDCT секции 1008 кодирования второго уровня и секцией 381 вычисления разностного коэффициента MDCT секции 308 кодирования второго уровня, и различные ссылочные позиции указывают на это.
[0189] Секция 1081 вычисления разностного коэффициента MDCT вычисляет разностный MDCT, который должен быть целью квантования в секции кодирования второго уровня, из введенного входного коэффициента MDCT и коэффициента MDCT улучшения первого уровня. Секция 1081 вычисления разностного коэффициента MDCT отличается от секции 381 вычисления разностного коэффициента MDCT согласно Варианту осуществления 2 взятием остатка введенного коэффициента MDCT и разностного коэффициента улучшения первого уровня в качестве разностного коэффициента MDCT для диапазона, не улучшенного секцией 1007 кодирования улучшения диапазона, и принятием входного коэффициента MDCT непосредственно, а не остатка, в качестве разностного коэффициента MDCT для диапазона, улучшенного секцией 1007 кодирования улучшения диапазона.
[0190] Фиг.18 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1010 декодирования речи согласно Варианту осуществления 5 настоящего изобретения. Устройство 1010 декодирования речи имеет базовую конфигурацию, аналогичную таковой из устройства 400 декодирования речи, показанного на фиг.8, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0191] Устройство 1010 декодирования речи отличается от устройства 400 декодирования речи тем, что дополнительно снабжено секцией 1012 декодирования улучшения диапазона, и секцией 1013 преобразования во временную область. Кроме того, обработка отличается, в частности, между секцией 1011 управления, секцией 1015 декодирования второго уровня, и коммутатором 1017 из устройства 1010 декодирования речи и секцией 401 управления, секцией 405 декодирования второго уровня, и коммутатором 407 из устройства 400 декодирования речи, и различные ссылочные позиции указывают на это.
[0192] Секция 1011 управления анализирует элементы конфигурации битового потока, переданного от устройства кодирования речи 1000, и согласно этим элементам конфигурации битового потока адаптивно выводит соответствующую кодированную информацию к секции 402 декодирования первого уровня, секции 1012 декодирования улучшения диапазона, и секции 1015 декодирования второго уровня, и также выводит информацию управления на коммутатор 1017. Более конкретно, если битовый поток содержит кодированную информацию первого уровня, кодированную информацию улучшения диапазона, и кодированную информацию второго уровня, секция 1011 управления выводит кодированную информацию первого уровня к секции 402 декодирования первого уровня, выводит кодированную информацию улучшения диапазона на секцию 1012 декодирования улучшения диапазона, и выводит кодированную информацию второго уровня к секции 1015 декодирования второго уровня. Если битовый поток содержит только кодированную информацию первого уровня, и кодированную информацию улучшения диапазона, секция 1011 управления выводит кодированную информацию первого уровня к секции 402 декодирования первого уровня, и выводит кодированную информацию улучшения диапазона на секцию 1012 декодирования улучшения диапазона. Если битовый поток содержит только кодированную информацию первого уровня, секция 1011 управления выводит эту кодированную информацию первого уровня к секции 402 декодирования первого уровня. Кроме того, секция 1011 управления выводит информацию управления, которая управляет коммутатором 1017, на коммутатор 1017.
[0193] Секция 1012 декодирования улучшения диапазона выполняет обработку по улучшению диапазона, используя кодированную информацию улучшения диапазона из секции 1011 управления, и декодированный коэффициент MDCT первого уровня, введенный из секции 404 преобразования в частотную область, чтобы получить коэффициент MDCT улучшения первого уровня. Затем секция 1012 декодирования улучшения диапазона выводит полученный коэффициент MDCT улучшения первого уровня к секции 1013 преобразования во временную область и секции 1015 декодирования второго уровня. Основная внутренняя конфигурация и фактическая работа секции 1012 декодирования улучшения диапазона описаны ниже.
[0194] Секция 1013 преобразования во временную область выполняет IMDCT в отношении коэффициента MDCT улучшения первого уровня, введенного из секции 1012 декодирования улучшения диапазона, и выводит декодированный сигнал улучшения первого уровня, полученный как компонент временной области, на коммутатор 1017.
[0195] Секция 1015 декодирования второго уровня выполняет деквантование усиления, и деквантование формы, используя кодированную информацию второго уровня, введенную из секции 1011 управления, и коэффициент MDCT улучшения первого уровня, введенный из секции 1012 декодирования улучшения диапазона, чтобы получить декодированный коэффициент MDCT второго уровня. Секция 1015 декодирования второго уровня суммирует вместе полученный декодированный коэффициент MDCT второго уровня и декодированный коэффициент MDCT первого уровня, и выводит полученный результат суммирования к секции 406 преобразования во временную область в качестве суммарного коэффициента MDCT. Основная внутренняя конфигурация и фактическая работа секции 1015 декодирования второго уровня описаны ниже.
[0196] На основании информации управления, введенной из секции 1011 управления, если битовый поток, подаваемый на устройство 1010 декодирования речи, содержит кодированную информацию первого уровня, кодированную информацию улучшения диапазона, и кодированную информацию второго уровня, коммутатор 1017 выводит декодированный сигнал второго уровня, введенный из секции 406 преобразования во временную область, в качестве выходного сигнала. Если битовый поток содержит только кодированную информацию первого уровня и кодированную информацию улучшения диапазона, коммутатор 1017 выводит декодированный сигнал улучшения первого уровня, введенный из секции 1013 преобразования во временную область в качестве выходного сигнала. Если битовый поток содержит только кодированную информацию первого уровня, коммутатор 1017 выводит декодированный сигнал первого уровня, введенный из секции 402 декодирования первого уровня, в качестве выходного сигнала.
[0197] Фиг.19 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1012 декодирования улучшения диапазона. Секция 1012 декодирования улучшения диапазона содержит секцию 1121 декодирования спектра более высокого диапазона, секцию 1122 декодирования корректирующего масштабного коэффициента, умножитель 1123 и секцию 1124 связи.
[0198] Секция 1121 декодирования спектра более высокого диапазона декодирует оцененный спектр (точный спектр) диапазонов FL-FH, с использованием параметра кодирования информации оценки и первый спектр, включенных в кодированную информацию улучшения диапазона, введенных из секции 1011 управления. Полученный оцененный спектр подается на умножитель 1123.
[0199] Секция 1122 декодирования корректирующего масштабного коэффициента декодирует корректирующий масштабный коэффициент, используя параметр кодирования корректирующего масштабного коэффициента, включенный в кодированную информацию улучшения диапазона, введенную из секции 1011 управления. Более конкретно, секция 1122 декодирования корректирующего масштабного коэффициента обращается к внутренней кодовой книге корректирующего масштабного коэффициента (не показана) и выводит соответствующий корректирующий масштабный коэффициент на умножитель 1123.
[0200] Умножитель 1123 умножает оцененный спектр, выведенный из секции 1121 декодирования спектра более высокого диапазона, на корректирующий масштабный коэффициент, выведенный из секции 1122 декодирования корректирующего масштабного коэффициента, и выводит результат умножения к секции 1124 связи.
[0201] Секция 1124 связи связывает первый спектр и оцененный спектр, выведенный из умножителя 1123 в частотной области, чтобы сгенерировать широкополосный декодированный спектр диапазонов 0-FH сигналов, и выводит его к секции 1013 преобразования во временную область в качестве коэффициента MDCT улучшения первого уровня.
[0202] Посредством секции 1012 декодирования улучшения диапазона, когда входной сигнал преобразовывается в коэффициент частотной области и масштабный коэффициент квантуется при кодировании частотной области верхнего уровня, выполняется квантование масштабного коэффициента, используя взвешенный масштаб искажения таким образом, что кандидат квантования, для которого масштабный коэффициент становится маленьким, становился предпочтительным для выбора. Таким образом, кандидат квантования, посредством которого масштабный коэффициент после квантования является меньшим, чем масштабный коэффициент перед квантованием, более вероятно будет выбран. Таким образом, ухудшение перцепционного субъективного качества может быть подавлено, даже когда количество битов, выделенных для квантования масштабного коэффициента, недостаточно.
[0203] Фиг.20 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1015 декодирования второго уровня. Секция 1015 декодирования второго уровня имеет базовую конфигурацию, аналогичную таковой в секции 405 декодирования второго уровня, показанной на фиг.9, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0204] Обработка отличается, в частности, между секцией 1151 вычисления суммарного коэффициента MDCT секции 1015 декодирования второго уровня и секцией 452 вычисления суммарного коэффициента MDCT секции 405 декодирования второго уровня, и различные ссылочные позиции указывают на это.
[0205] Секция 1151 вычисления суммарного коэффициента MDCT имеет коэффициент MDCT улучшения первого уровня в качестве входных данных из секции 1012 декодирования улучшения диапазона, и декодированный коэффициент MDCT второго уровня в качестве входных данных из секции 204 деквантования усиления. Секция 1151 вычисления суммарного коэффициента MDCT суммирует вместе декодированный коэффициент MDCT первого уровня и декодированный коэффициент MDCT второго уровня, и выводит суммированный коэффициент MDCT. Для диапазона с улучшенным диапазоном значение коэффициента MDCT улучшения первого уровня суммируется как нуль в секции 1151 вычисления суммарного коэффициента MDCT. То есть для диапазона с улучшенным диапазоном, значение коэффициента MDCT улучшения второго уровня принимается как значение суммарного коэффициента MDCT.
[0206] Таким образом, согласно этому варианту осуществления, когда частотный компонент отличного диапазона делается целью квантования в каждом кадре, прогнозирующее кодирование не-временного параметра выполняется адаптивно в дополнение к применению масштабируемого кодирования, используя технологию улучшения диапазона. Следовательно, объем кодированной информации при речевом кодировании может быть уменьшен, и ошибка кодирования речевого/аудио сигнала и декодированного сигнала и ухудшение качества может быть также уменьшена.
[0207] Кроме того, так как остаток не вычисляется для компонента диапазона, улучшенного посредством способа кодирования с улучшением диапазона, энергия целевого компонента квантования не увеличивается в верхнем уровне, и эффективность квантования может быть улучшена.
[0208] В этом варианте осуществления был описан посредством примера случай, в котором применяется способ, посредством которого кодированная информация улучшения диапазона вычисляется в устройстве кодирования, используя корреляцию между компонентом низкого диапазона, декодированным секцией декодирования первого уровня, и компонентом более высокого диапазона входного сигнала, но настоящее изобретение не ограничивается этим, и также может быть подобным же образом применено к конфигурации, которая использует способ, посредством которого кодированная информация улучшения диапазона не вычисляется, и псевдогенерирование более высокого диапазона выполняется посредством шумового компонента, как с помощью AMR-WB (Adaptive MultiRate - Wideband). Альтернативно, способ выбора диапазона согласно настоящему изобретению может быть подобным образом применен к способу кодирования с улучшением диапазона, описанный в этом примере, или масштабируемому способу кодирования/декодирования, который не использует способ генерирования компонента более высокого диапазона, также используемый в AMR-WB.
[0209] Вариант осуществления 6
Фиг.21 является блок-схемой, иллюстрирующей основную конфигурацию устройства кодирования речи 1100 согласно Варианту осуществления 6 настоящего изобретения.
[0210] В этом чертеже устройство 1100 кодирования речи снабжено секцией 301 понижения дискретизации, секцией 302 кодирования первого уровня, секцией 303 декодирования первого уровня, секцией 304 повышения дискретизации, первой секцией 305 преобразования в частотную область, секцией 306 задержки, второй секцией 307 преобразования в частотную область, секцией 1108 кодирования второго уровня, и секцией 309 мультиплексирования, и имеет масштабируемую конфигурацию, содержащую два уровня. В первом уровне применяется способ кодирования CELP речи, и во втором уровне применяется способ кодирования речи, описанный в Варианте осуществления, 1 настоящего изобретения.
[0211] За исключением секции 1108 кодирования второго уровня элементы конфигурации в устройстве 1100 кодирования речи, показанном на фиг.21, идентичны элементам конфигурации устройства 300 кодирования речи, показанного на фиг.6, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0212] Фиг.22 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1108 кодирования второго уровня. Секция 1108 кодирования второго уровня главным образом содержит секцию 381 вычисления разностного коэффициента MDCT, секцию 1802 выбора диапазона, секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования, секцию 1805 квантования усиления, и секцию 106 мультиплексирования. За исключением секции 1802 выбора диапазона и секции 1805 квантования усиления элементы конфигурации в секции 1108 кодирования второго уровня идентичны элементам конфигурации секции 308 кодирования второго уровня, показанной на фиг.7, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0213] Секция 1802 выбора диапазона сначала делит коэффициент MDCT Xk на множество поддиапазонов. Здесь описание относится к случаю, в котором коэффициент MDCT Xk делится поровну на J поддиапазонов (где J - натуральное число), как пример. Затем секция 1802 выбора диапазона выбирает L поддиапазонов (где L - натуральное число) из числа J поддиапазонов, и получает М видов областей (где М является натуральным числом).
[0214] Фиг.23 является чертежом, показывающим пример конфигурации областей, полученных секцией 1802 выбора диапазона.
[0215] В этом чертеже количество поддиапазонов равно 17 (J=17), количество видов областей - восьми (M=8), и каждая область состоит из двух групп поддиапазонов (количество диапазонов, составляющих эти две группы поддиапазонов, равно трем и двум соответственно). Из этих двух групп поддиапазонов группа поддиапазонов, содержащая два диапазона, расположенных на стороне более высокого диапазона, является фиксированной по всем кадрам, индексы поддиапазона, например, равны 15 и 16. Например, область 4 состоит из поддиапазонов 6-8, 15 и 16.
[0216] Затем секция 1802 выбора диапазона вычисляет среднюю энергию E(m) каждого из М видов областей в соответствии с Уравнением (33) ниже.
[0217] В этом уравнении j' указывает индекс каждого из J поддиапазонов, и m указывает индекс каждого из М видов областей. Region(m) означает коллекцию индексов L поддиапазонов, составляющих область m, и B(j') указывает минимальное значение среди индексов множества коэффициентов MDCT, составляющих поддиапазон j'. W(j) указывает ширину полосы поддиапазона j', и в следующем описании случай, в котором значения ширины полосы каждого из J поддиапазонов равны, то есть случай, в котором W(j') является константой, описан в качестве примера.
[0218] Затем, когда выбирается область, для которой средняя энергия E(m) является максимумом - например, область m_max, секция 1802 выбора диапазона выбирает диапазон, состоящий из j'∈Region(m_max) поддиапазонов в качестве целевого диапазона квантования, и выводит индекс m_max, указывающий эту область как информацию диапазона, на секцию 103 квантования формы, секцию 104 определения выполнения/невыполнения прогнозирующего кодирования, и секцию 106 мультиплексирования. Секция 1802 выбора диапазона также выводит разностный коэффициент MDCT Xk на секцию 103 квантования формы.
[0219] Секция 1805 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование должно быть выполнено, секция 1805 квантования усиления выполняет квантование посредством предсказания значения усиления текущего кадра, используя значение Ct j усиления квантования прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 1805 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, и находит индекс вектора кода усиления, для которого результатом Уравнения (34) ниже является минимум.
Уравнение 34
[0220] В этом уравнении GCi k указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления, и k указывает индекс элемента вектора кода усиления. Например, если количество поддиапазонов, составляющих область, равно пяти (L=5), k имеет значение от 0 до 4. Здесь значения усиления поддиапазонов выбранной области связаны так, чтобы индексы поддиапазонов были в порядке возрастания, последующие значения усиления обрабатывается как один L-мерный вектор кода усиления, и выполняется квантование вектора. Поэтому, чтобы дать описание, используя фиг.23, в случае области 4, значения усиления индексов 6, 7, 8, 15 и 16 поддиапазона связываются и обрабатываются как 5-мерный вектор кода усиления. Кроме того, Ct j' указывает значение усиления t кадров назад во времени, так что, когда t=1, например, Ct j' указывает значение усиления одного кадра назад во времени, и α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 1805 квантования усиления.
[0221] Секция 1805 квантования усиления выдает индекс G_min вектора кода усиления, для которого результатом Уравнения (34) выше является минимум, к секции 106 мультиплексирования в качестве кодированной информации усиления. Если нет значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 1805 квантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (34) выше.
[0222] С другой стороны, если результат определения, введенный из секции 104 определения выполнения/невыполнения прогнозирующего кодирования, указывает, что прогнозирующее кодирование не должно быть выполнено, секция 1805 квантования усиления непосредственно квантует идеальное значения усиления Gain_i(j'), введенное из секции 103 квантования формы, в соответствии с Уравнением (35) ниже. Здесь секция 1805 квантования усиления обрабатывает идеальное значение усиления как L-мерный вектор, и выполняет квантование вектора.
[0223] Здесь индекс кодовой книги, который делает результат Уравнения (35) выше минимума, обозначается G_min.
[0224] Секция 1805 квантования усиления выводит G_min к секции 106 мультиплексирования в качестве кодированной информации усиления. Секция 1805 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (36) ниже с использованием кодированной информации усиления G_min и значения усиления квантования Ct j', полученного в текущем кадре. То есть в Уравнении (36) значение Cl j' обновляется индексом j элемента GCG-min j вектором кода усиления и j' удовлетворяет условию j'∈Region(m_max) соответственно, ассоциированном в порядке возрастания.
[0225] Фиг.24 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1200 декодирования речи согласно этому варианту осуществления.
[0226] В этом чертеже устройство 1200 декодирования речи снабжено секцией 401 управления, секцией 402 декодирования первого уровня, секцией 403 повышения дискретизации, секцией 404 преобразования в частотную область, секцией 1205 декодирования второго уровня, секцией 406 преобразования во временную область и коммутатором 407.
[0227] За исключением секции 1205 декодирования второго уровня элементы конфигурации в устройстве1200 декодирования речи, показанном на фиг.24, идентичны элементам конфигурации устройства 400 декодирования речи, показанного на фиг.8, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0228] Фиг.25 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1205 декодирования второго уровня. Секция 1205 декодирования второго уровня главным образом содержит секцию 451 демультиплексирования, секцию 202 деквантования формы, секцию 203 определения выполнения/невыполнения прогнозирующего декодирования, секцию 2504 деквантования усиления и секцию 452 вычисления суммарного коэффициента MDCT. За исключением секции 2504 деквантования усиления, элементы конфигурации в секции 1205 декодирования второго уровня идентичны элементам конфигурации секции 405 декодирования второго уровня, показанной на фиг.9, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0229] Секция 2504 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре. Если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования указывает, что прогнозирующее декодирование должно быть выполнено, секция 2504 деквантования усиления выполняет деквантование посредством предсказания значения усиления текущего кадра, используя значение усиления прошлого кадра, сохраненное во внутреннем буфере. Более конкретно, секция 2504 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления (GCG-min k, где k указывает индекс элемента), что и секция 105 квантования усиления устройства 100 кодирования речи, и получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (37) ниже. Здесь C''t j' указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C''t j' указывает значение усиления одного кадра назад во времени. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 2504 деквантования усиления. Секция 2504 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора. То есть в Уравнении (37), значение Gain_q'(j') вычисляется с индексом k элемента GCG-min k вектора кода усиления и j' удовлетворяет условию j'Region(m_max) соответственно ассоциированном в порядке возрастания.
[0230] Если нет никакого значения усиления поддиапазона, соответствующего прошлому кадру во внутреннем буфере, секция 2504 деквантования усиления заменяет значением усиления ближайшего поддиапазона в частоте во внутреннем буфере в Уравнении (37) выше.
[0231] С другой стороны, если результат определения, введенный из секции 203 определения выполнения/невыполнения прогнозирующего декодирования, указывает, что прогнозирующее декодирование не должно быть выполнено, секция 2504 деквантования усиления выполняет деквантование значения усиления в соответствии с Уравнением (38) ниже с использованием вышеописанной кодовой книги усиления. Здесь значение усиления обрабатывается как L-мерный вектор, и выполняется деквантование вектора. То есть когда прогнозирующее декодирование не выполняется, секция 2504 деквантования усиления берет вектор GCk G_min кода усиления, соответствующий кодированной информации G_min усиления, непосредственно в качестве значения усиления. В Уравнении (38) k и j' соответственно ассоциируются в порядке возрастания таким же образом как в Уравнении (37).
[0232] Затем секция 2504 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (39) ниже с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (40) ниже. В Уравнении (40) значение C''1 j обновляется с j деквантованного значения усиления Gain_q'(j), и j', удовлетворяющим условию j'Region(m_max) соответственно, ассоциированном в порядке возрастания. Здесь вычисленный декодированный коэффициент MDCT обозначается X''k. Кроме того, при деквантовании коэффициента MDCT, если k присутствует в B(j')-B(j'+1)-1, значение усиления принимает значение Gain_q' (j')
[0233] Секция 2504 деквантования усиления выводит декодированный коэффициент MDCT X"k, вычисленный в соответствии с Уравнением (39) выше, к секции 452 вычисления суммарного коэффициента MDCT.
[0234] Таким образом, согласно этому варианту осуществления, по сравнению с выбором одной области, составленной из смежных поддиапазонов из числа всех диапазонов, в качестве целевого диапазона квантования, множество диапазонов, для которых желательно улучшить качество аудио, устанавливается заранее по широкому диапазону, и непоследовательное множество диапазонов, охватывающих широкий диапазон, выбирается в качестве целевых диапазонов квантования. Следовательно, качество и низкого диапазона и высокого диапазона могут быть улучшены одновременно.
[0235] В этом варианте осуществления причиной для фиксации всегда поддиапазонов, включенных в целевой диапазон квантования, на стороне высокого диапазона, как показано на фиг.23, является то, что искажения кодирования является все еще большим для высокого диапазона в первом уровне масштабируемого кодека. Поэтому качество аудио улучшается также устойчиво посредством выбора высокого диапазона, который не был кодирован с очень высокой точностью первым уровнем в качестве цели квантования, в дополнение к выбору низкого или среднего диапазона, имеющего перцепционное значение для выбора в качестве цели квантования во втором уровне.
[0236] В этом варианте осуществления был описан посредством примера случай, в котором диапазон, который становится целью квантования высокого диапазона, является фиксированным, посредством включения одинаковых поддиапазонов более высокого поддиапазона (более конкретно, поддиапазонов с индексами 15 и 16) по всем кадрам, но настоящее изобретение не ограничивается этим, и диапазон, который становится целью квантования высокого диапазона, также может быть выбран из множества целевых кандидатов диапазона квантования для поддиапазона высокого диапазона таким же образом, как для поддиапазона низкого диапазона. В таком случае выбор может быть выполнен после умножения на тем больший вес, чем выше область поддиапазона. Также возможно для диапазонов, которые становятся кандидатами на адаптивное изменение согласно частоте дискретизации входного сигнала, скорости кодирования в битах, и спектральных характеристик декодированного сигнала первого уровня, или спектральных характеристик дифференциального сигнала для входного сигнала и декодированного сигнала первого уровня, или подобного. Например, возможный способ заключается в том, чтобы дать приоритеты в качестве кандидата целевого диапазона квантования, части, где распределение энергии спектра (разностный коэффициент MDCT) дифференциального сигнала для входного сигнала и первого декодированного сигнала уровня является высоким.
[0237] В этом варианте осуществления был описан посредством примера случай, в котором группа поддиапазонов на стороне высокого диапазона, составляющая область, является фиксированной, и должно ли быть применено прогнозирующее кодирование к секции квантования усиления, определяется согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного в прошлом кадре, но настоящее изобретение не ограничивается этим, и прогнозирующее кодирование может также всегда применяться к усилению группы поддиапазонов со стороны высокого диапазона, составляющих область, с определением того, должно ли прогнозирующее кодирование быть выполнено, будучи выполненным только для группы поддиапазонов со стороны низкого диапазона. В этом случае количество поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного в прошлом кадре, учитывается только для группы поддиапазонов со стороны низкого диапазона. То есть в этом случае вектор квантования квантуется после деления на часть, для которой выполняется прогнозирующее кодирование, и часть, для которой не выполняется прогнозирующее кодирование. Таким образом, так как определение того, необходимо ли прогнозирующее кодирование для фиксированной группы поддиапазонов со стороны высокого диапазона, составляющих область, не выполняется, и прогнозирующее кодирование всегда выполняется, усиление может быть квантовано более эффективно.
[0238] В этом варианте осуществления был описан посредством примера случай, в котором переключение выполняется между применением и не применением прогнозирующего кодирования в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, но настоящее изобретение не ограничивается этим, и многие поддиапазоны, общие для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени, также может использоваться. В этом случае, даже если количество поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, меньше или равно заранее определенному значению, прогнозирующее кодирование может быть применено в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени.
[0239] В этом варианте осуществления был описан посредством примера случай, в котором область состоит из группы поддиапазонов со стороны низкого диапазона и группы поддиапазонов со стороны высокого диапазона, но настоящее изобретение не ограничивается этим, и, например, группа поддиапазонов также может быть установлена в среднем диапазоне, и область может быть составлена из трех или более групп поддиапазонов. Количество групп поддиапазонов, составляющих область, также может быть изменено адаптивно согласно частоте дискретизации входного сигнала, скорости кодирования в битах, и спектральным характеристикам декодированного сигнала первого уровня, или спектральным характеристикам дифференциального сигнала для входного сигнала и декодированного сигнала первого уровня, или подобное.
[0240] В этом варианте осуществления был описан посредством примера случай, в котором группа поддиапазонов со стороны высокого диапазона, составляющая область, фиксируется по всем кадрам, но настоящее изобретение не ограничивается этим, и группа поддиапазонов со стороны низкого диапазона, составляющая область, также может быть фиксирована по всем кадрам. Кроме того, и группы поддиапазонов со стороны высокого диапазона и со стороны низкого диапазона, составляющие область, могут также быть фиксированы по всем кадрам, или группа поддиапазонов группа поддиапазонов и со стороны высокого диапазона и со стороны низкого диапазона, могут быть найдены и выбраны на покадровой основе. Кроме того, различные вышеописанные способы могут быть применены к трем или более группам поддиапазонов среди групп поддиапазонов, составляющих область.
[0241] В этом варианте осуществления был описан посредством примера случай, в котором из поддиапазонов, составляющих область, количество поддиапазонов, составляющих группу поддиапазонов со стороны высокого диапазона, меньше, чем количество поддиапазонов, составляющих группу поддиапазонов со стороны низкого диапазона (количество поддиапазонов группы поддиапазонов со стороны высокого диапазона равно двум, и поддиапазонов группы поддиапазонов со стороны низкого диапазона равно трем), но настоящее изобретение не ограничивается этим, и количество поддиапазонов, составляющих группу поддиапазонов со стороны высокого диапазона, также может быть равным или большим, чем количество поддиапазонов, составляющих группу поддиапазонов со стороны низкого диапазона. Количество поддиапазонов, составляющих каждую группу поддиапазонов, также может быть изменено адаптивно согласно частоте дискретизации входного сигнала, скорости кодирования в битах, спектральным характеристикам декодированного сигнала первого уровня, спектральным характеристикам дифференциального сигнала для входного сигнала и декодированного сигнала первого уровня, или подобных.
[0242] В этом варианте осуществления был описан посредством примера случай, в котором кодирование с использованием способа кодирования CELP выполняется секцией 302 кодирования первого уровня, но настоящее изобретение не ограничивается этим, и кодирование с использованием способа кодирования, отличного от CELP (такое как кодирование преобразования, например) также может быть выполнено.
[0243] Вариант осуществления 7
Фиг.26 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1300 кодирования речи согласно Варианту осуществления 7 настоящего изобретения.
[0244] В этом чертеже устройство 1300 кодирования речи снабжено секцией 301 понижения дискретизации, секцией 302 кодирования первого уровня, секцией 303 декодирования первого уровня, секцией 304 повышения дискретизации, первой секцией 305 преобразования в частотную область, секцией 306 задержки, второй секцией 307 преобразования в частотную область, секцией 1308 кодирования второго уровня, и секцией 309 мультиплексирования, и имеет масштабируемую конфигурацию, содержащую два уровня. В первом уровне применяется способ кодирования CELP речи, и во втором уровне применяется способ кодирования речи, описанный в Варианте осуществления 1 настоящего изобретения.
[0245] За исключением секции 1308 кодирования второго уровня, элементы конфигурации в устройстве 1300 кодирования речи, показанном на фиг.26, идентичны элементам конфигурации устройства 300 кодирования речи, показанного на фиг.6, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0246] Фиг.27 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1308 кодирования второго уровня. Секция 1308 кодирования второго уровня главным образом содержит секцию 381 вычисления разностного коэффициента MDCT, секцию 102 выбора диапазона, секцию 103 квантования формы, секцию 3804 определения выполнения/не выполнения прогнозирующего кодирования, секцию 3805 квантования усиления, и секцию 106 мультиплексирования. За исключением секции 3804 определения выполнения/не выполнения прогнозирующего кодирования и секции 3805 квантования усиления, элементы конфигурации в секции 1308 кодирования второго уровня идентичны элементам конфигурации секции 308 кодирования второго уровня, показанной на фиг.7, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0247] Секция 3804 определения выполнения/не выполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию m_max диапазона, введенную из секции 102 выбора диапазона в прошлом кадре. Здесь описан посредством примера случай, в котором секция 3804 определения выполнения/не выполнения прогнозирующего кодирования имеет внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров. Секция 3804 определения выполнения/не выполнения прогнозирующего кодирования сначала обнаруживает поддиапазон, общий для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в прошлом кадре, и информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре. Из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 102 выбора диапазона, секция 3804 определения выполнения/не выполнения прогнозирующего кодирования определяет, что прогнозирующее кодирование должно быть применено, и устанавливает Pred_Flag(j)=ON для поддиапазона, выбранного в качестве цели квантования один кадр назад во времени. С другой стороны, из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 102 выбора диапазона, секция 3804 определения выполнения/не выполнения прогнозирующего кодирования определяет, что прогнозирующее кодирование не должно быть применено, и устанавливает Pred_Flag(j) =OFF для поддиапазона, не выбранного в качестве цели квантования один кадр назад во времени. Здесь, Pred_Flag - флаг, указывающий результат определения выполнения/не выполнения прогнозирующего кодирования для каждого поддиапазона, со значением ON, означающем, что прогнозирующее кодирование должно быть применено к значению усиления поддиапазона, и значением OFF, означающим, что прогнозирующее кодирование не должно быть применено к значению усиления поддиапазона. Секция 3804 определения выполнения/не выполнения прогнозирующего кодирования выводит результат определения для каждого поддиапазона на секцию 3805 квантования. Затем секция 3804 определения выполнения/не выполнения прогнозирующего кодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 102 выбора диапазона в текущем кадре.
[0248] Секция 3805 квантования усиления имеет внутренний буфер, который хранит значение усиления квантования, полученное в прошлом кадре. Секция 3805 квантования усиления переключает между выполнением/не выполнением применения прогнозирующего кодирования при квантовании значения усиления текущего кадра согласно результату определения, введенному из секции 3804 определения выполнения/не выполнения прогнозирующего кодирования. Например, если прогнозирующее кодирование должно быть выполнено, секция 3805 квантования усиления ищет внутреннюю кодовую книгу усиления, состоящую из количества GQ векторов кода усиления для каждого из L поддиапазонов, выполняет вычисление расстояния, соответствующее результату определения, введенному из секции 3804 определения выполнения/не выполнения прогнозирующего кодирования, и находит индекс вектора кода усиления, для которого результатом Уравнения (41) ниже является минимум. В Уравнении (41) вычисление одного или другого расстояния выполняется в соответствии с Pred_Flag(j) для всех j', удовлетворяющих j∈Region(m_max), и находится индекс вектора усиления, для которого общая стоимость ошибки является минимальной.
Уравнение 41
[0249] В этом уравнении GCi k указывает вектор кода усиления, составляющий кодовую книгу усиления, i указывает индекс вектора кода усиления, и k указывает индекс элемента вектора кода усиления. Например, если количество поддиапазонов, составляющих область, равно пяти (L=5), k имеет значение от 0 до 4. Здесь Ct j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, Ct j указывает значение усиления одного кадра назад во времени. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 3805 квантования усиления. Секция 3805 квантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет квантование вектора.
[0250] Секция 3805 квантования усиления выводит индекс G_min вектора кода усиления, для которого результатом Уравнения (41) выше является минимум, к секции 106 мультиплексирования в качестве кодированной информации усиления.
[0251] Секция 3805 квантования усиления выводит G_min к секции 106 мультиплексирования в качестве кодированной информации усиления. Секция 3805 квантования усиления также обновляет внутренний буфер в соответствии с Уравнением (42) ниже с использованием кодированной информации усиления, G_min, и значения Ct j квантования усиления, полученного в текущем кадре. В Уравнении (42) значение C1 j' обновляется индексом j элемента GCG-min j вектора кода усиления и j' удовлетворяет условию j'∈ Region(m_max), соответственно ассоциированному в порядке возрастания.
[0252] Фиг.28 является блок-схемой, иллюстрирующей основную конфигурацию устройства 1400 декодирования речи согласно этому варианту осуществления.
[0253] В этом чертеже устройство 1400 декодирования речи снабжено секцией 401 управления, секцией 402 декодирования первого уровня, секцией 403 повышения дискретизации, секцией 404 преобразования в частотную область, секцией 1405 декодирования второго уровня, секцией 406 преобразования во временную область, и коммутатором 407.
[0254] За исключением секции 1405 декодирования второго уровня, элементы конфигурации в устройстве 1400 декодирования речи, показанном на фиг.28, идентичны элементам конфигурации устройства 400 декодирования речи, показанного на фиг.8, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0255] Фиг.29 является блок-схемой, иллюстрирующей основную конфигурацию внутренней части секции 1405 декодирования второго уровня. Секция 1405 декодирования второго уровня главным образом содержит секцию 451 демультиплексирования, секцию 202 деквантования формы, секцию 4503 определения выполнения/не выполнения прогнозирующего декодирования, секцию 4504 деквантования усиления и секцию 452 вычисления суммарного коэффициента MDCT. За исключением секции 4503 определения выполнения/не выполнения прогнозирующего декодирования и секции 4504 деквантования усиления, элементы конфигурации в секции 1405 декодирования второго уровня, показанной на фиг.29, идентичны элементам конфигурации секции 405 декодирования второго уровня, показанной на фиг.9, и поэтому идентичным элементам конфигурации назначены те же самые ссылочные позиции, и их описание здесь опускается.
[0256] Секция 4503 определения выполнения/не выполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max, введенную из секции 451 демультиплексирования в прошлом кадре. Здесь посредством примера описан случай, в котором секция 4503 определения выполнения/не выполнения прогнозирующего декодирования имеет внутренний буфер, который хранит информацию диапазона m_max для прошлых трех кадров. Секция 4503 определения выполнения/не выполнения прогнозирующего декодирования сначала обнаруживает поддиапазон, общий для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра, используя информацию диапазона m_max, введенную из секции 451 демультиплексирования в прошлом кадре, и информацию диапазона m_max, введенную из секции 451 демультиплексирования в текущем кадре. Из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 451 демультиплексирования, секция 4503 определения выполнения/не выполнения прогнозирующего декодирования определяет, что прогнозирующее декодирование должно быть применено, и устанавливает Pred_Flag(j) =ON для поддиапазона, выбранного в качестве цели квантования один кадр назад во времени. С другой стороны, из L поддиапазонов, указанных информацией диапазона m_max, введенной из секции 451 демультиплексирования, секция 4503 определения выполнения/не выполнения прогнозирующего декодирования определяет, что прогнозирующее декодирование не должно быть применено, и устанавливает Pred_Flag(j)=OFF для поддиапазона, не выбранного в качестве цели квантования один кадр назад во времени. Здесь Pred_Flag - флаг, указывающий результат определения применения/не применения прогнозирующего декодирования для каждого поддиапазона, с значением ON, указывающим, что прогнозирующее декодирование должно быть применено к значению усиления поддиапазона, и значением OFF, указывающим, что прогнозирующее декодирование не должно быть применено к значению усиления поддиапазона. Затем секция 4503 определения выполнения/не выполнения прогнозирующего декодирования выводит результат определения для каждого поддиапазона на секцию 4504 деквантования. Затем секция 4503 определения выполнения/не выполнения прогнозирующего декодирования обновляет внутренний буфер, хранящий информацию диапазона, используя информацию диапазона m_max, введенную из секции 451 демультиплексирования в текущем кадре.
[0257] Секция 4504 деквантования усиления имеет внутренний буфер, который хранит значение усиления, полученное в прошлом кадре, и переключается между выполнением/не выполнением применения прогнозирующего декодирования при декодировании значения усиления текущего кадра согласно результату определения, введенному из секции 4503 определения выполнения/не выполнения прогнозирующего декодирования. Секция 4504 деквантования усиления имеет тот же самый вид внутренней кодовой книги усиления как в секции 105 квантования усиления устройства 100 кодирования речи, и при выполнении прогнозирующего декодирования, например, получает значение усиления Gain_q' посредством выполнения деквантования усиления в соответствии с Уравнением (43) ниже. Здесь C”t j указывает значение усиления t кадров назад во времени, так что, когда t=1, например, C”t j указывает значение усиления одного кадра ранее. Кроме того, α есть линейный коэффициент предсказания 4-го порядка, сохраненный в секции 4504 деквантования усиления. Секция 4504 деквантования усиления обрабатывает L поддиапазонов в пределах одной области как L-мерный вектор, и выполняет деквантование вектора. В Уравнении (43) значение Gain_q'(j') вычисляется с индексом k элемента GCG_min k вектора кода усиления и j', удовлетворяющим условию j'Region(m_max) соответственно ассоциированном в порядке возрастания.
Уравнение 43
[0258] Затем секция 4504 деквантования усиления вычисляет декодированный коэффициент MDCT в соответствии с Уравнением (44) ниже с использованием значения усиления, полученного деквантованием текущего кадра, и значения формы, введенного из секции 202 деквантования формы, и обновляет внутренний буфер в соответствии с Уравнением (45) ниже. В Уравнении (45) значение C''1 j, обновляется посредством j деквантованного значения усиления Gain_q'(j) и j', удовлетворяющего j'∈Region(m_max), соответственно ассоциированного в порядке возрастания. Здесь вычисленный декодированный коэффициент MDCT обозначается X''k. Кроме того, в деквантовании коэффициента MDCT, если k присутствует в B(j')-B(j'+1)-1, значение усиления принимает значение Gain_q'(j').
Уравнение 44
[0259] Секция 4504 деквантования усиления выводит декодированный коэффициент MDCT X''k, вычисленный в соответствии с Уравнением (44) выше, на секцию 452 вычисления суммарного коэффициента MDCT.
[0260] Таким образом, согласно этому варианту осуществления, во время квантования усиления целевого диапазона квантования, выбранного в каждом кадре, обнаруживается, был ли каждый поддиапазон, включенный в целевой диапазон квантования, квантован в прошлом кадре. Затем выполняется квантование вектора с прогнозирующим кодированием, применяемым к поддиапазону, квантованному в прошлом кадре, и с прогнозирующим кодированием, не применяемым к поддиапазону, не квантованному в прошлом кадре. Посредством этого кодирование параметра частотной области может быть выполнено более эффективно, чем со способом, посредством которого переключение применения/не применения прогнозирующего кодирования выполняется для всего вектора.
[0261] В этом варианте осуществления был описан способ, посредством которого переключение выполняется между применением и не применением прогнозирующего кодирования в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, но настоящее изобретение не ограничивается этим, и могут также использоваться многие поддиапазоны, общие для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени. В этом случае, даже если количество поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного один кадр назад во времени, меньше или равно заранее определенному значению, прогнозирующее кодирование может быть применено в секции квантования усиления согласно количеству поддиапазонов, общих для целевого диапазона квантования, выбранного в текущем кадре, и целевого диапазона квантования, выбранного два или более кадров назад во времени.
[0262] Также возможно способ квантования, описанный в этом варианте осуществления, объединить с способом выбора целевого диапазона квантования, описанным в Варианте осуществления 6. Ниже описан случай, в котором, например, область, которая является целевым диапазоном квантования, состоит из группы поддиапазонов со стороны низкого диапазона, и группы поддиапазонов со стороны высокого диапазона, причем группа поддиапазонов со стороны низкого диапазона фиксирована по всем кадрам, и квантуется вектор, в котором группа поддиапазонов со стороны низкого диапазона и группа поддиапазонов со стороны высокого диапазона делаются последовательными. В этом случае в векторе усиления целевого диапазона квантования квантование вектора выполняется с прогнозирующим кодированием, всегда применяемым для элемента, указывающего усиление группы поддиапазонов со стороны высокого диапазона, и прогнозирующее кодирование не применяется для элемента, указывающего усиление группы поддиапазонов со стороны низкого диапазона. Посредством этого квантование вектора усиления может быть выполнено более эффективно чем тогда, когда выполняется переключение применения/неприменения прогнозирующего кодирования для всего вектора. В это время, в группе поддиапазонов со стороны низкого диапазона также эффективен способ, посредством которого квантование вектора выполняется с прогнозирующим кодированием, применяемым к поддиапазону, квантованному в прошлом кадре, и с прогнозирующим кодированием, не применяемым к поддиапазону, не квантованному в прошлом кадре. Кроме того, для элемента, указывающего усиление группы поддиапазонов со стороны низкого диапазона, квантование выполняется посредством переключения между применением и не применением прогнозирующего кодирования, используя поддиапазоны, составляющие целевой диапазон квантования, выбранный в прошлом кадре во времени, как описано в Варианте осуществления 1. Посредством этого, квантование вектора усиления может быть выполнено более эффективно. Также возможно применить настоящее изобретение к конфигурации, которая объединяет вышеописанные конфигурации.
[0263] Нижеследующее завершает описание вариантов осуществления настоящего изобретения.
[0264] В вышеупомянутых вариантах осуществления были описаны посредством примера случаи, в которых способ выбора целевого диапазона квантования должен выбрать область с самой высокой энергией во всех диапазонах, но настоящее изобретение не ограничивается этим, и некоторый диапазон также может быть предварительно выбран, после которого целевой диапазон квантования окончательно выбирается в предварительно выбранном диапазоне. В таком случае предварительно выбранный диапазон может быть определен согласно частоте дискретизации входного сигнала, кодирования скорости передачи в битах, или подобному. Например, один способ должен предварительно выбрать низкий диапазон, когда частота дискретизации является низкой.
[0265] В вышеупомянутых вариантах осуществления используется MDCT в качестве способа кодирования преобразования, и поэтому "коэффициент MDCT", используемый в вышеупомянутых вариантах осуществления, по существу, означают "спектр". Поэтому выражение "коэффициент MDCT" может быть заменено на "спектр".
[0266] В вышеупомянутых вариантах осуществления показаны примеры, в которых устройства 200, 200a, 400, 600, 800, 1010, 1200 и 1400 декодирования речи принимают в качестве ввода и обрабатывает кодированные данные, переданные от устройств 100, 100а, 300, 500, 700, 1000, 1100 и 1300 кодирования речи соответственно, но кодированные данные, выведенные устройством кодирования отличной конфигурации, способным генерировать кодированные данные, имеющие аналогичную конфигурацию, также могут быть введены и обработаны.
[0267] Устройство кодирования, устройство декодирования и их способы согласно настоящему изобретению не ограничиваются вышеописанными вариантами осуществления, и различные изменения и модификации могут быть возможны, не отступая от объема настоящего изобретения. Например, возможно объединить варианты осуществления, которые должны быть реализованы, соответственно.
[0268] Возможно установить устройство кодирования и устройство декодирования согласно настоящему изобретению в устройстве терминала связи и устройстве базовой станции в мобильной системе связи, таким образом обеспечивая устройство терминала связи, устройство базовой станции, и мобильную систему связи, которые обеспечивают тот же вид операционных эффектов, как описано выше.
[0269] Случай был здесь описан посредством примера, в котором настоящее изобретение конфигурируется как аппаратное обеспечение, но настоящее изобретение также возможно реализовать в виде программного обеспечения. Например, тот же самый вид функций, что в устройстве кодирования и устройстве декодирования согласно настоящему изобретению, может быть реализован посредством записи алгоритма способа кодирования и способа декодирования согласно настоящему изобретению на языке программирования, сохранения этой программы в памяти, и выполнения его средством обработки информации.
[0270] Функциональные блоки, используемые в описаниях вышеупомянутых вариантов осуществления, обычно реализуются как БИС, которые являются интегральными схемами. Они могут быть реализованы отдельно как отдельные микросхемы, или отдельная микросхема может включать в себя некоторые или все из них.
[0271] Здесь термин БИС использован, но термины ИС, системная БИС, сверх-БИС, ультра-БИС, и т.д. также может использоваться согласно различиям в степени интеграции.
[0272] Способ осуществления интегральной схемотехники не ограничивается БИС и реализация посредством специализированной схемы или универсального процессора может также использоваться. FPGA (программируемая пользователем вентильная матрица), для которой возможно программирование после изготовления БИС, или реконфигурируемый процессор, допускающий реконфигурацию соединений ячеек схемы и параметров в пределах БИС, могут также использоваться.
[0273] В случае введения технологии реализации интегральных схем, посредством которой БИС заменяется отличной более современной технологией или полученной из полупроводниковой технологии, интеграция функциональных блоков конечно может быть выполнена, используя эту технологию. Применение биотехнологии или подобного также является возможным.
[0274] Раскрытия заявки на патент Японии №2006-336270, поданной 13 декабря 2006, заявки на патент Японии №2007-053499, поданной 2 марта 2007, заявки на патент Японии №2007-132078, поданной 17 мая 2007, и заявки на патент Японии №2007-185078, поданной 13 июля 2007, включая описание, чертежи и рефераты, включаются здесь по ссылке в их полноте.
Промышленная применимость
[0275] Устройство кодирования и т.д. согласно настоящему изобретению является подходящим для использования в аппаратуре терминала связи, устройстве базовой станции, или подобном, в мобильной системе связи.
Изобретение относится к устройствам и способам кодирования и декодирования, используемым в системе связи, в которой сообщение кодируется и передается и принимается и декодируется. Техническим результатом является уменьшение объема кодированной информации, ошибки кодирования аудиосигнала, и улучшение качества декодированного сигнала аудио. Указанный результат достигается тем, что устройство кодирования содержит секцию преобразования входного речевого/аудио сигнала в частотную область для получения параметра частотной области; секцию выбора в качестве целевого диапазона квантования поддиапазона из множества поддиапазонов, причем множество поддиапазонов получено посредством деления параметра частотной области; секцию квантования формы параметра частотной области в целевом диапазоне квантования; секцию квантования коэффициента усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию коэффициента усиления; и секцию определения, должно ли быть выполнено прогнозирующее кодирование, основанное на количестве первых поддиапазонов целевого диапазона квантования, которые являются общими для вторых поддиапазонов целевого диапазона квантования, выбранных в прошлом. 4 н. и 16 з.п. ф-лы, 29 ил.
1. Устройство кодирования, содержащее:
секцию преобразования, которая преобразовывает входной речевой/аудиосигнал в частотную область, чтобы получить параметр частотной области;
секцию выбора, которая выбирает в качестве целевого диапазона квантования по меньшей мере один поддиапазон из множества поддиапазонов, причем множество поддиапазонов получено посредством деления параметра частотной области, и генерирует информацию диапазона, указывающую целевой диапазон квантования;
секцию квантования формы, которая квантует форму параметра частотной области в целевом диапазоне квантования;
секцию квантования коэффициента усиления, которая кодирует коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию коэффициента усиления; и
секцию определения, которая определяет, должно ли быть выполнено прогнозирующее кодирование, основанное на количестве первых поддиапазонов целевого диапазона квантования, которые являются общими для вторых поддиапазонов целевого диапазона квантования, выбранных в прошлом;
при этом секция квантования коэффициента усиления получает кодированную информацию коэффициента усиления посредством выполнения прогнозирующего кодирования в отношении коэффициента усиления параметра частотной области в целевом диапазоне квантования, используя прошлую кодированную информацию коэффициента усиления, когда секция определения определяет, что прогнозирующее кодирование должно быть выполнено, и получает кодированную информацию коэффициента усиления посредством прямого квантования коэффициента усиления параметра частотной области в целевом диапазоне квантования, когда секция определения определяет, что прогнозирующее кодирование не должно быть выполнено.
2. Устройство кодирования по п.1, дополнительно содержащее секцию определения, которая определяет, что прогнозирующее кодирование должно быть выполнено, когда количество поддиапазонов, общих для целевого диапазона квантования и целевого диапазона квантования, выбранного в прошлом, больше или равно заранее определенному значению, и определяет, что прогнозирующее кодирование не должно быть выполнено, когда количество общих поддиапазонов меньше, чем заранее определенное значение.
3. Устройство кодирования по п.1, в котором секция квантования коэффициента усиления получает кодированную информацию коэффициента усиления посредством выполнения квантования вектора коэффициента усиления параметра частотной области.
4. Устройство кодирования по п.1, в котором секция квантования коэффициента усиления получает кодированную информацию коэффициента усиления посредством выполнения прогнозирующего квантования коэффициента усиления, используя коэффициент усиления параметра частотной области в прошлом кадре.
5. Устройство кодирования по п.1, в котором секция выбора выбирает область, для которой энергия является самой высокой среди областей, составленных из множества поддиапазонов, в качестве целевого диапазона квантования.
6. Устройство кодирования по п.1, в котором секция выбора, когда существуют диапазоны-кандидаты, для которых количество поддиапазонов, общих для целевого диапазона квантования, выбранного в прошлом, больше или равно заранее определенному значению, и энергия больше или равна заранее определенному значению, выбирает диапазон, для которого энергия является самой высокой среди диапазонов-кандидатов, в качестве целевого диапазона квантования, и когда диапазоны-кандидаты не существуют, выбирает диапазон, для которого энергия является самой высокой во всех диапазонах частотной области, в качестве целевого диапазона квантования.
7. Устройство кодирования по п.1, в котором секция выбора выбирает диапазон, ближайший к целевому диапазону квантования, выбранному в прошлом среди диапазонов, для которых энергия больше или равна заранее определенному значению, в качестве целевого диапазона квантования.
8. Устройство кодирования по п.1, в котором секция выбора выбирает целевой диапазон квантования после умножения на весовой коэффициент, который тем больше, чем ближе поддиапазон к низкой стороне диапазона.
9. Устройство кодирования по п.1, в котором секция выбора выбирает поддиапазон, фиксированный с низкой стороны диапазона, в качестве целевого диапазона квантования.
10. Устройство кодирования по п.1, в котором секция выбора выбирает целевой диапазон квантования после умножения на весовой коэффициент, который является тем больше, чем выше частота выбора поддиапазона в прошлом.
11. Устройство кодирования по п.1, дополнительно содержащее секцию интерполяции, которая выполняет интерполяцию коэффициента усиления параметра частотной области в поддиапазоне, не квантованном в прошлом среди поддиапазонов, указанных информацией диапазона, используя кодированную информацию прошлого коэффициента усиления, чтобы получить значение интерполяции,
причем секция квантования коэффициента усиления также использует значение интерполяции при выполнении прогнозирующего кодирования.
12. Устройство кодирования по п.1, дополнительно содержащее секцию определения, которая определяет коэффициент предсказания таким образом, что вес значения коэффициента усиления прошлого кадра тем больше, чем больше поддиапазон, общий для целевого диапазона квантования прошлого кадра и целевого диапазона квантования текущего кадра,
причем секция квантования коэффициента усиления использует коэффициент предсказания при выполнении прогнозирующего кодирования.
13. Устройство кодирования по п.1, в котором секция выбора фиксированно выбирает заранее определенный поддиапазон как часть целевого диапазона квантования.
14. Устройство кодирования по п.1, в котором секция выбора выбирает целевой диапазон квантования после умножения на весовой коэффициент, который тем больше, чем больше к высокой стороне диапазона поддиапазон находится в части целевого диапазона квантования.
15. Устройство кодирования по п.1, в котором секция квантования коэффициента усиления выполняет прогнозирующее кодирование в отношении коэффициента усиления параметра частотной области в части целевого диапазона квантования и выполняет прямое квантование в отношении коэффициента усиления параметра частотной области в оставшейся части.
16. Устройство кодирования по п.1, в котором секция квантования коэффициента усиления выполняет квантование вектора коэффициента усиления непоследовательного множества поддиапазонов.
17. Устройство декодирования, содержащее:
секцию приема, которая принимает информацию, указывающую целевой диапазон квантования, обозначающий по меньшей мере один выбранный поддиапазон из множества поддиапазонов, причем множество поддиапазонов получено посредством деления параметра частотной области входного речевого/аудиосигнала;
секцию деквантования формы, которая декодирует кодированную информацию формы, в которой форма параметра частотной области в целевом диапазоне квантования квантована, чтобы сгенерировать декодированную форму;
секцию деквантования коэффициента усиления, которая декодирует кодированную информацию коэффициента усиления, в которой коэффициент усиления параметра частотной области в целевом диапазоне квантования квантован, чтобы сгенерировать декодированный коэффициент усиления, и декодирует частотный параметр, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области;
секцию преобразования во временную область, которая преобразовывает декодированный параметр частотной области во временную область и получает декодированный сигнал временной области; и
секцию определения, которая определяет, должно ли быть выполнено прогнозирующее декодирование, основанное на количестве первых поддиапазонов целевого диапазона квантования, которые являются общими для вторых поддиапазонов целевого диапазона квантования, выбранных в прошлом;
при этом секция деквантования коэффициента усиления выполняет прогнозирующее декодирование коэффициента усиления параметра частотной области в целевом диапазоне квантования, используя коэффициент усиления, полученный в прошлом декодировании коэффициента усиления, когда секция определения определяет, что прогнозирующее декодирование должно быть выполнено, и выполняет прямое деквантование кодированной информации коэффициента усиления, в котором коэффициент усиления параметра частотной области квантуется в целевом диапазоне квантования, когда секция определения определяет, что прогнозирующее декодирование не должно быть выполнено.
18. Устройство декодирования по п.17, дополнительно содержащее секцию определения, которая определяет, что прогнозирующее декодирование должно быть выполнено, когда количество поддиапазонов, общих для целевого диапазона квантования и целевого диапазона квантования, выбранного в прошлом, больше или равно заранее определенному значению, и определяет, что прогнозирующее декодирование не должно быть выполнено, когда количество общих поддиапазонов меньше, чем заранее определенное значение.
19. Способ кодирования, содержащий этапы, на которых:
преобразуют входной речевой/аудиосигнал в частотную область, чтобы получить параметр частотной области;
выбирают в качестве целевого диапазона квантования по меньшей мере один поддиапазон из множества поддиапазонов, причем множество поддиапазонов получено посредством деления параметра частотной области, и генерируют информацию диапазона, указывающую целевой диапазон квантования;
квантуют форму параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию формы; и
кодируют коэффициент усиления параметра частотной области в целевом диапазоне квантования, чтобы получить кодированную информацию коэффициента усиления;
определяют, должно ли быть выполнено прогнозирующее кодирование, основанное на количестве первых поддиапазонов целевого диапазона квантования, которые являются общими для вторых поддиапазонов целевого диапазона квантования, выбранных в прошлом; и
получают кодированную информацию коэффициента усиления посредством выполнения прогнозирующего кодирования в отношении коэффициента усиления параметра частотной области в целевом диапазоне квантования, используя прошлую кодированную информацию коэффициента усиления, когда секция определения определяет, что прогнозирующее кодирование должно быть выполнено, и получают кодированную информацию коэффициента усиления посредством прямого квантования коэффициента усиления параметра частотной области в целевом диапазоне квантования, когда секция определения определяет, что прогнозирующее кодирование не должно быть выполнено.
20. Способ декодирования, содержащий этапы, на которых:
принимают информацию, указывающую целевой диапазон квантования, обозначающий по меньшей мере один выбранный поддиапазон из множества поддиапазонов, причем множество поддиапазонов получено посредством деления параметра частотной области входного речевого/аудиосигнала;
декодируют кодированную информацию формы, при этом форма параметра частотной области в целевом диапазоне квантования квантуется, чтобы сгенерировать декодированную форму;
декодируют кодированную информацию коэффициента усиления, при этом коэффициент усиления параметра частотной области в целевом диапазоне квантования квантуется, чтобы сгенерировать декодированный коэффициент усиления, и декодируют параметр частотной области, используя декодированную форму и декодированный коэффициент усиления, чтобы сгенерировать декодированный параметр частотной области;
преобразуют декодированный параметр частотной области во временную область, чтобы получить декодированный сигнал временной области;
определяют, должно ли быть выполнено прогнозирующее декодирование, основанное на количестве первых поддиапазонов целевого диапазона квантования, которые являются общими для вторых поддиапазонов целевого диапазона квантования, выбранных в прошлом; и
выполняют прогнозирующее декодирование коэффициента усиления параметра частотной области в целевом диапазоне квантования, используя коэффициент усиления, полученный в прошлом декодировании коэффициента усиления, когда секция определения определяет, что прогнозирующее декодирование должно быть выполнено, и выполняют прямое деквантование кодированной информации коэффициента усиления, в котором коэффициент усиления параметра частотной области квантуется в целевом диапазоне квантования, когда секция определения определяет, что прогнозирующее декодирование не должно быть выполнено.
SALAVEDRA J., MASGRAU E | |||
APVQ encoder applied to wideband speech coding // Fourth International Conference on Spoken Language, Proceedings, 03.10.1996-06.10.1996, vol.2, c.c.941-944 | |||
Способ и приспособление для нагревания хлебопекарных камер | 1923 |
|
SU2003A1 |
Подъемно-транспортирующее устройство | 1978 |
|
SU770985A1 |
US 2004181398 A1, 16.09.2004 | |||
СПОСОБ ОБРАБОТКИ КОНИЧЕСКОЙ ПОВЕРХНОСТИ ДЕТАЛИ | 1992 |
|
RU2071395C1 |
EP 1139336 A2, 04.10.2001 | |||
DE 19811039 B4, |
Авторы
Даты
2012-10-20—Публикация
2007-12-12—Подача