Настоящее изобретение относится к области аудиокодирования, и более конкретно к области синтезирования аудиосигнала. Варианты осуществления относятся к кодированию речи, в частности к способу кодирования речи, называемому линейным предсказанием с мультикодовым управлением (CELP). Варианты осуществления предлагают подход для адаптивной компенсации наклона в формировании кодов CELP в инновационной или фиксированной кодировочной книге.
Схема кодирования CELP широко используется в речевой коммуникации и является эффективным способом кодирования речи. CELP синтезирует аудиосигнал путем передачи линейному прогнозирующему фильтру (например, синтезирующему фильтру линейного прогнозирующего кодирования (LPC) 1/A(z)) суммы двух возбуждений. Одно возбуждение поступает из декодированного прошлого, которое называется адаптивной кодировочной книгой, а другая составляющая поступает из фиксированной или инновационной кодировочной книги, которая заполняется фиксированными кодами. Одна из проблем схемы кодирования CELP заключается в том, что при низких скоростях передачи инновационная кодировочная книга недостаточно заполняется для того, чтобы эффективно моделировать микроструктуру речи, так что качество восприятия ухудшается и синтезируемый выходной сигнал звучит с шумами.
Для смягчения артефактов кодирования уже были предложены различные решения, которые описываются в ссылке [1] и в ссылке [2]. В этих ссылках коды инновационной кодировочной книги адаптивно и спектрально формируются путем улучшения областей спектра, соответствующих формантам текущего кадра аудиосигнала. Положения и формы формант могут быть выведены непосредственно из коэффициентов LPC, которые являются коэффициентами, доступными как в кодер, так и в декодере. Улучшение формант кодов c(n) инновационной кодировочной книги выполняется с помощью простой операции фильтрования:
QUOTE .
В этом процессе фильтрования fe(n) является импульсной характеристикой фильтра, имеющей следующую передаточную функцию:
,
где w1 и w2 являются двумя весовыми константами, подчеркивающими более или менее формантную структуру передаточной функции Fe(z). Получаемые сформированные коды инновационной кодировочной книги наследуют одну характеристику речевого сигнала, и синтезируемый сигнал звучит с меньшими шумами.
В схеме кодирования CELP также к кодам инновационной кодировочной книги обычно добавляется наклон спектра, что делается путем фильтрования кодов из инновационной кодировочной книги следующим образом:
QUOTE .
Коэффициент β относится к вокализованности предыдущего аудиокадра, и вокализованность может быть оценено из энергетической составляющей из адаптивной кодировочной книги. Например, если предыдущий кадр вокализован, то ожидается, что текущий кадр также будет вокализован, и что коды будут иметь больше энергии на низких частотах, то есть спектр имеет отрицательный наклон.
Задачей настоящего изобретения является предложить улучшенный подход для синтезирования аудиосигнала.
Эта задача решается устройством в соответствии с п. 1 формулы изобретения, а также способом в соответствии с п. 19 формулы изобретения.
Настоящее изобретение предлагает устройство для синтезирования аудиосигнала, которое включает в себя обрабатывающий блок, выполненный с возможностью применения наклона спектра к коду кодировочной книги, используемому для синтезирования текущего кадра аудиосигнала, причем наклон спектра основан на наклоне спектра текущего кадра аудиосигнала.
Настоящее изобретение предлагает способ для синтезирования аудиосигнала, включающий в себя применение наклона спектра к коду кодировочной книги, используемому для синтезирования текущего кадра аудиосигнала, причем наклон спектра определяется на основе наклона спектра текущего кадра аудиосигнала.
Авторы настоящей патентной заявки выяснили, что синтезирование аудиосигнала может быть дополнительно улучшено как на низких, так и на более высоких скоростях передачи путем использования природы наклона спектра аудиосигнала при синтезировании сигнала для улучшения достижимой эффективности кодирования. В соответствии с вариантами осуществления настоящее изобретение предлагает кодирование речи, например с использованием метода кодирования речи CELP, которое обеспечивает улучшение эффективности кодирования метода CELP, улучшая тем самым воспринимаемое качество декодируемого или синтезируемого сигнала. Подход в соответствии с настоящим изобретением основан на открытии авторов, что это усовершенствование может быть достигнуто путем адаптирования наклона спектра кодов кодировочной книги, например кодов инновационной кодировочной книги CELP, как функции наклона спектра обрабатываемого в настоящий момент фактического входного сигнала. Подход в соответствии с настоящим изобретением является предпочтительным, так как в дополнение к улучшенной эффективности кодирования, при низких скоростях передачи, где инновационная кодировочная книга заполняется недостаточно для того, чтобы эффективно моделировать микроструктуру речи, он также обеспечивает дополнительное улучшение формант. При более высоких скоростях передачи, при которых инновационная кодировочная книга заполняется в достаточной степени, применение подхода в соответствии с настоящим изобретением будет улучшать эффективность кодирования. Более конкретно, при более высоких скоростях передачи улучшение формант может не понадобиться, поскольку инновационная кодировочная книга является достаточно большой для того, чтобы смоделировать должным образом микроструктуру речи, и дальнейшее улучшение формант сделает звучание синтезированного сигнала слишком синтетическим. Однако оптимальные коды не являются спектрально плоскими, и добавление наклона спектра будет улучшать эффективность кодирования. В соответствии с вариантами осуществления оптимальный наклон для применения к кодам инновационной кодировочной книги оценивается более точно, более конкретно он коррелируется с наклоном текущего кадра входного сигнала.
Таким образом, технический результат настоящего изобретения заключается в улучшении синтезирования аудиосигнала как на низких, так и на более высоких скоростях передачи путем использования наклона спектра аудиосигнала при синтезировании сигнала для улучшения достижимой эффективности кодирования, и тем самым воспринимаемого качества сигнала.
В соответствии с вариантами осуществления наклон спектра текущего кадра аудиосигнала определяется на основе огибающей спектра для текущего кадра аудиосигнала, в котором огибающая спектра может определяться коэффициентами LPC. Этот вариант осуществления является предпочтительным, поскольку он обеспечивает определение наклона спектра текущего кадра на основе информации, легко доступной как для кодера, так и для декодера, а именно коэффициентов LPC.
В соответствии с дополнительными вариантами осуществления наклон спектра текущего кадра аудиосигнала, основываясь на коэффициентах LPC, может быть определен на основе усеченной бесконечной импульсной характеристики синтезирующего фильтра LPC. В соответствии с вариантами осуществления это усечение может определяться размером инновационной кодировочной книги, то есть количеством кодов в инновационной кодировочной книге. Этот подход является предпочтительным, поскольку он позволяет напрямую связать определение наклона спектра с фактическим размером инновационной кодировочной книги.
В соответствии с дополнительными вариантами осуществления бесконечная импульсная характеристика может быть характеристикой синтезирующего фильтра LPC, имеющего невзвешенную передаточную функцию или взвешенную передаточную функцию. Использование невзвешенной передаточной функции позволяет упростить определение наклона спектра, в то время как использование взвешенной передаточной функции является предпочтительным, поскольку оно позволяет приблизить наклон спектра к оптимальному наклону.
В соответствии с вариантами осуществления определенный наклон спектра применяется к соответствующему коду путем фильтрования кода из кодировочной книги на основе передаточной функции, которая включает в себя наклон спектра. Этот вариант осуществления является предпочтительным, поскольку улучшение может быть достигнуто с помощью простого процесса фильтрации.
В соответствии с еще одним вариантом осуществления наклон спектра текущего кадра может быть скомбинирован с коэффициентом, относящимся к вокализованности предыдущего кадра аудиосигнала, например путем фильтрации кода из кодировочной книги на основе передаточной функции, включающей в себя наклон спектра и этот коэффициент. Этот подход является предпочтительным, поскольку он обеспечивает возможность получения еще более лучшей оценки оптимального наклона.
Настоящее изобретение предлагает аудиодекодер, включающий в себя устройство для синтезирования аудиосигнала в соответствии с настоящим изобретением.
Настоящее изобретение предлагает аудиодекодер для декодирования аудиосигнала, в котором аудиодекодер выполнен с возможностью применения наклона спектра к коду кодировочной книги, используемому для синтезирования текущего кадра аудиосигнала, причем наклон спектра основан на наклоне спектра текущего кадра аудиосигнала.
Настоящее изобретение предлагает кодер для кодирования аудиосигнала, в котором аудиокодер выполнен с возможностью определения из наклона спектра текущего кадра аудиосигнала наклона спектра для кода кодировочной книги, представляющего текущий кадр аудиосигнала.
Настоящее изобретение предлагает систему, включающую в себя аудиодекодер в соответствии с настоящим изобретением и аудиокодер в соответствии с настоящим изобретением.
Настоящее изобретение предлагает энергонезависимый компьютерный носитель, хранящий инструкции, которые при их выполнении на компьютере выполняют способ в соответствии с настоящим изобретением для синтезирования аудиосигнала.
Варианты осуществления настоящего изобретения описаны более подробно со ссылками на сопроводительные чертежи, на которых показано:
Фиг. 1 - схематическое представление устройства в соответствии с настоящим изобретением для синтезирования аудиосигнала в соответствии с первым вариантом осуществления;
Фиг. 2 - упрощенная блок-схема синтезатора сигнала в соответствии со вторым вариантом осуществления настоящего изобретения, который работает на основе схемы CELP;
Фиг. 3 - упрощенная блок-схема синтезатора сигнала в соответствии с дополнительным вариантом осуществления настоящего изобретения, опять же применяющего схему кодирования CELP, включающую вокализованность предыдущего кадра;
Фиг. 4 - один вариант осуществления декодера, например речевого декодера, работающего в соответствии с настоящим изобретением; и
Фиг. 5 - один вариант осуществления кодера, например речевого кодера, работающего в соответствии с настоящим изобретением.
Далее описываются варианты осуществления подхода в соответствии с настоящим изобретением. Следует отметить, что в последующем описании одинаковые элементы/этапы обозначаются одинаковыми ссылочными обозначениями.
Фиг. 1 показывает схематическое представление устройства в соответствии с настоящим изобретением для синтезирования аудиосигнала в соответствии с первым вариантом осуществления. Устройство 100 получает на входе 102 закодированный сигнал, например закодированный аудиосигнал, такой как речевой сигнал. Для того чтобы декодировать аудиосигнал, устройство 100 включает в себя кодировочную книгу 104, включающую в себя множество кодов. Для того чтобы синтезировать сигнал при обработке текущего кадра на основе закодированного сигнала, полученного на входе 102, подходящий код или кодовая комбинация выбирается из кодировочной книги 104 и подается на синтезатор или синтезирующий фильтр 106. В соответствии с настоящим изобретением устройство включает в себя обрабатывающий блок 108, который на основе наклона спектра текущего кадра аудиосигнала, то есть кадра аудиосигнала, в настоящий момент обрабатываемого устройством 100, определяет наклон спектра, который будет применен к коду с(n), прочитанному из кодировочной книги 104, как это схематично представлено ссылочной цифрой 110. Модифицированный код с(n)*γ применяется к синтезирующему фильтру 106, который генерирует на основе модифицированного кода синтезированный сигнал, который подается на выход 112 устройства 100. Обрабатывающий блок 108 может определять наклон спектра на основе огибающей спектра для текущего кадра, например, коэффициентов фильтра для синтезирующего фильтра 106, которые являются доступными в устройстве 100.
В соответствии с дополнительными вариантами осуществления будет описана адаптивная компенсация наклона для формирования кодов инновационной кодировочной книги CELP. Фиг. 2 показывает упрощенную блок-схему синтезатора 200 сигнала в соответствии со вторым вариантом осуществления настоящего изобретения, который работает на основе схемы CELP. В соответствии со схемой CELP, синтезатор 200 включает в себя фиксированную или инновационную кодировочную книгу 202 и адаптивную кодировочную книгу 204. В зависимости от кодируемого сигнала для текущего кадра, который в настоящий момент обрабатывается синтезатором 200, код выводится из соответствующих кодировочных книг 202 и 204. Синтезатор 200 включает в себя сумматор или объединитель 206 для комбинирования кодов, полученных из соответствующих кодировочных книг 202 и 204. Выход сумматора 206 соединяется с синтезирующим фильтром 208 LPC для того, чтобы синтезировать фактический аудиосигнал и вывести его на выходе 210. В соответствии с вариантами осуществления синтезатор 200 может включать в себя первый усилитель 212 для умножения составляющей фиксированной кодировочной книги 202 на желаемый кодовый коэффициент усиления. Кроме того, второй усилитель 214 может быть предусмотрен для увеличения составляющей адаптивной кодировочной книги 204 в соответствии с коэффициентом усиления высоты тона, поскольку составляющая адаптивной кодировочной книги моделирует высоту речи. В соответствии с другим вариантом осуществления также может быть предусмотрено хранилище 216 для коэффициентов LPC, такое как память и т.п., для хранения коэффициентов LPC, которые доступны в декодере, включая синтезатор 200. Коэффициенты LPC передаются к синтезирующему фильтру 208 для обеспечения желаемой синтезирующей фильтрации LPC.
Синтезатор 200 включает в себя фильтр 218, который располагается между фиксированной кодировочной книгой 202 и первым усилителем 212. Фильтр 218 получает из памяти 216 коэффициенты LPC для текущего кадра. Посредством структуры в соответствии с настоящим изобретением наклон аудиокадра, который в настоящий момент обрабатывается, восстанавливается из уже переданных коэффициентов LPC, которые хранятся в памяти 216. В соответствии с вариантом осуществления, проиллюстрированным на Фиг. 2, предполагается, что fs(n) является импульсной характеристикой синтезирующего фильтра 208 LPC, имеющего передаточную функцию и наклон определяется фильтром 218 следующим образом:
где N является размером усечения бесконечной импульсной характеристики fs(n). В соответствии с одним вариантом осуществления значение N равно размеру инновационной кодировочной книги, то есть N равно количеству кодов или кодовых комбинаций, хранящихся в инновационной кодировочной книге. Наклон спектра в соответствии с вариантом осуществления, проиллюстрированным на Фиг. 2, применяется к коду с(n), получаемому из фиксированной кодировочной книги 202 с помощью операции фильтрации, обеспечиваемой в фильтре 218. Операция фильтрации определяется следующим образом:
где ft1(n) представляет собой импульсную характеристику следующей передаточной функции:
Вариант осуществления, проиллюстрированный на Фиг. 2, является предпочтительным, поскольку он позволяет улучшить качество восприятия декодированного сигнала путем улучшения эффективности кодирования. Улучшение эффективности кодирования достигается путем фильтрации кодовой комбинации или кода, получаемого из фиксированной кодировочной книги 202, передаточной функцией, включающей в себя наклон спектра, который определяется на основе импульсной характеристики передаточной функции синтезирующего фильтра 208 LPC.
В соответствии с третьим вариантом осуществления для дальнейшего улучшения наклона спектра, чтобы он был ближе к оптимальному наклону, то есть ближе к фактическому наклону текущего кадра входного сигнала, синтезирующий фильтр 208 LPC имеет следующую передаточную функцию:
где w1=0,8 и w2=0,9. В этом случае наклон спектра определяется следующим образом:
Весовые константы w1 и w2 используются для того, чтобы управлять динамикой огибающей спектра. Например, если w1=0 и w2=1, то Fe(z) достаточно близко следует за истинной огибающей сигнала. Результирующий наклон спектра γ будет показывать высокую динамику и может колебаться слишком сильно. Это может быть решением для очень низких скоростей передачи, при которых в кодировочной книге отсутствует структура наклона. Однако было выявлено, что для восприятия лучше вывести наклон спектра γ из гладкой версии огибающей спектра. Было найдено, что хорошее сглаживание достигается с вышеупомянутыми величинами w1=0,8 и w2=0,9, которые дают хороший компромисс для большого спектра скоростей передачи. В соответствии с вариантами осуществления w1 и w2 являются зависимыми от скорости передачи. При очень высоких скоростях, если кодировочная книга является достаточно большой и в состоянии смоделировать любые спектральные наклоны γ, можно выключить влияние наклона спектра γ путем задания w1=w2=1.
По сравнению со вторым вариантом осуществления, который приводит к наклону, имеющему более крутое падение, чем оптимальный наклон, третий вариант осуществления, использующий «взвешенную» передаточную функцию, обеспечивает наклон, который является более близким к фактическому наклону текущего кадра.
Фиг. 3 показывает дополнительную упрощенную блок-схему синтезатора 200' сигнала в соответствии с четвертым вариантом осуществления настоящего изобретения, также применяющим схему кодирования CELP. По сравнению с вариантами осуществления, описанными со ссылками на Фиг. 2, вариант осуществления, изображенный на Фиг. 3, дополнительно применяет вышеупомянутый фактор, относящийся к вокализованности предыдущего кадра. Как показано на Фиг. 3, структура синтезатора 200' является по существу той же самой, что и структура синтезатора 200, изображенного на Фиг. 2, за исключением того, что дополнительно предусмотрен блок оценки 220 вокализованности, который получает выходной сигнал усилителя 214 и комбинированные составляющие от инновационной и адаптивной кодировочных книг, выводимые сумматором 206. Блок оценки вокализованности выводит сигнал на фильтр 280, так что код или кодовая комбинация, полученная из инновационной кодировочной книги 202, модифицируется на основе определенного наклона (см. Фиг. 2 и приведенное выше описание), комбинированного с фактором вокализованности. Более конкретно, в соответствии с вариантом осуществления, проиллюстрированным на Фиг. 3, определенный наклон спектра комбинируется с коэффициентом β, который относится к вокализованности предыдущего кадра. Подход, описанный со ссылкой на Фиг. 3, является предпочтительным, поскольку он позволяет получить даже лучшую оценку наклона, который будет применен к кодовой комбинации, по сравнению с вариантами осуществления, описанными со ссылками на Фиг. 1 и 2. Модификация кода или формирование кода снова могут быть рассмотрены как операция фильтрации, использующая следующую передаточную функцию:
где а и b являются константами. В предпочтительном варианте осуществления а=0,5 и b=0,25. Коэффициент β может быть выведен из вокализованности предыдущего кадра следующим образом:
вокализованность = (энергия(составляющая адаптивной кодировочной книги) - энергия(составляющая фиксированной кодировочной книги))/энергия(сумма составляющих),
и фактический коэффициент β может быть определен следующим образом:
β=константа⋅(1+вокализованность).
Константы а и b применяются для управления смесью наклона голоса β и наклона спектра γ. Как уже было упомянуто выше относительно весовых констант w1 и w2, для низких и средних скоростей передачи, может быть уместным формировать кодировочную книгу путем усиления низких частот или высоких частот на основе наклона спектра γ. Также было установлено, что чем больше вокализован сигнал, тем лучше усиливать высокие частоты. Константы а и b могут использоваться для того, чтобы нормализовать коэффициенты наклона β и γ и взвесить их силу для желаемого объединения этих двух эффектов. В соответствии с вариантами осуществления константы а и b могут быть найдены опытным путем с помощью оценивания воспринимаемого качества. Это обеспечивает примерно одинаковую силу обоим коэффициентам: γ находится в диапазоне между -1 и 1, так что b⋅γ находится в диапазоне между -0,25 и 0,25, и β находится в диапазоне между 0 и 0,5, так что α⋅β находится в диапазоне между 0 и 0,25. Как и весовые константы w1 и w2, константы а и b также могут быть сделаны зависимыми от скорости передачи.
В соответствии с четвертым вариантом осуществления аудиосинтез, показанный на Фиг. 3, является таким, что составляющая адаптивной кодировочной книги умножается на коэффициент усиления, называемый коэффициентом усиления высоты тона, поскольку эта составляющая моделирует высоту тона речи. Инновационный код сначала фильтруется с помощью Ft2(z) для того, чтобы добавить наклон спектра к коду, причем наклон, как описано выше, коррелирует с наклоном текущего кадра синтезируемого сигнала. Выход фильтра 218 умножается на кодовый коэффициент усиления, и эти две составляющие, умноженная составляющая адаптивной кодировочной книги и умноженная модифицированная составляющая инновационной кодировочной книги суммируются сумматором 206 перед фильтрацией синтезирующим фильтром для генерирования синтезированного выходного сигнала на выходе 210.
Фиг. 4 показывает один вариант осуществления декодера, например речевого декодера, работающего в соответствии с настоящим изобретением. Декодер 300 включает в себя синтезатор 100, 200, 200' в соответствии с одним из вышеописанных вариантов осуществления. Декодер имеет вход 302, получающий закодированный сигнал, который обрабатывается декодером и синтезатором для того, чтобы сгенерировать на выходе 304 декодера 300 декодированный сигнал.
Фиг. 5 показывает один вариант осуществления кодера, например речевого кодера, работающего в соответствии с настоящим изобретением. Кодер 400 включает в себя обрабатывающий блок 402 для кодирования аудиосигнала. Далее обрабатывающий блок определяет из наклона спектра текущего кадра аудиосигнала (например, из коэффициентов LPC, доступных в кодере) информацию, представляющую наклон спектра для кода кодировочной книги в декодере, представляющего текущий кадр аудиосигнала. Эта информация может быть передана вместе с закодированным аудиосигналом декодеру, где она может быть применена при синтезировании аудиосигнала. Наклон спектра может быть определен в кодере способом, описанным выше со ссылками на Фиг. 1-3, и он может быть применен в декодере, как описано выше со ссылками на Фиг. 1-3. Таким образом, варианты осуществления настоящего изобретения предлагают вышеупомянутый кодераудиокодер, показанный на Фиг. 5, вместе с аудиодекодером для декодирования аудиосигнала, причем аудиодекодер не обязательно должен определять наклон спектра, вместо этого он выполнен с возможностью применять наклон спектра, полученный от кодера, к коду кодировочной книги, используемому для синтезирования текущего кадра аудиосигнала. Например, декодер может иметь синтезатор, такой как показанный на Фиг. 1-3, за исключением того, что обрабатывающий блок 108 или фильтр 218 получают наклон, вычисленный и переданный кодером. Полученный наклон может быть сохранен, например, в памяти 216 или в другом хранилище.
Хотя некоторые аспекты были описаны в контексте устройства, понятно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствуют этапы способа или особенности этапы способа. Аналогично, аспекты, описанные в контексте этапы способа также, представляют описание соответствующего блока или узла или особенности соответствующего устройства. Некоторые или все этапы способа могут быть выполнены с помощью (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления один или более из наиболее важных этапов способа могут быть выполнены таким устройством.
В зависимости от определенных требований реализации варианты осуществления настоящего изобретения могут быть осуществлены в технических средствах или в программном обеспечении. Реализация может быть выполнена с использованием энергонезависимого носителя, такого как носитель цифровых данных, например гибкий диск, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-память, имеющего записанные на нем электронносчитываемые управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой вычислительной системой таким образом, чтобы выполнялся соответствующий способ. Следовательно, носитель цифровых данных может быть машиночитаемым.
Некоторые варианты осуществления в соответствии с настоящим изобретением включают в себя носитель информации, имеющий записанные на нем электронносчитываемые управляющие сигналы, которые способны взаимодействовать с программируемой вычислительной системой таким образом, чтобы выполнялся один из описанных в настоящем документе способов.
В целом варианты осуществления настоящего изобретения могут быть осуществлены как компьютерный программный продукт с программным кодом программы, использующимся для выполнения одного из способов, когда этот компьютерный программный продукт выполняется на компьютере. Программный код может быть, например, сохранен на машиночитаемом носителе.
Другие варианты осуществления включают в себя компьютерную программу для выполнения одного из способов, описанных в настоящем документе, сохраненную на машиночитаемом носителе.
Другими словами, один вариант осуществления способа в соответствии с настоящим изобретением является, следовательно, компьютерной программой, имеющей программный код для выполнения одного из описанных в настоящем документе способов, когда эта компьютерная программа выполняется на компьютере.
Дополнительный вариант осуществления способа в соответствии с настоящим изобретением является, следовательно, носителем информации (или носителем цифровых данных, или машиночитаемым носителем), содержащим записанную на нем компьютерную программу для выполнения одного из описанных в настоящем документе способов. Носитель информации, носитель цифровых данных или машиночитаемый носитель являются обычно материальными и/или энергонезависимыми.
Дополнительный вариант осуществления способа по настоящему изобретению является, следовательно, потоком данных или последовательностью сигналов, представляющих компьютерную программу для выполнения одного из описанных в настоящем документе способов. Поток данных или последовательность сигналов могут, например, быть выполнены с возможностью передачи через соединение передачи данных, например, через Интернет.
Дополнительный вариант осуществления включает в себя средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью или запрограммированное для выполнения одного из описанных в настоящем документе способов.
Дополнительный вариант осуществления включает в себя компьютер с установленной на нем компьютерной программой для выполнения одного из описанных в настоящем документе способов.
Дополнительный вариант осуществления в соответствии с настоящим изобретением включает в себя устройство или систему, выполненную с возможностью передачи приемнику (например, электронно или оптически) компьютерной программы для выполнения одного из описанных в настоящем документе способов. Приемник может быть, например, компьютером, мобильным устройством, запоминающим устройством и т.п. Устройство или система могут, например, включать в себя файловый сервер для передачи компьютерной программы приемнику.
В некоторых вариантах осуществления программируемое логическое устройство (например, логическая микросхема, программируемая в условиях эксплуатации) может использоваться для выполнения некоторой или всей функциональности описанных в настоящем документе способов. В некоторых вариантах осуществления логическая микросхема, программируемая в условиях эксплуатации может взаимодействовать с микропроцессором для того, чтобы выполнить один из описанных в настоящем документе способов. Обычно способы предпочтительно выполняются с использованием технических средств.
Вышеописанные варианты осуществления предназначены лишь для иллюстрации принципов настоящего изобретения. Подразумевается, что модификации и вариации описанных в настоящем документе компоновок деталей будут очевидны для специалистов в данной области техники. Следовательно, предполагается, что настоящее изобретение ограничено только областью охвата прилагаемой формулы изобретения, а не конкретными деталями, представленными путем описания и объяснения вариантов осуществления в настоящем документе.
Ссылки
[1] Рекомендации ITU-T G.718: «Frame error robust narrowband and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s».
[2] Патент US 6678651 B2, «Short-Term Enhancement in CELP Speech Coding».
Изобретение относится к области аудиокодирования, и более конкретно к области синтезирования аудиосигнала. Технический результат – улучшение синтезирования аудиосигнала как на низких, так и на более высоких скоростях передачи путем использования наклона спектра аудиосигнала при синтезировании сигнала для улучшения достижимой эффективности кодирования и, следовательно, повышения качества воспроизводимого сигнала. В данном изобретении описываются способ и устройство для синтезирования аудиосигнала, а также аудиодекодер. Технический результат достигается за счет того, что наклон спектра применяется к коду кодировочной книги, используемому для синтезирования текущего кадра аудиосигнала. Наклон спектра основан на наклоне спектра текущего кадра аудиосигнала. 5 н. и 22 з.п. ф-лы, 5 ил.
1. Устройство для синтезирования аудиосигнала, включающее в себя обрабатывающий блок (108, 110, 218), выполненный с возможностью применения наклона спектра к коду кодировочной книги (104, 202), используемый для синтезирования текущего кадра аудиосигнала,
в котором наклон спектра основан на наклоне спектра текущего кадра аудиосигнала,
причем устройство выполнено с возможностью определения наклона спектра текущего кадра аудиосигнала на основе информации об огибающей спектра для текущего кадра аудиосигнала, и
причем обрабатывающий блок (108, 110, 218) выполнен с возможностью применения наклона спектра путем фильтрации кода из кодировочной книги (104, 202) на основе передаточной функции, моделирующей наклон спектра.
2. Устройство по п. 1, в котором информация об огибающей спектра определяется коэффициентами LPC и в котором наклон спектра текущего кадра аудиосигнала определяется следующим образом:
где ƒs(n) - бесконечная импульсная характеристика синтезирующего фильтра (106, 208) LPC, имеющего передаточную функцию и
N - размер усечения бесконечной импульсной характеристики ƒs(n).
3. Устройство по п. 1, в котором информация об огибающей спектра определяется коэффициентами LPC и в котором наклон спектра текущего кадра аудиосигнала определяется следующим образом:
где ƒе(n) - бесконечная импульсная характеристика синтезирующего фильтра (106, 208) LPC, имеющего передаточную функцию
N - размер усечения бесконечной импульсной характеристики ƒs(n), и
w1, w2 представляют собой весовые константы для определения формантной структуры передаточной функции Fe(z).
4. Устройство по п. 2, в котором N равно количеству кодов в кодировочной книге (104, 202).
5. Устройство по п. 1, в котором передаточная функция, включающая в себя наклон спектра, определяется следующим образом:
где γ - наклон спектра.
6. Устройство по п. 1, в котором обрабатывающий блок (108, 110, 218) дополнительно выполнен с возможностью объединения определенного наклона спектра текущего кадра аудиосигнала с коэффициентом, относящимся к вокализованности предыдущего кадра аудиосигнала.
7. Устройство по п. 6, в котором коэффициент, относящийся к вокализованности предыдущего кадра аудиосигнала, определяется следующим образом:
β = константа⋅(1+вокализованность),
где вокализованность = (энергия(составляющая адаптивной кодировочной книги) - энергия(составляющая фиксированной кодировочной книги))/энергия(сумма составляющих).
8. Устройство по п. 6, в котором обрабатывающий блок (108, 110, 218) выполнен с возможностью применения наклона спектра путем фильтрации кода из кодировочной книги (104, 202) на основе передаточной функции, включающей в себя наклон спектра, и коэффициента, относящегося к вокализованности предыдущего кадра аудиосигнала.
9. Устройство по п. 8, в котором передаточная функция, включающая в себя наклон спектра, определяется следующим образом:
где а и b - константы.
10. Устройство по п. 1, в котором аудиосигнал является речевым сигналом, в котором обрабатывающий блок для применения наклона спектра включает в себя фильтр (218) и в котором устройство дополнительно включает в себя:
адаптивную кодировочную книгу (204), фиксированную кодировочную книгу (202),
фильтр (218), связанный с фиксированной кодировочной книгой (202) и выполненный с возможностью применять определенный наклон спектра к коду фиксированной кодировочной книги (202) для получения фильтрованного кода фиксированной кодировочной книги (202),
сумматор (206), связанный с адаптивной кодировочной книгой (204) и с фильтром (218) и выполненный с возможностью объединения кода из адаптивной кодировочной книги (204) и фильтрованного кода фиксированной кодировочной книги (202) для получения комбинированного кода, и
синтезирующий фильтр (208) LPC, связанный с сумматором (206).
11. Устройство по п. 10, дополнительно включающее в себя:
усилитель (214) высоты тона, находящийся между адаптивной кодировочной книгой (204) и сумматором (206), причем усилитель (214) высоты тона выполнен с возможностью умножения кода из адаптивной кодировочной книги (204) на коэффициент усиления высоты тона, и
кодовый усилитель (212), находящийся между фильтром (218) и сумматором (206), причем кодовый усилитель (212) выполнен с возможностью умножения фильтрованного кода фиксированной кодировочной книги (202) на кодовый коэффициент усиления.
12. Устройство по п. 10, дополнительно включающее в себя:
блок оценки (220) вокализованности, связанный с адаптивной кодировочной книгой (204) и с сумматором (206) и выполненный с возможностью вывода коэффициента, относящегося к вокализованности предыдущего кадра аудиосигнала, на фильтр (218), и
хранилище (216), выполненное с возможностью хранения коэффициентов LPC, описывающих информацию об огибающей спектра для текущего кадра аудиосигнала, причем хранилище (216) связано с фильтром (218).
13. Аудиодекодер, включающий в себя устройство для синтезирования аудиосигнала по п. 1.
14. Система синтезирования аудиосигнала, включающая в себя:
аудиодекодер по п. 13, и
аудиокодер, выполненный с возможностью определения из наклона спектра текущего кадра аудиосигнала наклона спектра для кода кодировочной книги (104, 202), представляющего текущий кадр аудиосигнала.
15. Способ для синтезирования аудиосигнала, включающий в себя:
применение наклона спектра к коду кодировочной книги (104, 202), используемому для синтезирования текущего кадра аудиосигнала,
в котором наклон спектра определяют на основе наклона спектра текущего кадра аудиосигнала,
в котором наклон спектра текущего кадра аудиосигнала определяется на основе информации об огибающей спектра для текущего кадра аудиосигнала, и
в котором применение наклона спектра включает в себя фильтрование кода из кодировочной книги (104, 202) на основе передаточной функции, моделирующей наклон спектра.
16. Способ по п. 15, в котором информацию об огибающей спектра определяют коэффициентами LPC, и в котором наклон спектра текущего кадра аудиосигнала определяют следующим образом:
где ƒs(n) - бесконечная импульсная характеристика синтезирующего фильтра (106, 208) LPC, имеющего передаточную функцию , и
N - размер усечения бесконечной импульсной характеристики ƒs(n).
17. Способ по п. 15, в котором информацию об огибающей спектра определяют коэффициентами LPC, и в котором наклон спектра текущего кадра аудиосигнала определяют следующим образом:
где ƒe(n) - бесконечная импульсная характеристика синтезирующего фильтра (106, 208) LPC, имеющего передаточную функцию
N - размер усечения бесконечной импульсной характеристики ƒs(n), и
w1, w2 - весовые константы для определения формантной структуры передаточной функции Fe(z).
18. Способ по п. 16, в котором N равно количеству кодов в кодировочной книге (104, 202).
19. Способ по п. 15, в котором передаточную функцию, включающую в себя наклон спектра, определяют следующим образом:
где γ - наклон спектра.
20. Способ по п. 15, дополнительно включающий в себя объединение определенного наклона спектра текущего кадра аудиосигнала с коэффициентом, относящимся к вокализованности предыдущего кадра аудиосигнала.
21. Способ по п. 20, в котором коэффициент, относящийся к вокализованности предыдущего кадра аудиосигнала, определяют следующим образом:
β = константа ⋅ (1 + вокализованность),
где вокализованность = (энергия(составляющая адаптивной кодировочной книги) - энергия(составляющая фиксированной кодировочной книги))/энергия(сумма составляющих).
22. Способ по п. 20, в котором применение наклона спектра включает в себя фильтрацию кода из кодировочной книги (104, 202) на основе передаточной функции, включающей в себя наклон спектра, и коэффициента, относящегося к вокализованности в предыдущем кадре аудиосигнала.
23. Способ по п. 22, в котором передаточная функция, включающая в себя наклон спектра, определяют следующим образом:
где а и b - константы.
24. Способ по п. 15, в котором аудиосигнал является речевым сигналом и в котором синтезирование аудиосигнала включает в себя для кадра аудиосигнала
применение определенного наклона спектра к коду фиксированной кодировочной книги (202) для получения фильтрованного кода фиксированной кодировочной книги (202),
объединение кода из адаптивной кодировочной книги (204) и фильтрованного кода фиксированной кодировочной книги (202) для получения комбинированного кода и
фильтрацию комбинированного кода синтезирующим фильтром (208) LPC.
25. Способ по п. 24, дополнительно включающий в себя умножение кода из адаптивной кодировочной книги (204) на коэффициент усиления высоты тона, а также умножение фильтрованного кода фиксированной кодировочной книги (202) на кодовый коэффициент усиления.
26. Способ по п. 24, дополнительно включающий в себя
генерирование на основе кода из адаптивной кодировочной книги (204) и комбинированного кода коэффициента, относящегося к вокализованности предыдущего кадра аудиосигнала, и
сохранение коэффициентов LPC, описывающих информацию об огибающей спектра для текущего кадра аудиосигнала.
27. Энергонезависимый компьютерный носитель, хранящий инструкции, которые при их выполнении на компьютере выполняют способ для синтезирования аудиосигнала по п. 15.
US 6678651 B2, 13.01.2004 | |||
СПОСОБ И УСТРОЙСТВО ДЛЯ ФОРМИРОВАНИЯ УРОВНЯ УЛУЧШЕНИЯ В СИСТЕМЕ КОДИРОВАНИЯ ЗВУКА | 2008 |
|
RU2469422C2 |
АУДИОКОДЕР ДЛЯ КОДИРОВАНИЯ АУДИОСИГНАЛА, ИМЕЮЩЕГО ИМПУЛЬСОПОДОБНУЮ И СТАЦИОНАРНУЮ СОСТАВЛЯЮЩИЕ, СПОСОБЫ КОДИРОВАНИЯ, ДЕКОДЕР, СПОСОБ ДЕКОДИРОВАНИЯ И КОДИРОВАННЫЙ АУДИОСИГНАЛ | 2008 |
|
RU2439721C2 |
US 6678652 B2, 13.01.2004 | |||
US 6134518 A1, 17.10.2000 | |||
US 5915234 A1, 22.06.1999 | |||
US 7092889 B2, 15.08.2006 | |||
Способ приготовления лака | 1924 |
|
SU2011A1 |
JP 2012042984 A, 01.03.2012. |
Авторы
Даты
2017-05-12—Публикация
2014-01-28—Подача