Родственная заявка
Эта заявка родственна с совместно рассматривающейся заявкой на патент США № 11/946978, и зарегистрированной 29 ноября 2007 г., принадлежащей тому же заявителю, которая полностью включена в настоящее описание в качестве ссылки.
Область техники, к которой относится изобретение
Это изобретение, в целом, относится к воспроизведению аудио контента и, более конкретно, к способам расширения полосы частот.
Уровень техники
Аудио воспроизведение содержания аудио контента из цифрового представления требует известной степени усилий. В некоторых настройках приложений цифровое представление содержит полную соответствующую ширину полосы частот, которая относится к первоначальной аудио выборке. В таком случае аудио воспроизведение может содержать очень точный и естественно звучащий выходной сигнал. Однако такой подход требует значительных затрат ресурсов, чтобы приспособить соответствующее количество данных. Во многих настройках приложений, таких как, например, настройки беспроводной связи, такое количество информации не может быть всегда адекватно поддержано.
Чтобы уладить такое ограничение, так называемые, способы узкополосной речи могут служить для того, чтобы ограничивать количество информации, в свою очередь, с помощью ограничения представления меньшей, чем полная соответствующая ширина полосы частот, которая относится к выборке первоначального аудио сигнала. В этом отношении в качестве только одного примера, несмотря на то, что естественная речь включает в себя существенные компоненты до 8 кГц (или выше), узкополосное представление может предоставлять только информацию, относительно, например, диапазона 300-3400 Гц. Результирующий контент, когда воспроизведен аудиально, обычно является достаточно разборчивым, чтобы поддерживать функциональные потребности речевой связи. Однако, к сожалению, обработка узкополосной речи также имеет тенденцию выдавать речь, которая звучит приглушенной, и даже может иметь уменьшенную разборчивость по сравнению с речью полной полосы частот.
Чтоб удовлетворить этому требованию, иногда используют способы расширения ширины полосы частот. Можно искусственно генерировать недостающую информацию в более высоких и/или более низких полосах частот на основании имеющейся узкополосной информации, а также другой информации, чтобы выбирать информацию, которая может быть добавлена к узкополосному контенту, чтобы, таким образом, синтезировать сигнал псевдо широкой (или полной) полосы частот. С использованием таких способов, например, можно преобразовывать узкополосную речь в диапазоне 300-3400 Гц в широкополосную речь, например, в диапазоне 100-8000 Гц. С этой целью критическая часть информации, которая требуется, является спектральной огибающей в полосе высоких частот (3400-8000 Гц). Если широкополосная спектральная огибающая оценена, тогда спектральная огибающая полосы высоких частот может быть легко извлечена из нее. Можно представить себе спектральную огибающую полосы высоких частот как состоящую из формы и усиления (или эквивалентно, энергии).
Например, при одном подходе форму спектральной огибающей полосы высоких частот оценивают с помощью оценки широкополосной спектральной огибающей из узкополосной спектральной огибающей посредством отображения кодовой книги. Затем оценивают энергию полосы высоких частот с помощью регулирования энергии в узкополосной секции широкополосной спектральной огибающей с возможностью соответствия энергии узкополосной спектральной огибающей. В этом подходе форма спектральной огибающей полосы высоких частот определяет энергию полосы высоких частот, а любые ошибки в оценке формы будут также соответствующим образом влиять на оценки энергии полосы высоких частот.
В другом подходе форму спектральной огибающей полосы высоких частот и энергию полосы высоких частот оценивают отдельно, и спектральную огибающую полосы высоких частот, которую, в конце концов, используют, регулируют, чтобы соответствовать оцененной энергии полосы высоких частот. При одном связанном подходе оцененную энергию полосы высоких частот используют, помимо других параметров, чтобы определять форму спектральной огибающей полосы высоких частот. Однако результирующая спектральная огибающая полосы высоких частот не обязательно гарантирует наличие соответствующей энергии полосы высоких частот. Следовательно, требуется дополнительный этап, чтобы регулировать энергию спектральной огибающей полосы высоких частот в оцененное значение. Если не предприняты специальные меры, этот подход будет давать в результате разрывность в широкополосной спектральной огибающей на границе между узкой полосой частот и полосой высоких частот. Хотя существующие подходы к расширению ширины полосы частот и, в частности, к оценке огибающей полосы высоких частот являются приемлемо успешными, они не обязательно дают результирующую речь подходящего качества, по меньшей мере, в некоторых настройках приложений.
Для того чтобы генерировать речь расширенной ширины полосы частот приемлемого качества, число искажений в такой речи должно быть минимизировано. Известно, что переоценка энергии полосы высоких частот дает в результате раздражающие искажения. Неправильная оценка формы спектральной огибающей полосы высоких частот также может иметь результатом искажения, но эти искажения обычно являются более мягкими, и их легко маскируют с помощью узкополосной речи.
Краткое описание чертежей
Вышеупомянутые потребности, по меньшей мере, частично удовлетворяют посредством предоставления способа и устройства для оценки энергии полосы высоких частот в системе расширения ширины полосы частот, описанной в следующем подробном описании. Сопровождающие чертежи, на которых одинаковые ссылочные номера относятся к идентичным элементам или элементам с одинаковой функциональностью во всех отдельных видах, и, которые вместе с подробным описанием ниже включены в спецификацию и являются частью спецификации, служат, чтобы дополнительно проиллюстрировать различные варианты осуществления и, чтобы объяснить различные принципы и преимущества, все в соответствии с настоящим изобретением.
Фиг.1 содержит блок-схему последовательности операций, как сконфигурированную в соответствии с различными вариантами осуществления изобретения.
Фиг.2 содержит график, как сконфигурировано в соответствии с различными вариантами осуществления изобретения.
Фиг.3 содержит блок-схему, как сконфигурировано в соответствии с различными вариантами осуществления изобретения.
Фиг.4 содержит блок-схему, как сконфигурировано в соответствии с различными вариантами осуществления изобретения.
Фиг.5 содержит блок-схему, как сконфигурировано в соответствии с различными вариантами осуществления изобретения.
Фиг.6 содержит график, как сконфигурировано в соответствии с различными вариантами осуществления изобретения.
Специалисты в области техники поймут, что элементы на чертежах проиллюстрированы для простоты и пояснения и не обязательно начерчены в масштабе. Например, размеры и/или относительное расположение некоторых из элементов на фигурах могут быть преувеличены относительно других элементов, чтобы помочь улучшить понимание различных вариантов осуществления настоящего изобретения. Также общеизвестные, но вполне понятные элементы, которые являются полезными или необходимыми в коммерчески реализуемом варианте осуществления, часто не изображены, для того чтобы способствовать менее затруднительному виду этих различных вариантов осуществления настоящего изобретения. Дополнительно будет понятно, что определенные действия и/или этапы могут быть описаны или изображены в конкретной последовательности или вхождении, тогда как специалисты в данной области техники поймут, что такая определенность относительно последовательности в действительности не требуется. Также будет понятно, что термины и выражения, использованные в настоящей заявке, имеют обычное техническое значение, как согласованное с такими терминами и выражениями специалистами в данной области техники, как приведено выше, за исключением, когда разные конкретные значения не приведены иначе в настоящей заявке.
Подробное описание изобретения
Идеи, обсужденные в настоящей заявке, адресованы рентабельным способу и системе для искусственного расширения ширины полосы частот. В соответствии с такими идеями принимают узкополосный цифровой аудио сигнал. Узкополосный цифровой аудио сигнал может быть сигналом, например, принятым мобильной станцией в сотовой сети, и узкополосный цифровой аудио сигнал может включать в себя речь в диапазоне частот 300-3400 Гц. Способы искусственного расширения ширины полосы частот осуществляют, чтобы расширять спектр цифрового аудио сигнала с возможностью включения в него частот полосы низких частот, таких как 100-300 Гц и частот полосы высоких частот, таких как 3400-8000 Гц. При использовании искусственного расширения ширины полосы частот, чтобы расширить спектр с возможностью включения в него частот полосы низких частот и полосы высоких частот, создают более естественно звучащий цифровой аудио сигнал, который является более приятным пользователю мобильной станции, осуществляющей способ.
В способах искусственного расширения ширины полосы частот недостающую информацию в более высоких (3400-8000 Гц) и более низких (100-300 Гц) полосах частот искусственно генерируют на основании имеющейся узкополосной информации, а также априорной информации, полученной и запомненной из речевой базы данных, и добавленной в узкополосный сигнал, чтобы синтезировать псевдо широкополосный сигнал. Такое решение является достаточно привлекательным, поскольку оно требует минимальных изменений в существующую систему передачи. Например, не требуется дополнительная скорость передачи битов. Искусственное расширение ширины полосы частот может быть включено в элемент постобработки на принимающем конце и, следовательно, не зависит от технологии кодирования речи, использованной в системе связи, или характера самой системы, например, аналоговой, цифровой, наземной или сотовой. Например, способы искусственного расширения ширины полосы частот могут быть осуществлены мобильной станцией, принимающей узкополосный цифровой аудио сигнал, и результирующий широкополосный сигнал используют, чтобы генерировать аудио сигнал, воспроизводимый пользователю мобильной станции.
При определении информации полосы высоких частот сначала оценивают энергию в полосе высоких частот. Подмножество узкополосного сигнала используют, чтобы оценить энергию полосы высоких частот. Подмножество узкополосного сигнала, которое является ближайшим к частотам полосы высоких частот, обычно имеет наивысшую корреляцию с сигналом полосы высоких частот. Таким образом, только подмножество узкой полосы частот, в противоположность всей узкой полосе частот, используют, чтобы оценить энергию полосы высоких частот. Подмножество, которое используют, упомянуто как “полоса частот перехода”, и оно может включать в себя частоты, такие как 2500-3400 Гц. Более конкретно, полоса частот перехода определена в настоящей заявке, как полоса частот, которая содержится в узкой полосе частот, находится близко к полосе высоких частот, т.е. она служит в качестве перехода в полосу высоких частот. Этот подход находится в противоположности системам расширения ширины полосы частот предшествующего уровня техники, которые оценивают энергию полосы высоких частот на основе энергии во всей узкой полосе частот, обычно как отношение.
Для того чтобы оценить энергию полосы высоких частот, сначала оценивают энергию полосы частот перехода с помощью идей, обсужденных ниже относительно фиг.4 и фиг.5. Например, энергия полосы частот перехода у полосы частот перехода может быть вычислена сначала с помощью дискретизации с повышением частоты входного узкополосного сигнала, вычисления частотного спектра дискретизированного с повышением частоты узкополосного сигнала, а затем суммирования энергий спектральных компонентов в полосе частот перехода. Оцененную энергию полосы частот перехода затем вставляют в полиномиальное уравнение как независимую переменную, чтобы оценить энергию полосы высоких частот. Коэффициенты или веса разных степеней независимой переменной в полиномиальном уравнении, включая переменную нулевой степени, то есть постоянный член выбирают, чтоб минимизировать среднюю квадратичную ошибку между истинными и оцененными значениями энергии полосы высоких частот в течение большого числа кадров из тренировочной речевой базы данных. Точность оценки может быть дополнительно увеличена с помощью приведения к заданным условиям оценки относительно параметров, полученных из узкополосного сигнала, а также параметров, полученных из сигнала полосы частот перехода, как обсуждено более подробно ниже. После того как энергия полосы высоких частот оценена, оценивают спектр полосы высоких частот на основании оценки энергии полосы высоких частот.
При использовании таким способом полосы частот перехода предоставлен надежный способ расширения ширины полосы частот, который создает соответствующий аудио сигнал более высокого качества, чем было бы возможно, если бы использовали энергию во всей узкой полосе частот, чтобы оценивать энергию полосы высоких частот. Кроме того, этот способ мог бы быть использован без чрезмерного вредного влияния на существующие системы связи, поскольку способы расширения ширины полосы частот применяют к узкополосному сигналу, принятому системой связи, т.е. существующие системы связи могут быть использованы, чтобы посылать узкополосные сигналы.
Фиг.1 иллюстрирует процесс 100 для генерации цифрового аудио сигнала расширенной полосы частот в соответствии с различными вариантами осуществления изобретения. Сначала в операции 101 принимают узкополосный цифровой аудио сигнал. При обычной настройке приложения это будет содержать предоставление множества кадров такого контента. Эти идеи будут без труда приспосабливать обработку каждого такого кадра согласно описанным этапам. Например, при одном подходе каждый такой кадр может соответствовать 10-40 миллисекундам первоначального аудио контента.
Например, это может содержать предоставление цифрового аудио сигнала, который содержит синтезированный голосовой контент такой, который имеет место, например, при использовании этих идей совместно с принятым закодированным с помощью вокодера речевым контентом в портативном беспроводном устройстве связи. Однако также существуют другие возможности, как будет вполне понятно специалистам в данной области техники. Например, цифровой аудио сигнал мог бы вместо этого содержать первоначальный речевой сигнал или повторно дискретизированную версию либо первоначального речевого сигнала, либо синтезированного речевого контента.
Кратко ссылаясь на фиг.2, будет понятно, что этот цифровой аудио сигнал относится к некоторому первоначальному аудио сигналу 201, который имеет ширину 202 полосы частот первоначального соответствующего сигнала. Эта ширина 202 полосы частот первоначального соответствующего сигнала обычно будет больше, чем ширина полосы частот вышеупомянутого сигнала, которая соответствует цифровому аудио сигналу. Например, это может случаться, когда цифровой аудио сигнал представляет только часть 203 первоначального аудио сигнала 201, причем другие части оставлены вне полосы частот. В изображенном иллюстративном примере это включает в себя часть 204 полосы низких частот и часть 205 полосы высоких частот. Специалисты в данной области техники поймут, что этот пример служит только иллюстративной цели, и что не представленная часть может только содержать только часть полосы низких частот или часть полосы высоких частот. Эти идеи также были бы применимы для использования в прикладной установке, в которой не представленная часть разделяет полосу средних частот на две или более представленные части (не изображены).
Таким образом, без труда будет понятно, что не представленная часть (части) первоначального аудио сигнала 201 содержит контент, который эти настоящие идеи могут корректно искать, чтобы заменить или иначе представить некоторым корректным и допустимым способом. Также будет понятно, что ширина полосы частот этого сигнала занимает только часть ширины полосы частот по Найквисту, определенной с помощью соответственной частоты дискретизации. Это, в свою очередь, будет понятно, чтобы дополнительно предоставить область частот, в которой осуществлять желаемое расширение ширины полосы частот.
Опять, ссылаясь на фиг.1, входной цифровой аудио сигнал обрабатывают, чтобы сгенерировать обработанный цифровой аудио сигнал в операции 102. При одном подходе обработка в операции 102 является операцией дискретизации с повышением частоты. При другом подходе она может быть простой системой с единичным коэффициентом усиления, для которой выходной сигнал равняется входному сигналу. В операции 103 оценивают уровень энергии полосы высоких частот, соответствующий входному цифровому аудио сигналу, на основании полосы частот перехода обработанного цифрового аудио сигнала в предварительно определенном верхнем диапазоне частот узкополосной ширины полосы частот.
При использовании компонентов полосы частот перехода в качестве базиса для оценки получают более точную оценку, чем обычно было бы возможно, если все узкополосные компоненты были бы совместно использованы, чтобы оценить значение энергии компонентов полосы высоких частот. При одном подходе значение энергии полосы высоких частот используют, чтобы осуществлять доступ к справочной таблице, которая содержит множество соответствующих потенциальных форм спектральных огибающих полосы высоких частот, чтобы определять спектральную огибающую полосы высоких частот, т.е. соответствующую форму спектральной огибающей полосы высоких частот на правильном уровне энергии.
Затем этот процесс 100 будет по выбору подстраивать объединение 104 цифрового аудио сигнала с контентом полосы высоких частот, соответствующим оцененному значению энергии и спектру компонентов полосы высоких частот, чтобы предоставить расширенную версию узкополосного цифрового аудио сигнала, воспроизведение которого осуществляют. Несмотря на то, что процесс, изображенный на фиг.1, иллюстрирует только сложение оцененных компонентов полосы высоких частот, следует понимать, что компоненты полосы низких частот также могут быть оценены и объединены с узкополосным цифровым аудио сигналом, чтобы генерировать широкополосный сигнал с расширенной шириной полосы частот.
Результирующий аудио сигнал с расширенной шириной полосы частот (полученный с помощью объединения входного цифрового аудио сигнала с искусственно сгенерированным контентом полосы частот вне сигнала) имеет улучшенное качество аудио сигнала в отличие от первоначального узкополосного цифрового аудио сигнала, когда воспроизведен в аудио форме. При одном подходе это может содержать объединение двух элементов, которые являются взаимно исключающими относительно их спектрального контента. В таком случае такое объединение, например, может принимать вид простой конкатенации или иначе соединения двух (или более) сегментов вместе. При другом подходе, если требуется, контент ширины полосы у полосы высоких частот и/или полосы низких частот может иметь часть, которая находится в соответствующей ширине полосы частот сигнала цифрового аудио сигнала. Такое перекрытие может быть полезным, по меньшей мере, в некоторых настройках приложений, чтобы сглаживать и/или размывать переход от одной части к другой при объединении перекрывающейся части контента ширины полосы частот полосы высоких частот и/или полосы низких частот с соответствующей частью в полосе частот цифрового аудио сигнала.
Специалисты в данной области техники поймут, что описанные выше процессы являются без труда запускаемыми с использованием любой из большого разнообразия имеющихся и/или без труда конфигурируемых платформ, включая частично или полностью программируемые платформы, которые известны в данной области техники, или специализированные платформы, которые могут требоваться для некоторых приложений. Теперь, ссылаясь на фиг.3, будет предоставлен подход к такой платформе.
В этом иллюстративном примере в устройстве 300 процессор 301 выбора функционально соединяется со входом 320, который сконфигурирован и выполнен с возможностью приема цифрового аудио сигнала, имеющего соответствующую ширину полосы частот сигнала. Когда устройство 300 содержит беспроводное устройство двусторонней связи, такой цифровой аудио сигнал может быть предоставлен с помощью соответствующего приемника 303, как известно в данной области техники. В таком случае, например, цифровой аудио сигнал может содержать синтезированное голосовой контент, сформированный как функция принятого закодированного с помощью вокодера контента речи.
Процессор 301, в свою очередь, может быть сконфигурирован и выполнен (например, с помощью соответствующего программирования, когда процессор 301 содержит частично или полностью программируемую платформу, как известно в данной области техники) с возможностью выполнения одного или более из этапов или других выполняемых функций, приведенных в настоящей заявке. Это может содержать, например, оценку значения энергии полосы высоких частот из энергии полосы частот перехода, а затем использование значения энергии полосы высоких частот и множества форм индексирования энергии, чтобы определить спектральную огибающую полосы высоких частот.
Как описано выше, при одном подходе вышеупомянутое значение энергии полосы высоких частот может служить для того, чтобы способствовать доступу к справочной таблице, которая содержит множество соответствующих потенциальных форм спектральных огибающих. Чтобы поддерживать такой подход, это устройство также может содержать, если требуется, одну или более справочных таблиц 304, которые функционально соединены с процессором 301. Сконфигурированный таким образом, процессор 301 может без труда осуществлять доступ к справочной таблице 304, когда уместно.
Специалисты в данной области распознают и поймут, что такое устройство 300 может быть составлено из множества физически различных элементов, как предложено с помощью иллюстрации, изображенной на фиг.3. Однако также можно рассматривать эту иллюстрацию, как содержащую логический вид, в этом случае один или более из этих элементов может быть разрешен и реализован с помощью совместно использованной платформы. Также будет понятно, что такая совместно используемая платформа может содержать полностью или, по меньшей мере, частично программируемую платформу, которые известны в данной области техники.
Следует понимать, что обработка, обсужденная выше, может быть выполнена мобильной станцией на беспроводной связи с базовой станцией. Например, базовая станция может передавать узкополосный цифровой аудио сигнал с помощью традиционного средства в мобильную станцию. Если он принят, процессор (процессоры) в мобильной станции выполняют необходимые операции, чтобы генерировать версию с расширенной шириной полосы частот цифрового аудио сигнала, которые является более чистым и более приятен по звучанию пользователю мобильной станции.
Теперь, ссылаясь на фиг.4, входную узкополосную речь , дискретизированную на 8 кГц, сначала дискретизируют с повышение частоты в 2 раза с использованием соответствующего устройства 401 дискретизации с повышением частоты, чтобы получить дискретизированную с повышением частоты узкополосную речь , дискретизированную на 16 кГц. Это может содержать выполнение интерполяции 1:2 (например, с помощью вставки выборки нулевого значения между каждой парой выборок первоначальной речи), за которой следует фильтрация с помощью фильтра нижних частот, например фильтра нижних частот (LPF), имеющего полосу пропускания между 0 и 3400 Гц.
Из также вычисляют узкополосные параметры линейного предсказания (LP), , где P - порядок модели, с использованием устройства 402 анализа LP, которое использует широко известные способы LP. (Конечно, существуют другие возможности, например, параметры LP могут быть вычислены из прореженной версии 2:1 ). Эти параметры LP моделируют спектральную огибающую узкополосной входной речи как
.
В уравнении, приведенном выше, угловую частоту в радианах/выборка задают с помощью где - частота сигнала в Гц, а - частота дискретизации в Гц. Для частоты дискретизации , равной 8 кГц, подходящий порядок P модели, например, равен 10.
Затем параметры LP интерполируют на 2 с использованием модуля 403 интерполирования, чтобы получить С использованием дискретизированную с повышением частот узкополосную речь инверсно фильтруют с использованием фильтра 404 анализа, чтобы получить остаточный сигнал (который также дискретизируют на 16 кГц). При одном подходе эта операция инверсной фильтрации (или анализа) может быть описана с помощью уравнения
,
где n - индекс дискретизации.
В типичной настройке приложения инверсная фильтрация чтобы получить может быть выполнена на покадровой основе, где кадр определяют как последовательность из N последовательных выборок в течение длительности, равной Т секундам. Для многих приложений речевого сигнала достаточный выбор для Т приблизительно равен 20 ms с соответствующими значениями для N приблизительно равными 160 при частоте дискретизации 8 кГц и приблизительно 320 при частоте дискретизации 16 кГц. Последовательные кадры могут перекрывать друг друга, например, до 50% или приблизительно 50%, в этом случае вторая половина выборок в текущем кадре и первая половина выборок в следующем кадре являются одинаковыми, и новый кадр обрабатывают каждые Т/2 секунд. Например, для выбора Т как 20 ms и перекрытия 50% параметр LP вычисляют из 160 последовательных выборок каждые 10 ms и используют в инверсном фильтре средние 160 выборок соответствующего кадра из 320 выборок, чтобы выдать 160 выборок .
Также можно вычислить параметры LP порядка 2Р для операции инверсной фильтрации непосредственно из дискретизированной с повышением частот узкополосной речи. Однако этот подход может увеличить сложность как вычисления параметров LP, так и операции инверсной фильтрации без обязательного увеличения эффективности, по меньшей мере, при рабочих условиях.
Остаточный сигнал LP затем выпрямляют по полному периоду с использованием двухполупериодного выпрямителя 405 и фильтрации верхних частот результата (например, с использованием фильтра 406 верхних частот (HPF) с полосой пропускания между 3400 и 8000 Гц), чтобы получить выпрямленный остаточный сигнал полосы высоких частот. Параллельно выходной сигнал источника 407 псевдослучайного шума также фильтруют 408 по верхним частотам, чтобы получить сигнал шума полосы высоких частот. В качестве альтернативы отфильтрованная на верхних частотах шумовая последовательность может быть предварительно запомнена в буфере (таком как, например, кольцевой буфер) и к ней может быть осуществлен доступ, когда требуется сгенерировать . Использование такого буфера исключает вычисления, связанные с фильтрацией верхних частот выборок псевдослучайного шума в реальном времени. Эти два сигнала, а именно: и затем микшируют в микшере 409 в соответствии с уровнем голоса , предоставленным модулем 410 оценки и управления (ЕСМ) (этот модуль будет описан более подробно ниже). В этом иллюстративном примере уровень голоса изменяется от 0 до 1, причем 0 указывает уровень отсутствия голоса, а 1 указывает уровень максимального голоса. Микшер 409, по существу, формирует взвешенную сумму двух входных сигналов на своем выходе после гарантирования того, что два входных сигнала отрегулированы, чтобы иметь одинаковый уровень энергии. Выходной сигнал микшера задают с помощью
.
Специалисты в данной области техники поймут, что возможны другие правила микширования. Также можно сначала микшировать два сигнала, а именно: выпрямленный по полному периоду остаточный сигнал LP и сигнал псевдослучайного шума, а затем отфильтровать на верхних частотах микшированный сигнал. В этом случае два фильтра 406 и 408 верхних частот заменяют одним фильтром верхних частот на выходе микшера 409.
Остаточный сигнал затем предварительно обрабатывают с использованием препроцессора 411 возбуждения полосы высоких частот (НВ), чтобы сформировать сигнал возбуждения полосы высоких частот. Этап предварительной обработки может содержать: (i) масштабирование выходного сигнала микшера с возможностью соответствия уровню энергии полосы высоких частот и (ii) необязательное изменение формы выходного сигнала микшера с возможностью соответствия спектральной огибающей полосы высоких частот. Как так и предоставляют в препроцессор 411 возбуждения НВ с помощью ЕСМ 410. При использовании этого подхода может быть полезным во многих прикладных установках гарантировать, что такое изменение формы не влияет на спектр фазы выходного сигнала микшера, то есть изменение формы предпочтительно может быть выполнено с помощью фильтра с нулевой фазовой характеристикой.
Дискретизированный с повышением частоты узкополосный речевой сигнал и сигнал возбуждения полосы высоких частот складывают вместе с использованием сумматора 412, чтобы сформировать сигнал смешанной полосы частот. Этот результирующий сигнал смешанной полосы частот вводят в фильтр 413 эквалайзера, который фильтрует этот входной сигнал с использованием информации о широкополосной спектральной огибающей , предоставленной ЕСМ 410, чтобы сформировать оцененный широкополосный сигнал . Фильтр 413 эквалайзера по существу накладывает широкополосную спектральную огибающую на входной сигнал чтобы сформировать (дополнительное обсуждение в этом отношении следует ниже). Результирующий оцененный широкополосный сигнал подвергают фильтрации верхних частот, например, с использованием фильтра 414 верхних частот, имеющего полосу пропускания от 3400 до 8000 Гц, и подвергают фильтрации нижних частот, например, с использованием фильтра 415 нижних частот, имеющего полосу пропускания от 0 до 300 Гц, чтобы получить, соответственно, сигнал полосы высоких частот и сигнал полосы низких частот. Эти сигналы и дискретизированный с повышением частот узкополосный сигнал складывают вместе в другом сумматоре 416, чтобы сформировать сигнал расширенной ширины полосы частот.
Специалисты в данной области техники поймут, что имеются другие возможные конфигурации фильтра, чтобы получить сигнал расширенной ширины полосы частот. Если фильтр 413 эквалайзера точно сохраняет спектральный контент дискретизированного с повышением частот узкополосного сигнала , который является частью входного сигнала тогда оцененный широкополосный сигнал может быть непосредственно выведен как сигнал расширенной полосы частот, таким образом, исключая фильтр 414 верхних частот, фильтр 415 нижних частот и сумматор 416. В качестве альтернативы могут быть использованы два фильтра эквалайзера, один, чтобы восстановить низкочастотную часть, а другой, чтобы восстановить высокочастотную часть, и выходной сигнал первого из них может быть прибавлен к отфильтрованному на верхних частотах выходному сигналу последнего из них, чтобы получить сигнал расширенной полосы частот.
Специалисты в данной области техники узнают и поймут, что с помощью этого конкретного проиллюстрированного примера выпрямленное остаточное возбуждение полосы высоких частот и возбуждение шума полосы высоких частот микшируют вместе в соответствии с уровнем голоса. Когда уровень голоса равен 0, указывая речь без голоса, используют исключительно возбуждение шума. Подобным образом, когда уровень голоса равен 1, указывая полностью речь с голосом, используют исключительно выпрямленное остаточное возбуждение полосы высоких частот. Когда уровень голоса находится между 0 и 1, указывающим микшированную речь с голосом, два возбуждения микшируют в соответствующей части, как определено с помощью уровня голоса, и используют. Таким образом, микшированное возбуждение полосы высоких частот является подходящим для звуков с голосом, без голоса и со смешанным голосом.
Специалисты в данной области техники также поймут и осознают, что в этом иллюстративном примере фильтр эквалайзера используют для того, чтобы синтезировать . Фильтр эквалайзера рассматривает широкополосную спектральную огибающую , предоставленную ЕСМ, как идеальную огибающую и корректирует (или выравнивает) спектральную огибающую своего входного сигнала , чтобы соответствовать идеальной. Поскольку только амплитуды включены в выравнивание спектральной огибающей, фазовую характеристику фильтра эквалайзера выбирают равной нулю. Амплитудный отклик фильтра эквалайзера задают с помощью . Модель и осуществление такого фильтра эквалайзера для приложения кодирования речи содержит хорошо понятную степень усилий. Однако вкратце фильтр эквалайзера работает следующим образом с использованием анализа перекрытия-суммирования (OLA).
Входной сигнал сначала разделяют на перекрывающиеся кадры, например кадры 20 ms (320 выборок при 16 кГц) с перекрытием 50%. Каждый кадр выборок затем умножают (по точкам) на подходящее окно, например, окно косинус на пьедестале с идеальной характеристикой восстановления. Обработанный окном речевой кадр затем анализируют, чтобы оценить параметры LP, моделирующие его спектральную огибающую. Идеальную широкополосную спектральную огибающую для кадра предоставляют с помощью ЕСМ. Из двух спектральных огибающих эквалайзер вычисляет отклик амплитуды фильтра как и устанавливает фазовую характеристику в ноль. Затем входной кадр выравнивают, чтобы получить соответствующий выходной кадр. Выровненные выходные кадры, в конце концов, перекрывают-суммируют, чтобы синтезировать оцененную широкополосную речь .
Специалисты в данной области техники поймут, что помимо анализа LP имеются другие способы, чтобы получать спектральную огибающую данного речевого кадра, например, кепстральный анализ, кусочно-линейное сглаживание или сглаживание кривой более высокого порядка пиков спектральной амплитуды и т.д.
Специалисты в данной области техники также поймут, что вместо применения окна непосредственно ко входному сигнала , можно было бы начать с обработанной посредством окна версии и чтобы достичь того же результата. Также может быть удобным поддерживать размер кадра и процент перекрытия для фильтра эквалайзера теми же, какие они в блоке фильтра анализа, использованном, чтобы получить из .
Описанный подход фильтра эквалайзера для синтеза дает некоторое число преимуществ: i) поскольку фазовая характеристика фильтра 413 эквалайзера равна нулю, разные частотные составляющие выходного сигнала выровнены во времени с соответствующими составляющими входного сигнала. Это может быть полезным для речи с голосом, поскольку сегменты высокой энергии (такие как сегменты импульса образованного в голосовой щели) выпрямленного остаточного возбуждения полосы высоких частот выровнены во времени с соответствующими сегментами высокой энергии дискретизированной с повышением частоты узкополосной речи на входе эквалайзера, и сохранение этого выравнивания во времени на выходе эквалайзера часто будет действовать таким образом, чтобы гарантировать хорошее качество речи; ii) входной сигнал в фильтр 413 эквалайзера не обязательно должен иметь плоский спектр, как в случае фильтра синтеза LP; iii) фильтр 413 эквалайзера задают в частотной области и, следовательно, лучшее и более точное управление относительно разных частей спектра является осуществимым; и iv) возможны итерации, чтобы улучшить эффективность фильтрации за счет дополнительной сложности и задержки (например, выходной сигнал эквалайзера может быть подан обратно на вход, чтобы быть выровненным снова и снова, чтобы улучшить характеристики).
Теперь будут представлены некоторые дополнительные подробности относительно описанной конфигурации.
Предварительная обработка возбуждения полосы высоких частот. Отклик амплитуды фильтра 413 эквалайзера задают с помощью , а его фазовая характеристика может быть установлена в ноль. Чем ближе спектральная огибающая к идеальной спектральной огибающей тем легче для эквалайзера корректировать спектральную огибающую входного сигнала с возможностью соответствия идеальной. По меньшей мере, одной функцией препроцессора 411 возбуждения полосы высоких частот является - переместить ближе к и, таким образом, облегчить работу фильтра 413 эквалайзера. Во-первых, это выполняют с помощью масштабирования выходного сигнала микшера на правильный уровень энергии полосы высоких частот, предоставленный ЕСМ 410. Во-вторых, по выбору изменяют форму выходного сигнала микшера таким образом, чтобы его спектральная огибающая соответствовала спектральной огибающей полосы высоких частот, предоставленной ЕСМ 410, без влияния на его фазовый спектр. Второй этап может содержать, по существу, этап предварительного выравнивания.
Возбуждение полосы низких частот. В отличие от потери информации в полосе высоких частот, вызванной наложенным ограничением ширины полосы частот, по меньшей мере, частично с помощью частоты дискретизации, потеря информации в полосе низких частот (0-300 Hz) узкополосного сигнала происходит, по меньшей мере, в большой степени вследствие ограничивающего полосу частот действия передаточной функции канала, например, состоящего из микрофона, усилителя, кодера речи, канала передачи или тому подобного. Следовательно, в чистом узкополосном сигнале все же присутствует информация полосы низких частот, хотя на очень низком уровне. Эта информация низкого уровня может быть усилена простым способом, чтобы восстановить первоначальный сигнал. Но в этом процессе необходимо соблюдать осторожность, поскольку сигналы низкого уровня легко искажаются с помощью ошибок, шума и искажений. Альтернативой является - синтезировать сигнал возбуждения полосы низких частот, подобный сигналу возбуждения полосы высоких частот, описанному ранее. То есть сигнал возбуждения полосы низких частот может быть сформирован с помощью микширования выпрямленного остаточного сигнала полосы низких частот и сигнала шума полосы низких частот способом, подобным формированию выходного сигнала миксера полосы высоких частот.
Теперь, ссылаясь на фиг.5, модуль 410 оценки и управления (ЕСМ) берет в качестве входного сигнала узкополосную речь , дискретизированную с повышением частоты узкополосную речь и узкополосные параметры LP и предоставляет в качестве выходного сигнала уровень голоса энергию полосы высоких частот , спектральную огибающую полосы высоких частот и широкополосную спектральную огибающую .
Оценка уровня голоса. Чтобы оценить уровень голоса, устройство 501 пересечения нулевого уровня вычисляет число пересечений нулевого уровня ZC в каждом кадре узкополосной речи следующим образом:
где
,
n - индекс дискретизации, а N - размер кадра в выборках. Удобно поддерживать размер кадра и процент перекрытия, использованные в ECM 410 теми же, что и размер кадра и процент перекрытия, использованные в фильтре 413 эквалайзера и блоках фильтра анализа, например, Т=20 ms, N=160 для дискретизации 8 кГц, N=320 для дискретизации 16 кГц и 50% перекрытие со ссылкой на иллюстративные значения, представленные ранее. Вычисленное значение параметра , как выше, изменяется в пределах от 0 до 1. Из параметра устройство 502 оценки уровня голоса может оценить уровень голоса следующим образом:
где и представляют, соответственно, выбранные низкий и высокий пороги, соответственно, например, и Выходной сигнал детектора 503 возникновения/взрыва также может быть подан в детектор 502 уровня голоса. Если кадр отмечен, как содержащий возникновение или взрыв с d=1, уровень голоса этого кадра, а также следующего кадра может быть установлен в 1. Заявитель напоминает, что при одном подходе, когда уровень голоса равен 1, используют исключительно выпрямленное остаточное возбуждение полосы высоких частот. Это является выгодным при возникновении/взрыве по сравнению с возбуждением только с шумом или микшированным возбуждением полосы высоких частот, поскольку выпрямленное остаточное возбуждение близко следует энергии в отличие от траектории времени дискретизированной с повышением частоты узкополосной речи, таким образом, уменьшая вероятность искажений типа предварительного эха из-за дисперсии времени в сигнале расширенной ширины полосы частот.
Для того чтобы оценить энергию полосы высоких частот, устройство 504 оценки энергии полосы частот перехода оценивает энергию полосы частот перехода из дискретизированного с повышением частоты узкополосного речевого сигнала . Полоса частот перехода определена в настоящей заявке, как полоса частот, которая содержится в узкой полосе частот и является близкой с полосе высоких частот, т.е. служит в качестве перехода в полосу высоких частот (которая в этом иллюстративном примере приблизительно равна 2500-3400 Гц). Интуитивно можно было бы ожидать, что энергия полосы высоких частот хорошо коррелирует с энергией полосы частот перехода, что подтверждено в экспериментах. Простым способом вычислить энергию полосы частот перехода является вычислить частотный спектр (например, посредством быстрого преобразования Фурье (FFT)) и суммировать энергии спектральных составляющих в полосе частот перехода.
Из энергии полосы частот перехода в дБ (децибел) энергию полосы высоких частот в дБ оценивают как
где коэффициенты и выбирают таким образом, чтобы минимизировать среднюю квадратичную ошибку между истинным и оцененным значениями энергии полосы высоких частот в течение большого числа кадров из тренировочной речевой базы данных.
Точность оценки дополнительно может быть улучшена с помощью использования контекстуальной информации из дополнительных параметров речи, таких как параметр ZC пересечения нулевого уровня и параметра sl спектральной огибающей полосы частот перехода, которые могут быть предоставлены устройством 505 оценки крутизны характеристики полосы частот перехода. Параметр пересечения нулевого уровня, как обсуждено выше, указывает уровень голоса речи. Параметр крутизны характеристики указывает скорость изменения спектральной энергии в полосе частот перехода. Он может быть оценен из узкополосных параметров LP с помощью аппроксимации спектральной огибающей (в дБ) в полосе частот перехода как прямой линии, например, посредством линейной регрессии, и вычисления ее крутизны характеристики. Плоскость параметра ZC-sl затем разделяют на некоторое число областей, и коэффициенты и отдельно выбирают для каждой области. Например, если каждый из диапазонов параметров ZC-sl разделяют на 8 одинаковых интервалов, тогда плоскость параметра ZC-sl разделяют на 64 области и выбирают 64 множества коэффициентов и , одно для каждой области.
При другом подходе (не изображенном на фиг.5) дополнительное улучшение точности оценки достигают следующим образом. Следует заметить, что вместо параметра крутизны характеристики (который является только представлением первого порядка спектральной огибающей в полосе частот перехода), представление более высокого разрешения может быть использовано, чтобы увеличить эффективность устройства оценки энергии полосы высоких частот. Например, может быть использовано векторное квантованное представление форм спектральной огибающей полосы частот перехода (в дБ). В качестве одного иллюстративного примера кодовая книга векторного устройства квантования (VQ) состоит из 64 форм, упомянутых как параметры формы спектральных огибающих полосы частот перехода, которые вычисляют из большой тренировочной базы данных. Возможно заменить параметр sl в ZC-sl плоскости параметров параметром tbs, чтобы достичь улученных характеристик. Однако при другом подходе вводят третий параметр, упомянутый как мера спектральной линейности. Меру спектральной линейности определяют как отношение геометрического среднего к арифметическому среднему узкополосной спектральной огибающей (в дБ) в соответствующем диапазоне частот (таком как, например, 300-3400 Гц). Параметр указывает, насколько линейной является спектральная огибающая, изменяющаяся в этом примере от 0 для огибающей с пиками до 1 для полностью линейной огибающей. Параметр также связывают с уровнем голоса речи, но другим способом, чем ZC. При одном подходе трехмерное пространство параметра ZC-sfm-tbs разделяют на некоторое число областей следующим образом. Плоскость sfm-tbs разделяют на 12 областей, таким образом, давая увеличение до 12×64=768 возможных областей в трехмерном пространстве. Однако не все из этих областей имеют достаточные точки данных из тренировочной базы данных. Таким образом, для многих настроек приложений число полезных областей ограничивают приблизительно до 500, причем для каждой из этих областей выбирают отдельное множество коэффициентов и .
Устройство 506 оценки энергии полосы высоких частот может обеспечить дополнительное улучшение точности оценки с помощью использования более высоких степеней в оценке , например,
=
В этом случае пять разных коэффициентов, а именно, и выбирают для каждого разделения плоскости параметра (или в качестве альтернативы для каждого разделения пространства параметра ZC-sfm-tbs). Поскольку приведенные выше уравнения (см. абзацы 69 и 74) для оценки являются нелинейными, особая осторожность должна быть предпринята, чтобы регулировать оцененную энергию полосы высоких частот как уровень входного сигнала, т.е. энергия, изменения. Одним способом для достижения этого является оценить уровень входного сигнала в дБ, регулировать вверх или вниз, чтобы соответствовать номинальному уровню сигнала, оценить и регулировать вниз или вверх с возможностью соответствия фактическому уровню сигнала.
Несмотря на то, что способ оценки энергии полосы высоких частот, описанный выше, работает достаточно хорошо для большего числа кадров, иногда имеются кадры, для которых энергия полосы высоких частот является чрезвычайно недооцененной или переоцененной. Такие ошибки оценки могут быть, по меньшей мере, частично скорректированы посредством устройства 507 сглаживания отслеживания энергии, которое содержит сглаживающий фильтр. Сглаживающий фильтр может быть сконструирован таким образом, что он позволяет проходить через фактические переходы в данных отслеживания энергии без воздействия, например, переходы между сегментами с голосом и без голоса, но корректирует случайные грубые ошибки в других гладких данных отслеживания энергии, например, в сегменте с голосом и без голоса. Подходящим фильтром для этой цели является медианный фильтр, например, 3-х точечный медианный фильтр, описанный с помощью уравнения
где k - индекс кадра, а оператор (·) медианы выбирает медиану из своих трех элементов. 3-точечный медианный фильтр вносит задержку, равную одному кадру. Для сглаживания данных отслеживания энергии также могут быть сконструированы другие типы фильтров с задержкой или без задержки.
Сглаженное значение энергии может быть дополнительно адаптировано с помощью адаптера 508 энергии, чтобы получить окончательную адаптированную оценку энергии высокой полосы частот. Эта адаптация может включать в себя либо уменьшение, либо увеличение сглаженного значения энергии на основании параметра уровня голоса и/или параметра d, выведенных с помощью детектора 503 возникновения/взрыва. При одном подходе адаптация значения энергии полосы высоких частот изменяет не только уровень энергии, но также форму спектральной огибающей, поскольку выбор спектра полосы высоких частот может быть связан с оцененной энергией.
На основании параметра уровня голоса адаптация энергии может быть достигнута следующим образом. Для соответствующему кадру без голоса, сглаженное значение энергии немного увеличивают, например, на 3 дБ, чтобы получить адаптированное значение энергии. Увеличенный уровень энергии подчеркивает не вокализированную речь в выходном сигнале расширенной ширины полосы частот по сравнению с входным узкополосным сигналом, а также помогает выбрать более подходящую форму спектральной огибающей для сегмента без голоса. Для соответствующему кадру с голосом, сглаженное значение энергии немного уменьшают, например, на 6 дБ, чтобы получить адаптированное значение энергии. Немного уменьшенный уровень энергии позволяет маскировать любые ошибки при выборе формы спектральной огибающей для сегментов с голосом и являющихся следствием шумовых искажений.
Когда уровень голоса находится между 0 и 1, соответствующий микшированной голосовой речи, не выполняют адаптации значения энергии. Такие микшированные голосовые кадры представляют только небольшую часть полного числа кадров и неадаптированные значения энергии работают хорошо для этих кадров. На основании выходного сигнала детектора возникновения/взрыва адаптацию энергии выполняют следующим образом. Когда =1, это указывает, что соответствующий кадр содержит возникновение, например, переход от тишины звуку с голосом или без голоса, или взрывной звук, например, /t/. В этом случае энергию полосы высоких частот конкретного кадра, а также следующего кадра адаптируют в очень малое значение такое, что его контент энергии полосы высоких частот является малым в речи расширенной ширины полосы частот. Это помогает избегать случайных искажений, связанных с такими кадрами. Для =1 не выполняют дополнительной адаптации энергии, т.е. сохраняют адаптацию энергии на основании уровня голоса как описано выше.
Далее описана оценка широкополосной спектральной огибающей . Чтобы оценить , можно отдельно оценить узкополосную спектральную огибающую , спектральную огибающую полосы высоких частот и спектральную огибающую полосы низких частот и объединить вместе три огибающие.
Устройство 509 оценки узкополосного спектра может оценивать узкополосную спектральную огибающую из дискретизированной с повышением частоты узкополосной речи Из сначала вычисляют параметры LP, где Q - порядок модели, с использованием широко известных способов анализа LP. Для дискретизированной с повышением частоты, равной 16 кГц, подходящий порядок модели Q, например, равен 20. Параметры моделируют спектральную огибающую дискретизированной с повышением частоты узкополосной речи как
В уравнении, приведенном выше, угловую частоту в радиан/выборка задают с помощью , где - частота сигнала в Гц, а - частота дискретизации в Гц. Следует заметить, что спектральные огибающие и являются разными, поскольку первую получают из узкополосной входной речи, а последнюю из дискретизированной с повышением частоты узкополосной речи. Однако внутри полосы пропускания от 300 до 3400 Гц они приблизительно связаны с помощью с точностью до константы. Несмотря на то, что спектральная огибающая определена относительно диапазона 0-8000 Гц, полезная часть находится в полосе пропускания (в иллюстративном примере 300-3400 Гц.
В этом отношении в качестве одного иллюстративного примера вычисление выполняют с использованием FFT следующим образом. Сначала вычисляют импульсную характеристику инверсного фильтра для подходящей длины, например, 1024, как Затем берут FFT импульсной характеристики и получают спектральную огибающую амплитуды с помощью вычисления обратной амплитуды при каждом индексе FFT. Для длины FFT, равной 1024, вычисленное частотное разрешение , вычисленное, как выше, равно 16000/1024=15625 Гц. Из оценивают узкополосную спектральную огибающую просто с помощью простого извлечения спектральных амплитуд приблизительно из диапазона 300-3400 Гц.
Специалисты в данной области техники поймут, что кроме анализа LP имеются другие способы, чтобы получать спектральную огибающую данного речевого кадра, например, кепстральный анализ, кусочно-линейное сглаживание или сглаживание кривой более высокого порядка пиков спектральной амплитуды и т.д.
Устройство 510 оценки полосы высоких частот берет оценку энергии полосы высоких частот в качестве входного сигнала и выбирает форму спектральной огибающей полосы высоких частот, которая согласуется с оцененной энергией полосы высоких частот.
Далее описан способ, чтобы сравняться с разными формами спектральных огибающих полосы высоких частот, соответствующих разным энергиям полосы высоких частот.
Начиная с большой тренировочной базы данных широкополосной речи, дискретизированной на 16 кГц, вычисляют широкополосную спектральную огибающую амплитуды для каждого речевого кадра с использованием анализа LP или других способов. Из широкополосной спектральной огибающей каждого кадра извлекают часть полосы высоких частот, соответствующую 3400-8000 Гц, и нормализуют с помощью деления на спектральную амплитуду при 3400 Гц. Таким образом, результирующие спектральные огибающие полосы высоких частот имеют амплитуду, равную 0 дБ, на 3400 Гц. Далее вычисляют энергию полосы высоких частот, соответствующую каждой нормализованной огибающей полосы высоких частот. Затем разделяют набор спектральных огибающих полосы высоких частот на основании энергии полосы высоких частот, например, выбирают последовательность номинальных значений энергии, отличающихся на 1 дБ, чтобы покрыть весь диапазон, и все огибающие с энергии в пределах 0,5 дБ номинальной величины группируют вместе.
Для каждой, сформированной таким образом группы, вычисляют среднюю форму спектральной огибающей полосы высоких частот, а затем соответствующую энергию полосы высоких частот. На фиг.6 изображен набор из 60 форм 600 спектральных огибающих полосы высоких частот (с амплитудой в дБ относительно частоты в Гц) на разных уровнях энергии. Отсчитывая снизу фигуры, были получены 1-я, 10-я, 20-я, 30-я, 40-я, 50-я и 60-я формы (упомянутые в настоящей заявке как предварительно вычисленные формы) с использованием способа, подобного способу, описанному выше. Остальные 53 формы были получены просто с помощью линейной интерполяции (в области дБ) между ближайшими предварительно вычисленными формами.
Энергии этих форм находятся в пределах приблизительно 4,5 дБ для 1-й формы до приблизительно 43,5 дБ для 60-й формы. С учетом энергии полосы высоких частот для кадра простым делом является выбрать ближайшую соответствующую форму спектральной огибающей высокой полосы частот, как будет описано позже в документе. Выбранная форма представляет оцененную спектральную огибающую высокой полосы частот с точностью до константы. На фиг.6 среднее разрешение энергии равно приблизительно 0,65 дБ. Понятно, что лучшее разрешение является возможным с помощью увеличения числа форм. С учетом форм на фиг.6 выбор формы для конкретной энергии является уникальным. Также можно представить ситуацию, когда имеется более одной формы для данной энергии, например, 4 формы на уровень энергии, и в этом случае требуется дополнительная информация, чтобы выбрать одну из 4 форм для каждого данного уровня энергии. Кроме того, можно иметь множество множеств форм, причем каждое множество индексировано с помощью энергии полосы высоких частот, например, два набора форм, выбираемых с помощью параметра голоса, один для кадров с голосом, а другое для кадров без голоса. Для кадра микшированного голоса две формы, выбранные из двух набором, могут быть объединены соответствующим образом.
Способ оценки спектра полосы высоких частот, описанный выше, дает некоторые очевидные преимущества. Например, этот подход дает явное управление относительно временного изменения оценок спектра полосы высоких частот. Плавное развитие оценок спектра полосы высоких частот в отдельных речевых сегментах, например, речи с голосом, речи без голоса и т.д., часто важно для речи расширенной полосы частот без искажений. Для способа оценки спектра полосы высоких частот, описанного выше, из фиг.6 понятно, что небольшие изменения энергии полосы высоких частот дают в результате небольшие изменения форм спектральной огибающей полосы высоких частот. Таким образом, плавное изменение спектра полосы высоких частот, по существу, может быть гарантировано с помощью гарантирования, что временное изменение энергии полосы высоких частот в отдельных речевых сегментах также является плавным. Это явно выполняют с помощью сглаживания данных отслеживания энергии, как описано выше.
Следует заметить, что отдельные речевые сегменты, в которых выполняют сглаживание энергии, могут быть идентифицированы даже с более точным разрешением, например, с помощью отслеживания изменения в узкополосном речевом спектре и дискретизированном с повышением частоты узкополосном речевом спектре от кадра к кадру с использованием любой одной из широко известных мер спектрального расстояния, таких как логарифмическое спектральное искажение или искажение Итакуры (Itakura) на основе LP. Используя этот подход, отдельный речевой сегмент может быть определен как последовательность кадров, в которых спектр изменяется медленно, и которая заключена с каждой стороны в скобки с помощью кадра, в котором вычисленное спектральное изменение превышает фиксированный или адаптивный порог, таким образом, указывая наличие спектрального перехода на любой стороне отдельного речевого сегмента. Затем может быть выполнено сглаживание данных отслеживания энергии в отдельном речевом сегменте, но не через границы сегментов.
В настоящей заявке плавное изменение данных отслеживания энергии полосы высоких частот преобразуют в плавное изменение оцененной спектральной огибающей полосы высоких частот, которая является требуемой характеристикой в отдельном речевом сегменте. Также следует заметить, что этот подход к гарантированию плавного изменения спектральной огибающей полосы высоких частот в отдельном речевом сегменте также может быть применен в качестве этапа постобработки к последовательности оцененных спектральных огибающих полосы высоких частот с помощью способов предшествующего уровня техники. Однако в этом случае спектральные огибающие полосы высоких частот, возможно, должны быть явно сглажены в отдельном речевом сегменте, в отличие от простого сглаживания данных отслеживания энергии настоящих идей, которое автоматически дает в результате плавное изменение спектральной огибающей полосы высоких частот.
Потеря информации узкополосного речевого сигнала в полосе низких частот (которая в этом иллюстративном примере может быть от 0 - 300 Гц) происходит не вследствие ограничения ширины полосы частот, наложенного частотой дискретизации, как в случае полосы высоких частот, а вследствие действия ограничения полосы частот передаточной функции канала, состоящего, например, из микрофона, усилителя, кодера речи, канала передачи и т.д.
Простым подходом, чтобы восстанавливать сигнал полосы нижних частот, является противодействие действию этой передаточной функции канала в диапазоне от 0 до 300 Гц. Простым способом, чтобы сделать это, является использование устройства 511 оценки спектра полосы низких частот, чтобы оценивать передаточную функцию канала в диапазоне частот от 0 до 300 Гц из имеющихся данных, получение ее инверсии, и использование инверсии, чтобы поднять спектральную огибающую дискретизированной с повышением частоты узкополосной речи. То есть спектральную огибающую полосы низких частот оценивают как сумму и характеристики подъема спектральной огибающей сконструированной из инверсии передаточной функции канала (при допущении, что амплитуды спектральных огибающих выражены в логарифмической области, например дБ). Для многих настроек приложений при конструировании должна быть проявлена осторожность. Поскольку восстановление сигнала полосы нижних частот, по существу, основано на усилении сигнала низкого уровня, это включает в себя опасность ошибок усиления, шума и искажений, обычно связанных с сигналами низкого уровня. В зависимости от качества сигнала низкого уровня максимальное значение подъема должно быть ограничено соответствующим образом. Также в диапазоне частот от 0 приблизительно до 60 Гц желательно сконструировать с возможностью иметь малые (или даже отрицательные значения, например, ослабление) значения, чтобы избежать усиления электрического фона и фонового сети.
Устройство 512 оценки широкополосного спектра затем может оценить широкополосную спектральную огибающую с помощью объединения оцененных спектральных огибающих в узкой полосе частот, полосе высоких частот и полосе низких частот. Один способ объединения трех огибающих, чтобы оценить широкополосную спектральную огибающую, действует следующим способом.
Узкополосную спектральную огибающую оценивают из как описано выше, и ее значения в диапазоне от 400 до 3200 Гц используют без какого-либо изменения в оценке широкополосной спектральной огибающей . Чтобы выбрать подходящую форму полосы высоких частот, необходимы энергия полосы высоких частот и начальное значение амплитуды на 3400 Гц. Энергию полосы высоких частот в дБ оценивают, как описано ранее. Начальное значение амплитуды на 3400 Гц оценивают с помощью моделирования спектра амплитуды FFT в дБ в полосе частот перехода, а именно, 2500-3400 Гц, посредством прямой линии через линейную регрессию и нахождение значения прямой линии на 3400 Гц. Обозначим это значение амплитуды с помощью в дБ. Затем выбирают форму спектральной огибающей полосы высоких частот в качестве одного из множества значений, например, как изображено на фиг.6, которая имеет значение энергии, ближайшее к Обозначим эту форму с помощью . Затем оценку спектральной огибающей полосы высоких частот и, следовательно, широкополосную спектральную огибающую в диапазоне от 3400 до 8000 Гц оценивают как +.
Между 3200 и 3400 Гц оценивают как линейно интерполированное значение в дБ между и прямой линией, соединяющей на 3200 Гц и на 3400 Гц. Сам коэффициент интерполяции изменяют линейно таким образом, что оцененная постепенно перемещается от на 3200 Гц в на 3400 Гц. Между 0 до 400 Гц спектральную огибающую полосы низких частот и широкополосную спектральную огибающую оценивают как +, где представляет, соответствующим образом сконструированную характеристику подъема от инверсии передаточной функции канала, как описано ранее.
Как упомянуто ранее, кадры, содержащие появление и/или взрыв, могут приносить пользу благодаря специальной обработке, чтобы избежать случайных искажений в речи расширенной ширины полосы частот. Такие кадры могут быть идентифицированы с помощью внезапного увеличения их энергии относительно предыдущих кадров. Выходной сигнал d детектора 503 возникновения/взрыва устанавливают в 1 всякий раз, когда энергия предыдущего кадра является низкой, т.е. ниже определенного порога, например - 50 дБ, а увеличение энергии текущего кадра относительно предыдущего кадра превышает другой порог, например, 15 дБ. Иначе, выходной сигнал d детектора устанавливают в 0. Саму энергию кадра вычисляют из энергии спектра амплитуды FFT дискретизированной с повышением частоты узкополосной речи в узкой полосе частот, т.е. 300-3400 Гц. Как упомянуто выше, выходной сигнал d детектора 503 возникновения/взрыва подают в устройство 502 оценки уровня голоса и адаптер 508 энергии. Как описано ранее, всякий раз, когда кадр отмечен как содержащий появление или взрыв d=1, уровень голоса этого кадра, а также следующего кадра устанавливают в 1. Также адаптированное значение энергии полосы высоких частот этого кадра, а также следующего кадра устанавливают в малое значение. В качестве альтернативы расширение ширины полосы частот можно обойти для этих кадров.
Специалисты в данной области техники поймут, что описанные способы оценки энергии полосы высоких частот могут быть использованы совместно с другими системами расширения ширины полосы частот предшествующего уровня техники, чтобы масштабировать искусственно сгенерированный контент сигнала полосы высоких частот для таких систем до подходящего уровня энергии. Кроме того, следует заметить, что, несмотря на то, что способ оценки энергии описан со ссылкой на полосу высоких частот (например, 3400-8000 Гц), он также может быть применен, чтобы оценивать энергию в любой полосе частот с помощью соответствующего переопределения полосы частот перехода. Например, чтобы оценить энергию в контексте полосы низких частот, такой как 0-300 Гц, полоса частот перехода может быть переопределена как 300-600 Гц. Специалисты в данной области техники также поймут, что способы оценки энергии полосы высоких частот, описанные в настоящей заявке, могут быть использованы для целей кодирования речи/аудио. Также способы, описанные в настоящей заявке для оценки спектральной огибающей полосы высоких частот и возбуждения полосы высоких частот также могут быть использованы в контексте кодирования речи/аудио сигнала.
Следует заметить, что, несмотря на то, что оценка параметров, таких как спектральная огибающая, пересечение нулевого уровня, коэффициенты LP, энергии полосы частот и т.д., описана в ранее приведенных конкретных примерах, в некоторых случаях, как выполняемая из узкополосной речи, а в других случаях дискретизированной с повышением частоты узкополосной речи, специалисты в данной области техники поймут, что оценка соответственных параметров и их последующее использование и приложение могут быть модифицированы, как выполняемые из любых из этих двух сигналов (узкополосной речи или дискретизированной с повышением частоты узкополосной речи), не выходя за рамки сущности и объема описанных идей.
Специалисты в данной области техники поймут, что большое разнообразие модификаций, изменений и комбинаций могут быть сделаны относительно вышеописанных вариантов осуществления, на выходя за рамки сущности и объема изобретения, и такие модификации, изменения и комбинации должны быть рассмотрены как находящиеся в пределах изобретательской концепции.
Изобретение относится к воспроизведению аудио контента, в частности к способам расширения полосы частот. Техническим результатом является возможность генерирования речи расширенной ширины полосы частот с минимальным числом искажений. Указанный результат достигается тем, что принимают (101) входной цифровой аудио сигнал, содержащий узкополосный сигнал. Входной цифровой аудио сигнал обрабатывают (102), чтобы сгенерировать обработанный цифровой аудио сигнал. Оценивают (103) уровень энергии полосы высоких частот, соответствующий входному цифровому аудио сигналу, на основании оцененной энергии полосы частот перехода обработанного цифрового аудио сигнала в предварительно определенном верхнем диапазоне частот узкополосной ширины полосы частот. Генерируют (104) цифровой аудио сигнал полосы высоких частот на основании уровня энергии полосы высоких частот и оцененного спектра полосы высоких частот, соответствующего уровню энергии полосы высоких частот. 2 н. и 8 з.п. ф-лы, 6 ил.
1. Способ для оценки энергии полосы высоких частот в системе расширения полосы частот, содержащий этапы, на которых
принимают входной цифровой аудиосигнал, содержащий узкополосный сигнал,
обрабатывают входной цифровой аудиосигнал, чтобы сгенерировать обработанный цифровой аудиосигнал, и
оценивают уровень энергии полосы высоких частот, соответствующий входному цифровому аудиосигналу, на основании оцененной энергии полосы частот перехода обработанного цифрового аудиосигнала в предварительно определенном диапазоне верхних частот узкополосной полосы частот.
2. Способ по п.1, дополнительно содержащий этап, на котором генерируют цифровой аудиосигнал полосы высоких частот на основании, по меньшей мере, уровня энергии полосы высоких частот и оцененной спектральной огибающей полосы высоких частот, соответствующей уровню энергии полосы высоких частот.
3. Способ по п.2, дополнительно содержащий этап, на котором объединяют входной цифровой аудиосигнал и цифровой аудиосигнал полосы высоких частот, чтобы сгенерировать результирующий цифровой аудиосигнал, имеющий расширенную полосу частот сигнала.
4. Способ по п.1, в котором обработка содержит этап, на котором дискретизируют с повышением частоты входной цифровой аудиосигнал, чтобы сгенерировать обработанный цифровой аудиосигнал.
5. Способ по п.1, в котором этап, на котором оценивают, содержит этап, на котором вычисляют уровень энергии обработанного цифрового аудиосигнала с помощью вычисления частотного спектра обработанного цифрового аудиосигнала и суммирования энергий спектральных составляющих в полосе частот перехода.
6. Способ по п.1, в котором оценка дополнительно содержит этап, на котором используют, по меньшей мере, один предварительно определенный параметр речи на основании входного цифрового аудиосигнала, чтобы сгенерировать пространство параметров.
7. Способ по п.6, в котором предварительно определенный параметр речи является, по меньшей мере, одним из: параметра пересечения нулевого уровня, параметра меры спектральной гладкости, параметра спектральной крутизны полосы частот перехода и параметра формы спектральной огибающей полосы частот перехода.
8. Способ по п.6, в котором оценка дополнительно содержит этап, на котором разделяют пространство параметров на области и назначают коэффициенты для каждой области, чтобы оценить уровень энергии полосы высоких частот.
9. Способ по п.1, в котором узкополосный сигнал имеет ширину полосы частот, примерно равную 300-3400 Гц.
10. Устройство для оценки энергии полосы высоких частот в системе расширения полосы частот, содержащее
вход, сконфигурированный и выполненный с возможностью приема входного цифрового аудиосигнала, содержащего узкополосный сигнал,
процессор, функционально соединенный со входом и сконфигурированный и выполненный с возможностью обработки входного цифрового аудиосигнала, чтобы сгенерировать обработанный цифровой аудиосигнал, и
оценки уровня энергии полосы высоких частот, соответствующего входному цифровому аудиосигналу, на основании оцененной энергии полосы частот перехода обработанного цифрового аудиосигнала в предварительно определенном верхнем диапазоне частот узкополосной полосы частот.
Способ и приспособление для нагревания хлебопекарных камер | 1923 |
|
SU2003A1 |
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок | 1923 |
|
SU2008A1 |
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
Способ обработки целлюлозных материалов, с целью тонкого измельчения или переведения в коллоидальный раствор | 1923 |
|
SU2005A1 |
CN 1975860 A, 06.06.2007 | |||
Способ обработки целлюлозных материалов, с целью тонкого измельчения или переведения в коллоидальный раствор | 1923 |
|
SU2005A1 |
Генератор развертки | 1975 |
|
SU522553A1 |
US 5581652 A, 03.12.1996 | |||
УСОВЕРШЕНСТВОВАННОЕ ПРЕОБРАЗОВАНИЕ СПЕКТРА/СВЕРТКА В ОБЛАСТИ ПОДДИАПАЗОНОВ | 2001 |
|
RU2251795C2 |
Авторы
Даты
2012-10-20—Публикация
2009-01-28—Подача