Изобретение относится к кодированию речи и аудио и, в частности, к расширению полосы пропускания (BWE) аудио.
Методики расширения полосы пропускания сфокусированы на улучшении воспринимаемого качестве аудио кодека посредством уширения его эффективной выходной полосы пропускания. Вместо кодирования всего диапазона полосы пропускания с помощью лежащего в основе базового кодера, кодеки, использующие методику расширения полосы пропускания обеспечивают меньший расход битов в менее важных по восприятию диапазонах верхней частоты (HF). Таким образом, больше битов доступно базовому кодеру, обрабатывающему более важный диапазон нижней частоты (LF) с более высокой точностью. По этой причине методики расширения полосы пропускания обычно используются в кодеках, которым требуется реализовать надлежащее воспринимаемое качество при низких скоростях передачи битов.
В целом, существует два разных подхода расширения полосы пропускания, которые необходимо различать: Слепое расширение полосы пропускания и направленное расширение полосы пропускания. При слепом расширении полосы пропускания, не передается какой-либо дополнительной побочной информации. Таким образом, HF-контент, который должен быть вставлен на стороне декодера, генерируется, используя лишь информацию, которая выводится из декодированного LF-сигнала базового кодера. Поскольку передача затратной подобной информации не требуется, методики Слепого расширения полосы пропускания хорошо подходят для кодеков, работающих на самых низких скоростях передачи битов или для обратно совместимых процедур постобработки. С другой стороны, недостаток возможности управления обеспечивает лишь относительно небольшое эффективное расширение полосы пропускания, используя Слепое расширение полосы пропускания (например, 6,4-7,0 кГц в [1]). В противоположность слепому подходу, при направленном расширении полосы пропускания HF-контент реконструируется, используя параметры, которые извлекаются на стороне кодировщика и передаются декодеру в качестве побочной информации в битовом потоке. Следовательно, направленное расширение полосы пропускания обеспечивает более хорошее управление HF-реконструкцией, и возможно воспроизведение более широких эффективных полос пропускания. Из-за дополнительного расхода битов, методики направленного расширения полосы пропускания обычно используются для кодеков, работающих на более высоких скоростях передачи битов, чем системы, включающие в себя слепое расширение полосы пропускания.
В частности, существуют разные методологии для реализации расширения полосы пропускания.
При кодировании речи, обычно используются основанные на модели исходного фильтра способы расширения полосы пропускания, которые тесно связаны с лежащими в их основе базовыми кодерами, как например в G.722.2 (AMR-WB) [1]. В AMR-WB, выходная полоса пропускания в 6,4 кГц базового кодера ACELP (линейное предсказание с возбуждением алгебраическим кодом) расширяется до 7,0 кГц посредством введения белого шума в область возбуждения. Впоследствии, расширенному возбуждению придается форма посредством фильтра, который выведен из фильтра линейного предсказания (LP) базового кодера. В зависимости от скорости передачи битов коэффициент усиления для масштабирования вставленного шума либо оценивается используя только информацию базового кодера, либо он извлекается в кодировщике и передается. Данный способ расширения полосы пропускания в значительной степени зависит от лежащей в его основе схемы кодирования, поскольку он использует ее механизмы синтеза и, следовательно, дополнительно должен выполняться в той же самой области.
Общеизвестной независимой от базового кодера методикой расширения полосы пропускания в кодировании аудио является репликация спектральной полосы (SBR) [2]. В противоположность предыдущему примеру, репликация спектральной полосы может быть применена независимо от лежащего в ее основе базового кодера. В качестве первого этапа, входной сигнал разбивается на LF- и HF-часть на стороне кодировщика, например, посредством использования набора фильтров анализа квадратурного зеркального фильтра (QMF). LF-сигнал подается на базовый кодер в то время как HF-часть обрабатывается посредством репликации спектральной полосы. Вследствие этого, параметры, описывающие частотно-временную огибающую HF-сигнала, как, впрочем, и тональность/шумность HF-сигнала относительно LF-сигнала, извлекаются и передаются. После декодирования, сигнал трансформируется, используя тот же самый набор фильтров анализа, который использовался в кодировщике. Чтобы реконструировать HF-контент, декодированный сигнал копируется, зеркально отображается или транспонируется порционно в HF-диапазон, подвергается постобработке, чтобы совпадать с тональностью/шумностью исходного, и ему придается форма по времени, как, впрочем, и по спектру, учитывая переданные параметры. Впоследствии выходной сигнал во временной области генерируется посредством соответствующего набора фильтров синтеза.
В противоположность предыдущим отмеченным (полу-) параметрическим способам также существуют многочисленные подходы на основе слоя, использующие несколько, выбираемых по скорости передачи битов слоев для расширения полосы пропускания. Данный принцип также в значительной степени связан со схемами масштабируемого кодирования. Эти методики часто используются для расширения существующих систем кодирования допускающим совместную работу образом. В [3] представляется сверхширокополосное (SWB) расширение полосы пропускания для G.711.1 и G.722, которое обрабатывает дополнительную полосу пропускания (8,0-14,4 кГц) с помощью основанной на модифицированном дискретном косинусном преобразовании схеме кодирования независимой от базового кодера. Данный подход обеспечивает точную реконструкцию HF-частей, но за счет дополнительно необходимого, высокого расхода битов.
Несмотря на то что вышеупомянутые подходы расширения полосы пропускания широко распространены в настоящих системах кодирования речи и аудио, все они представляют конкретные дефекты или недостатки, соответственно.
Цель настоящего изобретения состоит в предоставлении улучшенной концепции для расширения полосы пропускания.
Данная цель достигается посредством устройства декодера для декодирования битового потока, при этом устройство декодера аудио содержит:
приемник битового потока, выполненный с возможностью приема битового потока и выведения закодированного аудиосигнала из битового потока;
модуль базового декодера, выполненный с возможностью выведения декодированного аудиосигнала во временной области из закодированного аудиосигнала;
генератор временной огибающей, выполненный с возможностью определения временной огибающей декодированного аудиосигнала;
модуль расширения полосы пропускания, выполненный с возможностью создания сигнала расширения полосы пропускания частотной области, при этом модуль расширения полосы пропускания содержит генератор шума, выполненный с возможностью создания сигнала шума во временной области, при этом модуль расширения полосы пропускания содержит модуль предварительного придания формы, выполненный с возможностью придания формы по времени сигналу шума в зависимости от временной огибающей декодированного аудиосигнала для того, чтобы создать сигнал шума с приданной формой и при этом модуль расширения полосы пропускания содержит время-частотный преобразователь, выполненный с возможностью трансформирования сигнала шума с приданной формой в сигнал шума частотной области; при этом сигнал расширения полосы пропускания частотной области зависит от сигнала шума частотной области;
время-частотный преобразователь, выполненный с возможностью трансформирования декодированного аудиосигнала в декодированный аудиосигнал частотной области;
объединитель, выполненный с возможностью объединения декодированного аудиосигнала частотной области и сигнала расширения полосы пропускания частотной области для того, чтобы создать аудиосигнал частотной области с расширенной полосой пропускания; и
частотно-временной преобразователь, выполненный с возможностью трансформирования аудиосигнал частотной области с расширенной полосой пропускания в аудиосигнал временной области с расширенной полосой пропускания.
Изобретение предоставляет концепцию расширения полосы пропускания, которая может быть главным образом применена независимо от лежащей в основе методики базового кодирования. Кроме того, оно предлагает расширение полосы пропускания вплоть до сверхширокополосных диапазонов частот для точек, работающих с низкой скоростью передачи битов, с высоким воспринимаемым качеством в особенности для речевых сигналов. Это достигается посредством генерирования сигналов шума с приданной формой по времени во временной области, которые трансформируются и вставляются в декодированный аудиосигнал частотной области.
Понятие сигнал расширения полосы пропускания частотной области относится к сигналу, содержащему частоты, которые не содержатся в декодированном аудиосигнале.
В гибких, адаптивных к сигналу системах, включающих в себя более одного единого базового кодера, например, как содержится в унифицированном кодировании речи и аудио (MPEG-D USAC), артефакты переключения, которые возникают на переходе между разными базовыми кодерами, могут быть более ярко выделены, поскольку в то же самое время также должно переключаться расширение полосы пропускания. Эти проблемы могут быть преодолены посредством применения независимой от базового кодера методики расширения полосы пропускания в соответствии с изобретением.
Репликация спектральной полосы привносит артефакты, которые могут быть раздражающими, в особенности, когда кодируется речь, из-за накладки LF-компонентов на HF-часть. Эти артефакты возникают из-за корреляции LF- и HF-контента, на который осуществляется накладка, с одной стороны. С другой стороны, возможное спектральное несовпадение между LF- и HF-частью приводит к резко звучащим, негармоничным искажениям. В противоположность этому, устройство декодера в соответствии с изобретением предупреждает создание артефактов и резкого звучания.
Другой дефект репликации спектральной полосы состоит в том, что присутствует ограниченная возможность манипулирования временной структурой HF-части, на которую осуществляется накладка. Из-за необходимости эффективного для скорости передачи битов параметрического время-частотного представления контента, временное разрешение является ограниченным. Это может быть недостатком для, например, обработки женской речи, где основной тон глоттальных импульсов является высоким и также проявляет высокое временное непостоянство. Устройство декодера в соответствии с изобретением, в противоположность репликации спектральной полосы, хорошо подходит для воспроизведения женской речи.
Наконец, расширение полосы пропускания, основанное на нескольких слоях, способно точно реконструировать HF-контент как по спектру, так и по времени, но с другой стороны его необходимый расход битов значительно выше, чем для параметрических подходов. Устройство декодера в соответствии с изобретением обеспечивает более низкий расход битов, обусловленный такими подходами.
Таким образом, настоящее изобретение предоставляет новую концепцию расширения полосы пропускания, которая объединяет преимущества общеизвестных, ранее описанных методик расширения полосы пропускания, при этом исключая их недостатки. В частности предоставляется концепция, которая обеспечивает высококачественное, сверхширокополосное кодирование речи на низких скоростях передачи битов, при этом независимое от лежащего в основе базового кодера.
Изобретение обеспечивает с высоким воспринимаемым качеством в особенности применительно к речи выходные полосы пропускания вплоть до сверхширокополосного диапазона. Расширение полосы пропускания в соответствии с изобретением основано на вставке шума. Дополнительно, новое расширение полосы пропускания является независимым от лежащего в его основе базового кодека. Вследствие этого, оно - в противоположность стандартному расширению полосы пропускания кодирования речи - подходит для использования поверх переключаемых систем, включающих в себя фундаментально разные схемы кодирования.
Поскольку микширование сигнала нового предлагаемого расширения полосы пропускания и сигнала базового кодера выполняется в сравнимом время-частотном представлении с репликацией спектральной полосы, обе методики могут быть легко объединены в объединенной системе, где будет возможно гладкое переключение на основе кадр-за-кадром или смешивание в рамках заданного кадра. Так как новое расширение полосы пропускания сфокусировано главным образом на речи, данный подход может быть желательным для обработки сигналов, содержащих музыку или смешанный контент. Управление переключением может осуществляться либо посредством переданной побочной информации, либо посредством параметров, которые выводятся в декодере посредством анализа базового сигнала.
В соответствии с изобретением, генерирование и последующее придание формы шуму выполняется во временной области, поскольку во временной области временное разрешение может быть выше, чем в решениях, в которых шум генерируется и ему придается форма в время-частотном представлении, подобно тому, что применяется в обработке репликации спектральной полосы, поскольку наборы фильтров ограничивают временное разрешение, которое является неотъемлемым для воспроизведения речи с высоким основным тоном (например, женской).
Чтобы избежать вышеупомянутых проблем и все же выполнить требования, новое расширение полосы пропускания выполняет следующие этапы обработки: Сначала, один сигнал шума генерируется во временной области, при этом количество элементов дискретизации возникает из частоты кадров системы, как, впрочем, и выбранной частоты дискретизации и полосы пропускания сигнала шума. Впоследствии, осуществляется придание формы по времени сигналу шума, на основании временной огибающей декодированного сигнала базового кодера. Кроме того, объединенный время-частотно представленный сигнал преобразуется в аудио сигнал временной области с расширенной полосой пропускания посредством обратной трансформации.
Методики расширения полосы пропускания обычно используются в кодировании речи и аудио для улучшения воспринимаемого качества посредством уширения эффективной выходной полосы пропускания. Таким образом, большая часть доступных битов может быть использована внутри базового кодера, обеспечивая более высокую точность в более важном диапазоне нижней частоты. Несмотря на то что есть существующие подходы, некоторые из которых получили широкое признание, у всех у них отсутствует целесообразность использования при обработке речи системами, которые включают в себя несколько, переключаемых базовых кодеров, на основании разных схем кодирования. Так как расширение полосы пропускания в соответствии с изобретением является независимым от технологии базового декодера, настоящее изобретение предлагает методику расширения полосы пропускания, которая прекрасно подходит для вышеупомянутого и других применений.
В рамках расширения полосы пропускания в соответствии с изобретением, полностью синтетические сигналы расширения могут быть сгенерированы с временной огибающей, в отношении которой может быть осуществлено предварительное придание формы, и вследствие этого адаптированные к лежащему в основе сигналу базового кодера. Придание формы временной огибающей сигналу расширения может быть выполнено в значительно более высоком временном разрешении, чем это доступно в рамках реального набора фильтров или области трансформации, используемых в процессе пост-придания формы расширения полосы пропускания.
В соответствии с предпочтительным вариантом осуществления изобретения сигнал расширения полосы пропускания частотной области создается без репликации спектральной полосы. Посредством этих признаков могут быть минимизированы требуемые вычислительные затраты.
В соответствии с предпочтительным вариантом осуществления изобретения модуль расширения полосы пропускания выполнен таким образом, что придание формы по времени сигналу шума выполняется чрезмерно выраженным образом. Вместо придания формы сигналу шума на основании исходной временной огибающей декодированного аудиосигнала; также можно выполнять данное придание формы чрезмерно выраженным образом. Это может быть реализовано посредством раздвижения временной огибающей с точки зрения амплитуд, другими словами посредством динамического растяжения, в частности посредством модифицирования измеренной огибающей, чтобы представлять импульсы более острыми, чем было измерено, перед выведением коэффициентов усиления предварительного придания формы на ее основе. Несмотря на то что данное чрезмерное выражение не представляет собой фактическую исходную огибающую, разборчивость некоторых фрагментов сигнала, подобных, например, гласным звукам, улучшается применительно к очень низким скоростям передачи битов.
В соответствии с предпочтительным вариантом осуществления изобретения, модуль расширения полосы пропускания выполнен таким образом, что придание формы по времени сигналу шума выполняется по субполосам посредством разбиения сигнала шума на несколько сигналов шума субполосы посредством набора из полосовых фильтров и выполнения особого придания формы по времени над каждым из сигналов шума субполосы.
Вместо единообразного предварительного придания формы сигналу шума, придание формы может быть выполнено более точно посредством разбиения сигнала шума на несколько субполос посредством набора из полосовых фильтров и выполнения особого придания формы над каждым сигналом субполосы.
В соответствии с предпочтительным вариантом осуществления изобретения модуль расширения полосы пропускания содержит селектор диапазона частот, выполненный с возможностью установки диапазона частот сигнала расширения полосы пропускания частотной области. После преобразования сигнала шума с приданной формой во время-частотное представление, целевая полоса пропускания аудиосигнала частотной области с расширенной полосой пропускания может быть выбрана и, при необходимости, сдвинута до своей предназначенной, спектральной позиции. Посредством этих признаков диапазон частот аудиосигнала временной области с расширенной полосой пропускания может быть выбран простым образом.
В соответствии с предпочтительным вариантом осуществления изобретения модуль расширения полосы пропускания содержит модуль пост-придания формы, выполненный с возможностью придания формы по времени и/или по спектру в частной области сигналу расширения полосы пропускания частотной области. Посредством этих признаков сигнал расширения полосы пропускания частотной области может быть адаптирован по отношению к дополнительному временному тренду и/или спектральной огибающей для уточнения.
В соответствии с предпочтительным вариантом осуществления изобретения приемник битового потока выполнен с возможностью выведения сигнала побочной информации из битового потока, при этом модуль расширения полосы пропускания выполнен с возможностью создания сигнала расширения полосы пропускания частотной области в зависимости от сигнала побочной информации. Другими словами, дополнительная побочная информация, которая была извлечена внутри кодировщика и передана через битовый поток, может быть применена для дополнительного уточнения сигнала расширения полосы пропускания частотной области. Посредством этих признаков воспринимаемое качество аудиосигнала временной области с расширенной полосой пропускания может быть дополнительно увеличено.
В соответствии с предпочтительным вариантом осуществления изобретения генератор шума выполнен с возможностью создания сигнала шума в зависимости от сигнала побочной информации. В данном варианте осуществления управление генератором шума может осуществляться таким образом, чтобы получать сигнал шума со спектральным наклоном, вместо спектрально плоского белого шума, для того, чтобы дополнительно улучшить воспринимаемое качество аудиосигнала временной области с расширенной полосой пропускания.
В соответствии с предпочтительным вариантом осуществления изобретения модуль предварительного придания формы выполнен с возможностью придания формы по времени сигналу шума в зависимости от сигнала побочной информации. В рамках предварительного придания формы, побочная информация может быть использована, чтобы, например, выбирать некоторую целевую полосу пропускания сигнала базового декодера, которая используется для предварительного придания формы.
В соответствии с предпочтительным вариантом осуществления изобретения модуль пост-придания формы выполнен с возможностью придания формы по времени и/или по спектру выходному сигналу шума частотной области в зависимости от сигнала побочной информации. Использование побочной информации при пост-придании формы может гарантировать то, что грубая время-частотная огибающая сигнала расширения полосы пропускания частотной области следует исходной огибающей.
В соответствии с предпочтительным вариантом осуществления изобретения модуль расширения полосы пропускания содержит дополнительный генератор шума, выполненный с возможностью создания дополнительного сигнала шума во временной области, дополнительный модуль предварительного придания формы, выполненный с возможностью придания формы по времени дополнительному сигналу шума в зависимости от временной огибающей декодированного аудиосигнала для того, чтобы создавать дополнительный сигнал шума с приданной формой и дополнительный время-частотный преобразователь, выполненный с возможностью трансформирования дополнительного сигнала шума с приданной формой в дополнительный сигнал шума частотной области; при этом сигнал расширения полосы пропускания частотной области зависит от дополнительного сигнала шума частотной области. Создание сигнала расширения полосы пропускания частотной области используя два или более сигнала шума частотной области может привести к увеличению воспринимаемого качества аудиосигнала временной области с расширенной полосой частот.
В соответствии с предпочтительным вариантом осуществления изобретения модуль расширения полосы пропускания выполнен таким образом, что придание формы по времени дополнительному сигналу шума выполняется чрезмерно выраженным образом. Вместо придания формы дополнительному сигналу шума на основании исходной временной огибающей декодированного аудиосигнала; также можно выполнять данное придание формы чрезмерно выраженным образом. Это может быть реализовано посредством раздвижения временной огибающей с точки зрения амплитуд, перед выведением коэффициентов усиления предварительного придания формы на ее основе. Несмотря на то что данное чрезмерное выражение не представляет собой фактическую исходную огибающую, разборчивость некоторых фрагментов сигнала, подобных, например, гласным звукам, улучшается применительно к очень низким скоростям передачи битов.
В соответствии с предпочтительным вариантом осуществления изобретения модуль расширения полосы пропускания выполнен таким образом, что придание формы по времени дополнительному сигналу шума выполняется по субполосам посредством разбиения дополнительного сигнала шума на несколько дополнительных сигналов шума субполосы посредством набора из полосовых фильтров и выполнения особого придания формы по времени над каждым из дополнительных сигналов шума субполосы.
Вместо единообразного предварительного придания формы дополнительному сигналу шума, придание формы может быть выполнено более точно посредством разбиения дополнительного сигнала шума на несколько субполос посредством набора из полосовых фильтров и выполнения особого придания формы над каждым сигналом субполосы.
В соответствии с предпочтительным вариантом осуществления изобретения модуль расширения полосы пропускания содержит генератор тона, выполненный с возможностью создания сигнала тона во временной области, модуль предварительного придания формы тону, выполненный с возможностью придания формы по времени сигналу тона в зависимости от временной огибающей декодированного аудиосигнала для того, чтобы создать сигнал тона с приданной формой и время-частотный преобразователь, выполненный с возможностью трансформирования сигнала тона с приданной формой в сигнал тона частотной области, при этом сигнал расширения полосы пропускания частотной области зависит от сигнала тона частотной области.
Упомянутый генератор тона может быть функциональным, чтобы создавать все виды тонов, например, синусоидальные тоны, тоны треугольной и прямоугольной волны, пилообразные тоны, импульсы, которые напоминают искусственно озвученную речь, и т.д. В дополнение к обработке синтетических сигналов шума, также можно генерировать синтетические компоненты тона во временной области, которым придается форма по времени и впоследствии трансформируются в частотное представление. В данном случае, придание формы во временной области является более выгодным, например, для точного моделирования фаз ADSR (Атака, Спад, Поддержка, Затухание) тонов, что невозможно в обычном представлении в частотной области. Дополнительное использование сигнала тона частотной области может дополнительно увеличить качество сигнала временной области с расширенной полосой пропускания.
В соответствии с предпочтительным вариантом осуществления изобретения модуль базового декодера содержит базовый декодер временной области и базовый декодер частотной области, при этом либо базовый декодер временной области, либо базовый декодер частотной области используется для выведения декодированного аудиосигнала из закодированного аудиосигнала. Эти признаки позволяют использовать изобретение в среде унифицированного кодирования речи и аудио (MPEG-D USAC).
В соответствии с предпочтительным вариантом осуществления экстрактор параметра управления выполнен с возможностью извлечения параметров управления, используемых модулем базового декодера, из декодированного аудиосигнала и при этом модуль расширения полосы пропускания выполнен с возможностью создания сигнала расширения полосы пропускания частотной области в зависимости от параметров управления. Несмотря на то что сигнал расширения полосы пропускания частотной области может быть создан вслепую на основании огибающей базового кодера или на основании управления посредством параметров, выведенных из сигнала базового кодера, он также может быть создан частично направленным образом, посредством извлеченных и переданных параметров от кодировщика.
В соответствии с предпочтительным вариантом осуществления изобретения, модуль расширения полосы пропускания содержит калькулятор коэффициентов усиления придания формы, выполненный с возможностью установления коэффициентов усиления придания формы для модуля предварительного придания формы в зависимости от временной огибающей декодированного аудиосигнала и при этом модуль предварительного придания формы выполнен с возможностью придания формы по времени сигналу шума в зависимости от коэффициентов усиления придания формы для модуля предварительного придания формы. Эти признаки обеспечивают реализацию изобретения в простом виде.
В соответствии с предпочтительным вариантом осуществления изобретения калькулятор коэффициентов усиления придания формы для установления коэффициентов усиления придания формы для модуля предварительного придания формы выполнен с возможностью установления коэффициентов усиления придания формы для модуля предварительного придания формы в зависимости от параметров управления. Эти признаки обеспечивают реализацию изобретения в простом виде.
В соответствии с предпочтительным вариантом осуществления изобретения модуль расширения полосы пропускания содержит калькулятор коэффициентов усиления придания формы, выполненный с возможностью установления коэффициентов усиления придания формы для дополнительного модуля предварительного придания формы в зависимости от временной огибающей декодированного аудиосигнала и при этом дополнительный модуль предварительного придания формы выполнен с возможностью придания формы по времени дополнительному сигналу шума в зависимости от коэффициентов усиления придания формы для дополнительного модуля предварительного придания формы.
В соответствии с предпочтительным вариантом осуществления изобретения калькулятор коэффициентов усиления придания формы для установления коэффициентов усиления придания формы для дополнительного модуля предварительного придания формы выполнен с возможностью установления коэффициентов усиления придания формы для дополнительного модуля предварительного придания формы в зависимости от параметров управления.
В соответствии с предпочтительным вариантом осуществления изобретения, модуль расширения полосы пропускания содержит калькулятор коэффициентов усиления придания формы, выполненный с возможностью установления коэффициентов усиления придания формы для модуля предварительного придания формы тону в зависимости от временной огибающей декодированного аудиосигнала и при этом модуль предварительного придания формы тону выполнен с возможностью придания формы по времени сигналу тона в зависимости от коэффициентов усиления придания формы для модуля предварительного придания формы тону.
В соответствии с предпочтительным вариантом осуществления изобретения калькулятор коэффициентов усиления придания формы для установления коэффициентов усиления придания формы для модуля предварительного придания формы тону выполнен с возможностью установления коэффициентов усиления придания формы для дополнительного модуля предварительного придания формы в зависимости от параметров управления.
В дополнительном аспекте, цель достигается посредством способа для декодирования битового потока, при этом способ содержит этапы, на которых:
принимают битовый поток и выводят закодированный аудиосигнал из битового потока, используя приемник битового потока;
выводят декодированный аудиосигнал во временной области из закодированного аудиосигнала, используя модуль базового декодера;
определяют временную огибающую декодированного аудиосигнала, используя генератор временной огибающей;
создают сигнал расширения полосы пропускания частотной области, используя модуль расширения полосы пропускания, исполняющий этапы, на которых:
создают сигнал шума во временной области, используя генератор шума модуля расширения полосы пропускания,
придают форму по времени сигналу шума в зависимости от временной огибающей декодированного аудиосигнала для того, чтобы создать сигнал шума с приданной формой, используя модуль предварительного придания формы модуля расширения полосы пропускания,
трансформируют сигнал шума с приданной формой в сигнал шума частотной области; при этом сигнал расширения полосы пропускания частотной области зависит от сигнала шума частотной области, используя время-частотный преобразователь модуля расширения полосы пропускания;
трансформируют декодированный аудиосигнал в декодированный аудиосигнал частотной области, используя дополнительный время-частотный преобразователь;
объединяют декодированный аудиосигнал частотной области и сигнал расширения полосы пропускания частотной области для того, чтобы создать аудиосигнал частотной области с расширенной полосой пропускания, используя объединитель; и
трансформируют аудиосигнал частотной области с расширенной полосой пропускания в аудиосигнал временной области с расширенной полосой пропускания, используя частотно-временной преобразователь.
В дополнительном аспекте цель достигается посредством компьютерной программы, исполняющей способ изобретения, при выполнении на процессоре.
Предпочтительные варианты осуществления изобретения впоследствии рассматриваются в отношении сопроводительных чертежей, на которых:
Фиг. 1 иллюстрирует первый вариант осуществления устройства декодера аудио в соответствии с изобретением в схематичном виде;
Фиг. 2 иллюстрирует второй вариант осуществления устройства декодера аудио в соответствии с изобретением в схематичном виде;
Фиг. 3 иллюстрирует третий вариант осуществления устройства декодера аудио в соответствии с изобретением в схематичном виде; и
Фиг. 4 иллюстрирует четвертый вариант осуществления устройства декодера аудио в соответствии с изобретением в схематичном виде.
Фиг. 1 иллюстрирует первый вариант осуществления устройства декодера аудио в соответствии с изобретением в схематичном виде.
Устройство 1 декодера аудио содержит:
приемник 2 битового потока, выполненный с возможностью приема битового потока BS и выведения закодированного аудиосигнала EAS из битового потока BS;
модуль 3 базового декодера, выполненный с возможностью выведения декодированного аудиосигнала DAS во временной области из закодированного аудиосигнала EAS;
генератор 4 временной огибающей, выполненный с возможностью определения временной огибающей TED декодированного аудиосигнала DAS;
модуль 5 расширения полосы пропускания, выполненный с возможностью создания сигнала расширения полосы пропускания BEF частотной области, при этом модуль 5 расширения полосы пропускания содержит генератор 6 шума, выполненный с возможностью создания сигнала шума NOS во временной области, при этом модуль 5 расширения полосы пропускания содержит модуль 7 предварительного придания формы, выполненный с возможностью придания формы по времени сигналу шума NOS в зависимости от временной огибающей TED декодированного аудиосигнала DAS для того, чтобы создать сигнал шума с приданной формой SNS и при этом модуль 5 расширения полосы пропускания содержит время-частотный преобразователь 8, выполненный с возможностью трансформирования сигнала шума с приданной формой SNS в сигнал шума частотной области FNS; при этом сигнал расширения полосы пропускания частотной области BEF зависит от сигнала шума частотной области FNS;
время-частотный преобразователь 9, выполненный с возможностью трансформирования декодированного аудиосигнала DAS в декодированный аудиосигнал частотной области FDS;
объединитель 10, выполненный с возможностью объединения декодированного аудиосигнала частотной области FDS и сигнала расширения полосы пропускания частотной области BEF для того, чтобы создать аудиосигнал частотной области с расширенной полосой пропускания BFS; и
частотно-временной преобразователь 11, выполненный с возможностью трансформирования аудиосигнал частотной области с расширенной полосой пропускания BFS в аудиосигнал временной области с расширенной полосой пропускания BAS.
Изобретение предоставляет концепцию расширения полосы пропускания, которая может быть главным образом применена независимо от лежащей в основе методики базового кодирования. Кроме того, оно предлагает расширение полосы пропускания вплоть до сверхширокополосных диапазонов частот для точек, работающих с низкой скоростью передачи битов, с высоким воспринимаемым качеством в особенности для речевых сигналов. Это достигается посредством генерирования сигналов шума с приданной формой по времени SNS во временной области, которые трансформируются и вставляются в декодированный аудиосигнал частотной области FDS.
В гибких, адаптивных к сигналу системах, включающих в себя более одного единого базового кодера, например, как содержится в унифицированном кодировании речи и аудио (MPEG-D USAC), артефакты переключения, которые возникают на переходе между разными базовыми кодерами, могут быть более ярко выделены, поскольку в то же самое время также должно переключаться расширение полосы пропускания. Эти проблемы могут быть преодолены посредством применения независимой от базового кодера методики расширения полосы пропускания в соответствии с изобретением.
Репликация спектральной полосы привносит артефакты, которые могут быть раздражающими, в особенности, когда кодируется речь, из-за накладки LF-компонентов на HF-часть. Эти артефакты возникают из-за корреляции LF- и HF-контента, на который осуществляется накладка, с одной стороны. С другой стороны, возможное спектральное несовпадение между LF- и HF-частью приводит к резко звучащим, негармоничным искажениям. В противоположность этому, устройство 1 декодера в соответствии с изобретением предупреждает создание артефактов и резкого звучания.
Другой дефект репликации спектральной полосы состоит в том, что присутствует ограниченная возможность манипулирования временной структурой HF-части, на которую осуществляется накладка. Из-за необходимости эффективного для скорости передачи битов параметрического время-частотного представления контента, временное разрешение является ограниченным. Это может быть недостатком для, например, обработки женской речи, где основной тон глоттальных импульсов является высоким и также проявляет высокое временное непостоянство. Устройство 1 декодера в соответствии с изобретением, в противоположность репликации спектральной полосы, хорошо подходит для воспроизведения женской речи.
Наконец, расширение полосы пропускания, основанное на нескольких слоях способно точно реконструировать HF-контент как по спектру, так и по времени, но с другой стороны его необходимый расход битов значительно выше, чем для параметрических подходов. Устройство 1 декодера в соответствии с изобретением обеспечивает более низкий расход битов, обусловленный такими подходами.
Таким образом, настоящее изобретение предоставляет новую концепцию расширения полосы пропускания, которая объединяет преимущества общеизвестных, ранее описанных методик расширения полосы пропускания, при этом исключая их недостатки. В частности предоставляется концепция, которая обеспечивает высококачественное, сверхширокополосное кодирование речи на низких скоростях передачи битов, при этом независимое от лежащего в основе базового кодера 3.
Изобретение обеспечивает с высоким воспринимаемым качеством в особенности применительно к речи выходные полосы пропускания вплоть до сверхширокополосного диапазона. Расширение полосы пропускания в соответствии с изобретением основано на вставке шума. Дополнительно, новое расширение полосы пропускания является независимым от лежащего в его основе базового кодека. Вследствие этого, оно - в противоположность стандартному расширению полосы пропускания кодирования речи - подходит для использования поверх переключаемых систем, включающих в себя фундаментально разные схемы кодирования.
Поскольку микширование сигнала нового предлагаемого расширения полосы пропускания и сигнала базового кодера выполняется в сравнимом время-частотном представлении с репликацией спектральной полосы, обе методики могут быть легко объединены в объединенной системе, где будет возможно гладкое переключение на основе кадр-за-кадром или смешивание в рамках заданного кадра. Так как новое расширение полосы пропускания сфокусировано главным образом на речи, данный подход может быть желательным для обработки сигналов содержащих музыку или смешанный контент. Управление переключением может осуществляться либо посредством переданной побочной информации, либо посредством параметров, которые выводятся в декодере 3 посредством анализа базового сигнала DAS.
В соответствии с изобретением, генерирование и последующее придание формы шуму выполняется во временной области, поскольку во временной области временное разрешение может быть выше, чем в решениях, в которых шум генерируется и ему придается форма в время-частотном представлении, подобно тому, что применяется в обработке репликации спектральной полосы, поскольку наборы фильтров ограничивают временное разрешение, которое является неотъемлемым для воспроизведения речи с высоким основным тоном (например, женской).
Чтобы избежать вышеупомянутых проблем и все же выполнить требования, новое расширение полосы пропускания выполняет следующие этапы обработки: Сначала, один сигнал шума NOS генерируется во временной области, при этом количество элементов дискретизации возникает из частоты кадров системы, как, впрочем, и выбранной частоты дискретизации и полосы пропускания сигнала шума. Впоследствии, осуществляется придание формы по времени сигналу шума NOS, на основании временной огибающей TED декодированного сигнала базового кодера DAS. Кроме того, объединенный время-частотно представленный сигнал BFS преобразуется в аудио сигнал временной области с расширенной полосой пропускания BAS посредством обратной трансформации.
Методики расширения полосы пропускания обычно используются в кодировании речи и аудио для улучшения воспринимаемого качества посредством уширения эффективной выходной полосы пропускания. Таким образом большая часть доступных битов может быть использована внутри базового кодера 3, обеспечивая более высокую точность в более важном диапазоне нижней частоты. Несмотря на то что есть существующие подходы, некоторые из которых получили широкое признание, у всех у них отсутствует целесообразность использования при обработке речи системами, которые включают в себя несколько, переключаемых базовых кодеров, на основании разных схем кодирования. Так как расширение полосы пропускания в соответствии с изобретением является независимым от технологии базового декодера, настоящее изобретение предлагает методику расширения полосы пропускания, которая прекрасно подходит для вышеупомянутого и других применений.
В рамках расширения полосы пропускания в соответствии с изобретением, полностью синтетические сигналы расширения могут быть сгенерированы с временной огибающей, в отношении которой может быть осуществлено предварительное придание формы, и вследствие этого адаптированные к лежащему в основе сигналу базового кодера DAS. Придание формы временной огибающей сигналу расширения SNS может быть выполнено в значительно более высоком временном разрешении, чем это доступно в рамках реального набора фильтров или области трансформации, используемых в процессе пост-придания формы расширения полосы пропускания.
В соответствии с предпочтительным вариантом осуществления изобретения сигнал расширения полосы пропускания частотной области BEF создается без репликации спектральной полосы. Посредством этих признаков могут быть минимизированы требуемые вычислительные затраты.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 5 расширения полосы пропускания выполнен таким образом, что придание формы по времени сигналу шума NOS выполняется чрезмерно выраженным образом. Вместо придания формы сигналу шума NOS на основании исходной временной огибающей TED декодированного аудиосигнала DAS; также можно выполнять данное придание формы чрезмерно выраженным образом. Это может быть реализовано посредством раздвижения временной огибающей TED с точки зрения амплитуд, перед выведением коэффициентов усиления предварительного придания формы на ее основе. Несмотря на то что данное чрезмерное выражение не представляет собой фактическую исходную огибающую TED, разборчивость некоторых фрагментов сигнала, подобных, например, гласным звукам, улучшается применительно к очень низким скоростям передачи битов.
В соответствии с предпочтительным вариантом осуществления изобретения, модуль 5 расширения полосы пропускания выполнен таким образом, что придание формы по времени сигналу шума NOS выполняется по субполосам посредством разбиения сигнала шума NOS на несколько сигналов шума субполосы посредством набора из полосовых фильтров и выполнения особого придания формы по времени над каждым из сигналов шума субполосы.
Вместо единообразного предварительного придания формы сигналу шума NOS, придание формы может быть выполнено более точно посредством разбиения сигнала шума NOS на несколько субполос посредством набора из полосовых фильтров и выполнения особого придания формы над каждым сигналом субполосы.
Кроме того, изобретение относится к способу для декодирования битового потока BS, при этом способ содержит этапы, на которых:
принимают битовый поток BS и выводят закодированный аудиосигнал EAS из битового потока BS, используя приемник 2 битового потока;
выводят декодированный аудиосигнал DAS во временной области из закодированного аудиосигнала EAS, используя модуль 3 базового декодера;
определяют временную огибающую TED декодированного аудиосигнала DAS, используя генератор 4 временной огибающей;
создают сигнал расширения полосы пропускания частотной области BEF, используя модуль 5 расширения полосы пропускания, исполняющий этапы, на которых:
создают сигнал шума NOS во временной области, используя генератор 6 шума модуля 5 расширения полосы пропускания,
придают форму по времени сигналу шума NOS в зависимости от временной огибающей TED декодированного аудиосигнала DAS для того, чтобы создать сигнал шума с приданной формой SNS, используя модуль 7 предварительного придания формы модуля 5 расширения полосы пропускания,
трансформируют сигнал шума с приданной формой SMS в сигнал шума частотной области FNS; при этом сигнал расширения полосы пропускания частотной области BEF зависит от сигнала шума частотной области FNS, используя время-частотный преобразователь 8 модуля 5 расширения полосы пропускания;
трансформируют декодированный аудиосигнал DAS в декодированный аудиосигнал частотной области FDS, используя дополнительный время-частотный преобразователь 9;
объединяют декодированный аудиосигнал частотной области FDS и сигнал расширения полосы пропускания частотной области BEF для того, чтобы создать аудиосигнал частотной области с расширенной полосой пропускания BFS, используя объединитель 10; и
трансформируют аудиосигнал частотной области с расширенной полосой пропускания BFS в аудиосигнал временной области с расширенной полосой пропускания BAS, используя частотно-временной преобразователь 11.
Более того, изобретение относится к компьютерной программе, которая, когда выполняется на процессоре, исполняет способ в соответствии с изобретением.
Фиг. 2 иллюстрирует второй вариант осуществления устройства декодера аудио в соответствии с изобретением в схематичном виде.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 5 расширения полосы пропускания содержит селектор 12 диапазона частот, выполненный с возможностью установки диапазона частот сигнала расширения полосы пропускания частотной области BEF. После преобразования сигнала шума с приданной формой SNS во время-частотное представление FNS, целевая полоса пропускания аудиосигнала частотной области с расширенной полосой пропускания BEF может быть выбрана и, при необходимости, сдвинута до своей предназначенной, спектральной позиции. Посредством этих признаков диапазон частот аудиосигнала временной области с расширенной полосой пропускания BAS может быть выбран простым образом.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 5 расширения полосы пропускания содержит модуль пост-придания формы, выполненный с возможностью придания формы по времени и/или по спектру в частной области сигналу расширения полосы пропускания частотной области BEF. Посредством этих признаков сигнал расширения полосы пропускания частотной области BEF может быть адаптирован по отношению к дополнительному временному тренду и/или спектральной огибающей для уточнения.
В соответствии с предпочтительным вариантом осуществления изобретения приемник 2 битового потока выполнен с возможностью выведения сигнала побочной информации SIS из битового потока BS, при этом модуль 5 расширения полосы пропускания выполнен с возможностью создания сигнала расширения полосы пропускания частотной области BEF в зависимости от сигнала побочной информации SIS. Другими словами, дополнительная побочная информация, которая была извлечена внутри кодировщика и передана через битовый поток BS, может быть применена для дополнительного уточнения сигнала расширения полосы пропускания частотной области BEF. Посредством этих признаков воспринимаемое качество аудиосигнала временной области с расширенной полосой пропускания BAS может быть дополнительно увеличено.
В соответствии с предпочтительным вариантом осуществления изобретения генератор 6 шума выполнен с возможностью создания сигнала шума NOS в зависимости от сигнала побочной информации SIS. В данном варианте осуществления управление генератором 6 шума может осуществляться таким образом, чтобы получать сигнал шума со спектральным наклоном, вместо спектрально плоского белого шума, для того, чтобы дополнительно улучшить воспринимаемое качество аудиосигнала временной области с расширенной полосой пропускания BAS.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 7 предварительного придания формы выполнен с возможностью придания формы по времени сигналу шума NOS в зависимости от сигнала побочной информации SIS. В рамках предварительного придания формы, побочная информация может быть использована, чтобы, например, выбирать некоторую целевую полосу пропускания сигнала базового декодера DAS, которая используется для предварительного придания формы.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 13 пост-придания формы выполнен с возможностью придания формы по времени и/или по спектру сигналу расширения полосы пропускания частотной области BEF в зависимости от сигнала побочной информации SIS. Использование побочной информации при пост-придании формы может гарантировать то, что грубая время-частотная огибающая сигнала расширения полосы пропускания частотной области BEF следует исходной огибающей TED.
Фиг. 3 иллюстрирует третий вариант осуществления устройства декодера аудио в соответствии с изобретением в схематичном виде.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 5 расширения полосы пропускания содержит дополнительный генератор 14 шума, выполненный с возможностью создания дополнительного сигнала шума NOSF во временной области, дополнительный модуль 15 предварительного придания формы, выполненный с возможностью придания формы по времени дополнительному сигналу шума NOSF в зависимости от временной огибающей TED декодированного аудиосигнала DAS для того, чтобы создавать дополнительный сигнал шума с приданной формой SNSF и дополнительный время-частотный преобразователь 16, выполненный с возможностью трансформирования дополнительного сигнала шума с приданной формой SNSF в дополнительный сигнал шума частотной области FNSF, при этом сигнал расширения полосы пропускания частотной области BEF зависит от дополнительного сигнала шума частотной области FNSF. Создание сигнала расширения полосы пропускания частотной области BEF используя два сигнала шума частотной области FNS, FNSF может привести к увеличению воспринимаемого качества аудиосигнала временной области с расширенной полосой частот BAS.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 5 расширения полосы пропускания выполнен таким образом, что придание формы по времени дополнительному сигналу шума NOSF выполняется чрезмерно выраженным образом. Это может быть реализовано посредством раздвижения временной огибающей с точки зрения амплитуд, перед выведением коэффициентов усиления предварительного придания формы на ее основе. Несмотря на то что данное чрезмерное выражение не представляет собой фактическую исходную огибающую, разборчивость некоторых фрагментов сигнала, подобных, например, гласным звукам, улучшается применительно к очень низким скоростям передачи битов.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 5 расширения полосы пропускания выполнен таким образом, что придание формы по времени дополнительному сигналу шума NOSF выполняется по субполосам посредством разбиения дополнительного сигнала шума NOSF на несколько дополнительных сигналов шума субполосы посредством набора из полосовых фильтров и выполнения особого придания формы по времени над каждым из дополнительных сигналов шума субполосы.
Вместо единообразного предварительного придания формы дополнительному сигналу шума, придание формы может быть выполнено более точно посредством разбиения дополнительного сигнала шума на несколько субполос посредством набора из полосовых фильтров и выполнения особого придания формы над каждым сигналом субполосы.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 5 расширения полосы пропускания содержит генератор 17 тона, выполненный с возможностью создания сигнала тона TOS во временной области, модуль 18 предварительного придания формы тону, выполненный с возможностью придания формы по времени сигналу тона TOS в зависимости от временной огибающей TED декодированного аудиосигнала DAS для того, чтобы создать сигнал тона с приданной формой STS, и время-частотный преобразователь 19, выполненный с возможностью трансформирования сигнала тона с приданной формой STS в сигнал тона частотной области FTS, при этом сигнал расширения полосы пропускания частотной области BEF зависит от сигнала тона частотной области FTS. В дополнение к обработке синтетических сигналов шума NOS, NOSF, также можно генерировать синтетические компоненты тона во временной области, которым придается форма по времени и впоследствии трансформируются в частотное представление FTS. В данном случае, придание формы во временной области является более выгодным, например, для точного моделирования фаз ADSR (Атака, Спад, Поддержка, Затухание) тонов, что невозможно в обычном представлении в частотной области. Дополнительное использование сигнала тона частотной области FTS может дополнительно увеличить качество сигнала временной области с расширенной полосой пропускания BAS.
Сигнал шума частотной области FNS, дополнительный сигнал частотной области FNSF и/или сигнал тона частотной области могут быть объединены посредством объединителя 20.
Фиг. 4 иллюстрирует четвертый вариант осуществления устройства декодера аудио в соответствии с изобретением в схематичном виде.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 5 базового декодера содержит базовый декодер 21 временной области и базовый декодер 22 частотной области, при этом либо базовый декодер 21 временной области, либо базовый декодер 22 частотной области выбирается для выведения декодированного аудиосигнала DAS из закодированного аудиосигнала EAS. Эти признаки позволяют использовать изобретение в среде унифицированного кодирования речи и аудио (MPEG-D USAC).
В соответствии с предпочтительным вариантом осуществления экстрактор 23 параметра управления выполнен с возможностью извлечения параметров управления CP, используемых модулем 3 базового декодера, из декодированного аудиосигнала DAS и при этом модуль 5 расширения полосы пропускания выполнен с возможностью создания сигнала расширения полосы пропускания частотной области BEF в зависимости от параметров управления CP. Несмотря на то что сигнал расширения полосы пропускания частотной области BEF может быть создан вслепую на основании огибающей базового кодера или на основании управления посредством параметров, выведенных из сигнала базового кодера, он также может быть создан частично направленным образом, посредством извлеченных и переданных параметров от кодировщика.
В соответствии с предпочтительным вариантом осуществления изобретения, модуль 5 расширения полосы пропускания содержит калькулятор 24 коэффициентов усиления придания формы, выполненный с возможностью установления коэффициентов усиления придания формы SG для модуля 7 предварительного придания формы в зависимости от временной огибающей TED декодированного аудиосигнала DAS и при этом модуль 7 предварительного придания формы выполнен с возможностью придания формы по времени сигналу шума NOS в зависимости от коэффициентов усиления придания формы SG для модуля 7 предварительного придания формы. Эти признаки обеспечивают реализацию изобретения в простом виде.
В соответствии с предпочтительным вариантом осуществления изобретения калькулятор 24 коэффициентов усиления придания формы для установления коэффициентов усиления придания формы SG для модуля 7 предварительного придания формы выполнен с возможностью установления коэффициентов усиления придания формы SG для модуля 7 предварительного придания формы в зависимости от параметров управления CP.
В соответствии с предпочтительным вариантом осуществления изобретения модуль 5 расширения полосы пропускания содержит калькулятор коэффициентов усиления придания формы, выполненный с возможностью установления коэффициентов усиления придания формы для дополнительного модуля 15 предварительного придания формы в зависимости от временной огибающей TED декодированного аудиосигнала DAS и при этом дополнительный модуль 14 предварительного придания формы выполнен с возможностью придания формы по времени дополнительному сигналу шума NOSF в зависимости от коэффициентов усиления придания формы для дополнительного модуля 14 предварительного придания формы.
В соответствии с предпочтительным вариантом осуществления изобретения калькулятор коэффициентов усиления придания формы для установления коэффициентов усиления придания формы для дополнительного модуля 15 предварительного придания формы выполнен с возможностью установления коэффициентов усиления придания формы для дополнительного модуля 14 предварительного придания формы в зависимости от параметров управления CP.
В соответствии с предпочтительным вариантом осуществления изобретения, модуль 5 расширения полосы пропускания содержит калькулятор коэффициентов усиления придания формы, выполненный с возможностью установления коэффициентов усиления придания формы для модуля 18 предварительного придания формы тону в зависимости от временной огибающей TED декодированного аудиосигнала DAS и при этом модуль 18 предварительного придания формы тону выполнен с возможностью придания формы по времени сигналу тона TOS в зависимости от коэффициентов усиления придания формы для модуля 18 предварительного придания формы тону.
В соответствии с предпочтительным вариантом осуществления изобретения калькулятор коэффициентов усиления придания формы для установления коэффициентов усиления придания формы для модуля 18 предварительного придания формы тону выполнен с возможностью установления коэффициентов усиления придания формы для дополнительного модуля 18 предварительного придания формы в зависимости от параметров управления CP.
Фигура 4 иллюстрирует предпочтительный вариант осуществления нового расширения полосы пропускания поэтапно в качестве улучшения переключаемой системы кодирования. Примерная система содержит базовый декодер 21 временной области и базовый кодер 22 частотной области, работающие на временной частоте дискретизации в 12,8 кГц и кадровой синхронизацией 20 мс, каждый. Данные заданные установки дают результатом 256 выходных элементов дискретизации декодера на кадр и выходную полосу пропускания в 6,4 кГц. Посредством применения расширения полосы пропускания, предполагается, что эффективная выходная полоса пропускания системы расширяется до 14,4 кГц с помощью одного сигнала шума, при частоте дискретизации 32,0 кГц. Следовательно, следующие этапы могут быть выполнены для каждого кадра:
На этапе генерирования шума кадр шума с 8,0 кГц эффективной полосой пропускания (14,4 кГц – 6,4 кГц), может быть получен посредством генерирования 20 мс белого шума при дискретизации 16,0 кГц, что дает результатом 320 элементов дискретизации шума.
На этапе извлечения параметра управления, могут быть повторно использованы параметры из базового декодера, например, собственная частота и коэффициент усиления долгосрочного предсказателя (LTP) кодера речи. Кроме того, могут быть извлечены параметры из выходного сигнала базового декодера, например, средняя точка спектра и величина пересечения нулевого уровня. Более того, решение по силе предварительного придания формы может быть основано на параметрах управления, например: сильное придание формы для высокой собственной частоты и высокого коэффициента усиления долгосрочного предсказателя (гласные звуки с высоким основным тоном) и слабое или отсутствующее придание формы для высокой средней точки спектра и величины пересечения нулевого уровня (шипящий звук).
На этапе генерирования временной огибающей фильтр верхних частот может быть использован, чтобы удалять DC часть и очень низкие частоты из выходного сигнала базового декодера DAS, элементы дискретизации времени могут быть преобразованы в энергии и коэффициенты кодирования с линейным предсказанием (LPC) могут быть вычислены из энергий.
На этапе вычисления коэффициентов усиления придания формы коэффициенты кодирования с линейным предсказанием могут быть преобразованы в частотную характеристику длиной в 320 элементов дискретизации, которая представляет собой сглаженную временную огибающую и элементы дискретизации сглаженной временной огибающей могут быть преобразованы в значения коэффициента усиления с учетом целевой силы придания формы.
На этапе предварительного придания формы по времени значения коэффициента предварительного придания формы могут быть применены к элементам дискретизации шума.
На этапе время-частотного преобразования выходной сигнал базового декодера DAS может быть обработан посредством набора квадратурных зеркальных фильтров анализа, включающего в себя фильтры 400 кГц полосы пропускания и размером скачка 1,25 мс, что приводит к время-частотной матрице из 20 субполос квадратурного зеркального фильтра и 16 слотов времени. Кроме того, кадр шума может быть обработан посредством дополнительного набора квадратурных зеркальных фильтров, включающих в себя точно такие же настройки как для выходного сигнала декодера, что приводит к время-частотной матрице из 16 субполос квадратурного зеркального фильтра и 16 слотов времени.
На этапе транспонирования (выбор полосы пропускания) кадр шума может быть сдвинут до целевого диапазона частот и помещен поверх матрицы сигнала декодера в выходную T/F-матрицу из 36 субполос квадратурного зеркального фильтра и 16 слотов времени.
На этапе пост-придания формы по времени и спектру правильный временной тренд для критичных участков сигнала (например, переходов) может быть гарантирован посредством пост-придания формы по времени транспонированной огибающей-квадратурного зеркального фильтра посредством переданной побочной информации. Более того, исходный спектральный наклон и полная энергия могут быть аппроксимированы посредством пост-придания формы по времени транспонированной огибающей-квадратурного зеркального фильтра посредством переданной побочной информации.
На этапе синтезирования выходная время-частотная матрица из 36 субполос может быть обработана посредством набора квадратурных зеркальных фильтров синтеза 40 субполос, что приводит к сверхширокополосному выходному сигналу временной области BAS с частотой дискретизации в 32,0 кГц и эффективной полосой пропускания в 14,4 кГц.
В отношении декодера и способов описанных вариантов осуществления должно быть упомянуто следующее:
Несмотря на то что некоторые аспекты были описаны в контексте устройства, очевидно, что эти аспекты также представляют собой описание соответствующего способа, при этом блок или устройство соответствует этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока или элемента или признака соответствующего устройства.
В зависимости от конкретных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратном обеспечении или в программном обеспечении. Реализация может быть выполнена, используя цифровой запоминающий носитель информации, например гибкий диск, DVD, CD, ROM, PROM, EPROM, EEPROM или Флэш-память, с сохраненными на нем электрически читаемыми сигналами управления, которые взаимодействуют (или выполнены с возможностью взаимодействия) с программируемой компьютерной системой таким образом, что выполняется соответствующий способ.
Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных с электрически читаемыми сигналами управления, которые выполнены с возможностью взаимодействия с программируемой компьютерной системой таким образом, что выполняется один из описанных в данном документе способов.
В целом, варианты осуществления настоящего изобретения могут быть реализованы в качестве компьютерного программного продукта с программным кодом, при этом программный код работает для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, быть сохранен на машиночитаемом носителе.
Прочие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описываемых в данном документе, которая хранится на машиночитаемом носителе или не временном запоминающем носителе информации.
Другими словами, вариант осуществления способа изобретения является, вследствие этого, компьютерной программой с программным кодом для выполнения одного из способов, описываемых в данном документе, когда компьютерная программа выполняется на компьютере.
Дополнительный вариант осуществления способов изобретения является, вследствие этого, носителем данных (или цифровым запоминающим носителем информации, или машиночитаемым носителем информации), содержащим, записанную на нем, компьютерную программу для выполнения одного из способов, описываемых в данном документе.
Дополнительный вариант осуществления способа изобретения является, вследствие этого, потоком данных или последовательностью сигналов, представляющими компьютерную программу для выполнения одного из способов, описываемых в данном документе. Поток данных или последовательность сигналов могут быть выполнены с возможностью, например, переноса через соединения связи для передачи данных, например, через Интернет.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер, или программируемое логическое устройство, выполненное с возможностью или адаптированное для выполнения одного из способов, описываемых в данном документе.
Дополнительный вариант осуществления содержит компьютер, с инсталлированной на нем компьютерной программой для выполнения одного из способов, описываемых в данном документе.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая вентильная матрица) может быть использовано, чтобы выполнять некоторые или все из функциональных возможностей способов, описываемых в данном документе. В некоторых вариантах осуществления, программируемая вентильная матрица может взаимодействовать с микропроцессором для того, чтобы выполнять один из способов, описываемых в данном документе. В целом, способы преимущественно выполняются посредством любого устройства аппаратного обеспечения.
Несмотря на то что данное изобретение было описано с точки зрения нескольких вариантов осуществления, существуют изменения, перестановки, и эквиваленты, которые лежат в рамках объема изобретения. Следует отметить, что существует много альтернативных вариантов реализации способов и композиций настоящего изобретения. Вследствие этого, подразумевается, что нижеследующая формула изобретения интерпретируется как включающая в себя все такие изменения, перестановки и эквиваленты, как лежащие в рамках истинной сущности и объема настоящего изобретения.
Условные обозначения
1 устройство декодера аудио
2 приемник битового потока
3 модуль базового декодера
4 генератор временной огибающей
5 модуль расширения полосы пропускания
6 генератор шума
7 модуль предварительного придания формы
8 время-частотный преобразователь
9 время-частотный преобразователь
10 объединитель
11 частотно-временной преобразователь
12 селектор диапазона частот
13 модуль пост-придания формы
14 дополнительный генератор шума
15 дополнительный модуль предварительного придания формы
16 дополнительный время-частотный преобразователь
17 генератор тона
18 модуль предварительного придания формы тону
19 время-частотный преобразователь
20 объединитель
21 базовый декодер временной области
22 базовый декодер частотной области
23 экстрактор параметра управления
24 калькулятор коэффициентов усиления придания формы
BS битовый поток
EAS закодированный аудиосигнал
DAS декодированный аудиосигнал
TED временная огибающая
BEF сигнал расширения полосы пропускания частотной области
NOS сигнал шума
SNS сигнал шума с приданной формой
FNS сигнал шума частотной области
FDS декодированный аудиосигнал частотной области
BFS аудиосигнал частотной области с расширенной полосой пропускания
BAS аудиосигнал временной области с расширенной полосой пропускания
FSR сигнал шума частотной области с выбранным диапазоном частот
SIS сигнал побочной информации
NOSF дополнительный сигнал шума
SNSF дополнительный сигнал шума с приданной формой
FNSF дополнительный сигнал шума частотной области
TOS сигнал тона
SRS сигнал тона с приданной формой
FTS сигнал тона частотной области
SG коэффициенты усиления придания формы
CP параметры управления.
Ссылки
[1] Bessette, B.; и др.: «The Adaptive Multirate Wideband Speech Codec (AMR-WB)», IEEE Transactions on Speech and Audio Processing, Том 10, No. 8, ноябрь 2002.
[2] Dietz, M.; и др.: «Spectral Band Replication, a novel approach in audio coding», Proceedings of the 112th AES Convention, май 2002.
[3] Miao, L.; и др.: «G.711.1 Annex D and G.722 Annex B - New ITU-T Super Wideband Codecs», IEEE ICASSP 2011, стр. 5232-5235.
Изобретение относится к средствам для расширения полосы пропускания аудио посредством вставки шума. Технический результат заключается в повышении эффективности расширения полосы пропускания. Принимают битовый поток и выводят закодированный аудиосигнал из битового потока, используя приемник битового потока. Выводят декодированный аудиосигнал во временной области из закодированного аудиосигнала, используя модуль базового декодера. Определяют временную огибающую декодированного аудиосигнала, используя генератор временной огибающей. Создают сигнал расширения полосы пропускания частотной области, используя модуль расширения полосы пропускания, выполняющий следующие этапы. Создают сигнал шума во временной области, используя генератор шума модуля расширения полосы пропускания. Придают форму по времени сигналу шума в зависимости от временной огибающей декодированного аудиосигнала, используя модуль предварительного придания формы. Трансформируют сигнал шума с приданной формой в сигнал шума частотной области, при этом сигнал расширения полосы пропускания частотной области зависит от сигнала шума частотной области, используя время-частотный преобразователь. 3 н. и 21 з.п. ф-лы, 4 ил.
1. Устройство декодера аудио для декодирования битового потока (BS), содержащее:
приемник (2) битового потока, выполненный с возможностью приема битового потока (BS) и выведения закодированного аудиосигнала (EAS) из битового потока (BS);
модуль (3) базового декодера, выполненный с возможностью выведения декодированного аудиосигнала (DAS) во временной области из закодированного аудиосигнала (EAS);
генератор (4) временной огибающей, выполненный с возможностью определения временной огибающей (TED) декодированного аудиосигнала (DAS);
модуль (5) расширения полосы пропускания, выполненный с возможностью создания сигнала расширения полосы пропускания частотной области (BEF), при этом модуль (5) расширения полосы пропускания содержит генератор (6) шума, выполненный с возможностью создания сигнала шума (NOS) во временной области, при этом модуль (5) расширения полосы пропускания содержит модуль (7) предварительного придания формы, выполненный с возможностью придания формы по времени сигналу шума (NOS) в зависимости от временной огибающей (TED) декодированного аудиосигнала (DAS) для того, чтобы создать сигнал шума с приданной формой (SNS), при этом модуль (5) расширения полосы пропускания содержит время-частотный преобразователь (8), выполненный с возможностью трансформирования сигнала шума с приданной формой (SNS) в сигнал шума частотной области (FNS); при этом сигнал расширения полосы пропускания частотной области (BEF) зависит от сигнала шума частотной области (FNS);
время-частотный преобразователь (9), выполненный с возможностью трансформирования декодированного аудиосигнала (DAS) в декодированный аудиосигнал частотной области (FDS);
объединитель (10), выполненный с возможностью объединения декодированного аудиосигнала частотной области (FDS) и сигнала расширения полосы пропускания частотной области (BEF) для того, чтобы создать аудиосигнал частотной области с расширенной полосой пропускания (BFS); и
частотно-временной преобразователь (11), выполненный с возможностью трансформирования аудиосигнала частотной области с расширенной полосой пропускания (BFS) в аудиосигнал временной области с расширенной полосой пропускания (BAS).
2. Устройство декодера аудио по п. 1, в котором сигнал расширения полосы пропускания частотной области (BEF) создается без репликации спектральной полосы.
3. Устройство декодера аудио по п. 1, в котором модуль (5) расширения полосы пропускания выполнен таким образом, что придание формы по времени сигналу шума (NOS) выполняется чрезмерно выраженным образом посредством динамического расширения временной огибающей.
4. Устройство декодера аудио по п. 1, в котором модуль (5) расширения полосы пропускания выполнен таким образом, что придание формы по времени сигналу шума (NOS) выполняется по субполосам путем разбиения сигнала шума (NOS) на несколько сигналов шума субполосы посредством набора из полосовых фильтров и выполнения конкретного придания формы по времени в отношении каждого из сигналов шума субполосы.
5. Устройство декодера аудио по п. 1, в котором модуль (5) расширения полосы пропускания содержит селектор (12) диапазона частот, выполненный с возможностью установки диапазона частот сигнала расширения полосы пропускания частотной области (BEF).
6. Устройство декодера аудио по п. 1, в котором модуль (5) расширения полосы пропускания содержит модуль пост-придания формы, выполненный с возможностью придания формы по времени и/или по спектру в частной области сигналу расширения полосы пропускания частотной области (BEF).
7. Устройство декодера аудио по п. 1, в котором приемник (2) битового потока выполнен с возможностью выведения сигнала побочной информации (SIS) из битового потока (BS), при этом модуль (5) расширения полосы пропускания выполнен с возможностью создания сигнала расширения полосы пропускания частотной области (BEF) в зависимости от сигнала побочной информации (SIS).
8. Устройство декодера аудио по п. 7, в котором генератор (6) шума выполнен с возможностью создания сигнала шума (NOS) в зависимости от сигнала побочной информации (SIS).
9. Устройство декодера аудио по п. 7, в котором модуль (7) предварительного придания формы выполнен с возможностью придания формы по времени сигналу шума (NOS) в зависимости от сигнала побочной информации (SIS).
10. Устройство декодера аудио по п. 7, в котором модуль (13) пост-придания формы выполнен с возможностью придания формы по времени и/или по спектру сигналу расширения полосы пропускания частотной области (BEF) в зависимости от сигнала побочной информации (SIS).
11. Устройство декодера аудио по п. 1, в котором модуль (5) расширения полосы пропускания содержит дополнительный генератор (14) шума, выполненный с возможностью создания дополнительного сигнала шума (NOSF) во временной области, дополнительный модуль (15) предварительного придания формы, выполненный с возможностью придания формы по времени дополнительному сигналу шума (NOSF) в зависимости от временной огибающей (TED) декодированного аудиосигнала (DAS) для того, чтобы создавать дополнительный сигнал шума с приданной формой (SNSF), и дополнительный время-частотный преобразователь (16), выполненный с возможностью трансформирования дополнительного сигнала шума с приданной формой (SNSF) в дополнительный сигнал шума частотной области (FNSF), при этом сигнал расширения полосы пропускания частотной области (BEF) зависит от дополнительного сигнала шума частотной области (FNSF).
12. Устройство декодера аудио по п. 11, в котором модуль (5) расширения полосы пропускания выполнен таким образом, что придание формы по времени дополнительному сигналу шума (NOSF) выполняется чрезмерно выраженным образом посредством динамического расширения временной огибающей.
13. Устройство декодера аудио по п. 11, в котором модуль (5) расширения полосы пропускания выполнен таким образом, что придание формы по времени дополнительному сигналу шума (NOSF) выполняется по субполосам путем разбиения дополнительного сигнала шума (NOSF) на несколько дополнительных сигналов шума субполосы посредством набора из полосовых фильтров и выполнения конкретного придания формы по времени в отношении каждого из дополнительных сигналов шума субполосы.
14. Устройство декодера аудио по п. 1, в котором модуль (5) расширения полосы пропускания содержит генератор (17) тона, выполненный с возможностью создания сигнала тона (TOS) во временной области, модуль (18) предварительного придания формы тону, выполненный с возможностью придания формы по времени сигналу тона (TOS) в зависимости от временной огибающей (TED) декодированного аудиосигнала (DAS) для того, чтобы создать сигнал тона с приданной формой (STS), и время-частотный преобразователь (19), выполненный с возможностью трансформирования сигнала тона с приданной формой (STS) в сигнал тона частотной области (FTS), при этом сигнал расширения полосы пропускания частотной области (BEF) зависит от сигнала тона частотной области (FTS).
15. Устройство декодера аудио по п. 1, в котором модуль (5) базового декодера содержит базовый декодер (21) временной области и базовый декодер (22) частотной области, при этом либо базовый декодер (21) временной области, либо базовый декодер (22) частотной области используется для выведения декодированного аудиосигнала (DAS) из закодированного аудиосигнала (EAS).
16. Устройство декодера аудио по п. 15, в котором экстрактор (23) параметра управления выполнен с возможностью извлечения параметров управления (CP), используемых модулем (3) базового декодера, из декодированного аудиосигнала (DAS), при этом модуль (5) расширения полосы пропускания выполнен с возможностью создания сигнала расширения полосы пропускания частотной области (BEF) в зависимости от параметров управления (CP).
17. Устройство декодера аудио по п. 1, в котором модуль (5) расширения полосы пропускания содержит калькулятор (24) коэффициентов усиления придания формы, выполненный с возможностью установления коэффициентов усиления придания формы (SG) для модуля (7) предварительного придания формы в зависимости от временной огибающей (TED) декодированного аудиосигнала (DAS), при этом модуль (7) предварительного придания формы выполнен с возможностью придания формы по времени сигналу шума (NOS) в зависимости от коэффициентов усиления придания формы (SG) для модуля (7) предварительного придания формы.
18. Устройство декодера аудио по п. 16, в котором калькулятор (24) коэффициентов усиления придания формы для установления коэффициентов усиления придания формы (SG) для модуля (7) предварительного придания формы выполнен с возможностью установления коэффициентов усиления придания формы (SG) для модуля (7) предварительного придания формы в зависимости от параметров управления (CP).
19. Устройство декодера аудио по п. 11, в котором модуль (5) расширения полосы пропускания содержит калькулятор коэффициентов усиления придания формы, выполненный с возможностью установления коэффициентов усиления придания формы для дополнительного модуля (15) предварительного придания формы в зависимости от временной огибающей (TED) декодированного аудиосигнала (DAS), при этом дополнительный модуль (14) предварительного придания формы выполнен с возможностью придания формы по времени дополнительному сигналу шума (NOSF) в зависимости от коэффициентов усиления придания формы для дополнительного модуля (14) предварительного придания формы.
20. Устройство декодера аудио по п. 16, в котором калькулятор коэффициентов усиления придания формы для установления коэффициентов усиления придания формы для дополнительного модуля (15) предварительного придания формы выполнен с возможностью установления коэффициентов усиления придания формы для дополнительного модуля (15) предварительного придания формы в зависимости от параметров управления (CP).
21. Устройство декодера аудио по п. 14, в котором модуль (5) расширения полосы пропускания содержит калькулятор коэффициентов усиления придания формы, выполненный с возможностью установления коэффициентов усиления придания формы для модуля (18) предварительного придания формы тону в зависимости от временной огибающей (TED) декодированного аудиосигнала (DAS), при этом модуль (18) предварительного придания формы тону выполнен с возможностью придания формы по времени сигналу тона (TOS) в зависимости от коэффициентов усиления придания формы для модуля (18) предварительного придания формы тону.
22. Устройство декодера аудио по п. 16, в котором калькулятор коэффициентов усиления придания формы для установления коэффициентов усиления придания формы для модуля (18) предварительного придания формы тону выполнен с возможностью установления коэффициентов усиления придания формы для дополнительного модуля (18) предварительного придания формы в зависимости от параметров управления (CP).
23. Способ декодирования битового потока (BS), содержащий этапы, на которых:
принимают битовый поток (BS) и выводят закодированный аудиосигнал (EAS) из битового потока (BS), используя приемник (2) битового потока;
выводят декодированный аудиосигнал (DAS) во временной области из закодированного аудиосигнала (EAS), используя модуль (3) базового декодера;
определяют временную огибающую (TED) декодированного аудиосигнала (DAS), используя генератор (4) временной огибающей;
создают сигнал расширения полосы пропускания частотной области (BEF), используя модуль (5) расширения полосы пропускания, выполняющий этапы, на которых:
создают сигнал шума (NOS) во временной области, используя генератор (6) шума модуля (5) расширения полосы пропускания,
придают форму по времени сигналу шума (NOS) в зависимости от временной огибающей (TED) декодированного аудиосигнала (DAS) для того, чтобы создать сигнал шума с приданной формой (SNS), используя модуль (7) предварительного придания формы модуля (5) расширения полосы пропускания,
трансформируют сигнал шума с приданной формой (SNS) в сигнал шума частотной области (FNS), при этом сигнал расширения полосы пропускания частотной области (BEF) зависит от сигнала шума частотной области (FNS), используя время-частотный преобразователь (8) модуля (5) расширения полосы пропускания;
трансформируют декодированный аудиосигнал (DAS) в декодированный аудиосигнал частотной области (FDS), используя дополнительный время-частотный преобразователь (9);
объединяют декодированный аудиосигнал частотной области (FDS) и сигнал расширения полосы пропускания частотной области (BEF) для того, чтобы создать аудиосигнал частотной области с расширенной полосой пропускания (BFS), используя объединитель (10); и
трансформируют аудиосигнал частотной области с расширенной полосой пропускания (BFS) в аудиосигнал временной области с расширенной полосой пропускания (BAS), используя частотно-временной преобразователь (11).
24. Машиночитаемый носитель информации, содержащий компьютерную программу для реализации, при ее исполнении в процессоре, способа по п. 23.
Способ изготовления магнитопровода электрической машины | 1984 |
|
SU1451812A1 |
ОПОРА ДЛЯ КАТАЛИЗАТОРА | 1999 |
|
RU2228790C2 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
Способ приготовления лака | 1924 |
|
SU2011A1 |
Приспособление для суммирования отрезков прямых линий | 1923 |
|
SU2010A1 |
Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем | 1924 |
|
SU2012A1 |
RU 2011109670 A, 27.09.2012. |
Авторы
Даты
2018-09-07—Публикация
2014-10-30—Подача