Настоящее изобретение относится к обработке аудиосигнала и, в частности, к обработке аудиосигнала в случаях, когда доступная скорость данных довольно мала.
Адаптивное к слуховому восприятию кодирование аудиосигналов для уменьшения избыточности данных для эффективного хранения и передача этих сигналов получили распространение во многих областях. В частности, такие алгоритмы кодирования известны как «МР3» или «МР4». Используемое для этого кодирование, в особенности при достижении очень низких скоростей передачи битов, приводит к снижению качества аудио, которое, главным образом, вызывается ограничением со стороны кодера в отношении передаваемой полосы частот аудиосигнала.
В этом случае, как известно из документа WO 9857436, способ ограничения полосы частот аудиосигнала применяют на стороне кодера и кодируют только нижнюю полосу частот аудиосигнала посредством аудиокодера с высоким качеством. При этом верхняя полоса частот описывается довольно грубо - в виде ряда параметров, воспроизводящих спектральную огибающую верхней полосы частот. В этом случае верхняя полоса частот синтезируется на стороне декодера. С этой целью предлагается осуществлять транспозицию гармоник, при которой нижняя полоса частот декодированного аудиосигнала подается в банк фильтров. Каналы банка фильтров нижней полосы частот соединяются с каналами банка фильтров верхней полосы частот, иначе говоря "вклеиваются", и каждый склеенный полосовой сигнал подвергается коррекции огибающей. В этом случае синтезирующий банк фильтров, относящийся банку фильтров для специального анализа, получает полосовые сигналы аудиосигнала в нижней полосе частот и полосовые сигналы со скорректированной огибающей нижней полосы частот, которые были гармонически вклеены в верхнюю полосу частот. Выходной сигнал синтезирующего банка фильтров является аудиосигналом с расширенной полосой частот, который передается от кодера к декодеру с довольно низкой скоростью передачи данных. Однако вычисления банка фильтров и вклеивание в области банка фильтров могут потребовать больших вычислительных затрат.
Более простые способы расширения полосы частот аудиосигналов с ограниченной полосой используют вместо этого операцию копирования частей низкочастотного (HF) сигнала в высокочастотный (HF) диапазон для сравнения потерь информации, вызванных ограничением полосы. Такие методы описаны в М.Dietz, L.Liljeryd, К.Kjörling и O.Kunz, "Spectral Band Replication, a novel approach in audio coding," Munich, May 2002; S.Meltzer, R.Böhm and F.Henn, "SBR enhanced audio codecs for digital broadcasting such as "Digital Radio Mondiale" (DRM)," 112th AES Convention, Munich, May 2002; Т.Ziegler, A.Ehret, P.Ekstrand and M.Lutzky, "Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm," in 112th AES Convention, Munich, May 2002; International Standard ISO/IEC 14496-3:2001/FPDAM 1, "Bandwidth Extension," ISO/IEC, 2002, or "Speech bandwidth extension method and apparatus", Vasu lyengar et al. US Patent №5455888.
В этих методах транспозиции гармоник не производятся, а последовательные полосовые сигналы нижней полосы частот подаются в последовательные каналы банка фильтров верхней полосы частот. Благодаря этому достигается грубая аппроксимация верхней полосы частот аудиосигнала. Эта грубая аппроксимация сигнала на следующем этапе приближается к оригиналу посредством последующей обработки с использованием управляющей информации, синтезированной из первоначального сигнала. В этом случае, например, используются масштабирующие множители для коррекции огибающей спектра, обратное фильтрование и добавление шумовой области для адаптации тональности, а также дополнение синусоидальными участками сигнала, что также описано в стандарте MPEG-4.
Помимо этого существуют дополнительные способы, такие как так называемое "слепое расширение полосы частот", описанные в Е.Larsen, R.M.Aarts, and M.Danessis, "Efficient high-frequency bandwidth extension of music and speech". In AES 112th Convention, Munich, Germany, May 2002, в которых не используется информация о первоначальном HF диапазоне. Кроме того, существует также способ так называемого «Искусственного расширения полосы частот», который описан в K.Käyhkö, A Robust Wideband Enhancement for Narrowband Speech Signal; Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio signal Processing, 2001.
В документе J.Makinen et at.: AMR-WB+: a new audio coding standard for 3rd generation mobile audio services Broadcasts, IEEE, ICASSP'05 описан способ расширения полосы частот, в котором операция копирования для расширения полосы частот с повышающим копированием последовательных полосовых сигналов в соответствии с SBR технологией (технологией повторения полосы частот) заменена па зеркальное отображение, например увеличение количества сэмплов.
Другие технологии для расширения полосы частот описаны в следующих документах: R.M.Aarls, Е.Larsen, and О.Ouweltjes. "A unified approach to low- and high frequency bandwidth extension", AES 115th Convention. New York, USA, October 2003; Е. Larsen and R.M.Aarts, "Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and Loudspeaker Design", John Wiley & Sons, Ltd., 2004; E.Larsen, R.M.Aarts. and M.Danessis, "Efficient high-frequency bandwidth extension of music and speech", AES 112th Convention, Munich, May 2002; J. Makhoul, "Spectral Analysis of Speech by Linear Prediction", IEEE Transactions on Audio and Electroacoustics, AU-21(3), June 1973; United States Patent Application 08/951029; United States Patent No. 6895375.
Известные способы гармонического расширения полосы частот демонстрируют высокую сложность. С другой стороны, более простые способы расширения полосы частот приводят к потери качества. В частности, при низкой скорости передачи битов и в сочетании с низкополосным LF диапазоном могут возникнуть такие искажения, как грубость и тембр, неприятные для восприятия. Причиной этого является тот факт, что аппроксимированная HF часть основывается на операции копирования, которая оставляет без внимания гармонические отношения между тональными частями сигнала. Это относится как к гармоническому отношению между LF и HF, так и к гармоническому отношению непосредственно между частями HF. При использовании SBR, например, на границе между LF диапазоном и созданным HF диапазоном иногда возникают ощущения грубости звуков, учитывая что тональные части, копированные из LF диапазона в HF диапазон, как, например, изображено на фиг.4а, могут теперь в суммарном сигнале пересекаться с тональными частями из LF диапазона, поскольку они близко расположены спектрально. Таким образом, на фиг.4а показан первоначальный сигнал с максимумами в точках 401, 402, 403 и 404, в то время как тестовый сигнал показан с пиками в точках 405, 406, 407 и 408. При копировании тональных частей из LF диапазона в HF диапазон в области, где на фиг.4а граница была на частоте 4250 Гц, расстояние двух левых пиков тестового сигнала будет меньше, чем основная частота, лежащая в основе гармонического растра, что приведет к ощущению грубости.
Поскольку ширина тонально-компенсированных частотных групп увеличивается с ростом центральной частоты, как описано в Zwicker, E. and H. Fasti (1999), Psychoacoustics: Facts and models. Berlin - Springerverlag, синусоидальные части, которые в LF диапазоне лежат в различных частотных группах, после их копирования в HF диапазон могут оказаться в одной и той же частотной группе, что также приводит к слуховому ощущению грубости, как видно из фиг.4b. На данной фигуре, в частности, показано, что копирование LF диапазона в HF диапазон приводит к более плотной тональной структуре в тестовом сигнале по сравнению с первоначальным. Первоначальный сигнал в более высоком диапазоне частот распределен относительно равномерно по спектру, как, в частности, показано на позиции 410. Тестовый же сигнал 411 напротив, особенно в этом более высоком диапазоне, распределен по спектру довольно неоднородно и очевидно, вследствие этого, является более тональным, чем первоначальный сигнал 410.
Задачей настоящего изобретения является повышение качества расширения полосы частот при одновременном снижении вычислительной сложности обработки сигнала, которая, в свою очередь, может быть осуществлена с малой задержкой и без особых усилий с использованием процессоров, имеющих низкие технические требования по отношению к их скорости и требуемой памяти.
Указанная задача достигается посредством устройства для расширения полосы частот по п.1 формулы, способа расширения полосы частот по п.13 формулы или компьютерной программы по п.14 формулы изобретения.
Идея изобретения расширения полосы частот основана на временном расширении сигнала для создания версии аудиосигнала в виде временного сигнала, расширенного с коэффициентом расширения, большим 1, и последующей децимацией временного сигнала для получения транспонированного сигнала, который затем может, например, быть подвергнут фильтрованию обычным полосовым фильтром для извлечения высокочастотной части сигнала, которая, в свою очередь, также может искажаться или изменяться в отношении своей амплитуды, для получения хорошего приближения первоначальной высокочастотной части. Кроме того, для исключения попосно-пропускающего фильтрования после расширения оно может быть выполнено перед расширением сигнала таким образом, чтобы после осуществления расширения в расширенном сигнале присутствовал только желательный частотный диапазон.
С одной стороны, при гармоническом расширении полосы частот проблемы, возникающие при операциях копирования или отображения, или при обеих операциях, можно предотвратить путем гармонического продолжения и расширения спектра посредством использования блока расширения сигнала для расширения временного сигнала. С другой стороны, временное расширение и последующую децимацию гораздо проще выполнить с помощью обычных процессоров, чем посредством полного анализно/синтезного банка фильтров, как это, например, используется при транспозиции гармоник, когда дополнительно необходимо принять решения о том, каким именно образом должно осуществляться вклеивание в области банка фильтров.
Для расширения сигнала предпочтительно использовать такие фазовые вокодеры, которые при работе затрачивают минимальные усилия. Кроме того, чтобы получить полосы частот, расширенные с коэффициентами, большими 2, несколько вокодеров фазы могут работать параллельно, что является выгодным, особенно в отношении задержки расширения полосы частот, которая должна быть низкой при работе в реальном масштабе времени. Помимо этого, существуют другие способы расширения сигнала, такие как, например, метод PSOLA (метод синхронного накладывающегося окна).
В предпочтительном варианте настоящего изобретения, вначале при помощи фазового вокодера низкочастотный аудиосигнал расширяют по времени с максимальной частотой LFmax в целое число раз, кратное обычной продолжительности сигнала. После этого в последующем дециматоре проводят децимацию сигнала с коэффициентом временного расширения, что в целом приводит к расширению спектра. Эта операция аналогична внутренней транспозиции аудиосигнала. Наконец, результирующий сигнал подвергается полосно-пропускающему фильтрованию в диапазоне от значения «(коэффициент расширения - 1)·LFmax» до значения «коэффициент расширения·LFmax». Кроме того, отдельные высокочастотные сигналы, возникающие при расширении и децимации, могут быть подвергнуты полосно-пропускающему фильтрованию, после которого они дополнительно будут перекрываться по всему высокочастотному диапазону (т.е. от LFmax до k*LFmax). Это ощутимо для случая, когда по-прежнему желательна более высокая спектральная плотность гармоник.
Метод гармонического расширения полосы частот осуществляется в предпочтительном варианте настоящего изобретения параллельно для нескольких различных коэффициентов расширения. Как альтернатива параллельной обработке, может также быть использован отдельный фазовый вокодер, работающий последовательно, при этом промежуточные результаты будут буферизоваться. Таким образом, при расширении полосы частот могут быть получены любые частоты среза. Кроме того, расширение сигнала может быть реализовано непосредственно в направлении частоты, в частности, посредством двойной операции, соответствующей функциональному принципу работы фазового вокодера.
Предпочтительно, чтобы в вариантах изобретения не требовался анализ сигнала в отношении гармоничности или основной частоты.
Далее предпочтительные варианты настоящего изобретения будут раскрыты более подробно со ссылками на прилагаемые чертежи, на которых:
фиг.1 иллюстрирует блок-схему идеи изобретения расширения полосы частот аудиосигнала;
фиг.2a иллюстрирует блок-схему устройства для расширения полосы частот аудиосигнала согласно варианту осуществления настоящего изобретения;
фиг.2b иллюстрирует усовершенствование устройства на фиг.2а с переходными детекторами;
фиг.3 демонстрирует схематичную иллюстрацию обработки сигнала с использованием спектров в определенные моменты времени для заявленного расширения полосы частот;
фиг.4a иллюстрирует сопоставление между первоначальным сигналом и тестовым сигналом, который при восприятии дает грубое звуковое ощущение;
фиг.4b иллюстрирует сопоставление первоначального сигнала с тестовым сигналом, также приводящим к грубому слуховому восприятию;
фиг.5a демонстрирует схематичную иллюстрацию выполнения банка фильтров фазового вокодера;
фиг.5b демонстрирует детальную иллюстрацию фильтра, изображенного на фиг.5a;
фиг.5c демонстрирует схематичную иллюстрацию управления амплитудным сигналом и частотным сигналом в канале фильтра, изображенного на фиг.5a;
фиг.6 демонстрирует схематичную иллюстрацию выполнения преобразования в фазовом вокодере;
фиг.7a демонстрирует схематичную иллюстрацию кодера в контексте расширения полосы частот; и
фиг.7b демонстрирует схематичную иллюстрацию декодера в контексте расширения полосы частот аудиосигнала.
На фиг.1 изображена схематичная иллюстрация устройства или способа расширения полосы частот аудиосигнала. Только в качестве примера фиг.1 иллюстрирует устройство, хотя фиг.1 может в то же время быть расценена как блок-схема способа расширения полосы частот. На данной фигуре аудиосигнал, поступающий в устройство, изображен в виде входа 100. Аудиосигнал поступает в блок расширения сигнала 102, применяемый для создания версии аудиосигнала в виде временного сигнала, расширенного по времени с коэффициентом расширения, большим 1. Коэффициент расширения в варианте изобретения, изображенном на фиг.1, задается через коэффициент расширения входа 104. Расширенный временной аудиосигнал, полученный на выходе 103 блока расширения сигнала 102, поступает в дециматор 105, осуществляющий децимирование расширенного по времени временного аудиосигнала 103 с коэффициентом децимации, соответствующим коэффициенту расширения 104. Эта операция схематично показана на фиг.1 в виде коэффициента расширения входа 104, изображенного пунктирными линиями и соединенного с дециматором 105. В одном из вариантов изобретения коэффициент расширения в блоке расширения сигнала равен обратному коэффициенту децимации. Если, например, в блоке расширения сигнала 102 применяется коэффициент расширения 2.0, то децимация выполняется с коэффициентом децимации 0.5. Если ли же, с другой стороны, децимация выполняется с коэффициентом 2, т.е. каждое второе значение семпла удаляется, то в этом случае коэффициент децимации идентичен коэффициенту расширения. Дополнительные соотношения между коэффициентом расширения и коэффициентом децимации, например целочисленные или рациональные соотношения, могут также быть использованы в зависимости от варианта применения. Однако максимальное гармоническое расширение полосы частот достигается в том случае, когда коэффициент расширения равен либо коэффициенту децимации, либо обратному коэффициенту децимации.
В предпочтительном варианте настоящего изобретения дециматор 105 используется, например, для удаления каждого второго семпла (с коэффициентом расширения, равным 2), так что децимированный аудиосигнал в итоге будет иметь такую же продолжительность по времени, что и первоначальный аудиосигнал 100, Другие алгоритмы децимации, например формирование средневзвешенных величин или исследование тенденций в прошедшем или будущем, также могут быть использованы, хотя, тем не менее, обычную децимацию можно довольно легко выполнить путем удаления семплов. Децимированный временной сигнал 106, сформированный дециматором 105, подается в фильтр 107, после чего фильтр 107 извлекает полосовой сигнал из децимированного аудиосигнала 106, содержащего частотные диапазоны, которые не содержались в аудиосигнале 100 на входе устройства. В вариантах изобретения фильтр 107 может быть выполнен в виде как цифрового полосового фильтра, например, как FIR - (КИХ) или IIR - (БИХ) фильтра, а так же, как аналоговый полосовой фильтр, хотя более предпочтительно цифровое выполнение. Далее фильтр 107 извлекает верхний спектральный диапазон, созданный операциями 102 и 105, при этом нижний спектральный диапазон, который так или иначе содержится в аудиосигнале 100. подавляется наиболее сильно. В других вариантах выполнения фильтр 107 может применяться также для извлечения участков сигнала с частотами как у полосового сигнала, содержащегося в первоначальном сигнале 100, при этом извлеченный полосовой сигнал будет содержать, по крайней мере, одну частотную полосу, которая не содержалась в первоначальном аудиосигнале 100.
Полосовой сигнал 108, полученный на выходе фильтра 107, поступает в блок искажений 109, искажающий полосовые сигналы таким образом, чтобы полосовой сигнал имел заданную огибающую. Такая информация огибающей, которую можно использовать для искажения, может поступать из внешних источников и даже исходить от кодера, или может также быть синтезирована, например, слепой экстраполяцией из аудиосигнала 100, или основываться на таблицах, сохраненных на стороне декодера со ссылкой на огибающую аудиосигнала 100. Искаженный полосовой сигнал 110, выходящий из блока искажений 109, затем подается в блок объединения 111. объединяющий искаженный полосовой сигнал 110 с первоначальным аудиосигналом 100, который также мог быть искажен в зависимости от варианта изобретения (этап задержки не показан на фиг.1), для создания аудиосигнала с расширенной полосой частот на выходе 112.
В другом варианте изобретения последовательность расположения блока искажений 109 и блока объединения 111 обратна последовательности их расположения, изображенной на фиг.1. В этом случае сигнал с выхода фильтра, т.е. полосовой сигнал 108, непосредственно объединяется с аудиосигналом 100, а искажение верхней полосы комбинированного сигнала, получаемого на выходе блока объединения 111, выполняется блоком искажений 109 только после объединения. В этом варианте блок искажений искажает комбинированный сигнал таким образом, чтобы тот имел заданную огибающую. Таким образом, в этом варианте выполнения блок объединения применяется для объединения полосового сигнала 108 с аудиосигналом 100 для получения аудиосигнала, расширенного по отношению к своей полосе частот. В варианте, когда искажение производится только после объединения, предпочтительно применять блок искажений 109, который не оказывает влияния ни на аудиосигнал 100, ни на полосу частот комбинированного сигнала, обусловленную аудиосигналом 100, в то время как низкополосная часть аудиосигнала кодируется посредством высококачественного кодера и при синтезе верхней полосы на стороне декодера является, так сказать, мерой всего, и расширение полосы частот не должно оказывать на нее влияние.
Перед иллюстрацией детальных вариантов настоящего изобретения будет раскрыт сценарий расширения полосы частот со ссылкой на фиг.7a и 7b, в котором применение настоящего изобретения может быть весьма полезно. Аудиосигнал вводится и комбинацию низкочастотного/высокочастотного фильтров на входе 700. Комбинация низкочастотного/высокочастотного фильтров, с одной стороны, включает низкочастотную часть (LP) для получения версии аудиосигнала 700, пропущенного через фильтр нижних частот, который обозначен позицией 703 на фиг.7a. Этот пропущенный через фильтр нижних частот аудиосигнал кодируется посредством аудиокодера 704. Аудиокодер может быть реализован в виде, например, МР3 кодера (MPEG1 Layer 3) или ААС кодера, так же известного как МР4 кодер и описанного в стандарте MPEG4. Другие аудиокодеры, обеспечивающие прозрачное или предпочтительно психоакустически прозрачное представление ограниченного по полосе аудиосигнала 703, могут использоваться в кодере 704 для получения полностью кодированного, психоакустически кодированного или, предпочтительно, психоакустически прозрачно кодированного аудиосигнала 705. С выхода 706 высокополосной части фильтра 702, обозначаемой «HP», поступает верхняя полоса аудиосигнала. Часть аудиосигнала, пропущенная через фильтр верхних частот, т.е. верхняя полоса или HF полоса, также обозначаемая как HF часть, поступает в блок вычисления параметров 707, применяемый для расчета различных параметров. Такими параметрами являются, например, спектральная огибающая верхней полосы 706 в относительно низком разрешении, например, посредством представления масштабного коэффициента для каждой психоакустической частотной группы или для каждой полосы Барка на шкале Барка. Еще одним параметром, который может быть вычислен блоком вычисления параметров 707, является область шумов в верхней полосе, энергия которой, приходящаяся на полосу частот, предпочтительно может быть связана с энергией огибающей этой полосы. Другие параметры, которые могут быть вычислены блоком вычисления параметров 707, включают меру тональности для каждой отдельной полосы верхней полосы частот, которая показывает, как спектральная энергия распределена по полосе, а именно распределена ли спектральная энергия по полосе относительно однородно, и при этом в этой полосе присутствует атональный сигнал, или энергия в этой полосе довольно сильно сконцентрирована в определенной позиции на полосе, и при этом в этой полосе скорее всего присутствует тональный сигнал. Еще одними параметрами являются полностью кодированные пики, довольно сильно выделяющиеся в верхней полосе по своей высоте и частоте, учитывая, что концепция расширения полосы частот при восстановлении без такого полного кодирования выделяющихся синусоидальных частей верхней полосы частот, либо восстановит их довольно неточно, или не восстановит вовсе.
При любых обстоятельствах блок вычисления параметров 707 применяется только для расчета параметров 708 верхней полосы частот, в отношении которых могут быть приняты аналогичные меры сокращения энтропии, поскольку они также могут быть кодированы в аудиокодере 704 для квантованных спектральных величин, посредством, например, дифференциального кодирования, предсказания, кодирования Хаффмана и т.п. Представление параметра 708 и аудиосигнал 705 затем поступают в блок форматирования потока данных 709, применяемый для формирования выходного потока данных 710, который, как правило, представляет собой поток битов с определенным форматом, например, описанным в Стандарте MPEG4.
Далее со ссылкой на фиг.7b, будет проиллюстрирован вариант декодирующей стороны, наиболее применимый для настоящего изобретения. Поток данных 710 входит в преобразователь потока данных 711, применяемый для выделения параметрической части 708 от аудиосигнальной части 705. Параметрическая часть 708 декодируется параметрическим декодером 712 для получения декодированных параметров 713. Параллельно этому, аудиосигнальная часть 705 декодируется аудиодекодером 714 для получения аудиосигнала, изображенного позицией 100 на фиг.1.
В зависимости от варианта выполнения, аудиосигнал 100 может быть выведен через первый выход 715. В этом случае на выходе 715 может быть получен аудиосигнал с узкой полосой частот и также, следовательно, низким качеством. При этом для повышения качества осуществляют заявленное расширение полосы частот 720, которое, как например изображено на фиг.1, используется для получения на выходе аудиосигнала с расширенной полосой частот или широкополосного аудиосигнала 112, соответственно с высоким качеством.
Далее со ссылкой на фиг.2a, показан предпочтительный вариант применения расширения полосы частот по фиг.1, который предпочтительно может быть использован в блоке 712, изображенном на фиг.7b. На фиг.2a, во-первых, присутствует блок, названный «аудиосигнал и параметр», который может соответствовать блокам 711, 712; и 714 на фиг.7b и обозначенный позицией 200. Блок 200 формирует выходной сигнал 100, а также декодированные параметры 713 на выходе, которые могут быть использованы для различных искажений, например для коррекции тональности 109a и огибающей 109b. Сигнал, сформированный или откорректированный посредством коррекции тональности 109a и огибающей 109b, подается в блок объединения 111 для получения на выходе аудиосигнала с расширенной полосой частот 112.
Предпочтительно, чтобы блок расширения сигнала 102 на фиг.1 представлял собой фазовый вокодер 202а. Дециматор 105 на фиг.1 предпочтительно реализуется в виде обычного преобразователя частоты дискретизации 205а. Фильтр 107 для выделения полосового сигнала предпочтительно является стандартным полосовым фильтром 107a. В частном случае, фазовый вокодер 202a и дискретный дециматор 205a работают с коэффициентом расширения, равным 2.
Предпочтительно, дополнительная «цепь элементов», состоящая из фазового вокодера 202b, дециматора 205b и полосового фильтра 207b, используется для извлечения дополнительного полосового сигнала на выходе фильтра 207b, содержащего диапазон частот между верхней частотой среза полосового фильтра 207a и частотой, в три раза большей максимальной частоты аудиосигнала 100.
В дополнение к этому, k-фазовый вокодер 202c обеспечивает получение расширения аудиосигнала с коэффициентом k, причем k - предпочтительно целое число, большее 1. Поток данных с выхода фазового вокодера 202с поступает в дециматор 205, осуществляющий децимацию с коэффициентом k. Наконец, децимированный сигнал поступает в полосовой фильтр 207c, который имеет нижнюю частоту среза, равную верхней частоте среза смежной полосы, и имеет верхнюю частоту среза, соответствующую частоте, k-кратной максимальной частоте аудиосигнала 100. Все полосовые сигналы объединяются блоком объединения 209, при этом блок объединения 209 может, например, представлять собой сумматор. Кроме того, блок объединения 209 может также быть выполнен в виде взвешенного сумматора, который, в зависимости от варианта выполнения, ослабляет более высокие полосы частот сильнее, чем более низкие полосы частот, вне зависимости от последующего искажения элементами 109a, 109b. В дополнение к этому, система, показанная на фиг.2а. включает этап задержки 211, который гарантирует, что в блоке объединения 111, выполненном в виде, например, сумматора семплов, будет объединяться синхронизированная комбинация.
На фиг.3 изображена схематичная иллюстрация различных спектров, которые могут наблюдаться при выполнении обработки, показанной на фиг.1 или фиг.2а. Фиг.1 на фиг.3 показывает ограниченный по полосе аудиосигнал, который обозначается, например, позицией 100 на фиг.1 или позицией 703 на фиг.7а. Предпочтительно, чтобы этот сигнал был расширен блоком расширения сигнала 102 до целого значения, кратного первоначальной продолжительности сигнала, и затем подвергнут децимации с целочисленным коэффициентом децимации, что приведет к расширению спектра в целом, как показано на фиг.2 и фиг.3. На фиг.3 показана HF часть, которая извлечена полосовым фильтром, имеющим полосу пропускания 300. Фиг.3 демонстрирует варианты, при которых полосовой сигнал перед искажением уже объединен с первоначальным аудиосигналом 100. Таким образом, образуется спектр комбинации с неискаженным полосовым сигналом, и затем для получения аудиосигнала 112 с расширенной полосой частот, как показано па фиг.(4), производится искажение верхней полосы, но, по-возможности, не производится модификация нижней полосы частот.
LF сигнал на фиг.1 обладает максимальной частотой LFmax. В фазовом вокодере 202a транспозиция аудиосигнала выполняется таким образом, что максимальная частота транспонированного аудиосигнала равна 2LFmax. Затем полученный сигнал, показанный на фиг.(2), подвергают полосно-пропускающему фильтрованию в диапазоне от LFmax до 2LFmax. Как правило, когда коэффициент расширения определяется числом k (k>1), полосовой фильтр имеет полосу пропускания в диапазоне от (k-1)·LFmax до k·LFmax. Обработка, показанная на фиг.3, повторяется для различных коэффициентов расширения до тех пор, пока не будет достигнута искомая наивысшая частота k-LFmax, где k равно максимальному коэффициенту расширения kmax.
Далее со ссылкой на фиг.5 и 6, будет раскрыт предпочтительный вариант выполнения фазового вокодера 202a, 202b, 202c в соответствии с настоящим изобретением. На фиг.5a показан вариант выполнения фазового вокодера в виде банка фильтров, при котором аудиосигнал подается на вход 500 и выводится с выхода 510. В частности, каждый канал банка фильтров, схематично изображенного на фиг.5а, включает полосовой фильтр 501 и последующий генератор 502. Выходные сигналы со всех генераторов от каждого канала для получения выходного сигнала объединяются блоком объединения, представляющего собой, например, сумматор и обозначенного позицией 503. Каждый фильтр 501 выполнен таким образом, что производит как амплитудный сигнал, так и частотный сигнал. Амплитудный и частотный сигналы являются временными сигналами, иллюстрирующими изменение во времени амплитуды в фильтре 501, в то время как частотный сигнал описывает изменение частоты сигнала, пропущенного через фильтр 501.
На фиг.5b показана схематичная структура фильтра 501. Каждый фильтр 501 на фиг.5a может быть устроен как фильтр, изображенный на фиг.5b, в котором, тем не менее, в зависимости от канала будут меняться только частоты fi, поступающие на два входных микшера 551 и сумматор 552. Оба выходных сигнала микшеров пропускаются через фильтры нижних частот 553, при этом низкополосные сигналы несколько различаются, поскольку они были созданы на локальных частотах генератора (LO частотах), отличающихся по фазе на 90°. Верхний фильтр нижних частот 553 создает квадратурный сигнал (Q) 554, в то время как нижний фильтр 553 создает синфазный сигнал (I) 555. Эти два сигнала, I и Q, поступают в координатный преобразователь 556, который создает отображение зависимости величины фазы в прямоугольных координатах. С выхода 557 выводится зависимость величины сигнала или амплитуды сигнала от времени, показанная на фиг.5a. Фазовый сигнал подается в блок развертки фазы 558. На выходе блока 558 наблюдаются значения фазы, которые уже более не находятся постоянно между 0 и 360°, а линейно увеличиваются. Эта «развертка» значения фазы поступает в фазочастотный преобразователь 559, который может, например, быть выполнен в виде обычного формирователя разности фаз, который для получения значения частоты в текущий момент времени вычитает фазу, наблюдаемую в предыдущий момент времени, из фазы, наблюдаемой текущий момент времени. Полученное значение частоты добавляется к постоянному значению частоты fi канала фильтра i для получения изменяющегося во времени значения частоты на выходе 560. Значение частоты на выходе 560 имеет постоянную составляющую, равную fi, и переменную составляющую, равную отклонению частоты, на которое текущая частота сигнала в канале фильтра отклоняется от средней частоты fi.
Таким образом, как показано на фиг.5a и 5b, в фазовом вокодере достигается разделение спектральной и временной информаций. Спектральная информация содержится в специальном канале или в частоте fi, дающей постоянную составляющую частоты для каждого канала, в то время как временная информация содержится в отклонении частоты или изменении ее величины во времени.
Фиг.5c демонстрирует операции для расширения полосы частот в соответствии с настоящим изобретением, осуществляемые, в частности, в фазовом вокодере 202a, а именно в той области схемы, которая изображена пунктиром на фиг.5a.
Для того чтобы осуществить масштабирование по времени, могут, например, быть децимированы или интерполированы соответственно сигнал амплитуды A(t) в каждом канале или сигнал частоты f(t) в каждом сигнале. Для осуществления транспозиции, эффективно применяемой в настоящем изобретении, выполняется интерполяция, т.е. временное расширение или растягивание сигналов A(t) и f(t), для получения расширенных сигналов A′(t) и f′(t), при этом интерполяция контролируется коэффициентом расширения 104, как показано на фиг.1. Благодаря интерполяции изменения фазы, а именно ее значения перед добавлением постоянной частоты сумматором 552, частота каждого отдельного генератора 502 на фиг.5a не меняется. Вместе с тем, скорость изменения по времени всего аудиосигнала замедляется с коэффициентом 2. В результате получается расширенный по времени звуковой сигнал, имеющий первоначальный основной тон, т.е. первоначальную основную волну с ее гармониками.
Посредством выполнения обработки сигнала, показанной на фиг.5c, причем такая обработка выполняется в каждом канале полосового фильтра на фиг.5, и посредством последующей децимации итогового временного сигнала в дециматоре 105 на фиг.1 или в дециматоре 205a на фиг.5a, продолжительность аудиосигнала возвращается к своему первоначальному значению, в то время как все частоты одновременно удваиваются. Это приводит к транспозиции основного тона с коэффициентом 2, при этом, однако, получается аудиосигнал, который имеет такую же длину, что и первоначальный аудиосигнал, т.е. такое же количество семплов.
Как альтернатива варианту с применением полосового фильтра, изображенного на фиг.5a, может использоваться также вариант с применением преобразований в фазовом вокодере. В этом случае аудиосигнал 100 поступает в процессор БПФ (FFT), или, более обобщенно, в процессор краткосрочного преобразования Фурье 600, в виде последовательности временных семплов. Процессор БПФ 600, схематично изображенный на фиг.6, применяется для выполнения обработки аудиосигнала методом временного окна для того, чтобы посредством БПФ вычислить как спектр амплитуд, так и спектр фаз, при этом такое вычисление выполняется для последовательных спектров блоков аудиосигнала, которые в значительной степени перекрываются.
В предельном случае, для каждого нового семпла аудиосигнала может быть вычислен новый спектр, но в то же время новый спектр может быть вычислен также. например, только для каждого двадцатого нового семпла. Это расстояние а в семплах между двумя спектрами предпочтительно определяется контроллером 602. Контроллер 602 затем передает данные в процессор ОБПФ (IFFT) 604, осуществляющий операцию перекрытия. В частности, процессор ОБПФ 604 применяется для осуществления обратного кратковременного преобразования Фурье, выполняя ОБПФ для каждого спектра, основанного на спектре амплитуд и спектре фаз для того, чтобы затем выполнить операцию накладывающегося окна, в результате которой определяется период. Операция накладывающегося окна устраняет влияние окна анализа.
Расширение временного сигнала достигается за счет того, что после обработки процессором ОБПФ 604 двух спектров расстояние b между ними, больше, чем расстояние а между спектрами в поколении FFT спектров. Основной идеей является расширение аудиосигнала посредством обратных БПФ, которые просто разнесены дальше друг от друга, чем исследуемые FFT. В результате, спектральные изменения в синтезированном аудиосигнале происходят более медленно, чем в первоначальном аудиосигнале.
Отсутствие изменения масштаба фазы в блоке 606, однако, привело бы к частотным помехам. Например, если взять один отдельный элемент разрешения по частоте и применить к нему последовательные значения фазы, отличающиеся на 45°, это привело бы к тому, что сигнал в пределах этой полосы частот фильтра возрастал по фазе со скоростью 1/8 за период, т.е. на 45° за временной интервал, причем в этом случае временной интервал - это временной интервал между последовательными БПФ. То, что обратные БПФ разнесены дальше друг от друга, означает, что увеличение фазы на 45° происходит на более длительном временном интервале. Это значит, что частота этой части сигнала ненамеренно была уменьшена. Для устранения такого нежелательного снижения частоты осуществляется изменение масштаба фазы с точно таким же коэффициентом, с каким аудиосигнал был расширен по времени. В результате фаза каждого спектрального значения БПФ возрастает с коэффициентом b/a и такое ненамеренное снижение частоты устраняется.
В то время как в варианте выполнения, изображенном на фиг.5c, расширение посредством интерполяции амплитудочастотных управляющих сигналов было получено при использовании одного генератора сигнала в варианте с полосовым фильтром на фиг.5a, расширение на фиг.6 достигается за счет того, что расстояние между двумя спектрами ОБПФ больше, чем расстояние между двумя спектрами БПФ, т.е. b больше a, при этом для предотвращения помех перемасштабирование фазы выполняется в соответствии с величиной b/a.
Детальное описание фазовых вокодеров содержится в следующих ссылочных документах:
"The phase Vocoder: A tutorial", Mark Dolson, Computer Music Journal, vol.10, no.4. pp.14-27, 1986, либо в "New phase Vocoder techniques for pitch-shifting, harmonizing and other exotic effects", L.Laroche und M.Dolson, Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics, New Paltz, New York, October 17-20. 1999, pages 91 to 94; "New approached to transient processing interphase vocoder", A. Röbel, Proceeding of the 6lh international conference on digital audio effects (DAFx-03), London, UK September 8-11, 2003, pages DAFx-1 to DAFx-6; "Phase-locked Vocoder". Meller Puckette. Proceedings 1995, IEEE ASSP, Conference on applications of signal processing to audio and acoustics, либо в US Patent Application Number 6549884.
На фиг.2b показан вариант системы, изображенной на фиг.2a, в котором используется переходный детектор 250, применяемый для определения того, содержит ли текущая временная операция аудиосигнала переходную часть. Переходная часть заключается в том, что аудиосигнал сильно изменяется в целом, например, таким образом, что от одной временной части до следующей временной части энергия аудиосигнала изменяется, а именно увеличивается или уменьшается более чем на 50%. Порог в 50% приведен только в качестве примера, и он может также принимать меньшие или большие значения. Кроме того, для детектирования перехода можно также рассматривать изменение распределения энергии, например, в переходе от гласного к шипящему звуку.
Если определена переходная часть аудиосигнала, то транспозиция гармоник не выполняется, и для переходного временного диапазона осуществляется негармоническая операция копирования, негармоническое зеркальное отображение или какой-либо другой алгоритм расширения полосы частот, что изображено на позиции 260. Если затем будет обнаружено, что аудиосигнал уже не переходной, то опять будет выполняться транспозиция гармоник, что показано элементами 102, 105 на фиг.1. Транспозиция гармоник обозначена позицией 270 на фиг.2b.
Выходные сигналы блоков 270 и 260, выводимые со сдвигом во времени вследствие того, что временная часть аудиосигнала может быть как переходной, так и не переходной, поступают в блок объединения 280, осуществляющий создание полосового сигнала во времени, который может применяться, например, для коррекции тональности в блоке 109a на фиг.2a. Кроме того, объединение блоком 280 может также быть выполнено, например, после сумматора 111. Однако это бы означало, что весь блок преобразования аудиосигнала предполагался бы обладающим переходной характеристикой, или, если бы вариант применения банка фильтров также работал на основе блоков, то для всего такого блока принималось бы решение о том, является ли он переходным или непереходным блоком.
Так как фазовый вокодер 202a, 202b, 202c, показанный на фиг.2a и раскрытый более подробно на фиг.5 и 6, создает больше помех при обработке переходных частей сигнала, чем при обработке непереходных частей сигнала, осуществляется переключение на операцию негармонического копирования или зеркального отображения, что показано на фиг.2b позицией 260. Кроме того, может также быть выполнен сброс фазы до уровня переходного процесса, что раскрыто, например, в вышеупомянутой экспертной публикации Laroche или в патенте US №6549884.
Как было показано ранее, после создания HF части спектра в блоках 109a, 109b выполняется формирование спектра и приближение к первоначальному уровню шума. Формирование спектра может быть выполнено при помощи, например, масштабных коэффициентов, взвешенных масштабных коэффициентов dB(A) или линейного предсказания, при этом линейное предсказание обладает тем преимуществом, что оно не требует ни временно-частотного преобразования, ни последующего частотно-временного преобразования.
Преимущество настоящего изобретения заключается в том, что в фазовом вокодере спектр с увеличивающейся частотой расширяется дальше и всегда корректно гармонически продолжается посредством целочисленного расширения. Таким образом, на частоте среза LF диапазона исключается возможность появления ощущения грубости и предотвращается интерференция слишком плотно расположенных HF частей спектра. Кроме того, могут быть использованы варианты применения эффективного фазового вокодера, который может исключить операции вклейки, производимые банком фильтров.
Помимо этого существуют и другие способы расширения сигнала, такие, например, как метод PSOLA (метод синхронного накладывающегося окна). Метод синхронного накладывающегося окна, для краткости PSOLA, является методом синтеза, при котором записи речевых сигналов находятся в базе данных. Поскольку эти сигналы периодические, то же самое осуществляется с информацией, касающейся фундаментальной частоты (основного тона), и начало каждого периода маркируется. При синтезе эти периоды вырезаются с определенным окружением посредством оконной функции и добавляются к сигналу для синтеза в соответствующем месте: в зависимости от того, выше или ниже желательная фундаментальная частота, чем входная частота базы данных, они объединяются соответственно с большей или меньшей плотностью, чем в оригинале. Для управления продолжительностью аудио добавление периода может быть пропущено или удвоено. Такой способ называется методом TD-PSOLA (метод синхронного накладывающегося окна с равномерным шагом), где TD означает временную область и подчеркивает, что данный метод работает во временной области. Дальнейшее развитие - метод мультиполосного ресинтезного накладывающегося окна, в сокращенном виде MBROLA. В этом случае сегменты в базе данных приводятся к единой фундаментальной частоте посредством предварительной обработки, а фазовое положение гармоники нормализуется. Благодаря этому во время синтеза при переходе от сегмента к сегменту возникает меньше воспринимаемых наложений и достигается более высокое качество речи.
В дополнительном варианте перед расширением аудиосигнала уже осуществлено его полосно-пропускающее фильтрование, так что сигнал после расширения и децимации уже содержит желаемые области, и последующее полосно-пропускающее фильтрование может быть исключено. В этом случае полосовой фильтр выполнен таким образом, что часть аудиосигнала, которая после расширения полосы частот была бы подавлена фильтром, по-прежнему содержится в выходном сигнале полосового фильтра. Таким образом, полосовой фильтр содержит частотный диапазон, который не содержится в аудиосигнале 106 после его расширения и децимации. Сигнал с этим частотным диапазоном является искомым сигналом, формирующим синтезируемый высокочастотный сигнал. В этом варианте выполнения блок искажений 109 будет искажать не полосовой сигнал, а расширенный и децимированный сигнал, полученный из аудиосигнала, подвергнутого полосно-пропускающему фильтрованию.
Кроме того, следует отметить, что расширенный сигнал может также быть полезным в частотном диапазоне первоначального сигнала вследствие того, например, что при смешивании первоначального сигнала и расширенного сигнала не потребуется "жесткой" полосы пропускания. В этом случае расширенный сигнал может быть легко смешан с первоначальным сигналом в полосе частот, в которой он перекрывается с первоначальным сигналом по частоте, для модифицирования характеристики первоначального сигнала в перекрывающемся диапазоне.
Также следует отметить, что функциональные возможности искажения 109 и фильтрования 107 могут быть осуществлены в одном отдельном блоке фильтра или в двух каскадных отдельных фильтрах. Поскольку искажение осуществляется в зависимости от сигнала, амплитудная характеристика этого блока фильтра будет переменной. Однако его частотная характеристика не зависит от сигнала.
В зависимости от варианта выполнения, как показано на фиг.1, вначале совокупный аудиосигнал может быть расширен, децимирован, и затем подвергнут фильтрованию, при этом фильтрование соответствует работе элементов 107, 109. Искажение, таким образом, выполняется после или одновременно с фильтрованием, причем для этой цели подходит комбинированный блок фильтрования/искажения, выполненный в виде цифрового фильтра. Альтернативно, искажение в этом случае может производиться перед (полосно-пропускающим) фильтрованием (107) во время использования двух других элементов фильтра.
Альтернативно, полосно-пропускающее фильтрование может выполняться перед расширением таким образом, чтобы после децимации осуществлялось только искажение (109). В этом случае для указанных операций предпочтительно использовать два различных элемента.
Альтернативно, для всех вышеприведенных вариантов выполнения искажение может осуществляться после объединения синтезированного сигнала с первоначальным аудиосигналом, посредством, например, фильтра, который либо не оказывает совсем, либо оказывает только очень небольшой эффект на сигнал, фильтруемый в частотном диапазоне первоначального фильтра, который, тем не менее, создает заданную огибающую в расширенном частотном диапазоне. В этом случае для извлечения и искажения также предпочтительно использовать два различных элемента.
Идея изобретения подходит для всех аудиоустройств, в которых недоступна вся полоса частот. Идея изобретения может быть использована при передаче аудиоданных посредством, например, цифрового радио, потоковой передачи через Интернет и в применениях аудиосвязи.
В зависимости от обстоятельств, способ согласно настоящему изобретению может быть осуществлен для анализа информационного сигнала с помощью аппаратных средств или программного обеспечения. Варианты выполнения могут быть реализованы на цифровом носителе данных, в частности на гибком диске или CD, имеющем сохраненные на нем машиночитаемые управляющие сигналы, которые могут взаимодействовать с программируемой компьютерной системой таким образом, чтобы выполнялся заявленный способ. В целом, изобретение, таким образом заключается в компьютерном программном продукте с программным кодом, сохраненном па машиночитаемом носителе, для выполнения способа при запуске компьютерного программного продукта на компьютере. Другими словами, изобретение может, таким образом, быть понято как компьютерная программа, имеющая программный код для выполнения способа, когда компьютерная программа выполняется на компьютере.
Изобретение относится к обработке аудиосигнала, в частности к обработке аудиосигнала в случаях, когда доступная скорость данных довольно мала. Техническим результатом является повышение качества расширенной полосы частот при снижении вычислительной сложности обработки сигнала. Указанный результат достигается тем, что устройство для расширения полосы частот аудиосигнала включает блок расширения сигнала (102) для создания версии аудиосигнала в виде временного сигнала, расширенного по времени с коэффициентом расширения, большим 1; дециматор (105) для децимации, расширенной по времени версии (103) аудиосигнала с коэффициентом децимации, соответствующим коэффициенту расширения; фильтр (107, 109) для извлечения искаженного сигнала из децимированного аудиосигнала (106), содержащего диапазон частот, не содержащийся в аудиосигнале (100), или для извлечения сигнала из аудиосигнала до его расширения блоком расширения сигнала (102), при этом сигнал содержит частотный диапазон, не содержащийся в аудиосигнале (106) после расширения и децимации, а искаженный сигнал (108) искажается таким образом, что искаженный сигнал (108), децимированный аудиосигнал или комбинированный сигнал имеют заданную огибающую; и блок объединения (111) для объединения искаженного или неискаженного сигнала с аудиосигналом (100) для получения аудиосигнала (112), расширенного по полосе частот. 3 н. и 13 з.п. ф-лы, 12 ил.
1. Устройство для расширения полосы частот аудио сигнала, включающее:
блок расширения сигнала (102) для создания версии аудио сигнала в виде временного сигнала, расширенного по времени с коэффициентом расширения большим 1;
дециматор (105) для децимации расширенной по времени версии (103) аудио сигнала с коэффициентом децимации, соответствующим коэффициенту расширения;
фильтр (107, 109) для извлечения искаженного сигнала из децимированного аудио сигнала (106), содержащего диапазон частот, не содержащийся в аудио сигнале (100), или для извлечения сигнала из аудио сигнала до его расширения блоком расширения сигнала (102), при этом сигнал содержит частотный диапазон, не содержащийся в аудио сигнале (106) после расширения и децимации, а искаженный сигнал (108) искажается таким образом, что искаженный сигнал (108), децимированный аудио сигнал или комбинированный сигнал имеют заданную огибающую; и
блок объединения (111) для объединения искаженного или неискаженного сигнала с аудио сигналом (100) для получения аудио сигнала (112), расширенного по полосе частот.
2. Устройство по п.1, в котором
блок расширения сигнала выполнен с возможностью применения целочисленного коэффициента расширения, значение которого больше 1,
дециматор (105) выполнен с возможностью применения коэффициента децимации, равного или обратного коэффициенту расширения; и
фильтр (107) выполнен с возможностью извлечения сигнала с ограниченной полосой частот таким образом, чтобы сигнал с ограниченной полосой частот включал в себя диапазон частот, восстановленный посредством расширения и децимации в блоке расширения сигнала и дециматоре.
3. Устройство по п.1, в котором блок расширения сигнала (102) выполнен с возможностью расширения аудио сигнала (100) таким образом, чтобы основной тон аудио сигнала оставался неизменным.
4. Устройство по п.1, в котором блок расширения сигнала (102) выполнен с возможностью расширения аудио сигнала таким образом, чтобы временная продолжительность аудио сигнала увеличилась, а полоса частот расширенного аудио сигнала была равна полосе частот аудио сигнала.
5. Устройство по п.1, в котором блок расширения сигнала (102) содержит фазовый вокодер (202а, 202b, 202с).
6. Устройство по п.5, в котором фазовый вокодер представляет собой банк фильтров или применение Фурье-преобразования.
7. Устройство по п.1, в котором
блок расширения сигнала (102) выполнен с возможностью расширения сигнала с коэффициентом 2 для получения первого расширенного сигнала,
при этом содержится дополнительный блок расширения сигнала (202 В), применяемый для расширения сигнала с коэффициентом 3 для получения второго расширенного сигнала,
дециматор (105) выполнен с возможностью децимации первого расширенного сигнала с коэффициентом 2,
при этом содержится дополнительный дециматор (205b), применяемый для децимации второго расширенного сигнала с коэффициентом 3,
фильтр (107) выполнен с возможностью фильтрации полосы, вновь созданной в сигнале на выходе первого дециматора, или выполнения фильтрации перед расширением,
при этом содержится второй полосовой фильтр (207b) для извлечения из второго децимированного сигнала полосы, новой по отношению к первому децимированному сигналу, или для выполнения фильтрации перед расширением, и
дополнительно содержится блок объединения (209) для суммирования извлеченных сигналов или суммирования искаженных извлеченных сигналов.
8. Устройство по п.7, в котором содержится дополнительная группа из дополнительного фазового вокодера (202с), последующего дециматора (205с) и последующего полосового фильтра (207с), обладающих коэффициентом расширения (k), для создания дополнительного полосового сигнала, который может быть передан в сумматор (209).
9. Устройство по п.1, в котором
блок расширения сигнала (102) выполнен с возможностью вывода временных сигналов в виде последовательности сэмплов, имеющих полную полосу частот аудио сигнала (100), и
дециматор (105) выполнен с возможностью получения в качестве входного сигнала последовательности сэмплов и ее децимации.
10. Устройство по п.1, в котором блок искажений (109) выполнен с возможностью внесения искажений на основе переданных параметров (713).
11. Устройство по п.1, дополнительно содержащее:
переходной детектор (250), выполненный с возможностью управления блоком расширения сигнала (102) или дециматором (105) при обнаружении переходной части в аудио сигнале для выполнения (260) альтернативного способа генерации высших спектральных частей.
12. Устройство по п.1, дополнительно содержащее:
модуль коррекции тональность/шум (109А), выполненный с возможностью управления тональностью или шумом полосового сигнала или искаженного полосового сигнала.
13. Устройство по п.1, в котором
блок расширения сигнала (102) содержит множество канальных фильтров, при этом каждый канальный фильтр содержит фильтр для создания сигнала с изменяющейся во времени амплитудой (557) и сигнала с изменяющейся во времени частотой (560), а также генератор (502), управляемый изменяющимися во времени сигналами, в котором каждый канальный фильтр содержит блок интерполяции для интерполяции сигнала с изменяющейся во времени амплитудой (A(t)) для получения интерполированного сигнала с изменяющейся во времени амплитудой (A′(t)), или блок интерполяции для интерполяции частотного сигнала с коэффициентом расширения (104) для получения интерполированного частотного сигнала, и
при этом генератор (502) каждого канального фильтра выполнен управляемым посредством интерполированного амплитудного сигнала или интерполированного частотного сигнала.
14. Устройство по п.1, в котором блок расширения сигнала (102) содержит:
БПФ процессор (600) для генерации последовательных спектров для перекрывающихся блоков временных сэмплов аудио сигнала, при этом перекрывающиеся блоки разнесены друг от друга на первое расстояние по времени (а);
ОБПФ процессор для преобразования последовательных спектров из частотной области во временную область для создания перекрывающихся блоков временных сэмплов, разнесенных друг от друга на второе расстояние по времени (b), которое больше, чем первое расстояние (а), и
блок изменения масштаба фазы (606) для изменения масштаба фаз спектральных значений последовательностей генерируемых БПФ спектров в соответствии с соотношением первого расстояния по времени (а) и второго расстояния по времени (b).
15. Способ расширения полосы частот аудио сигнала, включающий:
создание (102) версии аудио сигнала в виде временного сигнала, расширенного по времени с коэффициентом расширения большим 1;
децимацию (105) расширенной по времени версии (103) аудио сигнала с коэффициентом децимации, соответствующим коэффициенту расширения;
извлечение (107, 109) искаженного сигнала из децимированного аудио сигнала (106), содержащего диапазон частот, не содержащийся в аудио сигнале (100), или извлечение сигнала из аудио сигнала до его расширения блоком расширения сигнала (102), при этом сигнал содержит частотный диапазон, не содержащийся в аудио сигнале (106) после расширения и децимации, а искаженный сигнал (108) искажается таким образом, что искаженный сигнал (108), децимированный аудио сигнал или комбинированный сигнал содержат заданную огибающую; и
объединение искаженного или неискаженного сигнала с аудио сигналом (100) для получения аудио сигнала (112), расширенного по полосе частот.
16. Машиночитаемый носитель данных, имеющий программный код для выполнения способа по п.15, когда компьютерная программа выполняется на компьютере.
LARSEN ERIK и др | |||
Audio bandwidth extension, John Wiley & Sons, Ltd, 06.12.2005, разд | |||
Приспособление для точного наложения листов бумаги при снятии оттисков | 1922 |
|
SU6A1 |
Дорожная спиртовая кухня | 1918 |
|
SU98A1 |
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
Способ изготовления тары | 1986 |
|
SU1431962A1 |
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
УСОВЕРШЕНСТВОВАННОЕ ПРЕОБРАЗОВАНИЕ СПЕКТРА/СВЕРТКА В ОБЛАСТИ ПОДДИАПАЗОНОВ | 2001 |
|
RU2251795C2 |
Авторы
Даты
2012-07-10—Публикация
2009-01-20—Подача