АУДИОКОДЕРЫ, АУДИОДЕКОДЕРЫ, СИСТЕМЫ, СПОСОБЫ И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ, ИСПОЛЬЗУЮЩИЕ УВЕЛИЧЕННОЕ ВРЕМЕННОЕ РАЗРЕШЕНИЕ ВО ВРЕМЕННОЙ ОКРЕСТНОСТИ ПОЯВЛЕНИЙ ИЛИ ИСЧЕЗНОВЕНИЙ ФРИКАТИВНЫХ СОГЛАСНЫХ ИЛИ АФФРИКАТОВ Российский патент 2018 года по МПК G10L19/25 G10L21/38 G10L19/24 

Описание патента на изобретение RU2651425C2

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ

Варианты осуществления согласно изобретению относятся к аудиокодеру для обеспечения кодированной аудиоинформации на основе введенной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к аудиодекодеру для обеспечения декодированной аудиоинформации на основе кодированной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к системе, содержащей аудиокодер и аудиодекодер.

Дополнительные варианты осуществления согласно изобретению относятся к способу обеспечения кодированной аудиоинформации на основе введенной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к способу обеспечения декодированной аудиоинформации на основе кодированной аудиоинформации.

Дополнительные варианты осуществления согласно изобретению относятся к компьютерной программе для выполнения одного из указанных способов.

Дополнительные варианты осуществления согласно изобретению относятся к моделированию появления и исчезновения фрикативных согласных или аффрикат при расширении полосы аудиосигналов для речи.

ПРЕДШЕСТВУЮЩИЙ УРОВЕНЬ ТЕХНИКИ

В последние годы возрастают требования к цифровому хранению и передаче аудиосигналов и, в частности, речевых сигналов. В некоторых случаях, например, в приложениях для мобильной связи желательно добиться относительно низкого значения скорости передачи данных (битрейта).

Однако, чтобы получить приемлемый компромисс между скоростью передачи данных и качеством аудиосигнала (или качеством речи), используются подходы, заключающиеся в кодировании низкочастотной части аудиосигнала (например, участок частоты приблизительно до 6 кГц) с использованием сравнительно высокой точности, и использовании расширения полосы пропускания для восстановления высокочастотного участка аудиоконтента (например, выше примерно 6 или 7 кГц). Например, расширение полосы пропускания может быть основано на восстановлении высокочастотного участка аудиоконтента с использованием сравнительно небольшого количества параметров, где параметры, например, могут грубо описывать огибающую спектра.

Хорошо известной реализацией расширения полосы пропускания является репликация полосы пропускания (SBR), которая вошла в стандарт MPEG (Группа экспертов по движущимся изображениям).

Некоторые детали, касающиеся, например, репликации полосы пропускания описаны в разделах 4.6.18 и 4.6.19 Международного стандарта ISO/IEC 14496-3:200Х(Е), подчасть 4.

Кроме того, также можно обратиться к патентной заявке США № 2011/0099018 А1, в которой описывается устройство и способ для вычисления данных расширения полосы пропускания с использованием управляемого кадрирования с наклоном спектра. В указанной патентной заявке описывается устройство для вычисления данных расширения полосы пропускания аудиосигнала в системе расширения полосы пропускания, где первая спектральная полоса кодируется с использованием первого количества бит, а вторая спектральная полоса, отличная от перовой спектральной полосы, кодируется с использованием второго количества бит, причем второе количество бит меньше первого количества бит. Устройство содержит управляемый блок вычисления параметров расширения полосы пропускания для вычисления параметров расширения полосы пропускания для второй полосы частот на покадровой основе для первой последовательности кадров аудиосигнала. Каждый кадр содержит управляемый момент времени запуска. Устройство кроме того включает в себя детектор наклона спектра для обнаружения наклона спектра на временном участке аудиосигнала и для сигнализации о моменте времени запуска для отдельных кадров аудиосигнала в зависимости от наклона спектра.

Однако было обнаружено, что многие из стандартных подходов к расширению полосы пропускания ухудшают слуховое впечатление, которое получают при наличии фрикативных согласных или аффрикат. Например, стандартные приемы расширения полосы пропускания могут вызвать пред-эхо и пост-эхо. Кроме того, фрикативные согласные или аффрикаты могут звучать слишком резко при использовании стандартных приемов расширения полосы пропускания.

В свете вышесказанного имеется потребность в разработке концепции для расширения полосы пропускания, которая позволила бы повысить качество звучания.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Один вариант осуществления согласно изобретению обеспечивает создание аудиокодера для обеспечения кодированной аудиоинформации на основе введенной аудиоинформации. Этот аудиокодер содержит блок обеспечения информации о расширении полосы пропускания, выполненный с возможностью обеспечения информации о расширении полосы пропускания с использованием переменного временного разрешения. Аудиокодер также содержит детектор, выполненный с возможностью обнаружения появления фрикативного согласного или аффрикаты. Аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента времени обнаружения появления фрикативного согласного или аффрикаты.

Этот вариант осуществления согласно изобретению основан на обнаружении того, что хорошее качество звучания может быть достигнуто, если информация о расширении полосы пропускания обеспечена с высоким временным разрешением для всей временной окрестности вокруг момента обнаружения появления фрикативного согласного или аффрикаты. Соответственно, полное появление фрикативного согласного или аффрикаты, которое, как правило, занимает некоторый временной интервал до момента обнаружения появления фрикативного согласного или аффрикаты и определенный период (временной интервал) после момента действительного обнаружения появления фрикативного согласного или аффрикаты, кодируется с высоким временным разрешением (по меньшей мере по отношению к информации о расширении полосы пропускания), что помогает избежать пред-эхо и что также помогает избежать неестественного для слуха звучания. Как правило, появление фрикативного согласного или аффрикаты не может быть обнаружено очень точно, поскольку обнаружение появления фрикативного согласного или аффрикаты часто основано на обнаружении пересечения порогового значения, которое естественно не бывает в самом начале появления фрикативного согласного или аффрикаты. Соответственно, момент действительного обнаружения появления фрикативного согласного или аффрикаты наступает по времени после самого начала (или появления) фрикативного согласного или аффрикаты. Соответственно, благодаря тому, что информация о расширении полосы пропускания обеспечена с увеличенным временным разрешением (по сравнению с «нормальным» временным разрешением) по меньшей мере для заранее определенного времени перед моментом (действительного) обнаружения появления фрикативного согласного или аффрикаты, можно обеспечить воспроизведение деталей в самом начале появления фрикативного согласного или аффрикаты с высоким разрешением, при котором, как было обнаружено, указанные детали в самом начале появления фрикативного согласного или аффрикаты важны для хорошего слухового впечатления. Таким образом, обеспечение информации о расширении полосы пропускания с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени до момента обнаружения появления фрикативного согласного или аффрикаты не только помогает избежать пред-эхо, но также позволяет воспроизводить детали появления фрикативного согласного или аффрикаты. Аналогичным образом, благодаря тому, что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты появляется возможность воспроизведения деталей появления фрикативного согласного или аффрикаты, которые важны для слухового впечатления.

Соответственно, описанная здесь концепция позволяет воспроизводить появление в целом фрикативного согласного или аффрикаты с высоким временным разрешением, что помогает избежать ухудшения слухового впечатления, которое могло бы быть вызвано, например, слишком грубым временным разрешением (информация о расширении полосы пропускания) в самом начале появления фрикативного согласного или аффрикаты, либо во время перехода от появления фрикативного согласного или аффрикаты к стационарной части сигнала.

В одном предпочтительном варианте осуществления аудиокодер выполнен с возможностью переключения с первого временного разрешения для обеспечения информации о расширении полосы пропускания на второе временное разрешение для обеспечения информации о расширении полосы пропускания в ответ на обнаружение появления фрикативного согласного или аффрикаты, где второе временное разрешение выше, чем первое временное разрешение. Соответственно, выполняется переключение между двумя разными временными разрешениями для обеспечения информации о расширении полосы пропускания, где указанное переключение управляется обнаружением появления фрикативного согласного или аффрикаты. Соответственно, создается простая схема управления, которую можно легко реализовать в аудиокодере или аудиодекодере.

В одном предпочтительном варианте осуществления блок обеспечения информации о расширении полосы пропускания выполнен с возможностью обеспечения информации о расширении полосы пропускания таким образом, что информация о расширении полосы пропускания связана с регулярными временными интервалами равной длительности (которые могут образовать фундаментальную, но с возможностью дальнейшего деления, временную сетку для обеспечения информации о расширении полосы пропускания). Блок обеспечения информации о расширении полосы пропускания выполнен с возможностью обеспечения одного набора информации о расширении полосы пропускания для одного временного интервала заданной длительности, при использовании первого временного разрешения (например, сравнительно низкого временного разрешения). Кроме того, блок обеспечения информации о расширении полосы пропускания может быть выполнен с возможностью обеспечения множества наборов информации о расширении полосы пропускания, связанных с временными субинтервалами для временного интервала заданной длительности, при использовании второго временного разрешения (например, сравнительно высокого временного разрешения).

Используя регулярные временные интервалы равной длительности (например, кадры) в качестве (фундаментальной) временной сетки для обеспечения информации о расширении полосы пропускания, можно легко реализовать аудиокодер. Например, блоку обеспечения информации о расширении полосы пропускания понадобится только выполнять переключение между двумя дискретными временными разрешениями, что можно реализовать без излишних издержек. Например, возможно просто потребуется реализовать блок обеспечения информации о расширении полосы пропускания, обеспечивающий один набор информации о расширении полосы пропускания на основе временного интервала заданной длительности, и обеспечивающий множество наборов информации о расширении полосы пропускания на основе заранее определенного (и зафиксированного) количества субинтервалов (равной длины) временного интервала заданной длительности. Соответственно, возможно окажется достаточным, например, сконфигурировать блок обеспечения информации о расширении полосы пропускания для попеременного обеспечения либо одного набора информации о расширении полосы пропускания на основе временного интервала заданной длительности, либо обеспечения четырех наборов информации о расширении полосы пропускания на основе четырех временных субинтервалов, где каждый из временных субинтервалов имеет длительность, равную четверти упомянутой заданной длительности. Кроме того, при использовании указанной концепции возможно поддержание небольшого объема сигнализации, который может потребоваться для сигнализации о том, в течение каких временных интервалов обеспечивается информация о расширении полосы пропускания, поскольку выбор осуществляется только между «грубым разрешением» (например, один набор информации о расширении полосы пропускания для одного временного интервала заданной длительности) и «высоким разрешением» (например, n наборов информации о расширении полосы пропускания, связанных с n временными субинтервалами равной длительности). Таким образом, здесь предложена особая эффективная концепция обеспечения информации о расширении полосы пропускания.

В одном предпочтительном варианте осуществления аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что по меньшей мере один временной субинтервал, с которым связан набор информации о расширении полосы пропускания, непосредственно предшествует другому временному субинтервалу, с которым связан другой набор информации о расширении полосы пропускания, и в течение которого обнаруживается появление фрикативного согласного или аффрикаты, так что увеличенное временное разрешение используется по меньшей мере в одном временном субинтервале, предшествующем временному субинтервалу, в котором обнаружено появление фрикативного согласного или аффрикаты. Соответственно, можно обеспечить информацию о расширении полосы пропускания с высоким временным разрешением даже в самом начале появления фрикативного согласного или аффрикаты, то есть, даже перед тем, как появление фрикативного согласного или аффрикаты может быть действительно обнаружено.

В одном предпочтительном варианте осуществления аудиокодер выполнен с возможностью разделения заданного временного интервала заданной длительности на четыре временных субинтервала равной длины, если для обеспечения информации о расширении полосы пропускания для заданного временного интервала заданной длительности используется увеличенное временное разрешение, так что для заданного временного интервала заданной длительности обеспечивается четыре набора информации о расширении полосы пропускания (например, четыре набора параметров расширения полосы пропускания, каждый из которых связан с одним из временных субинтервалов). Соответственно, может быть достигнуто высокое временное разрешение информации о расширении полосы пропускания, поскольку эти четыре набора информации о расширении полосы пропускания, например, по отдельности описывают огибающие высокочастотного участка сигнала аудиоконтента для упомянутых четырех субинтервалов. Таким образом, могут быть учтены различия в спектральных огибающих высокочастотного участка сигнала четырех временных субинтревалов, поскольку каждый из наборов информации о расширении полосы пропускания может представлять частотную огибающую (или спектральную огибающую) высокочастотного участка одного из временных субинтервалов.

В одном предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательного использования увеличенного временного разрешения для обеспечения информации о расширении полосы пропускания для первого временного интервала заданной длительности, предшествующего второму временному интервалу заданной длительности, если на втором временном интервале обнаружено появление фрикативного согласного или аффрикаты, и если отрезок времени между моментом обнаружения появления фрикативного согласного или аффрикаты и границей между первым временным интервалом и вторым временном интервалом меньше заранее определенного отрезка времени. Соответственно, информация о расширении полосы пропускания первого временного интервала (например, первого кадра) обеспечена с увеличенным временным разрешением (по сравнению с «нормальным» временным разрешением), если даже момент обнаружения появления фрикативного согласного или аффрикаты оказывается в последующем втором временном интервале (например, в последующем втором кадре), если предположить, что самое начало появления фрикативного согласного или аффрикаты (которое, как правило, оказывается перед тем, как действительно обнаружено появление фрикативного согласного или аффрикаты) оказывается в первом временном интервале. Соответственно, появление в целом фрикативного согласного или аффрикаты, в том числе самое начало появления фрикативного согласного или аффрикаты и возможно даже некоторое время перед появлением фрикативного согласного или аффрикаты, оценивается с высоким временным разрешением при обеспечении информации о расширении полосы пропускания, что помогает обеспечить качественное воспроизведение речи. Появление фрикативного согласного или аффрикаты может быть точно воспроизведено без избыточной резкости или других существенных артефактов, не говоря уже о том, что удается избежать пред-эхо.

В одном предпочтительном варианте осуществления аудиокодер выполнен с возможностью выполнения временного просмотра вперед, так что увеличенное временное разрешение используется для обеспечения информации о расширении полосы пропускания для первого временного интервала заданной длительности, предшествующего второму временному интервалу той же заданной длительности в ответ на обнаружение появления фрикативного согласного или аффрикаты на втором временном интервале. Соответственно, можно обеспечить информацию о расширении полосы пропускания с увеличенным временным разрешением для появления в целом фрикативного согласного или аффрикаты (и возможно даже для короткого периода времени перед появлением фрикативного согласного или аффрикаты), что вносит свой вклад в повышение качества аудиосигнала.

В одном предпочтительном варианте осуществления аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с одним и тем же увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты. Благодаря использованию одинакового временного разрешения упрощается обеспечение информации о расширении полосы пропускания по сравнению со случаями, где используют разные временные разрешения перед и после момента обнаружения появления фрикативного согласного или аффрикаты. Кроме того, сокращается объем сигнализации благодаря использованию одного и того же увеличенного временного разрешения для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты.

В одном предпочтительном варианте осуществления аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что наборы информации о расширении полосы пропускания обеспечиваются с одинаковыми увеличенными временными разрешениями по меньшей мере для первого временного субинтервала, второго временного субинтервала и третьего временного субинтервала, где первый временный субинтервал непосредственно предшествует второму временному субинтервалу, где появление фрикативного согласного или аффрикаты обнаруживается на втором временном субинтервале и где третий временной субинтервал следует непосредственно за вторым временным субинтервалом. Соответственно, первый временной субинтервал и третий временной субинтервал, которые «заключают» второй временной субинтервал, в течение которого обнаруживается появление фрикативного согласного или аффрикаты, обрабатываются с одинаковым временным разрешением при обеспечении наборов информации о расширении полосы пропускания. Соответственно, существенная часть появления фрикативного согласного или аффрикаты или даже появление в целом фрикативного согласного или аффрикаты обрабатывается с высоким временным разрешением при обеспечении информации о расширении полосы пропускания. Кроме того, благодаря использованию одного и того же (увеличенного или «высокого») временного разрешения для первого временного субинтервала, второго временного субинтервала и третьего временного субинтервала, процессы кодирования и декодирования упрощаются, и издержки на сигнализацию (для сигнализации о временном разрешении) оказываются невелики.

В одном предпочтительном варианте осуществления детектор выполнен с возможностью обнаружения исчезновения фрикативного согласного или аффрикаты. В этом случае аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты, и для заранее определенного периода времени, следующего за моментом обнаружения исчезновения фрикативного согласного или аффрикаты. Этот вариант осуществления согласно изобретению основан, как было установлено, на том, что расширение полосы пропускания также следует выполнять с высоким временным разрешением для случая исчезновения фрикативного согласного или аффрикаты. Было установлено, что человеческий слух также реально чувствителен к исчезновениям фрикативных согласных или аффрикат, так что стоит пойти на издержки, связанные с скоростью передачи данных, чтобы кодировать исчезновение фрикативного согласного или аффрикаты с высоким временным разрешением (в соответствии с информацией о расширении полосы пропускания). Кроме того, было установлено, что обеспечение информации о расширении полосы пропускания с низким временным разрешением во время исчезновения фрикативного согласного или аффрикаты, как правило, приводит к недопустимо резкому слуховому восприятию исчезновения фрикативного согласного или аффрикаты, которое воспринимается как артефакт.

Кроме того, следует заметить, что любая из вышеупомянутых концепций в соответствии с настройкой временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, в ответ на появление фрикативного согласного или аффрикаты, также может быть с успехом применена в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты. Другими словами, вышеописанную концепцию можно применять аналогичным образом там, где «появление фрикативного согласного или аффрикаты» заменяется на «исчезновение фрикативного согласного или аффрикаты».

В одном предпочтительном варианте осуществления детектор выполнен с возможностью оценки частоты перехода через нуль и/или отношения энергий, и/или наклона спектра, чтобы обнаруживать появление фрикативного согласного или аффрикаты. Было установлено, что оценка одной или нескольких из вышеупомянутых величин (частота переходов через нуль, отношение энергий, наклон спектра) позволяет обеспечить достаточно точное обнаружение появления фрикативного согласного или аффрикаты. Например, одно или несколько из вышеупомянутых значений или значение, полученное из комбинации вышеупомянутых величин, можно сравнить с пороговым значением для обнаружения присутствия фрикативного согласного или аффрикаты.

В одном предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательной настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением в ответ на обнаружение появления фрикативного согласного или аффрикаты только для участка речевого сигнала, но не для участка музыкального сигнала. Эта концепция основана на том, что, как было установлено, фрикативные согласные или аффрикаты более важны для восприятия речи, чем для восприятия участков музыкального сигнала. Соответственно, можно избежать издержек скорости передачи данных, которые могут быть вызваны использованием увеличенного временного разрешения для обеспечения информации о расширении полосы пропускания, для музыкальных участков сигнала, что помогает сократить скорость передачи данных в целом или помогает сфокусироваться на кодировании более важных (с точки зрения восприятия) признаков для музыкальных участков сигнала.

В одном предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательного использования увеличенного временного разрешения для обеспечения информации о расширении полосы пропускания для множества следующих друг за другом временных интервалов, которые полностью охватывают появление обнаруженного фрикативного согласного или аффрикаты. Соответственно, появление фрикативного согласного или аффрикаты кодируется с высокой точностью даже при использовании расширения полосы пропускания, так что использование расширения полосы пропускания фактически не ухудшает слуховое впечатление.

Другой вариант осуществления изобретения обеспечивает создание аудиокодера для обеспечения кодированной аудиоинформации на основе введенной аудиоинформации. Аудиокодер содержит блок обеспечения информации о расширении полосы пропускания, выполненный с возможностью обеспечения информации о расширении полосы пропускания с использованием переменного временного разрешения. Аудиокодер также содержит детектор, выполненный с возможностью обнаружения исчезновения фрикативного согласного или аффрикаты. Аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты.

Этот вариант осуществления согласно изобретению основан на том, что как было установлено, исчезновения фрикативных согласных или аффрикат также важны для восприятия аудиоконтента, и, следовательно, должны кодироваться с высоким временным разрешением. В частности, данный вариант осуществления согласно изобретению основан на том, что, как было установлено, исчезновение фрикативного согласного или аффрикаты, как правило, воспринимается в виде «слишком резкого звука», если исчезновение фрикативного согласного или аффрикаты кодируется с недостаточным временным разрешением информации о расширении полосы пропускания. Таким образом, благодаря увеличению временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания может быть значительно улучшено качество аудиосигналов, например, речевых сигналов.

В одном предпочтительном варианте осуществления аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты. Соответственно, можно кодировать исчезновение в целом фрикативного согласного или аффрикаты с увеличенным временным разрешением, несмотря на то, что детектор, как правило, способен обнаруживать только центральную точку процесса исчезновения фрикативного согласного или аффрикаты, или т.п.

Другой вариант осуществления изобретения обеспечивает создание аудиодекодера для обеспечения декодированной аудиоинформации на основе кодированной аудиоинформации. Аудиодекодер выполнен с возможностью выполнения расширения полосы пропускания на основе информации о расширении полосы пропускания, обеспеченной аудиокодером, так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты. Соответственно, аудиодекодер способен воспроизводить существенный участок появления фрикативного согласного или аффрикаты или даже появления фрикативного согласного или аффрикаты в целом с высоким временным разрешением. Соответственно, расширение полосы частот, выполняемое аудиодекодером, может быть хорошо адаптировано к присутствию фрикативного согласного или аффрикаты, так что возможно воспроизведение с хорошим качеством восприятия изменений спектральной огибающей высокочастотного участка аудиоконтента, которые появляются при появлении фрикативного согласного или аффрикаты. В результате достигается хорошее слуховое впечатление.

В одном предпочтительном варианте осуществления аудиодекодер может содержать детектор, выполненный с возможностью обнаружения появления фрикативного согласного или аффрикаты на основе декодированной аудиоинформации, которая представляет низкочастотный участок аудиоконтента, и самостоятельного принятия решения о настройке временного разрешения, используемого для расширения полосы пропускания. Также в аудиодекодере (при условии, что на стороне аудиодекодера имеется необходимая информация) может быть применен любой из критериев для обнаружения появления фрикативного согласного или аффрикаты, обсужденных здесь применительно к аудиокодеру.

Однако, в качестве альтернативы, аудиодекодер может быть выполнен с возможностью настройки временного разрешения, используемого для расширения полосы пропускания на основе вспомогательной информации в закодированной аудиоинформации.

В другом варианте осуществления согласно изобретению обеспечивается создание аудиодекодера для обеспечения декодированной аудиоинформации на основе кодированной аудиоинформации. Аудиодекодер выполнен с возможностью выполнения расширения полосы пропускания на основе информации о расширении полосы пропускания, обеспеченной аудиокодером, так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты.

Этот вариант осуществления изобретения основан на концепции, состоящей в том, что хорошее качество аудиосигнала может быть достигнуто посредством выполнения расширения полосы пропускания с увеличенным временным разрешением во время исчезновения фрикативного согласного или аффрикаты. Кроме того, этот вариант осуществления основан на идее, состоящей в том, что исчезновение фрикативного согласного или аффрикаты, как правило, занимает определенный период времени, причем момент обнаружения исчезновения фрикативного согласного или аффрикаты, как правило, оказывается внутри указанного определенного периода времени.

В другом варианте осуществления согласно изобретению создается система, содержащая аудиокодер, описанный выше, и аудиодекодер, выполненный с возможностью приема кодированной аудиоинформации, обеспечиваемой аудиокодером, и для обеспечения на ее основе декодированной аудиоинформации. Аудиодекодер выполнен с возможностью выполнения расширения полосы пропускания на основе информации о расширении полосы пропускания, обеспеченной аудиокодером, так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты, и/или так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты.

Упомянутая система позволяет выполнять кодирование и декодирование аудиоконтента, где благодаря использованию расширения полосы пропускания достигается сравнительно небольшая скорость передачи данных, и где обеспечивается хорошее воспроизведение фрикативных согласных или аффрикат путем использования увеличенного временного разрешения в окрестности появления фрикативного согласного или аффрикаты и/или в окрестности исчезновения фрикативного согласного или аффрикаты.

В другом варианте осуществления согласно изобретению обеспечивается создание способа обеспечения кодированной аудиоинформации на основе введенной аудиоинформации. Способ содержит обеспечение информации о расширении полосы пропускания с использованием переменного временного разрешения и обнаружение появления фрикативного согласного или аффрикаты. Временное разрешение, используемое для обеспечения информации о расширении полосы пропускания, регулируется таким образом, что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты. Этот способ основан на тех же самых соображениях, что и вышеописанный аудиокодер.

В еще одном варианте осуществления согласно изобретению обеспечивается создание способа обеспечения кодированной аудиоинформации на основе введенной аудиоинформации. Способ содержит обеспечение информации о расширении полосы пропускания с использованием переменного временного разрешения и обнаружение исчезновения фрикативного согласного или аффрикаты. Временное разрешение, используемое для обеспечения информации о расширении полосы пропускания, регулируется таким образом, что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты. Способ основан на тех же самых соображениях, что и вышеописанный аудиокодер.

В другом варианте осуществления согласно изобретению обеспечивается создание способа обеспечения декодированной аудиоинформации на основе кодированной аудиоинформации. Способ содержит выполнение расширения полосы пропускания на основе информации о расширении полосы пропускания, обеспеченной аудиокодером, так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты. Этот способ основан на тех же самых соображениях, что и вышеописанный аудиодекодер.

В еще одном варианте осуществления согласно изобретению обеспечивается создание способа обеспечения декодированной аудиоинформации на основе кодированной аудиоинформации. Способ содержит выполнение расширения полосы пропускания на основе информации о расширении полосы пропускания, обеспеченной аудиокодером, так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты. Этот способ основан на тех же самых соображениях, что и вышеописанный аудиодекодер.

В другом варианте осуществления согласно изобретению обеспечивается создание компьютерной программы для одного из вышеописанных способов.

В одном варианте осуществления согласно изобретению создается кодированный аудиосигнал, содержащий кодированное представление низкочастотного участка аудиоконтента и множество наборов параметров расширения полосы пропускания. Параметры расширения полосы пропускания обеспечиваются с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом появления фрикативного согласного или аффрикаты в аудиоконтенте, и для заранее определенного периода времени после момента появления фрикативного согласного или аффрикаты в аудиоконтенте.

В еще одном варианте осуществления согласно изобретению создается кодированный аудиосигнал, содержащий кодированное представление низкочастотного участка аудиоконтента и множество наборов параметров расширения полосы пропускания. Параметры расширения полосы пропускания обеспечиваются с увеличенным временным разрешением по меньшей мере для участка аудиоконтента, в котором происходит исчезновение фрикативного согласного или аффрикаты.

Эти кодированные аудиосигналы основаны на тех же соображениях, что и вышеописанный аудиокодер и вышеописанный аудиодекодер.

Краткое описание чертежей

Далее описываются варианты осуществления согласно настоящему изобретению со ссылками на прилагаемые чертежи, на которых:

Фиг. 1 - блок-схема аудиокодера согласно варианту настоящего изобретения;

фиг. 2 - спектрограмма исходного речевого сигнала со стандартным кадрированием с расширением полосы пропускания (BWE) и обнаруженные границы фрикативных согласных или аффрикат;

фиг. 3 - спектрограмма исходного речевого сигнала с новым кадрированием с расширением полосы пропускания;

фиг. 4 - спектрограмма кодированной речи со стандартным кадрированием с расширением полосы пропускания (BWE);

фиг. 5 - спектрограмма кодированной речи с новым кадрированием с расширением полосы пропускания (BWE);

фиг. 6 - схематическое представление временных интервалов и временных субинтервалов, для которых обеспечены наборы информации о расширении полосы пропускания в варианте осуществления согласно изобретению;

фиг. 7 - схематическое представление временных интервалов и временных субинтервалов, для которых обеспечены наборы информации о расширении полосы пропускания в варианте осуществления согласно изобретению;

фиг. 8 - блок-схема аудиокодера согласно другому варианту настоящего изобретения;

фиг. 9 - блок-схема аудиодекодера согласно другому варианту настоящего изобретения;

фиг. 10 - блок-схема аудиодекодера согласно еще одному варианту настоящего изобретения;

фиг. 11 - блок-схема системы для аудиокодирования и аудиодекодирования согласно варианту настоящего изобретения;

фиг. 12 - блок-схема способа обеспечения кодированной аудиоинформации на основе введенной аудиоинформации согласно варианту настоящего изобретения; и

фиг. 13 - блок-схема способа обеспечения декодированной аудиоинформации на основе введенной аудиоинформации согласно варианту настоящего изобретения.

Подробное описание вариантов осуществления изобретения

1. Аудиокодер по фиг. 1

На фиг. 1 представлена блок-схема аудиокодера согласно варианту настоящего изобретения.

Аудиокодер 100 выполнен с возможностью приема введенной аудиоинформации 110 и обеспечения на ее основе кодированной аудиоинформации 112.

Аудиокодер 100 содержит детектор 120, который, например, может принимать введенную аудиоинформацию 110. Детектор 120 выполнен с возможностью обнаружения появления фрикативного согласного или аффрикаты, например, на основе введенной аудиоинформации 110. Детектор 120 может обеспечить информацию 122 для настройки временного разрешения.

Аудиокодер 100 также содержит блок 130 обеспечения информации о расширении полосы пропускания, который выполнен с возможностью обеспечения информации 132 о расширении полосы пропускания с использованием переменного временного разрешения. Например, блок 130 обеспечения информации о расширении полосы пропускания может быть выполнен с возможностью приема введенной аудиоинформации (и возможно дополнительной предварительно обработанной аудиоинформации). Кроме того, блок 130 обеспечения информации о расширении полосы пропускания также может быть выполнен с возможностью приема информации 122 для настройки временного разрешения от детектора 120.

Аудиокодер 100 кроме того может содержать блок 140 низкочастотного кодирования, который, например, может кодировать низкочастотный участок аудиоконтента, представленного введенной аудиоинформацией 110, для обеспечения кодированного представления 142 низкочастотного участка аудиоконтента, представленного введенной аудиоинформацией 110. Соответственно, кодированная аудиоинформация 112 может содержать информацию 132 о расширении полосы пропускания и кодированное представление 142 низкочастотного участка аудиоконтента. Однако детали, касающиеся низкочастотного кодирования, не играют существенной роли для настоящего изобретения.

Далее более подробно описываются функциональные возможности аудиокодера 100.

Блок 140 низкочастотного кодирования может кодировать низкочастотный участок аудиоконтента, представленного введенной аудиоинформацией 110. Например, участок аудиоконтента, содержащий частоты ниже примерно 6 кГц или ниже примерно 7 кГц (или ниже любого другого предварительно заданного предела частоты) можно кодировать с использованием блока 140 низкочастотного кодирования. Блок 140 низкочастотного кодирования может, например, использовать любую из хорошо известных технологий аудиокодирования типа кодирования с преобразованием (из временной области в частотную и обратно) или кодирования с линейным предсказанием. Другими словами, блок 140 низкочастотного кодирования может, например, использовать концепцию аудиокодирования, которая может быть основана на широко известном «усовершенствованном аудиокодировании» (AAC) или может быть основана на хорошо известном «кодировании с линейным предсказанием». Например, блок 140 низкочастотного кодирования может содержать (или использовать) модифицированное «усовершенствованное аудиокодирование», описанное в Международном стандарте ISO/IEC 23003-3. Вдобавок, или в качестве альтернативы, блок 140 низкочастотного кодирования может содержать (или использовать) кодирование с линейным предсказанием, описанное, например, в Международном стандарте ISO/IEC 23003-3. Однако блок 140 низкочастотного кодирования может также выполнять переключение между (модифицированным или не модифицированным) «усовершенствованным аудиокодированием» и аудиокодированием с линейным предсказанием. Однако следует заметить, что в блоке 140 низкочастотного кодирования, в принципе, могут быть использованы любые известные концепции кодирования аудиосигнала для обеспечения кодированного представления 142 низкочастотного участка аудиоконтента, представленного введенной аудиоинформацией.

Однако, блок 130 обеспечения информации о расширении полосы пропускания может обеспечить информацию о расширении полосы пропускания (например, в виде параметров расширения полосы пропускания), которая позволяет восстановить высокочастотный участок аудиоконтента, представленного введенной аудиоинформацией 110, который не представлен кодированным представлением 142, обеспеченным блоком 140 низкочастотного кодирования. Например, блок 130 обеспечения информации о расширении полосы пропускания может быть выполнен с возможностью обеспечения некоторых или всех параметров репликации спектрального диапазона, которые описаны в Международном стандарте ISO/IEC 14496-3 (или в любых других стандартах со ссылками на ISO/IEC 14496-3).

Например, блок обеспечения информации о расширении полосы пропускания может быть выполнен с возможностью обеспечения некоторых или всех параметров, описанных в разделе «SBR tool» и/или в разделе «low delay SBR» Международного стандарта ISO/IEC 14496-3. Например, блок 130 обеспечения информации о расширении полосы пропускания может быть выполнен с возможностью обеспечения некоторых или всех параметров синтаксического элемента «sbr_extension_data()», «sbr_header()», «sbr-data()», «sbr_single_channel_element()», «sbr_channel_pair_element()» или любого из других элементов битового потока, на которые выполняются здесь ссылки, определенных, например, в Международном стандарте ISO/IEC 14496-3. Другими словами, блок 130 обеспечения информации о расширении полосы пропускания может обеспечить параметры репликации спектральной полосы пропускания, которые могут, например, грубо описать спектральную огибающую высокочастотного участка аудиоконтента, представленного введенной аудиоинформацией 110. Однако блок 130 обеспечения информации о расширении полосы пропускания может кроме того содержать параметры, описывающие шум в высокочастотном участке аудиоконтента, представленного введенной аудиоинформацией 110, и/или может содержать параметры, описывающие один или несколько синусоидальных сигналов, включенных в высокочастотный участок аудиоконтента, представленного введенной аудиоинформацией 110. Вдобавок, блок 130 обеспечения информации о расширении полосы пропускания может, например, обеспечить ряд параметров конфигурации, также описанных в Международном стандарте ISO/IEC 14496-3 применительно к средству репликации спектральной полосы пропускания. Например, блок 130 обеспечения информации о расширении полосы пропускания может обеспечить один или несколько параметров, представляющих временное разрешение, которое используется для обеспечения наборов информации о расширении полосы пропускания, например, временное разрешение, с использованием которого обеспечиваются обновленные наборы параметров, представляющие спектральную огибающую высокочастотного участка аудиоконтента, представленного введенной аудиоинформацией. Например, блок 130 обеспечения информации о расширении полосы пропускания может обеспечить параметр управления, который указывает, сколько наборов параметров спектральной огибающей (один или четыре) обеспечивается в каждом аудиокадре. Например, параметры управления, обеспечиваемые блоком 130 обеспечения информации о расширении полосы пропускания, могут быть аналогичны или даже совпадать с параметрами, обеспеченными для случая «FIXFIX» в синтаксическом элементе «sbr_grid ()», как это описано в Международном стандарте ISO/IEC 14496-3.

Однако блок 130 обеспечения информации о расширении полосы пропускания в качестве альтернативы может быть выполнен с возможностью обеспечения управляющей информации, аналогичной или даже совпадающей с управляющей информацией, включенной в элемент «sbr_ld_grid()» битового потока, который описан, например, в разделе 4.6.19.3.2 Международного стандарта ISO/IEC 14496-3.

Например, для кодирования того, сколько наборов параметров формы огибающей обеспечивается блоком 130 обеспечения информации о расширении полосы пропускания на один аудиокадр, можно использовать 2-битовое значение (сравните с элементом «bs_num_env», битового потока (описанного в разделе 4.6.19.3.2 документа ISO/IEC 14496-3).

Предпочтительно, чтобы указанная сигнализация могла выполняться, как это указано для случая «FIXFIX», который описан в разделе 4.6.19 «low delay SBR» документа ISO/IEC 14496-3.

В заключение блок 130 обеспечения информации о расширении полосы пропускания обеспечивает информацию 132 о расширении полосы пропускания, где временное разрешение (например, период времени между обновлениями параметров, представляющих спектральную огибающую высокочастотного участка аудиоконтента, представленного введенной аудиоинформацией 110) настраивался в зависимости от информации 122 о настройке временного разрешения, которая обеспечивается детектором 120. Таким образом, временное разрешение, используемое блоком 130 обеспечения информации о расширении полосы пропускания (например, для обеспечения обновленных наборов параметров, описывающих спектральную огибающую высокочастотного участка аудиоконтента, представленного введенной аудиоинформацией 110) адаптируется к введенной аудиоинформации 110.

Например, аудиокодер 100 сконфигурирован так, что временное разрешение, используемое блоком 130 обеспечения информации о расширении полосы пропускания, увеличивается (по сравнению с нормальным временным разрешением) в ответ на обнаружение появления фрикативного согласного или аффрикаты декодером 120. Однако временное разрешение, используемое блоком обеспечения информации о расширении полосы пропускания, увеличивается, так что информация о расширении полосы пропускания (например, параметры спектральной огибающей) обеспечиваются с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты. Соответственно, весь процесс появления фрикативного согласного или аффрикаты (или по меньшей мере достаточно большой участок появления фрикативного согласного или аффрикаты) кодируется с увеличенным временным разрешением информации о расширении полосы пропускания. Вслед за этим могут быть закодированы (и декодированы) появления фрикативного согласного или аффрикаты с достаточной точностью, так что удастся избежать звуковых артефактов, а также избежать ухудшения качества аудиосигнала.

Далее кодированная аудиоинформация 112, которая содержит информацию 132 о расширении полосы пропускания и которая, как правило, содержит кодированное представление 142 низкочастотного участка аудиоконтента, представленного введенной аудиоинформацией 110, позволяет выполнить декодирование аудиоконтента, представленного введенной аудиоинформацией 110, с высоким качеством, причем необходимая скорость передачи данных может поддерживаться с малым значением.

Кроме того, следует заметить, что в аудиокодере 100 также могут быть реализованы другие описанные здесь признаки и функциональные возможности. В частности, аудиокодер 100 может быть дополнительно выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты (где детектор 110 также может быть выполнен с возможностью обнаружения исчезновения фрикативного согласного или аффрикаты).

Далее со ссылками на фигуры 2-7 описываются некоторые дополнительные детали, касающиеся функциональных возможностей аудиокодера 100.

На фиг. 2 показана спектрограмма исходного речевого сигнала со стандартным кадрированием и расширением полосы пропускания, а также обнаруженные границы фрикативных согласных или аффрикат.

По оси 210 абсцисс отложено время (во временных блоках), а по оси 212 ординат субполосы QMF. Соответственно представление 200 согласно фиг. 2 показывает распределение энергии аудиосигнала для различных субполос QMF во времени.

Как можно видеть из этой спектрограммы, пурпурные пунктирные вертикальные линии обозначают временные границы 220а, 220b, … стандартного кадрирования с расширением полосы пропускания. Кроме того, черные пунктирные вертикальные линии обозначают обнаруженные границы 230а, 230b, 230с, 230d, … фрикативных согласных или аффрикат. Обнаруженные границы 230а, 230b, 230с, 230d, … фрикативных согласных или аффрикат можно обнаруживать с использованием детектора на основе наклона. Как можно видеть из данной фигуры, временные интервалы одинаковой длины, которые можно рассматривать как кадры с расширением полосы пропускания или в общем случае как кадры, определяются границами 220а, …, 220u (стандартного) кадрирования с расширением полосы пропускания. Другими словами, в стандартной концепции согласно документу D1 информация о расширении полосы пропускания может быть связана с регулярными временными интервалами (разделенными границами стандартного кадрирования с расширением полосы пропускания) одинаковой длительности.

Как можно видеть из фиг. 2, обнаруженные границы фрикативных согласных или аффрикат могут находиться на временном интервале, определенном двумя последовательными границами стандартного кадрирования с расширением полосы пропускания.

Однако стандартная схема кадров с расширением полосы пропускания, показанная на фиг. 2, не позволяет обеспечить высококачественное воспроизведение высокочастотного участка аудиоконтента, как будет описано ниже.

На фиг. 3 показана спектрограмма исходного речевого сигнала с новым кадрированием с расширением полосы пропускания (где новое кадрирование с расширением полосы пропускания показано сплошными черными вертикальными линиями). По оси 310 абсцисс отложено время (во временных блоках), а по оси 312 ординат - частота (в субполосах QMF). Спектрограмма 300 по фиг. 3 показывает распределение энергий (или обычно интенсивностей) аудиоконтента (или аудиосигнала) по частоте (или по субполосам QMF) во времени. Как видно из фиг. 3, здесь все еще имеет место (базовое или фундаментальное) кадрирование, которое показано вертикальными линиями 330а-330u, где кадры между двумя последовательными границами кадров (например, между границами 330а и 330b кадра или между границами 330b и 330c кадра) можно рассматривать в качестве временных интервалов одинаковой длины. Однако следует заметить, что временное разрешение увеличено в ответ на обнаружение появления фрикативного согласного или аффрикаты, а также в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты. Например, обнаружение появления фрикативного согласного или аффрикаты на временном интервале между границами 330b и 330с кадра приводит к тому, что кадр (или временной интервал) между границами 330b и 330с кадра делится на четыре субкадра (или временных субинтервала) 340а, 340b, 340с, 340d. Кроме того, следует заметить, что в ответ на обнаружение появления фрикативного согласного или аффрикаты между границами 330b и 330с кадра временное разрешение увеличивают не только в кадре между границами 330b и 330с, но также в двух следующих кадрах, определенных границами 330с и 330d и границами 330d и 330e кадров. Таким образом, в ответ на обнаружение появления фрикативного согласного или аффрикаты в одном кадре (или временном интервале), а именно, на временном интервале, ограниченном границами 330b и 330с кадров, увеличенное временное разрешение применяют для двух дополнительных кадров (а именно, кадров, ограниченных границами 330с и 330d кадров и границами 330d и 330e кадров). Соответственно, можно обеспечить использование увеличенного временного разрешения (по сравнению со стандартным временным разрешением) для обеспечения информации о расширении полосы пропускания (или параметров расширения полосы пропускания) на протяжении всего процесса появления фрикативного согласного или аффрикаты (или по меньшей мере большей части процесса появления фрикативного согласного или аффрикаты). Таким образом, расширение полосы пропускания на стороне декодера может быть выполнено с увеличенным временным разрешением во время всего процесса появления фрикативного согласного или аффрикаты, поскольку отдельные наборы параметров расширения полосы пропускания (например, параметры, описывающие огибающую высокочастотного участка аудиоконтента) могут быть обеспечены для каждого временного субинтервала (например, для каждого из временных субинтервалов 340а-340d). Кроме того, как можно видеть из фиг. 3, в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты в кадре между границами 330е и 330f увеличенное временное разрешение применяется к трем последовательным кадрам, а именно, кадрам, ограниченным границами 330е и 330f, границами 330f и 330g кадров и границами 330g и 330h кадров. Другими словами, кадры между границами 330е и 330h кадров разделены каждый на четыре субкадра (или временных субинтервала), причем для каждого из субкадров (или временных субинтервалов) обеспечен отдельный набор параметров расширения полосы пропускания. Таким образом, параметры расширения полосы пропускания могут быть обеспечены с увеличенным временным разрешением в течение всего процесса исчезновения фрикативного согласного или аффрикаты, обнаруженного на временном интервале, ограниченном границами 330е и 330f кадров.

Однако между границами 330h и 330p используется «нормальное» временное разрешение (а не увеличенное временное разрешение). Кроме того, увеличенное временное разрешение используется для обеспечения информацией о расширении полосы пропускания кадров между границами 330p и 330с кадров в ответ на обнаружение появления фрикативного согласного или аффрикаты в кадре (или временном интервале), ограниченном границами 330p и 330q кадров.

Аналогичным образом, увеличенное временное разрешение используется для обеспечения информации о расширении полосы пропускания для кадров (или временных интервалов между границами 330t и 330w кадров) в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты в кадре (или временном интервале) между границами 330t и 330u кадров.

В заключение универсальное (базовое) кадрирование используется для обеспечения информации о расширении полосы пропускания в аудиокодере 100, где информация о расширении полосы пропускания связана с регулярными во времени кадрами (временными интервалами) равной длительности.

Однако блок обеспечения информации о расширении полосы пропускания выполнен с возможностью обеспечения одного набора информации о расширении полосы пропускания для каждого кадра (то есть, временного интервала заданной длительности), если используется первое («нормальное») временное разрешение. Например, один набор информации о расширении полосы пропускания обеспечивается для кадра между границами 330а и 330b, и один набор информации о расширении полосы пропускания обеспечивается для каждого из восьми кадров между временными границами 330h и 330p. Однако блок обеспечения информации о расширении полосы пропускания также выполнен с возможностью обеспечения множества наборов информации о расширении полосы пропускания, связанных с временными субинтервалами для кадра (временного интервала) заданной длительности, если используется второе (увеличенное) временное разрешение. Например, для каждого из шести кадров между границей 330b и границей 330h, для каждого из трех кадров между границами 330p и 330s кадров и для каждого из трех кадров между границами 330t и 330w кадров обеспечены четыре набора информации о расширении полосы пропускания. Как можно видеть из фиг. 3, каждый из кадров, для которого обеспечена информация о расширении полосы пропускания с высоким временным разрешением, разделен на четыре субкадра (или временных субинтервала) (например, временных субинтервала с 340а по 340d) одинаковой длительности, где для каждого из временных субинтервалов обеспечен один набор параметров расширения полосы пропускания. Кроме того, следует заметить, что, как правило, имеется по меньшей мере один временной субкадр, для которого обеспечен набор параметров расширения полосы пропускания непосредственно перед временным субкадром, в течение которого обнаруживается появление фрикативного согласного или аффрикаты, или перед временным субкадром, в течение которого обнаруживается исчезновение фрикативного согласного или аффрикаты. Например, если предположить, что фрикативный согласный или аффриката обнаружена во второй половине кадра между границами 330b и 330с кадров, то имеется по меньшей мере два временных субкадра (которые находятся в первой половине кадра между границами 330b и 330с кадров), непосредственно предшествующих временному субкадру, в течение которого обнаруживается фрикативный согласный или аффриката. Соответственно, для обеспечения параметров расширения полосы пропускания используется увеличенное временное разрешение перед моментом действительного обнаружения появления фрикативного согласного или аффрикаты, или перед моментом действительного обнаружения исчезновения фрикативного согласного или аффрикаты. Соответственно, «полное» появление фрикативного согласного или аффрикаты или «полное» исчезновение фрикативного согласного или аффрикаты может обрабатываться с высоким временным разрешением (в том смысле, что обеспечиваются параметры расширения полосы пропускания с высоким временным разрешением). В результате, возможно качественное воспроизведение на стороне аудиодекодера, который получает кодированную аудиоинформацию, обеспечиваемую аудиокодером 100.

Обратимся теперь к фигурам 4 и 5, со ссылками на которые описываются некоторые преимущества аудиокодера 100 по сравнению со стандартными аудиокодерами.

На фиг. 4 показана спектрограмма кодированной речи со стандартным кадрированием с расширением полосы пропускания. По оси 410 абсцисс отложено время, а по оси 412 ординат отложена частота. Кроме того, желтые эллипсы указывают типовые артефакты, вызванные стандартным кадрированием с расширением полосы пропускания. Таким образом, спектрограмма 400 на фиг. 4 описывает изменение энергии речевого сигнала по частоте и в зависимости от времени.

Первый эллипс 430 описывает пред-эхо, которое может быть вызвано стандартным кадрированием с расширением полосы пропускания. Кроме того, стандартное кадрирование с расширением полосы пропускания приводит к тому, что появление фрикативного согласного или аффрикаты, показанное в эллипсе 430, воспринимается на слух крайне резко.

Кроме того, второй эллипс 440 указывает на пост-эхо, которое также может быть вызвано стандартным кадрированием с расширением полосы пропускания. Кроме того, исчезновение фрикативного согласного или аффрикаты в области, указанной эллипсом 440, как правило, воспринимается на слух крайне резко и может звучать неестественно.

Эллипс 450 показывает потерю гласной из базовой полосы, которая также может быть вызвана стандартным кадрированием с расширением полосы пропускания.

Соответственно, из фиг. 4 можно видеть, что из-за стандартного кадрирования с расширением полосы пропускания возникает несколько артефактов (например, кадрирование с расширением полосы пропускания, показанное на фиг. 2).

На фиг. 5 показана спектрограмма кодированной речи с новым кадрированием с расширением полосы пропускания (по сравнению со спектрограммой на фиг. 4). Опять же по оси 510 абсцисс отложено время, а по оси 512 ординат отложена частота, так что спектрограмма 500 представляет энергию кодированного речевого сигнала (или декодированного речевого сигнала, полученного из кодированного речевого сигнала) в функции частоты и в функции времени. Как видно из фиг. 5 проблемные области, выделенные эллипсами 430, 440, 450, показанные на фиг. 4 существенно улучшились. Иными словами, использование высокого временного разрешения для обеспечения информации о расширении полосы пропускания помогает сократить либо даже избежать появлений пред-эхо, слишком резкого восприятия появления фрикативного согласного или аффрикаты, пост-эхо в момент исчезновения фрикативного согласного или аффрикаты, а также слишком резкого восприятия исчезновения фрикативного согласного или аффрикаты. Кроме того, новое использование увеличенного временного разрешения также помогает избежать утечки гласных из базовой полосы, как показано в эллипсе 450 на фиг. 4.

Далее со ссылками на фигуры 6 и 7 объясняются некоторые детали, касающиеся обеспечения информации о расширении полосы пропускания.

На фиг. 6 показано схематическое представление временных интервалов и временных субинтервалов, которые используются для обеспечения информации о расширении полосы пропускания.

Ось времени обозначена ссылочной позицией 610. Как видно из фиг. 6, время (представленное по оси 610 времени) делится на временные интервалы 620a, 620b, 620c, 620d, 620e, 620f, которые, например, могут иметь одинаковую длину. Эти временные интервалы можно рассматривать в качестве кадров. Кроме того, момент обнаружения появления (или исчезновения) фрикативного согласного или аффрикаты, обозначен как tf. Момент времени tf находится на временном интервале (или в кадре) 620е. Следует заметить, что момент обнаружения появления (или исчезновения) фрикативного согласного или аффрикаты может быть определен детектором 120, и что момент обнаружения появления (или исчезновения) фрикативного согласного или аффрикаты, как правило может находится где-то после действительного начала появления фрикативного согласного или аффрикаты или после действительного начала исчезновения фрикативного согласного или аффрикаты.

Как видно из фиг. 6, информация о расширении полосы пропускания обеспечивается с «нормальным» (сравнительно низким) разрешением в течение временных интервалов с 620а по 620d и 620f. Например, для каждого из временных интервалов 620а-620d и 620f обеспечивается один набор информации о расширении полосы пропускания. Например, общая форма спектра (или «формирование спектра») представлена набором параметров расширения полосы пропускания в течение каждого из временных интервалов 620а-620d и 620f. С другой стороны, аудиодекодер 100 выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением на временном интервале (или кадре) 620е. Соответственно, блок 130 обеспечения информации о расширении полосы пропускания может разбить временной интервал 620е на четыре временных субинтервала 630а-630d в соответствии с моментом tf обнаружения появления (или исчезновения) фрикативного согласного или аффрикаты на временном интервале 620e. Соответственно, блок обеспечения информации о расширении полосы пропускания может обеспечить один набор информации о расширении полосы пропускания для каждого из временных субинтервалов 630а-630d. Соответственно, первый набор информации о расширении полосы пропускания (например, параметры), обеспеченный для временного субинтервала 630а, может описывать форму спектра (или «формирование спектра»), подлежащую применению в расширении полосы пропускания временного субинтервала 630а, второй набор информации о расширении полосы пропускания может описывать форму спектра (или «формирование спектра»), подлежащую применению в расширении полосы пропускания временного субинтервала 630b, третий набор информации о расширении полосы пропускания может описывать форму спектра (или «формирование спектра»), подлежащую применению в расширении полосы пропускания временного субинтервала 630с, а четвертый набор информации о расширении полосы пропускания, может описывать форму спектра (или «формирование спектра»), подлежащую применению в расширении полосы пропускания временного субинтервала 630d. Соответственно, отдельные наборы информации о расширении полосы пропускания (или параметров расширения полосы пропускания) обеспечиваются блоком 130 обеспечения информации о расширении полосы пропускания, так что форма спектра (или «формирование спектра»), подлежащая применению в расширении полосы пропускания временных интервалов 630а-630d передается независимо. Соответственно, форма спектра или «формирование спектра» кодируется с увеличенным временным разрешением (которое выше, чем «нормальное» или «низкое» временное разрешение) в течение временного интервала 620е в ответ на обнаружение появления или исчезновения фрикативного согласного или аффрикаты на временном интервале 620е. Однако следует заметить, что временные интервалы 630а-630d могут иметь одинаковую длительность (например, в единицах времени или в количестве отсчетов). Кроме того, следует заметить, что увеличенное временное разрешение для обеспечения информации о расширении полосы пропускания уже используется на временном субинтервале 630а, то есть, перед моментом tf обнаружения появления или исчезновения фрикативного согласного или аффрикаты. Кроме того, увеличенное временное разрешение также используется на временном субинтервале 630с, то есть после временного интервала 630b, в течение которого обнаруживается появление или исчезновение фрикативного согласного или аффрикаты. Соответственно, появление или исчезновение фрикативного согласного или аффрикаты может быть закодировано с хорошим качеством аудиосигнала.

На фиг. 7 показано еще одно схематическое представление временного разрешения, используемого для обеспечения информации о расширении полосы пропускания. Ось времени обозначена ссылочной позицией 710. Как можно видеть из этой фигуры, имеются временные интервалы от 720а до 720f. Кроме того, из этой фигуры видно, что момент обнаружения появления (или исчезновения) фрикативного согласного или аффрикаты обозначен как tf, причем этот момент находится в первой четверти временного интервала 720e. Как можно видеть из фиг. 7, информация о расширении полосы пропускания обеспечивается с «нормальным» или «низким» временным разрешением (например, один набор информации о расширении полосы пропускания или один набор параметров расширения полосы пропускания на один временной интервал, для временных интервалов 720а, 720b, 720с и 720f. Однако в ответ на обнаружение появления фрикативного согласного или аффрикаты в момент tf аудиокодер 100 настраивает временное разрешение, используемое блоком обеспечения информации о расширении полосы пропускания, так что в течение временных интервалов 720d и 720е используется «увеличенное» (или «высокое») временное разрешение. Соответственно, отдельные наборы информации о расширении полосы пропускания (или параметров расширения полосы пропускания) обеспечиваются для четырех временных субинтервалов временного интервала 720d и для четырех временных субинтервалов временного интервала 720е. Таким образом, спектральная огибающая или формирование спектральной огибающей, подлежащей использованию для расширения полосы пропускания (на стороне аудиодекодера) представляют (или кодируют) с увеличенным спектральным разрешением во время временных интервалов 720d и 720е.

Например, один отдельный набор параметров расширения полосы пропускания может быть обеспечен для каждого временного субинтервала временных интервалов 720d и 720е.

Однако следует заметить, что увеличенное временное разрешение также используется для временного интервала 720d, который предшествует (непосредственно предшествует) временному интервалу 720е, в котором находится момент обнаружения появления (или исчезновения) фрикативного согласного или аффрикаты. Однако, так как желательно согласно настоящему изобретению, чтобы с увеличенным временным разрешением кодировался по меньшей мере еще один временной интервал (или временной субинтервал), предшествующий (или непосредственно предшествующий) временному интервалу (или временному субинтервалу), в котором обнаруживается появление (или исчезновение) фрикативного согласного или аффрикаты, аудиокодер 100 выбирает увеличенное временное разрешение для обеспечения (и кодирования) информации о расширении полосы пропускания временного интервала 720d. Таким образом, поскольку момент обнаружения появления фрикативного согласного или аффрикаты находится в первом временном субинтервале временного интервала 720е, аудиодекодер решает, что также следует обработать (предшествующий) временной интервал 720d с высоким временным разрешением, так что высокое временное разрешение уже применено к временному интервалу (или временному субинтервалу) перед временным субинтервалом, в котором обнаруживается появление (или исчезновение) фрикативного согласного или аффрикаты.

В противном случае, если обнаружение появления (или исчезновения) фрикативного согласного или аффрикаты имело место только во втором субинтервале временного интервала 720е, аудиокодер (возможно) выберет низкое временное разрешение для обеспечения информации о расширении полосы пропускания для временного интервала 720d (что представляет собой ситуацию, показанную на фиг. 6). Соответственно, из фиг. 7 ясно следует, что выполняется определенный «временной прогноз», состоящий в том, что для обеспечения информации о расширении полосы пропускания выбирается увеличенное временное разрешение, даже в том случае, если это не требуется исходя из кадрирования.

Соответственно, с высоким временным разрешением обрабатывается даже начало процесса появления фрикативного согласного или аффрикаты, где начало появления фрикативного согласного или аффрикаты, как правило, имеет место раньше, чем момент действительного обнаружения детектором 120 появления фрикативного согласного или аффрикаты. В результате можно достичь воспроизведения аудиосигнала с хорошим перцептуальным качеством.

Подытоживая описание фигур 3, 5, 6 и 7, можно сказать, что на них показаны рабочие концепции, которые могут быть применены в аудиокодере 100 согласно настоящему изобретению. Однако в действительности могут использоваться другие концепции кадрирования, коль скоро они гарантируют, обеспечение информации о расширении полосы пропускания с увеличенным временным разрешением (по сравнению с нормальным временным разрешением) по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты (или исчезновения фрикативного согласного или аффрикаты), и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты (или исчезновения фрикативного согласного или аффрикаты).

Следует заметить, что на фигурах 6 и 7 представлена в качестве примера структура кодированного аудиосигнала. Кодированный аудиосигнал может содержать, например, кодированное представление низкочастотного участка аудиоконтента. Кроме того, кодированное аудиопредставление может содержать множество наборов параметров расширения полосы пропускания.

Например, один набор параметров расширения полосы пропускания может быть обеспечен для каждого из кадров 620а-620d и 620f. Кроме того, один набор информации о расширении полосы пропускания может быть обеспечен для каждого из кадров 720а, 720b, 720с, 720f. Однако наборы параметров расширения полосы пропускания могут обеспечиваться с высоким временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты и для заранее определенного периода времени после момент обнаружения появления фрикативного согласного или аффрикаты. Например, наборы параметров расширения полосы пропускания обеспечиваются с увеличенным временным разрешением для кадра 620е. Например, для кадра 620е может быть обеспечено всего четыре набора параметров расширения полосы пропускания, так что временное разрешение возрастает в субкадре 630а, предшествующем субкадру 630b, в котором обнаруживается появление или исчезновение фрикативного согласного или аффрикаты. Кроме того, для субкадров 630с и 630d могут быть обеспечены более двух наборов параметров расширения полосы пропускания.

Аналогичная концепция показана на фиг. 7, где наборы параметров расширения полосы пропускания обеспечиваются с увеличенным временным разрешением для кадров 620d и 620е.

В заключение можно сказать, что параметры расширения полосы пропускания могут быть обеспечены с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты. Кроме того, параметры расширения полосы пропускания могут также обеспечиваться с увеличенным временным разрешением для участка аудиоконтента, на котором обнаруживается исчезновение фрикативного согласного или аффрикаты.

2. Аудиокодер по фиг. 8

На фиг. 8 показана блок-схема аудиокодера согласно одному варианту настоящего изобретения.

Аудиокодер 800 выполнен с возможностью приема введенной аудиоинформации 810 и для обеспечения на ее основе кодированной аудиоинформации 812.

Аудиокодер 800 содержит детектор 20, выполненный с возможностью обнаружения исчезновения фрикативного согласного или аффрикаты. Детектор 820, например, обеспечивает информацию 822 о настройке временного разрешения. Кроме того, аудиокодер 800 содержит блок 830 обеспечения информации о расширении полосы пропускания, который выполнен с возможностью обеспечения информации 832 о расширении полосы пропускания с использованием переменного временного разрешения. Аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения 830 информации о расширении полосы пропускания, так что информация 832 о расширении полосы пропускания обеспечивается с увеличенным временным разрешением (по сравнению с «нормальным» временным разрешением) в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты. Другими словами, временное разрешение, используемое блоком обеспечения 830 информации о расширении полосы пропускания, увеличивается, если детектор 820 обнаруживает исчезновение фрикативного согласного или аффрикаты, так что исчезновение фрикативного согласного или аффрикаты кодируется со сравнительно высоким (выше нормального) временным разрешением информации о расширении полосы пропускания (или параметров расширения полосы пропускания). Кроме того, аудиокодер 800 содержит блок 840 низкочастотного кодирования, который может обеспечить кодированное представление 842 низкочастотного участка аудиоконтента, представленного введенной аудиоинформацией 810.

Кроме того, следует заметить, что детектор 820 может быть аналогичен детектору 120, описанному выше, и что блок 130 обеспечения информации о расширении полосы пропускания может быть подобен (или даже эквивалентен) блоку 130 обеспечения информации о расширении полосы пропускания, описанному выше. Кроме того, блок 840 низкочастотного кодирования может быть подобен или даже эквивалентен блоку 140 низкочастотного кодирования, описанному выше.

Кроме того, аудиокодер 800 выполнен с возможностью настройки временного разрешения, используемого блоком 830 обеспечения информации о расширении полосы пропускания, так что информация 832 о расширении полосы пропускания обеспечивается с увеличенным временным разрешением в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты. Соответственно, исчезновение фрикативного согласного или аффрикаты кодируется с высоким временным разрешением (по меньшей мере, информация о расширении полосы пропускания), что помогает избежать артефактов и обеспечивает естественное слуховое впечатление.

Однако следует заметить, что аудиокодер 800 может (но не обязательно) быть дополнен любым из других признаков, описанных выше, в соответствии с аудиокодером 100, а также согласно фигурам 3, 5, 6 и 7. Кроме того, например, на фиг. 5 можно увидеть преимущества, которые проистекают из использования увеличенного временного разрешения в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты.

Кроме того, следует заметить, что концепции согласно фигурам 6 и 7, применимы как в ответ на обнаружение появления фрикативного согласного или аффрикаты, так и в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты, и, следовательно, также применимо к аудиокодеру по фиг. 8.

3. Аудиодекодер по фиг. 9

На фиг. 9 представлена блок-схема аудиодекодера согласно одному варианту изобретения. Аудиодекодер 900 выполнен с возможностью приема кодированной аудиоинформации 910 и должен на ее основе обеспечить декодированную аудиоинформацию 912. Аудиодекодер содержит блок 920 низкочастотного декодирования, который может быть выполнен с возможностью обеспечения декодированного представления низкочастотного участка аудиоконтента, представленного кодированной аудиоинформацией 910. Например, блок 920 низкочастотного декодирования может содержать общий блок аудиодекодирования, например, описанный в Международном стандарте ISO/IEC 14496-3. Другими словами, блок 920 низкочастотного декодирования может содержать, например, хорошо известный блок «усовершенствованного аудиокодирования» (AAC) стандарта MPEG-2 и может, например, декодировать низкочастотный участок аудиоконтента вплоть до частоты примерно 6 кГц или 7 кГц. Однако блок 920 низкочастотного декодирования может использовать любую другую концепцию декодирования, такую как, например, хорошо известная концепция декодирования CELP или хорошо известное декодирование с преобразованием кодированного возбуждения (TCX). В общем случае установлено, что блок 920 низкочастотного декодирования может использовать любую общую концепцию аудиодекодирования или любую концепцию речевого декодирования. Кроме того, аудиодекодер 900 содержит блок 930 расширения полосы пропускания, который выполнен с возможностью выполнения расширения полосы пропускания на основе информации 932 о расширении полосы пропускания, которая обеспечивается аудиокодером и которая, как правило, включена в кодированную аудиоинформацию 910. Блок 930 расширения полосы пропускания может, как правило, использовать информацию, обеспеченную блоком 920 низкочастотного декодирования. Например, блок 930 расширения полосы пропускания может быть выполнен с возможностью выполнения репликации спектральной полосы (SBR) на основе декодированного низкочастотного участка аудиоконтента (где декодированный низкочастотный участок аудиоконтента обеспечивается блоком 920 низкочастотного декодирования). Например, блок 930 расширения полосы пропускания может реализовать функциональные возможности так называемого «средства SBR» или так называемого «SBR с низкой задержкой», что описано, например, в Международном стандарте ISO/IEC 14496-3.

Однако аудиодекодер 900 может быть выполнен с возможностью выполнения расширения полосы пропускания с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты и по меньшей мере для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты. Соответственно, можно достичь хорошего качества аудиосигнала во время появления фрикативного согласного или аффрикаты, или исчезновения фрикативного согласного или аффрикаты.

Следует заметить, что временное разрешение, используемое для расширения полосы пропускания, может быть передано в качестве сигнализации с использованием вспомогательной информации, включенной в информацию 932 о расширении полосы пропускания. Например, такая сигнализация может быть выполнена так, как это описано в разделе 4.6.19 Международного стандарта ISO/IEC 14496-3. В частности, такая сигнализация о временном разрешении может выполняться так, как это описано в разделе 4.6.19.3.2 Международного стандарта ISO/IEC 14496-3, подчасть 4. Таким образом, блок 930 расширения полосы пропускания может выполнить оценку указанной сигнализации, чтобы принять решение о том, какое временное разрешение следует использовать для расширения полосы пропускания.

Однако, в качестве альтернативы, аудиодекодер может быть выполнен с возможностью обнаружения появления фрикативного согласного или аффрикаты, или исчезновения фрикативного согласного или аффрикаты на основе декодированного низкочастотного участка аудиоконтента, который может быть обеспечен блоком 920 низкочастотного декодирования. Соответственно, аудиодекодер 900 может принять решение о временном разрешении, подлежащем использованию для расширения полосы пропускания, таким же образом, как вышеописанный аудиокодер. В указанном случае возможно даже не придется использовать какую-либо дополнительную информацию для сигнализации о временном разрешении, подлежащем использованию для расширения полосы пропускания, что поможет уменьшить скорость передачи данных.

Что касается функциональных возможностей аудиодекодера 900, то следует заметить, что его функциональные возможности соответствуют функциональным возможностям аудиокодера 100 согласно фиг. 1 и аудио кодера 800 согласно фиг. 8. Другими словами, расширение полосы пропускания выполняют с «нормальным» или сравнительно «низким» временным разрешением в отсутствии появления фрикативного согласного или аффрикаты или исчезновения фрикативного согласного или аффрикаты, и расширение полосы пропускания выполняется с «увеличенным» или сравнительно «высоким» временным разрешением при наличии появления фрикативного согласного или аффрикаты или исчезновения фрикативного согласного или аффрикаты. Однако увеличенное временное разрешение также используется для расширения полосы пропускания по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты, так что весь процесс появления фрикативного согласного или аффрикаты обрабатывается с высоким временным разрешением расширения полосы пропускания. Соответственно, можно будет избежать появления артефактов.

4. Аудиодекодер по фиг. 10

На фиг. 10 представлена блок-схема аудиодекодера согласно другому варианту настоящего изобретения.

Аудиодекодер 1000 выполнен с возможностью приема кодированной аудиоинформации 1010 и для обеспечения на ее основе декодированной аудиоинформации 1012. Аудиодекодер содержит блок 1020 низкочастотного декодирования, который может фактически совпадать с блоком 920 низкочастотного декодирования, описанным выше. Кроме того, аудиодекодер 1000 содержит блок 1030 расширения полосы пропускания, который может фактически совпадать с блоком 930 расширения полосы пропускания, описанным выше. Однако аудиодекодер 1000 выполнен с возможностью выполнения расширения полосы пропускания на основе информации 1032 о расширении полосы пропускания, обеспеченной аудиокодером, так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты. Соответственно, аудиодекодер 1000 обеспечивает декодированную аудиоинформацию, в которой исчезновения фрикативных согласных или аффрикат представлены с высокой точностью. Соответственно, удается избежать появления артефактов.

Кроме того, следует заметить, что вышеприведенное пояснения, относящиеся к аудиодекодеру 900, также применимы к аудиодекодеру 1000. Вдобавок, следует заметить, что аудиодекодер 1000 может быть дополнен любым из признаков и функциональных возможностей, описанных в связи с аудиодекодером 900. Кроме того, аудиодекодер 1000 (также как аудиодекодер 900) может быть дополнен любым из признаков и функциональных возможностей, описанных здесь в связи с выше упомянутым аудиокодером, поскольку аудиодекодирование соответствует вышеописанному аудиокодированию.

5. Система по п. 11 формулы изобретения

На фиг. 11 представлена блок-схема системы согласно одному варианту осуществления настоящего изобретения. Система 1100 содержит аудиокодер 1120, который выполнен с возможностью приема введенной аудиоинформации 1110 и для обеспечения на ее основе кодированной аудиоинформации 1130 для аудиодекодера 1140. Аудиодекодер 1140 выполнен с возможностью обеспечения декодированной аудиоинформации 1150 на основе кодированной аудиоинформации 1130.

Однако следует отметить, что аудиокодер 1120 может совпадать с аудиокодером 100, описанным со ссылками на фиг. 1, или с аудиокодером 800, описанным в связи с фиг. 8. Кроме того, аудиодекодер 1140 может совпадать с аудиодекодером 900, описанным в связи с фиг. 9, или с аудиодекодером 1000, описанным в связи с фиг. 10. Соответственно, аудиодекодер может быть выполнен с возможностью приема кодированной аудиоинформации, обеспечиваемой аудиокодером, и для обеспечения на его основе декодированной аудиоинформации 1150, так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты и/или так, что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты. Соответственно, может быть достигнуто высокое качество воспроизведения фрикативных согласных или аффрикат.

Следует заметить, что система может быть дополнена любым из признаков и функциональных возможностей, описанных выше в отношении аудиокодеров и аудиодекодеров.

6. Способ обеспечения кодированной аудиоинформации на основе введенной аудиоинформации согласно фиг. 12.

На фиг. 12 показана блок-схема способа обеспечения кодированной аудиоинформации на основе введенной аудиоинформации. Способ 1200 согласно фиг. 12 содержит обнаружение появления фрикативного согласного или аффрикаты и/или исчезновения фрикативного согласного или аффрикаты (шаг 1210). Способ кроме того содержит обеспечение 1220 информации о расширении полосы пропускания с использованием переменного временного разрешения. Временное разрешение, используемое для обеспечения информации о расширении полосы пропускания, может, например, быть настроено таким образом, что информация о расширении полосы пропускания будет обеспечиваться с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты. В качестве альтернативы, временное разрешение для обеспечения информации о расширении полосы пропускания может быть настроено таким образом, что информация о расширении полосы пропускания будет обеспечиваться с увеличенным временным разрешением в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты.

Способ 1200 согласно фиг. 12 основан на тех же самых соображениях, что и вышеописанные аудиокодеры. Кроме того, способ 1200 может быть дополнен любым из признаков и любой из функциональных возможностей, описанных здесь в связи с аудиокодером (а также в связи с аудиодекодером).

7. Способ обеспечения декодированной аудиоинформации по п. 13 формулы изобретения

На фиг. 13 показана блок-схема способа обеспечения декодированной аудиоинформации согласно одному варианту осуществления изобретения. Способ 1300 содержит декодирование 1310 низкочастотного участка аудиоинформации, которое однако не является существенным шагом этого способа.

Способ 1300 кроме того содержит выполнение 1320 расширения полосы пропускания на основе информации о расширении полосы пропускания, обеспечиваемой аудиокодером, так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты, и/или так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты.

Способ 1300 основан на тех же самых соображениях, что и вышеописанный аудиокодер и вышеописанный аудиодекодер. Кроме того, следует заметить, что способ 1300 может быть дополнен любым из признаков и любой из функциональных возможностей, описанных здесь в связи с аудиодекодером. Кроме того, способ 1300 также может быть дополнен любым из признаков или любой из функциональных возможностей, описанных в связи с аудиокодером, с учетом того, что процесс декодирования по существу является обратным по отношению к процессу кодирования.

8. Выводы

Завершая выше приведенные пояснения, следует заметить, что варианты осуществления согласно изобретению относятся к речевому кодированию и, в частности, к речевому кодированию с использованием технологий, основанных на расширении полосы пропускания (BWE). Варианты осуществления согласно изобретению имеют своей целью повышение перцептуального качества декодированного сигнала посредством обнаружения фрикативных согласных или аффрикат в речевом сигнале и адаптации временного разрешения параметра расширения полосы пропускания, обусловленной соответствующей пост-обработкой (например, путем адаптации временного разрешения, используемого для обеспечения наборов информации о расширении полосы пропускания). Варианты осуществления согласно изобретению содержат обнаружение появлений и исчезновений участков речевого сигнала с фрикативным согласным или аффрикатой и обеспечение постобработки расширения полосы пропускания в ходе всего периода появления и исчезновения сигнала с фрикативным согласным или аффрикатой (где обработка расширения полосы пропускания может, например, содержать обеспечение указанной информации о расширении полосы пропускания на стороне аудиодекодера, и может содержать выполнение расширения полосы пропускания на стороне аудиодекодера). В результате реже появляются артефакты пред-эхо и пост-эхо, и появляется возможность моделирования достаточно мягкого на слух появления и исчезновения участков сигнала с фрикативным согласным или аффрикатой с использованием мелкоструктурных параметров расширения полосы пропускания. В результате удается избежать неприятных для слуха резких звуков, связанных с фрикативными согласными или аффрикатами, и появления раздражающих артефактов типа пред-эхо и пост-эхо в кодированном сигнале.

Варианты осуществления согласно изобретению превосходят известные технические решения. Например, в [1] предложено выравнивать момент начала кадра с параметром расширения полосы пропускания с моментом изменения наклона спектра. Изменение наклона спектра может означать появление или внезапное исчезновение участка сигнала с фрикативным согласным или аффрикатой. Метод выравнивания, предложенный в [1], предотвращает появление пред-эхо фрикативных согласных или аффрикат в способах расширения полосы пропускания. Однако при этом обнаруживаются только появления фрикативного согласного или аффрикаты, а их исчезновения пропускаются. Вдобавок, вышеупомянутый метод не учитывает мелкоструктурное моделирование временных характеристик спектра, относящихся к появлению и исчезновению отдельных фрикативных согласных или аффрикат. Следовательно, звук от них может быть неприятным и слишком резким.

Далее описываются некоторые варианты и аспекты осуществления согласно изобретению.

Например, новый кодер с расширением полосы пропускания содержит детектор фрикативных согласных или аффрикат и переключатель спектрально-временного разрешения расширения полосы пропускания.

Детектор фрикативных согласных или аффрикат предпочтительно способен обнаруживать как появления, так и исчезновения фрикативных согласных или аффрикат. Подходящий вариант реализации детектора с несложными вычислительными возможностями может быть, например, основан на оценке частоты перехода через нуль (ZCR) и отношении энергий (за подробностями обратитесь, например, к [2] и [3]). Детектор может быть дополнительно подсоединен к дискриминатору речи/музыки, чтобы ограничить последующую новую обработку только речевыми сигналами.

В некоторых вариантах осуществления желательно или даже необходимо, чтобы детектор был способен к определенному временному прогнозированию, чтобы иметь возможность временного переключения разрешения расширения полосы пропускания, с тем чтобы на протяжении всего интервала появления и исчезновения фрикативного согласного или аффрикаты использовать мелкострктурное временное разрешение при оценке/синтезе параметров расширения полосы пропускания. Длительность участков сигнала, на которых появляется или исчезает фрикативный согласный или аффриката, может либо адаптивно измеряться, либо она предполагается равной фиксированному эмпирически определенному значению. Например, количество временных интервалов или временных субинтервалов, которое обрабатывается с высоким временным разрешением в ответ на обнаружение появления или исчезновения фрикативного согласного или аффрикаты, моет быть определено заранее или отрегулировано в зависимости от сигнальных характеристик. Например, обнаруженный фрикативный согласный или аффриката может активировать в четыре раза более высокое временное разрешение в течение интервала, соответствующего группе из нескольких последовательных кадров сигнала (например, двух или трех кадров), которые полностью охватывают обнаруженное появление или исчезновение фрикативного согласного или аффрикаты. Предпочтительно, но не обязательно, чтобы эта группа из кадров с высоким временным разрешением находилась приблизительно в центре по отношению к обнаруженному появлению или исчезновению фрикативного согласного или аффрикаты, перекрывая тем самым весь интервал процесса появления или исчезновения фрикативного согласного или аффрикаты. В случае нестационарного адаптивного кадрирования с расширением полосы пропускания активация более высокого временного разрешения на протяжении всей группы кадров, инициируемая обнаружением фрикативных согласных или аффрикат, заменяет собой нестационарное адаптивное кадрирование.

Далее обсуждаются некоторые детали, относящиеся к рассмотренным фигурам.

На фиг. 2 показана спектрограмма исходного речевого сигнала с пунктирными пурпурными вертикальными полосками, изображающими известное кадрирование с расширением полосы пропускания. Черные пунктирные полоски обозначают границы фрикативного согласного или аффрикаты.

На фиг. 3 показана спектрограмма исходного речевого сигнала с новым кадрированием с расширением полосы пропускания, адаптированным к границам фрикативных согласных или аффрикат, которые обозначены сплошными черными вертикальными линиями. В момент обнаружения границы фрикативного согласного или аффрикаты (появление или исчезновение), разрешение при постобработке расширения полосы пропускания повышается путем переключения на в четыре раза более высокое разрешение в течение группы из трех последовательных кадров.

На фиг. 4 изображена результирующая спектрограмма того же речевого сигнала, закодированного с использованием стандартного кадрирования с расширением полосы пропускания. Желтые эллипсы показывают артефакты, вызванные стандартным кадрированием с расширением полосы пропускания (слева направо): А - пред-эхо и резкое появление фрикативного согласного или аффрикаты; В - пост-эхо и резкое исчезновение фрикативного согласного или аффрикаты; С - утечка энергии из предшествующей гласной в смоделированный фрикативный согласный или аффрикату из-за слишком грубого кадрирования.

На фиг. 5 показана результирующая спектрограмма того же речевого сигнала, закодированного с использованием нового кадрирования с расширением полосы пропускания. Проблемные области, указанные на фиг. 4, существенно улучшились.

В заключение следует сказать, что обсужденные здесь спектрограммы показывают возможность существенного улучшения качества аудиосигнала в результате применения концепции согласно настоящему изобретению.

Кроме того, подытоживая вышесказанное, можно утверждать, что варианты осуществления согласно изобретению обеспечивают создание аудиокодера или способа аудиокодирования, либо связанной с ним компьютерной программы, как было описано выше.

Кроме того, варианты осуществления согласно изобретению обеспечивают создание аудиодекодера или способа аудиодекодирования, либо связанной с ним компьютерной программы, как было описано выше.

Кроме того, варианты осуществления согласно изобретению обеспечивают создание кодированного аудиосигнала или запоминающей среды, где хранится закодированный аудиосигнал, ка было описано выше.

9. Альтернативные варианты реализации

Хотя некоторые аспекты были описаны здесь в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, где блок или устройство соответствует шагу способа или признаку шага способа. Аналогичным образом, аспекты, описанные в контексте шага способа, также представляют описание соответствующего блока, элемента или признака соответствующего устройства. Некоторые или все шаги способа могут выполняться аппаратным устройством (или с его использованием) таким как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления указанным устройством может выполняться какой-либо один или несколько из числа наиболее важных шагов способа.

Новый кодированный аудиосигнал может запоминаться в цифровой запоминающей среде или может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, например Интернет.

В зависимости от требований конкретной реализации варианты осуществления изобретения могут быть реализованы в виде аппаратного обеспечения или программного обеспечения. Такая реализация может быть выполнена с использованием цифровой запоминающей среды, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, содержащих запомненные на них считываемые управляющие сигналы, которые действуют вместе (или способны к совместному действию) с программируемой компьютерной системой, обеспечивая выполнение соответствующего способа. Таким образом, указанная цифровая запоминающая среда может представлять собой считываемую компьютером среду.

В некоторых вариантах осуществления согласно изобретению содержится носитель данных, содержащий электрически считываемые управляющие сигналы, способные совместно действовать с программируемой компьютерной системой, обеспечивая выполнение одного из описанных здесь способов.

В общем случае варианты осуществления настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, где программный код предназначен для выполнения одного из способов, когда упомянутый программный продукт исполняется на компьютере. Указанный программный код может храниться, например, на машинно-считываемом носителе.

В других вариантах осуществления содержится компьютерная программа для выполнения одного из описанных здесь способов, которая хранится на машинно-считываемом носителе.

Другими словами, вариант осуществления нового способа представляет собой компьютерную программу, содержащую программный код для выполнения одного из описанных здесь способов, когда эта компьютерная программа исполняется на компьютере. Дополнительный вариант осуществления упомянутых новых способов таким образом представляет собой носитель данных (или цифровую запоминающую среду, либо считываемую компьютером среду), содержащий записанную на нем компьютерную программу для выполнения одного из описанных здесь способов. Носитель данных, цифровая запоминающая среда или среда с записями, как правило, являются материальными средами и/или средами для длительного хранения.

Таким образом, еще одним вариантом осуществления нового способа является поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения оного из вышеописанных способов. Этот поток данных или последовательность сигналов может быть сконфигурирована, например, для передачи через соединение для передачи данных, например, через Интернет.

Еще один вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, сконфигурированное для или адаптированное для выполнения одного из описанных здесь способов.

Следующий вариант осуществления содержит компьютер с установленной на нем компьютерной программой для выполнения одного из описанных здесь способов.

Еще один вариант осуществления согласно изобретению содержит устройство или систему, сконфигурированную для пересылки на приемник (например, электронным или оптическим путем) компьютерной программы для выполнения одного из описанных здесь способов. Приемником может быть, например, компьютер, мобильное устройство, запоминающее устройство или т.п. Упомянутое устройство или система может, например, содержать файловый сервер для пересылки указанной компьютерной программы на приемник.

В некоторых вариантах осуществления может использоваться программируемое логическое устройство (например, вентильная матрица, программируемая пользователем) для выполнения некоторых либо всех функциональных возможностей описанных здесь способов. В некоторых вариантах осуществления вентильная матрица, программируемая пользователем, может действовать совместно с микропроцессором для выполнения одного из описанных здесь способов. В общем случае упомянутые способы предпочтительно выполняются любым аппаратным устройством.

Описанное здесь устройство может быть реализовано с использованием аппаратного устройства, использованием компьютера или использованием комбинации аппаратного устройства и компьютера.

Описанные здесь способы могут выполняться с использованием аппаратного устройства, использованием компьютера или использованием комбинации аппаратного устройства и компьютера.

Вышеописанные варианты осуществления являются просто иллюстрацией принципов настоящего изобретения. Понятно, что специалистам в данной области техники очевидны различные модификации и варианты описанных здесь компоновок и их деталей. Таким образом, предполагается, что изобретение ограничивается только объемом независимых пунктов формулы изобретения, но не конкретными деталями, представленными в описании и пояснениях к рассмотренным здесь вариантам осуществления.

Список литературных источников

[1] United states patent number US 20110099018, "Apparatus and Method for Calculating Bandwidth Extension Data Using a Spectral Tilt Controlled Framing".

[2] D, Ruinskiy and N. Dadush and Y. Lavner, "Spectral and textural feature-based system for automatic detection of fricatives and affricates," IEEE 26th Convention of Electrical and Electronics Engineers in Israel (IEEEI), pp.771 -775, 2010.

[3] H. Fujihara and M. Goto, "Three techniques for improving automatic synchronization between music and lyrics: Fricative detection, filler model, and novel feature vectors for vocal activity detection", IEEE International Conference on Audio, Speech and Signal Processing, Las Vegas, USA, 2008.

Похожие патенты RU2651425C2

название год авторы номер документа
АУДИОКОДЕР, АУДИОДЕКОДЕР, СПОСОБ ОБЕСПЕЧЕНИЯ КОДИРОВАННОЙ АУДИОИНФОРМАЦИИ, СПОСОБ ОБЕСПЕЧЕНИЯ ДЕКОДИРОВАННОЙ АУДИОИНФОРМАЦИИ, КОМПЬЮТЕРНАЯ ПРОГРАММА И КОДИРОВАННОЕ ПРЕДСТАВЛЕНИЕ С ИСПОЛЬЗОВАНИЕМ СИГНАЛЬНО-АДАПТИВНОГО РАСШИРЕНИЯ ПОЛОСЫ ПРОПУСКАНИЯ 2014
  • Диш Саша
  • Хельмрих Кристиан
  • Хильперт Йоханнес
  • Робийяр Жюльен
  • Шмидт Константин
  • Вильде Штефан
RU2641461C2
СПОСОБ ГИБРИДНОГО МАСКИРОВАНИЯ: КОМБИНИРОВАННОЕ МАСКИРОВАНИЕ ПОТЕРИ ПАКЕТОВ В ЧАСТОТНОЙ И ВРЕМЕННОЙ ОБЛАСТИ В АУДИОКОДЕКАХ 2016
  • Леконт Жереми
  • Томасек Адриан
RU2714365C1
АУДИОКОДЕРЫ, АУДИОДЕКОДЕРЫ, СПОСОБЫ И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ, ПРИМЕНЯЮЩИЕ КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ МЛАДШИХ ЗНАЧАЩИХ БИТОВ 2018
  • Равелли, Эммануэль
  • Фукс, Гийом
  • Шнелль, Маркус
  • Томасек, Адриан
  • Геиэрсбергер, Штефан
RU2767286C2
АУДИОДЕКОДЕР И СПОСОБ ОБЕСПЕЧЕНИЯ ДЕКОДИРОВАННОЙ АУДИОИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ МАСКИРОВАНИЯ ОШИБКИ НА ОСНОВАНИИ СИГНАЛА ВОЗБУЖДЕНИЯ ВО ВРЕМЕННОЙ ОБЛАСТИ 2014
  • Леконт Жереми
  • Маркович Горан
  • Шнабель Михаэль
  • Петшик Гжегош
RU2678473C2
АУДИОДЕКОДЕР И СПОСОБ ОБЕСПЕЧЕНИЯ ДЕКОДИРОВАННОЙ АУДИОИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ МАСКИРОВАНИЯ ОШИБКИ, МОДИФИЦИРУЮЩЕГО СИГНАЛ ВОЗБУЖДЕНИЯ ВО ВРЕМЕННОЙ ОБЛАСТИ 2014
  • Леконт Жереми
RU2667029C2
АУДИОКОДЕРЫ, АУДИОДЕКОДЕРЫ, СПОСОБЫ И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ, ПРИМЕНЯЮЩИЕ КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ МЛАДШИХ ЗНАЧАЩИХ БИТОВ 2018
  • Равелли, Эммануэль
  • Фукс, Гийом
  • Шнелль, Маркус
  • Томасек, Адриан
  • Геиэрсбергер, Штефан
RU2769255C2
КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ ИМПУЛЬСНЫХ И ОСТАТОЧНЫХ ЧАСТЕЙ ЗВУКОВОГО СИГНАЛА 2022
  • Маркович, Горан
RU2825308C2
АУДИОКОДЕРЫ, АУДИОДЕКОДЕРЫ, СПОСОБЫ И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ, ПРИМЕНЯЮЩИЕ КОДИРОВАНИЕ И ДЕКОДИРОВАНИЕ МЛАДШИХ ЗНАЧАЩИХ БИТОВ 2018
  • Равелли, Эммануэль
  • Фукс, Гийом
  • Шнелль, Маркус
  • Томасек, Адриан
  • Геиэрсбергер, Штефан
RU2769218C2
КОДЕР И ДЕКОДЕР АУДИОСИГНАЛА, ИСПОЛЬЗУЮЩИЕ ПРОЦЕССОР ЧАСТОТНОЙ ОБЛАСТИ С ЗАПОЛНЕНИЕМ ПРОМЕЖУТКА В ПОЛНОЙ ПОЛОСЕ И ПРОЦЕССОР ВРЕМЕННОЙ ОБЛАСТИ 2015
  • Диш Саша
  • Дитц Мартин
  • Мультрус Маркус
  • Фукс Гийом
  • Равелли Эммануэль
  • Нойзингер Маттиас
  • Шнелль Маркус
  • Шуберт Беньямин
  • Грилл Бернхард
RU2671997C2
КОДЕР И ДЕКОДЕР АУДИОСИГНАЛА, ИСПОЛЬЗУЮЩИЕ ПРОЦЕССОР ЧАСТОТНОЙ ОБЛАСТИ, ПРОЦЕССОР ВРЕМЕННОЙ ОБЛАСТИ И КРОССПРОЦЕССОР ДЛЯ НЕПРЕРЫВНОЙ ИНИЦИАЛИЗАЦИИ 2015
  • Диш Саша
  • Дитц Мартин
  • Мультрус Маркус
  • Фукс Гийом
  • Равелли Эммануэль
  • Нойзингер Маттиас
  • Шнелль Маркус
  • Шуберт Беньямин
  • Грилл Бернхард
RU2668397C2

Иллюстрации к изобретению RU 2 651 425 C2

Реферат патента 2018 года АУДИОКОДЕРЫ, АУДИОДЕКОДЕРЫ, СИСТЕМЫ, СПОСОБЫ И КОМПЬЮТЕРНЫЕ ПРОГРАММЫ, ИСПОЛЬЗУЮЩИЕ УВЕЛИЧЕННОЕ ВРЕМЕННОЕ РАЗРЕШЕНИЕ ВО ВРЕМЕННОЙ ОКРЕСТНОСТИ ПОЯВЛЕНИЙ ИЛИ ИСЧЕЗНОВЕНИЙ ФРИКАТИВНЫХ СОГЛАСНЫХ ИЛИ АФФРИКАТОВ

Изобретение относится к средствам для аудиокодирования и аудиодекодирования. Технический результат заключается в повышении качества звучания за счет расширения полосы пропускания. Аудиокодер для обеспечения кодированной аудиоинформации на основе введенной аудиоинформации выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты. Вдобавок или в качестве альтернативы, информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты. 9 н. и 13 з.п. ф-лы, 13 ил.

Формула изобретения RU 2 651 425 C2

1. Аудиокодер (100) для обеспечения кодированной аудиоинформации (112) на основе введенной аудиоинформации (110), причем аудиокодер содержит:

блок (130) обеспечения информации о расширении полосы пропускания, выполненный с возможностью обеспечения информации (132) о расширении полосы пропускания с использованием переменного временного разрешения;

детектор (120), выполненный с возможностью обнаружения появления фрикативного согласного или аффрикаты;

причем аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением по меньшей мере для заранее определенного периода (630а) времени перед моментом (tf) обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени (630с) после момента обнаружения появления фрикативного согласного или аффрикаты;

причем блок обеспечения информации о расширении полосы пропускания выполнен с возможностью обеспечения информации о расширении полосы пропускания таким образом, что информация о расширении полосы пропускания связана с регулярными временными интервалами (620а, 620b, 620c, 620d, 620e, 620f; 720a-720f) равной длительности,

при этом блок обеспечения информации о расширении полосы пропускания выполнен с возможностью обеспечения одного набора информации о расширении полосы пропускания для временного интервала (620а, 620b, 620c, 620d, 620f; 720a, 720b, 720c, 720f) заданной длительности, если используется первое временное разрешение, и

при этом блок обеспечения информации о расширении полосы пропускания выполнен с возможностью обеспечения множества наборов информации о расширении полосы пропускания, связанных с временными субинтервалами (630а, 630b, 630c, 630d) для временного интервала (620e; 720d, 720e) заданной длительности, если используется второе временное разрешение;

при этом аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что по меньшей мере один временной субинтервал (630a; 730d), с которым связан набор информации о расширении полосы пропускания, непосредственно предшествует другому временному субинтервалу (630b; 730e), с которым связан другой набор информации о расширении полосы пропускания, и при этом в течение другого временного субинтервала (630b; 730e) обнаруживается появление фрикативного согласного или аффрикаты,

так что увеличенное временное разрешение используется по меньшей мере в одном временном субинтервале (630a; 730d), предшествующем временному субинтервалу (630b; 730e), в котором обнаруживается появление фрикативного согласного или аффрикаты.

2. Аудиокодер (100) по п. 1, причем аудиокодер выполнен с возможностью переключения с первого временного разрешения для обеспечения информации о расширении полосы пропускания на второе временное разрешение для обеспечения информации о расширении полосы пропускания в ответ на обнаружение появления фрикативного согласного или аффрикаты,

причем второе временное разрешение выше, чем первое временное разрешение.

3. Аудиокодер (100) по п. 1, причем аудиокодер выполнен с возможностью разделения заданного временного интервала (620e; 720d, 720e) заданной длительности на четыре временных субинтервала (630а-630d; 730a-730h) равной длины, если для обеспечения информации о расширении полосы пропускания для заданного временного интервала (620e; 720d, 720e) заданной длительности используется увеличенное временное разрешение,

так что для заданного временного интервала заданной длительности обеспечивается четыре набора информации о расширении полосы пропускания.

4. Аудиокодер (100) по п. 1,

причем аудиокодер выполнен с возможностью избирательного использования увеличенного временного разрешения для обеспечения информации о расширении полосы пропускания для первого временного интервала (720d) заданной длительности, предшествующего второму временному интервалу (720e) заданной длительности,

если на втором временном интервале (720e) обнаруживается появление фрикативного согласного или аффрикаты, и если отрезок времени между моментом обнаружения появления фрикативного согласного или аффрикаты и границей между первым временным интервалом (720d) и вторым временном интервалом (720e) меньше заранее определенного отрезка времени.

5. Аудиокодер (100) по п. 1,

причем аудиокодер выполнен с возможностью выполнения временного просмотра вперед, так что увеличенное временное разрешение используется для обеспечения информации о расширении полосы пропускания для первого временного интервала (720d) заданной длительности, предшествующего второму временному интервалу (720e) упомянутой заданной длительности, в ответ на обнаружение появления фрикативного согласного или аффрикаты на втором временном интервале (720e).

6. Аудиокодер (100) по п. 1,

причем аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с одним и тем же увеличенным временным разрешением по меньшей мере для заранее определенного периода (630a; 730d) времени перед моментом (tf) обнаружения появления фрикативного согласного или аффрикаты и для заранее определенного периода (630с; 730f) времени после момента обнаружения появления фрикативного согласного или аффрикаты.

7. Аудиокодер (100) по п. 1,

причем аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что наборы информации о расширении полосы пропускания обеспечиваются с одинаковыми увеличенными временными разрешениями по меньшей мере для первого временного субинтервала (630a; 730d), второго временного субинтервала (630b; 730e) и третьего временного субинтервала (630с, 730f),

причем первый временной субинтервал непосредственно предшествует второму временному субинтервалу,

причем появление фрикативного согласного или аффрикаты обнаруживается на втором временном субинтервале; и

при этом третий временной субинтервал следует непосредственно за вторым временным субинтервалом.

8. Аудиокодер (100) по п. 1,

в котором детектор выполнен с возможностью обнаружения исчезновения фрикативного согласного или аффрикаты; и

при этом аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты, и для заранее определенного периода времени, следующего за моментом обнаружения исчезновения фрикативного согласного или аффрикаты.

9. Аудиокодер (100) по п. 1, в котором детектор выполнен с возможностью оценки частоты перехода через нуль и/или отношения энергий, и/или наклона спектра, чтобы обнаруживать появление фрикативного согласного или аффрикаты.

10. Аудиокодер (100) по п. 1, в котором детектор выполнен с возможностью оценки частоты перехода через нуль и/или отношения энергий, и/или наклона спектра, чтобы обнаруживать исчезновение фрикативного согласного или аффрикаты.

11. Аудиокодер (100) по п. 1, причем аудиокодер выполнен с возможностью избирательной настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением в ответ на обнаружение появления фрикативного согласного или аффрикаты только для участка речевого сигнала, но не для участка музыкального сигнала.

12. Аудиокодер (100) по п. 1, причем аудиокодер выполнен с возможностью избирательного использования увеличенного временного разрешения для обеспечения информации о расширении полосы пропускания для множества следующих друг за другом временных интервалов, которые охватывают момент обнаружения появления фрикативного согласного или аффрикаты, в ответ на обнаружение появления фрикативного согласного или аффрикаты, либо в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты.

13. Аудиокодер (100) по п. 12, причем аудиокодер выполнен с возможностью избирательного использования увеличенного временного разрешения для обеспечения информации о расширении полосы пропускания для множества следующих друг за другом временных интервалов, которые полностью охватывают появление обнаруженного фрикативного согласного или аффрикаты.

14. Аудиокодер (800) для обеспечения кодированной аудиоинформации (812) на основе введенной аудиоинформации (810), причем аудиокодер содержит:

блок (830) обеспечения информации о расширении полосы пропускания, выполненный с возможностью обеспечения информации (832) о расширении полосы пропускания с использованием переменного временного разрешения;

детектор (820), выполненный с возможностью обнаружения исчезновения фрикативного согласного или аффрикаты;

причем аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты.

15. Аудиокодер (800) по п. 14,

причем аудиокодер выполнен с возможностью настройки временного разрешения, используемого блоком обеспечения информации о расширении полосы пропускания, так что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты.

16. Аудиодекодер (1000) для обеспечения декодированной аудиоинформации (1012) на основе кодированной аудиоинформации (1010),

причем аудиодекодер выполнен с возможностью выполнения расширения (1030) полосы пропускания на основе информации (1032) о расширении полосы пропускания, обеспеченной аудиокодером,

так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты.

17. Система (1100) кодирования и декодирования, содержащая:

аудиокодер (1120), согласно одному из пп. 1-15; и

аудиодекодер (1140), выполненный с возможностью приема кодированной аудиоинформации (1130), обеспечиваемой аудиокодером, и для обеспечения на ее основе декодированной аудиоинформации (1150),

причем аудиодекодер выполнен с возможностью выполнения расширения полосы пропускания на основе информации о расширении полосы пропускания, обеспеченной аудиокодером,

так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты, или

так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты.

18. Способ (1200) обеспечения кодированной аудиоинформации на основе введенной аудиоинформации, причем способ содержит:

обеспечение (1220) информации о расширении полосы пропускания с использованием переменного временного разрешения; и

обнаружение (1210) появления фрикативного согласного или аффрикаты,

причем временное разрешение, используемое для обеспечения информации о расширении полосы пропускания, настраивается таким образом, что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения появления фрикативного согласного или аффрикаты, и для заранее определенного периода времени после момента обнаружения появления фрикативного согласного или аффрикаты;

причем информация о расширении полосы пропускания обеспечивается таким образом, что информация о расширении полосы пропускания связана с регулярными временными интервалами (620а, 620b, 620c, 620d, 620e, 620f; 720a-720f) равной длительности,

причем один набор информации о расширении полосы пропускания обеспечивается для временного интервала (620а, 620b, 620c, 620d, 620f; 720a, 720b, 720c, 720f) заданной длительности, если используется первое временное разрешение, и

при этом множества наборов информации о расширении полосы пропускания, связанных с временными субинтервалами (630а, 630b, 630c, 630d), обеспечиваются для временного интервала (620e; 720d, 720e) заданной длительности, если используется второе временное разрешение;

причем используемое временное разрешение настраивается так, что по меньшей мере один временной субинтервал (630a; 730d), с которым связан набор информации о расширении полосы пропускания, непосредственно предшествует другому временному субинтервалу (630b; 730e), с которым связан другой набор информации о

расширении полосы пропускания, и при этом в течение другого временного субинтервала (630b; 730e) обнаруживается появление фрикативного согласного или аффрикаты,

так что увеличенное временное разрешение используется по меньшей мере в одном временном субинтервале (630a; 730d), предшествующем временному субинтервалу (630b; 730e), в котором обнаруживается появление фрикативного согласного или аффрикаты.

19. Способ (1200) обеспечения кодированной аудиоинформации на основе введенной аудиоинформации, причем способ содержит:

обеспечение (1220) информации о расширении полосы пропускания с использованием переменного временного разрешения; и

обнаружение (1210) исчезновения фрикативного согласного или аффрикаты;

причем временное разрешение, используемое для обеспечения информации о расширении полосы пропускания, настраивается таким образом, что информация о расширении полосы пропускания обеспечивается с увеличенным временным разрешением в ответ на обнаружение исчезновения фрикативного согласного или аффрикаты.

20. Способ (1300) обеспечения декодированной аудиоинформации на основе кодированной аудиоинформации,

причем способ содержит выполнение (1320) расширения полосы пропускания на основе информации о расширении полосы пропускания, обеспеченной аудиокодером,

так что расширение полосы пропускания выполняется с увеличенным временным разрешением по меньшей мере для заранее определенного периода времени перед моментом обнаружения исчезновения фрикативного согласного или аффрикаты и для заранее определенного периода времени после момента обнаружения исчезновения фрикативного согласного или аффрикаты.

21. Компьютерно-читаемый носитель данных, содержащий компьютерную программу для выполнения способа по одному из пп. 18 и 19 при выполнении упомянутой компьютерной программы на компьютере.

22. Компьютерно-читаемый носитель данных, содержащий компьютерную программу для выполнения способа по п. 20 при выполнении упомянутой компьютерной программы на компьютере.

Документы, цитированные в отчете о поиске Патент 2018 года RU2651425C2

Способ приготовления лака 1924
  • Петров Г.С.
SU2011A1
Приспособление для суммирования отрезков прямых линий 1923
  • Иванцов Г.П.
SU2010A1
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок 1923
  • Григорьев П.Н.
SU2008A1
Приспособление для суммирования отрезков прямых линий 1923
  • Иванцов Г.П.
SU2010A1
WO 00/45378 A2, 03.08.2000
Способ приготовления лака 1924
  • Петров Г.С.
SU2011A1
Приспособление для суммирования отрезков прямых линий 1923
  • Иванцов Г.П.
SU2010A1
Способ приготовления лака 1924
  • Петров Г.С.
SU2011A1
RU 2011101617 A, 27.07.2012.

RU 2 651 425 C2

Авторы

Диш Саша

Хельмрих Кристиан

Мультрус Маркус

Шнелль Маркус

Триттарт Артур

Даты

2018-04-19Публикация

2014-01-28Подача