Изобретение относится к области высококачественного кодирования звука. В частности, изобретение относится к области высококачественного кодирования многоканальных звуковых данных. Более конкретно, в изобретении определены кодеры и декодеры и способы кодирования и декодирования многоканальных звуковых данных.
Хотя возможно множество многоканальных конфигураций/установок, конфигурация/установка 5.1 является самой популярной (см. также фиг.1). Типичная многоканальная установка 5.1 состоит из пяти громкоговорителей, а именно левого переднего (Lf), правого переднего (Rf), центрального (C) громкоговорителей, левого (Ls) громкоговорителя объемного звучания и правого (Rs) громкоговорителя объемного звучания, дополненных дополнительным громкоговорителем LFE (РНЧ, расширения нижних частот), который может быть установлен под произвольным углом. В прошлом было разработано несколько подходов для сжатия многоканальных звуковых данных, таких как многоканальные звуковые данные 5.1. Краткий их обзор приведен ниже.
В звуковом стандарте MPEG-2, ISO/IEC 13818-3:1998 Information technology -- Generic coding of moving pictures and associated audio information -- Part 3: Audio, предусмотрено кодирование многоканального звука при поддержке обратной совместимости с MPEG-1 Audio, ISO/IEC 11172-3:1993 Information technology -- Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s -- Part 3: Audio, который относится только к кодированию монофонического и стереофонического звука. Обратная совместимость достигается за счет формирования основного стереосигнала, полученного из многоканального содержания, которое размещено в части данных потока двоичных сигналов MPEG-1. Три дополнительных сигнала затем помещают во вспомогательную часть данных потока двоичных сигналов MPEG-1. Эта технология называется матрицированием. Декодер звука MPEG-1 может генерировать представительный стереосигнал (Lо, Ro) из потока двоичных сигналов, в то время как декодер звука MPEG-2 может выделять дополнительные каналы и восстанавливать декодированную версию 5 входных каналов. Обратная совместимость обеспечивается за счет высокой битовой скорости передачи информации. Как правило, требуется битовая скорость передачи информации 640 кбит/сек для получения высокого качества звука для материала пяти каналов при использовании MPEG-2 Layer II.
В MPEG-2 Advanced Audio Coding (AAC), ISO/IEC TR 13818-5:1997/Amd 1:1999 Advanced Audio Coding (AAC, ПЗК перспективное звуковое кодирование) многоканальный звук кодируют в формате без обеспечения обратной совместимости. Это предоставляет больше свободы для кодера и обеспечивает преимущество, состоящее в том, что более высокое качество (прозрачность) звука может быть получено при битовой скорости передачи информации 320 кбит/сек по сравнению с MPEG-2 Layer II при 640 кбит/сек. В конфигурации каналов 5(.l) ПЗК позволяет кодировать пары каналов, которые являются симметричными для слушателя, используя стереоинструмент средней стороны (MS): (Lf, Rf) и (Ls, Rs). Центральный канал (C) и (необязательный) канал LFE кодируют отдельно. В качестве альтернативы можно использовать интенсивный стереозвук (IS) для объединения нескольких звуковых каналов в один канал, дополнительно предоставляя масштабирование информации для каждого канала.
При параметрическом многоканальном кодировании звука сигналы, соответствующие степени восприятия (или пространственные параметры), такие как различия интенсивности между каналами (IID, РИК), разница во времени между каналами (ITD, РВК) и когерентность между каналами (ICC, КМК), измеряют между каналами многоканального сигнала. Более полное описание пространственных параметров можно найти в публикации Christof Faller "Coding of Spatial Audio Compatible with Different Playback Formats", AES Convention Paper, AES 117th Convention, San Francisco, USA, 2004 October 28-31. Кроме того, для многоканального представления выполняют микширование с понижением до монофонического или стереофонического сигнала, который можно кодировать, используя стандартный монофонический или стереофонический кодер. Важное условие состоит в том, что микширование с понижением до монофонического или стереофонического сигнала должно обеспечивать достаточное качество звука, например, по меньшей мере, сопоставимое с микшированием с понижением в соответствии с ITU-R Recommendation BS.775-1. Передаваемая информация, таким образом, содержит кодированную версию монофонического или стереофонического сигнала и пространственные параметры. Микшированный сигнал с понижением до монофонического или стереофонического сигнала кодируют при существенно более низкой битовой скорости передачи данных, чем требуется для кодирования оригинального многоканального звукового сигнала, и пространственные параметры требуют очень малой ширины полосы пропускания при передаче. Поэтому микширование с понижением и пространственные параметры могут быть кодированы при полной битовой скорости передачи информации, которая составляет только часть битовой скорости передачи информации, требуемой в случае, когда кодируют все каналы. Параметрический декодер генерирует высококачественную аппроксимацию оригинального многоканального звукового сигнала из переданного монофонического или стереофонического сигнала после микширования с понижением и пространственных параметров.
Таким образом, цель настоящего изобретения состоит в том, чтобы предоставить масштабируемый многоканальный кодер звукового сигнала, который позволил бы обеспечить высокую эффективность, высокое качество сигнала и одновременно получать кодированный сигнал с обеспечением обратной совместимости.
В соответствии с первым аспектом изобретение предоставляет кодер звука, выполненный с возможностью кодирования многоканального звукового сигнала, содержащий:
модуль комбинирования кодера, предназначенный для генерирования части доминирующего сигнала и части остаточного сигнала, которые представляют собой комбинированное представление первого и второго звуковых сигналов, причем части доминирующего и остаточного сигнала получают путем применения математической процедуры к первому и второму звуковым сигналам, в котором в математической процедуре используется первый пространственный параметр, содержащий описание пространственных свойств первого и второго звуковых сигналов;
генератор параметра, предназначенный для генерирования
- первого набора параметров, содержащего второй пространственный параметр, и
- второго набора параметров, содержащего третий пространственный параметр; и
выходной генератор, предназначенный для генерирования кодированного выходного сигнала, содержащего
- первую выходную часть, содержащую часть доминирующего сигнала и первый набор параметров, и
- вторую выходную часть, содержащую часть остаточного сигнала и второй набор параметров.
В модуле комбинирования кодера первый и второй звуковые сигналы объединяют в части доминирующего и остаточного сигналов. Под "частями доминирующего и остаточного сигналов" понимают два звуковых сигнала, где доминирующий сигнал содержит доминирующие или главные части первого и второго звукового сигнала, в то время как остаточный сигнал содержит остаточную или младшую часть первого и второго звукового сигнала. Под "пространственным параметром" понимают параметр, который может быть математически выражен и основан на или получен из одних или нескольких пространственных свойств пары сигналов. Неисчерпывающий список таких пространственных свойств, которые могут быть рассчитаны таким образом, представляет собой: различия интенсивности между каналами (IID), разницу во времени между каналами (ITD) и когерентность между каналами (ICC). Модуль комбинирования кодера, предпочтительно, генерирует части доминирующего и остаточного сигнала так, чтобы эти части сигнала были в меньшей степени коррелированны, чем первый и второй звуковые сигналы. Предпочтительно, части доминирующего и остаточного сигнала генерируют так, чтобы они были не скоррелированы, то есть были ортогональными или, по меньшей мере, они должны быть скоррелированы в наименьшей возможной степени.
Часть остаточного сигнала может быть пропущена через фильтр низкой частоты, прежде чем она будет преобразована в поток выходных двоичных сигналов для представления в потоке битов, для которого требуется только очень ограниченная часть битовой скорости передачи данных. Частота среза для такой фильтрации низкой частоты может находиться в интервале от 500 Гц до 10 кГц, например 2 кГц.
Модуль комбинирования кодера может быть выполнен с возможностью объединения первого, второго и третьего звуковых сигналов с первой и второй частями доминирующего сигнала вместо комбинирования двух звуковых сигналов в один доминирующий сигнал, такой как описано выше.
Кодер в соответствии с первым аспектом предоставляет масштабируемое кодируемое представление первого и второго звуковых сигналов. Используя первую выходную часть, или часть основного уровня, можно декодировать первый и второй звуковые сигналы с приемлемым полученным в результате качеством звука при использовании существующих декодеров. Однако при использовании декодера, позволяющего использовать вторую выходную часть, или часть уровня детализации, можно получить более высокое качество сигнала. Таким образом, вторую выходную часть можно рассматривать как необязательную, которая требуется только в случае, когда желательно обеспечить наилучшее возможное качество звука.
В предпочтительном варианте выполнения часть остаточного сигнала содержит разность между первым и вторым звуковыми сигналами. Часть остаточного сигнала может быть точно определена как разность между первым и вторым звуковыми сигналами.
В предпочтительных вариантах выполнения математическая процедура содержит поворот в двумерном пространстве сигнала.
Третий пространственный параметр может содержать разность между вторым пространственным параметром и первым пространственным параметром. Для третьего пространственного параметра может использоваться дифференциальное кодирование.
Второй пространственный параметр может содержать параметр ICC на основе когерентности. Третий пространственный параметр может содержать разность между параметром ICC на основе когерентности и параметром ICC на основе корреляции. В предпочтительном варианте выполнения второй пространственный параметр содержит параметр ICC на основе когерентности, в то время как третий пространственный параметр содержит разность между вторым пространственным параметром и параметром ICC на основе корреляции.
Кодер может быть также выполнен с возможностью кодирования одной трети, одной четверти, одной пятой и одной шестой или даже больше части звукового сигнала в соответствии с принципами первого аспекта, комбинируя эти звуковые сигналы вместе с первым и вторым звуковыми сигналами и генерируя первую и вторую выходные части в ответ на них. Предпочтительно, такой кодер выполнен с возможностью кодирования 5.1 звукового сигнала при использовании конфигурации, содержащей множество модулей комбинирования кодера. В принципе, принцип кодера в соответствии с первым аспектом может использоваться для кодирования любых звуковых данных многоканального формата.
Во втором аспекте изобретение предоставляет звуковой декодер, предназначенный для генерирования многоканального звукового сигнала на основе кодированного сигнала, содержащий:
модуль комбинирования декодера, предназначенный для генерирования первого и второго звуковых сигналов на основе части доминирующего сигнала, части остаточного сигнала и первого и второго наборов пространственных параметров, причем пространственные параметры содержат описание пространственных свойств первого и второго звуковых сигналов, в котором часть остаточного сигнала и вторые пространственные параметры используют при определении матрицы смешения, которая используется для генерирования первого и второго звуковых сигналов.
Как описано в отношении первого аспекта, существующие декодеры могут использоваться для декодирования кодированного выходного сигнала кодера в соответствии с изобретением с использованием только части доминирующего сигнала и первых пространственных параметров. Однако декодер в соответствии со вторым аспектом в состоянии использовать вторую кодируемую выходную часть, то есть часть остаточного сигнала и пространственный параметр, определять матрицу смешения, которая обратно идентична комбинированию кодера, используемому в способе кодирования, и таким образом может быть получено совершенное восстановление первого и второго звуковых сигналов.
В предпочтительных вариантах выполнения декодер содержит декоррелятор, предназначенный для приема части доминирующего сигнала и генерирования декоррелированной части доминирующего сигнала в ответ на нее. Предпочтительно, суммирование части остаточного сигнала и декоррелированной части доминирующего сигнала применяют при определении матрицы смешения. Декодер может содержать аттенюатор, предназначенный для ослабления декоррелированной части доминирующего сигнала до добавления ее к части остаточного сигнала.
В предпочтительных вариантах выполнения матрица смешения применяет поворот в двумерном пространстве сигнала для частей доминирующего и остаточного сигнала.
Декодер может быть выполнен с возможностью приема множества наборов первых и вторых наборов параметров и множества частей остаточного сигнала для генерирования множества наборов первого и второго звуковых сигналов в ответ на них. В предпочтительном варианте выполнения декодер выполнен с возможностью приема трех наборов первых и вторых наборов параметров и трех частей остаточного сигнала для генерирования трех наборов первого и второго звуковых сигналов в ответ на них, в этом варианте выполнения декодер может генерировать шесть независимых звуковых каналов, таких которые соответствуют формату 5.1 или другому многоканальному формату.
В предпочтительных вариантах выполнения декодер содержит множество одно-двух канальных матриц смешения, размещенных в соответствующей конфигурации, что обеспечивает для декодера возможность декодирования кодируемого сигнала, представляющего больше чем два звуковых сигнала. Например, декодер может содержать конфигурацию из пяти матриц смешения, размещенных так, чтобы генерировать шесть звуковых сигналов и, таким образом, декодировать, например, звуковой сигнал, кодированный в соответствии с форматом 5.1.
В третьем аспекте изобретение предоставляет способ кодирования многоканального звукового сигнала, содержащий этапы:
1) генерирования части доминирующего сигнала и части остаточного сигнала, которые представляют собой комбинированное представление первого и второго звуковых сигналов, части доминирующего и остаточного сигнала получают, применяя математическую процедуру к первому и второму звуковым сигналам, в котором в математической процедуре используется первый пространственный параметр, содержащий описание пространственных свойств первого и второго звуковых сигналов,
2) генерирования первого набора параметра, содержащего второй пространственный параметр,
3) генерирования второго набора параметра, содержащего третий пространственный параметр, и
4) генерирования кодированного выходного сигнала, содержащего первую выходную часть, содержащую часть доминирующего сигнала и первый набор параметров, и вторую выходную часть, содержащую часть остаточного сигнала и второй набор параметров.
Те же преимущества и комментарии, которые были представлены в отношении первого аспекта, относятся к третьему аспекту.
В четвертом аспекте изобретение предоставляет способ генерирования многоканального звукового сигнала на основе кодированного сигнала, содержащий этапы:
1) приема кодированного сигнала, содержащего часть доминирующего сигнала, часть остаточного сигнала и набор первого параметра, набор второго параметра, содержащие описание пространственных свойств первого и второго звуковых сигналов,
2) определения матрицы смешения на основе части остаточного сигнала и второго пространственного параметра,
3) генерирования первого и второго звуковых сигналов на основе определенной матрицы смешения.
Способ может содержать этап декоррелирования части доминирующего сигнала и генерирования декоррелированной части доминирующего сигнала в ответ на него. Способ может дополнительно содержать этап суммирования части остаточного сигнала и декоррелированной части доминирующего сигнала. Определение матрицы смешения может быть основано на суммировании части остаточного сигнала и декоррелированной части доминирующего сигнала.
Предпочтительно, способ содержит прием множества наборов первых и вторых наборов параметров и множества частей остаточного сигнала для генерирования множества наборов первого и второго звуковых сигналов в ответ на них. В предпочтительном варианте выполнения способ содержит прием трех наборов первых и вторых наборов параметров и трех частей остаточного сигнала для генерирования трех наборов первого и второго звуковых сигналов в ответ на них. В этом варианте выполнения способ позволяет генерировать шесть независимых звуковых каналов, таких как в многоканальном формате 5.1 или его эквиваленте.
Те же преимущества и комментарии, которые были представлены для второго аспекта, относятся к четвертому аспекту.
В пятом аспекте изобретение предоставляет кодированный многоканальный звуковой сигнал, содержащий
- первую часть сигнала, содержащую часть доминирующего сигнала, и первый набор параметров, содержащий описание пространственных свойств первого и второго звуковых сигналов, и
- вторую часть сигнала, содержащую часть остаточного сигнала, и второй набор параметров, содержащий описание пространственных свойств первого и второго звуковых сигналов.
Звуковой сигнал в соответствии с пятым аспектом предоставляет те же преимущества, которые были сформулированы для первого аспекта, так как этот сигнал идентичен кодированному выходному сигналу кодера в соответствии с первым аспектом. Таким образом, кодированный многоканальный звуковой сигнал в соответствии с пятым аспектом представляет собой масштабируемый сигнал, так как первая часть сигнала, адаптированная для основного уровня, является обязательной, в то время как вторая часть сигнала, адаптированная для уровня детализации, является необязательной и требуется только для дополнительного повышения качества сигнала.
В шестом аспекте изобретение предоставляет носитель информации, на котором сохранен сигнал, такой как в пятом аспекте. Носитель информации может представлять собой жесткий диск, гибкий диск, CD (компакт-диск), DVD (универсальный цифровой диск), карту SD, запоминающее устройство memory stick, микросхему памяти и т.д.
В седьмом аспекте изобретение предоставляет выполняемый на компьютере программный код, предназначенный для выполнения способа в соответствии с первый аспектом.
В восьмом аспекте изобретение предоставляет считываемый компьютером носитель информации, содержащий выполняемый на компьютере программный код в соответствии с седьмым аспектом. Носитель информации может представлять собой жесткий диск, гибкий диск, CD (компакт-диск), DVD (универсальный цифровой диск), карту SD, запоминающее устройство memory stick, микросхему памяти и т.д.
В девятом аспекте изобретение предоставляет выполняемый на компьютере программный код, предназначенный для выполнения способа в соответствии с четвертый аспектом.
В десятом аспекте изобретение предоставляет считываемый компьютером носитель информации, содержащий выполняемый на компьютере программный код в соответствии с девятым аспектом. Носитель информации может представлять собой жесткий диск, гибкий диск, CD (компакт-диск), DVD (универсальный цифровой диск), карту SD, запоминающее устройство memory stick, микросхему памяти и т.д.
В одиннадцатом аспекте изобретение предоставляет устройство, содержащее кодер в соответствии с первым аспектом. Устройство может быть таким, как домашнее звуковое оборудование для развлечений, такое как усилители звука объемного звучания, приемники звука объемного звучания, аудио-видеоприемники, телевизионные приставки, проигрыватели/записывающие устройства DVD и т.д. В принципе, устройство может быть любым звуковым устройством, позволяющим обрабатывать многоканальные звуковые данные, например, формата 5.1.
В двенадцатом аспекте изобретение предоставляет устройство, содержащее декодер в соответствии со вторым аспектом. Устройство может быть таким, как домашнее звуковое оборудование для развлечений, такое как усилители звука объемного звучания, приемники звука объемного звучания, аудио-видеоприемники, телевизионные приставки, проигрыватели/записывающие устройства DVD и т.д.
Сигнал в соответствии с пятым аспектом пригоден для передачи через цепь передачи. Такая цепь передачи может содержать сервер, сохраняющий сигналы, сеть для распространения сигналов и клиенты, принимающие сигналы. Сторона клиента может содержать аппаратное средство, такое как, например, компьютеры, аудио-видеоприемники, телевизионные приставки и т.д. Таким образом, сигнал в соответствии с пятым аспектом пригоден для передачи при цифровой широковещательной передаче видеоизображений, цифровой широковещательной передаче звука или интернет-радио и т.д.
Следует понимать, что во всех указанных выше аспектах первый и второй звуковые сигналы могут быть сигналами полной ширины полосы пропускания. В случае необходимости первый и второй звуковые сигналы соответствуют представлению части полосы соответствующего звукового сигнала полной ширины полосы пропускания. Другими словами, обработка сигналов в соответствии с изобретением может быть применена для сигнала полной ширины полосы пропускания или может быть применена для части полосы пропускания.
Далее изобретение описано более подробно со ссылкой на прилагаемые чертежи, на которых
на фиг.1 показана схема установки громкоговорителей многоканальной системы 5.1,
на фиг.2 показан модуль комбинирования кодера в соответствии с изобретением,
на фиг.3 показан предпочтительный кодер, предназначенный для кодирования звукового сигнала 5.1 на основе комбинирования кодера для монофонического сигнала,
на фиг.4 показан предпочтительный декодер, соответствующий кодеру по фиг.3,
на фиг.5 показан предпочтительный кодер для кодирования звукового сигнала 5.1 на основе комбинирования кодера для стереофонического сигнала,
на фиг.6 показан предпочтительный декодер, соответствующий кодеру по фиг.5, и
на фиг.7 показан график, представляющий результаты тестов прослушивания, проведенного для принципа кодирования в соответствии с изобретением.
Хотя в изобретении возможны различные модификации и альтернативные формы, конкретные варианты выполнения представлены в качестве примера на чертежах и будут подробно описаны ниже. Следует, однако, понимать, что не предполагается ограничение изобретения конкретными раскрытыми формами. Скорее изобретение должно охватывать все модификации, эквиваленты и варианты в пределах сущности и объема изобретения, как определено в соответствии с приложенной формулой изобретения.
На фиг.1 показана схема типичной установки многоканальной аудиосистемы 5.1 с человеком-слушателем LP (ЧС), помещенным в центре пяти громкоговорителей C, Lf, Ls, Rf и Rs, которые получают независимые звуковые сигналы. Они предназначены для формирования у человека-слушателя LP пространственного звукового впечатления. В установке 5.1, кроме того, предусмотрен отдельный сверхнизкочастотный сигнал LFE. Таким образом, полное представление сигнала для такой многоканальной установки требует, в целом, шести независимых звуковых каналов, и, таким образом, большая битовая скорость передачи данных необходима для представления звукового сигнал для такой системы с полным качеством звука. Далее будут описаны варианты выполнения изобретения, которые обеспечивают возможность предоставления высокого звукового качества в системах 5.1 при низкой битовой скорости передачи данных.
На фиг.2 показан модуль EU комбинирования кодера 2-1 в соответствии с изобретением. Первый и второй звуковые сигналы x1, x2 подают в модуль ECM комбинирования кодера, где математическая процедура выполняется для первого и второго звуковых сигналов x1, x2, предпочтительно, содержащая поворот сигнала, чтобы объединить первый и второй звуковые сигналы x1, x2 и сгенерировать их параметрическое представление, содержащее часть m доминирующего сигнала и часть s остаточного сигнала. Первый пространственный параметр SP1, то есть параметр, описывающий пространственные свойства сигнала первого и второго звуковых сигналов x1, x2, используется в математической процедуре комбинирования кодера.
Генератор PG (ГП) параметра генерирует первые и вторые наборы PS1, PS2 параметров на основе первого и второго звуковых сигналов x1, x2. Первый набор PS1 параметров содержит второй пространственный параметр SP2, и второй набор PS2 параметров содержит третий пространственный параметр SP3. Кодированный выходной сигнал содержит первую выходную часть OP1, содержащую часть m доминирующего сигнала и первый набор PS1 параметров, в то время как вторая выходная часть OP2 содержит часть s остаточного сигнала и второй набор PS2 параметров.
При правильном выборе второго и третьего пространственных параметров SP2, SP3 относительно первого пространственного параметра SP1 возможно выполнить обратную процедуру комбинирования кодера или поворот на стороне декодера, и, таким образом, первый и второй звуковые сигналы x1, x2 могут быть прозрачно декодированы.
Предпочтительно, кодер помещает первую выходную часть на основной уровень своего выходного битового потока, в то время как вторую выходную часть помещают на уровень детализации выходного битового потока. Во время декодирования можно использовать только основной уровень, если приемлемо пониженное качество сигнала, в то время как наилучшее качество сигнала может быть получено, если уровень детализации также включен в обработку декодирования.
Описанный принцип кодирования предоставляет масштабируемый гибридный многоканальный аудиокодер с полной обратной совместимостью. Декодер может использоваться для следующих сценариев: 1) декодированный только монофонический или стереофонический сигнал, 2) декодированный многоканальный вывод без использования остаточных сигналов и 3) декодированный многоканальный вывод с остаточными сигналами.
Ниже описаны предпочтительные варианты выполнения модулей комбинирования кодера и пространственных параметров. Предпочтительный модуль комбинирования кодера объединяет первый и второй звуковые сигналы x1, x2 с частью m доминирующего сигнала и частью s остаточного сигнала с получением максимальной амплитуды суммы поворачиваемых сигналов в соответствии с уравнением:
(Ур. 1)
Коэффициенты поворота амплитуды, используемые в sc corr, получают из ICC и IID, то есть они основаны на пространственных свойствах первого и второго звуковых сигналов x1, x2. Эти коэффициенты поворота амплитуды предпочтительно рассчитывают в соответствии с:
Остаточный сигнал s выбирают как разность между x1 и x2. Следует отметить, что эта матрица всегда является обратимой, поскольку sc corr никогда не становится нулем, что означает, что совершенная реконструкция может быть получена, пока известен sc corr. Подходящее значение для постоянной отсечения SC corr,max составляет 1,2.
Чтобы получить sc corr в декодере, набор PS2 вторых параметров, предпочтительно, представляет собой разность между когерентностью и параметрами корреляции, и, таким образом, его передают вместе с соответствующим остаточным сигналом s на уровне детализации в масштабируемом битовом потоке. Первый набор PS1 параметров выбирают так, чтобы он содержал либо параметры когерентности или параметры корреляции и таким образом был передан на основном уровне вместе с частью m доминирующего сигнала.
Когда остаточный сигнал s доступен для декодера, получают параметры корреляции, что способствует вычислению sc corr , и при этом может быть определена инверсия матрицы смешения по Ур. 1:
В другом предпочтительном варианте выполнения модуль комбинирования кодера основан на Основном анализе компонентов (PCA, ОАК) и смешивает первый и второй звуковые сигналы x1, x2 в соответствии с:
где предпочтительный коэффициент α основан на ICC и IID в соответствии с:
Предпочтительные опции для кодирования набора PS2 второго параметра, который должен быть включен на уровне детализации, представляют собой параметры корреляции, которые включают в себя следующее:
1) Дифференциальное кодирование по времени или частоте параметров корреляции, не зависимых от параметров когерентности на основном уровне.
2) Дифференциальное кодирование параметров корреляции относительно параметров когерентности на основном уровне (то есть ΔICC = ICC correlation - ICC coherence).
Комбинацию 1 и 2 в зависимости от того, которое из них требует наименьшего количества битов.
3) На фиг.3 и 4 представлены предпочтительные конфигурации кодера формата 5.1 и соответствующего декодера 5.1 соответственно, которые основаны на комбинировании кодера для кодированного монофонического сигнала. На фиг.5 и 6 представлен альтернативный вариант кодера формата 5.1 и соответствующего декодера соответственно, которые основаны на комбинировании кодера для кодированного стереосигнала.
На фиг.3 показана конфигурация кодера, основанная на комбинировании шести независимых звуковых сигналов lf, ls, rf, rs, со, lfe для монофонического сигнала m, например, эти шесть звуковых сигналов представляют сигналы lf, ls, rf, rs, со, lfe формата 5.1. Кодер содержит пять модулей EU комбинирования кодера, как описано выше, эти EU модули, размещены для последовательного комбинирования шести сигналов lf, ls, rf, rs, со, lfe в одном монофоническом сигнале m. Начальный этап ST сегментации и преобразования выполняют для пар сигналов до комбинирования кодера. Этот этап ST содержит сегментирование звукового сигнала во временной области с получением перекрывающихся сегментов и затем преобразование этих перекрывающихся сегментов во временной области в представления в частотной области (обозначены заглавными буквами).
После сегментации и ST-преобразования два левых канала Lf и Ls объединяют с частью L доминирующего сигнала, первым и вторым наборами PS1a и PS1b параметров и остаточным сигналом ResL. Два правых канала Rf, Rs объединяют с частью R доминирующего сигнала, вторыми наборами PS2a и PS2b параметров и остаточным сигналом ResR. Полученные в результате части L и R доминирующих сигналов затем объединяют с частью LR доминирующего сигнала, частью ResLR остаточного сигнала и первым и вторым наборами PS4a, PS4b параметров. Центральный канал С0 и сверхнизкочастотный канал LFE комбинируют с частью C доминирующего сигнала, первым и вторым наборами PS3a, PS3b параметров и остаточным сигналом ResС. Наконец, части C и LR доминирующего сигнала комбинируют с частью М доминирующего сигнала, частью ResМ остаточного сигнала и первым и вторым наборами PS5a, PS5b параметров.
Предпочтительно, первый и второй наборы PS1a-PS5a, PS1b-PS5b параметров определены независимо для множества диапазонов частот (подполос) в сегменте перед квантованием, кодированием и передачей, однако, если это предпочтительно, обработка может быть выполнена для сигналов с полной шириной полосы пропускания. После анализа сигнала и обработки может быть применена необязательная обработка IT, OLA: сегменты могут быть преобразованными IT (ИП) обратно во временную область, и сегменты могут быть наложены друг на друга и суммированы OLA (НС), чтобы получить звуковой монофонический сигнал m во временной области. В целом кодер генерирует первую выходную часть, содержащую часть m доминирующего сигнала и пять наборов PS1a-PS5a параметров, и вторую выходную часть, содержащую пять частей ResL, ResR, ResLR, ResМ, ResС остаточного сигнала и пять наборов PS1b, PS5b параметров.
На фиг.4 показан декодер, соответствующий кодеру по фиг.3, то есть выполненный с возможностью приема выходного сигнала кодера по фиг.3. Декодер, по существу, применяет обработку, инверсную описанной для фиг.3. Декодер содержит (необязательную) начальную сегментацию, и частотное преобразование ST применяют к части m доминирующего сигнала. Декодер содержит пять аналогичных модулей DU комбинирования декодера, из которых один обозначен пунктирной линией. Модуль DU комбинирования декодера содержит матрицу ММ (МС) смешения, которая генерирует первый и второй сигналы на основе части доминирующего сигнала. Матрица ММ смешения, то есть инверсия матрицы смешения, применявшейся в модуле ECМ комбинирования кодера, определена на основе полученной части доминирующего сигнала, остаточной части и первого и второго наборов параметра.
В первом модуле DU комбинирования декодера, показанном на фиг.4, доминирующий сигнал М вначале декоррелируют в декорреляторе Dec и затем ослабляют в аттенюаторе Att. Декоррелированную и ослабленную часть доминирующего сигнала затем добавляют к части ResМ остаточного сигнала. Этот добавленный сигнал затем используется, чтобы определить матрицу ММ смешения. Аттенюатор Att устанавливают в соответствии с частью ResМ остаточного сигнала и первым набором PS5a параметра. Наконец, матрицу ММ смешения определяют, используя первый и второй наборы PS5a, PS5b параметров. Определенную матрицу ММ смешения затем комбинируют с частью М доминирующего сигнала, получая первый выходной сигнал LR и второй выходной сигнал C. Эти первый и второй выходные сигналы LR, C затем применяют в соответствующих модулях комбинирования кодера и последовательно объединяют для получения L, R, и С0, LFE соответственно. Наконец, L комбинируют в декодере для получения Lf и Lr, в то время как R комбинируют в декодере для получения Rf и Rr. После применения анализа сигнала и обработки сегменты преобразуют обратно IT во временную область, и сегменты накладывают друг на друга и суммируют OLA, чтобы получить представления во временной области lf, lr, rf, rr, co, lfe. Это обратное преобразование и наложение-суммирование IT, OLA являются необязательными.
На фиг.5 показан вариант выполнения кодера, в котором три модуля комбинирования кодера, каждый из которых функционирует в соответствии с принципами, описанными для кодера по фиг.3, используются для объединения шести звуковых сигналов Lf, Lr, Rf, Rr, C0, LFE в парах для трех частей L, R, C доминирующего сигнала с ассоциированными наборами PS1a-PS3a первого параметра, наборами PS1b-PS3b второго параметра и частями остаточного сигнала ResL, ResR, ResС. Модуль 3-2 комбинирования кодера затем применяют к трем частям L, R и C доминирующего сигнала, в результате чего получают две части L0, R0 доминирующего сигнала часть ResEo остаточного сигнала и набор PS4 параметра. В случае необходимости применяют исходную сегментацию и ST преобразование частотной области, и конечное обратное IT преобразование и наложение с суммированием OLA (не обязательно) применяют так, как также описано со ссылкой на фиг.3.
На фиг.6 показана конфигурация декодера, выполненного с возможностью декодирования выхода кодера по фиг.5. После (необязательной) исходной сегментации и ST преобразования частотной области входных сигналов lо, ro модуль 2-3 комбинирования декодера генерирует части L, R, C доминирующего сигнала в ответ на части Lо, Ro доминирующего сигнала, часть ResEo остаточного сигнала вместе с набором PS4 параметра. Эти три части L, R, C доминирующего сигнала затем обрабатывают в соответствующих модулях комбинирования декодера, аналогичных модулям DU комбинирования декодера, описанным со ссылкой на декодер по фиг.4. Конечное обратное IT преобразование и наложение с суммированием OLA (не обязательно) применяют, как также описано выше.
На фиг.7 представлены результаты теста прослушивания, проведенного для пяти обученных слушателей. Использовали музыкальные элементы A-K, определенные в рабочем пункте MPEG "Spatial Audio Coding". Для каждого элемента A-K результаты для трех кодированных версий были включены в тест: 1) результаты для декодера без остаточных сигналов показаны слева, 2) результаты для пространственного кодера с остаточными сигналами, то есть декодера в соответствии с изобретением, показаны в середине, и 3) результаты для сравнительного кодера (не показан) представлены справа. Суммарное среднее значение элементов A-K представлено как ТОТ. Для каждой кодированной версии среднее значение уровня GRD обозначено звездочкой (*), в то время как +/- среднеквадратическое отклонение по ответам слушателей обозначено от него.
Для сценариев 2) и 3) использовался принцип кодера/декодера, представленный на фиг.5 и 6. В сценарии 2) части остаточного сигнала отбрасывали. Для сценария 3) использовались три части остаточного сигнала с полосой, ограниченной до 2 кГц: часть ResL остаточного сигнала для левого канала, часть ResR остаточного сигнала для правого канала и часть ResEo остаточного сигнала для модуля 3-2 комбинирования декодера. Каждый из остаточных сигналов ResL, ResR, ResEo был кодирован при битовой скорости передачи данных 8 кбит/сек и с дополнительными пространственными параметрами (которые представляют собой разности между корреляцией (уровень детализации) и параметрами когерентности (основной уровень)), требуемыми при оценочном значении битовой скорости передачи информации 700 бит/сек. Следовательно, полная битовая скорость передачи данных с учетом остаточных сигналов составляла приблизительно 25 кбит/сек. Стандартные пространственные параметры (помещенные на основной уровень) требовали оценочного значения приблизительно 10 кбит/сек. Полная пространственная скорость передачи данных, таким образом, составляла приблизительно 35 кбит/сек. Никакой основной кодек не применяли для стереосигнала lо, ro.
По этим результатам можно видеть, что значительное улучшение качества может быть получено, используя три остаточных сигнала, кодированные с низкой битовой скоростью передачи данных. Кроме того, общий средний уровень качества составляет +/-92, что очень близко к тому, что считают "прозрачным" качеством звука.
Кодер и декодер в соответствии с изобретением могут быть применены для всех вариантов применения, в которых используется многоканальное кодирование звука, включая: цифровое телевидение (DVB, ЦТВ), цифровое аудиовещание (DAB, ЦАВ), интернет-радио, распространение электронной музыки.
Номера ссылочных позиций в формуле изобретения предназначены для улучшения удобства чтения. В любом случае эти номера ссылочных позиций не следует рассматривать как ограничение объема формулы изобретения, и они включены только для примера.
Группа изобретений относится к области высококачественного кодирования многоканальных звуковых данных. Кодер звука, выполненный с возможностью кодирования многоканального звукового сигнала, содержит модуль (ЕСМ) комбинирования кодера, предназначенный для генерирования части (m) доминирующего сигнала и части (s) остаточного сигнала. В предпочтительных вариантах выполнения математическая процедура включает в себя двумерный поворот сигнала, и третий пространственный параметр (SP3) содержит разность между вторым пространственным параметром (SP2) и первым пространственным параметром (SP1). Предпочтительные варианты выполнения включают в себя множество взаимно соединенных модулей комбинирования кодера, так чтобы, например, шесть независимых звуковых сигналов формата 5.1 можно было кодировать в одну или две части доминирующего сигнала и множество наборов параметров и частей остаточного сигнала. В выходном потоке двоичных сигналов первая выходная часть включена в основной уровень, в то время как вторая выходная часть включена в уровень детализации. Прозрачное качество звукового сигнала может быть получено с помощью декодера, который использует оба уровня, в то время как приемлемое качество может быть получено с помощью декодера, который использует только данные основного уровня. Группа изобретений обеспечивает масштабируемое пространственное кодирование звука. 8 н. и 16 з.п. ф-лы, 7 ил.
1. Кодер звука, выполненный с возможностью кодирования многоканального звукового сигнала, содержащий:
модуль (ЕСМ) комбинирования кодера, предназначенный для генерирования части (m) доминирующего сигнала и части (s) остаточного сигнала, которые представляют собой комбинированное представление первого и второго звуковых сигналов (x1, х2), причем части (m, s) доминирующего и остаточного сигналов получают путем применения математической процедуры к первому и второму звуковым сигналам (x1, х2), при этом в математической процедуре используется первый пространственный параметр (SP1), содержащий описание пространственных свойств первого и второго звуковых сигналов (x1, х2); генератор (PG) параметра, предназначенный для генерирования
первого набора параметров (PS1), содержащего второй пространственный параметр (SP2), и
второго набора параметров (PS2), содержащего третий пространственный параметр (SP3); и
выходной генератор, предназначенный для генерирования кодированного выходного сигнала, содержащего
первую выходную часть (ОР1), содержащую часть (m) доминирующего сигнала и первый набор (PS1) параметров, и
вторую выходную часть (ОР2), содержащую часть (s) остаточного сигнала и второй набор (PS2) параметров.
2. Кодер звука по п.1, в котором третий пространственный параметр (SP3) содержит разность между вторым пространственным параметром (SP2) и первым пространственным параметром (SP1).
3. Кодер звука по п.1, в котором второй пространственный параметр (SP2) содержит параметр на основе когерентности.
4. Кодер звука по п.1, в котором третий пространственный параметр (SP3) содержит разность между параметром на основе когерентности и корреляцией на основе параметра.
5. Кодер звука по п.1, в котором часть (s) остаточного сигнала содержит разность между первым и вторым звуковыми сигналами (x1, х2).
6. Кодер звука по п.1, в котором модуль (ЕСМ) комбинирования кодера генерирует части (m, s) доминирующего и остаточного сигналов так, что эти части (m, s) сигнала скоррелированы в меньшей степени, чем первый и второй звуковые сигналы (x1, х2).
7. Кодер звука по п.1, который также выполнен с возможностью получения третьего, четвертого, пятого и шестого звуковых сигналов и микширования с понижением этих сигналов вместе с первым и вторым звуковыми сигналами (x1, х2) и генерирования первой и второй выходных частей в ответ на них.
8. Звуковой декодер, предназначенный для генерирования многоканального звукового сигнала на основе кодированного сигнала, содержащий:
модуль (DU) комбинирования декодера, предназначенный для генерирования первого и второго звуковых сигналов на основе части доминирующего сигнала, части остаточного сигнала и первого и второго наборов пространственных параметров, причем первый и второй наборы пространственных параметров содержат описание пространственных свойств первого и второго звуковых сигналов, в котором часть остаточного сигнала и вторые пространственные параметры используют при определении матрицы (ММ) смешения, которая используется для генерирования первого и второго звуковых сигналов.
9. Звуковой декодер по п.8, в котором декодер содержит декоррелятор (Dec), предназначенный для приема части доминирующего сигнала и генерирования декоррелированной части доминирующего сигнала в ответ на нее.
10. Звуковой декодер по п.9, в котором суммирование части остаточного сигнала и декоррелированной части доминирующего сигнала применяют при определении матрицы (ММ) смешения.
11. Звуковой декодер по п.10, в котором декодер содержит аттенюатор (Att), предназначенный для ослабления декоррелированной части доминирующего сигнала до добавления ее к части остаточного сигнала.
12. Звуковой декодер по п.8, который выполнен с возможностью приема множества наборов первых и вторых наборов параметров и множества частей остаточного сигнала для генерирования множества наборов первого и второго звуковых сигналов в ответ на них.
13. Звуковой декодер по п.12, в котором декодер выполнен с возможностью приема трех наборов первых и вторых наборов параметров и трех частей остаточного сигнала для генерирования трех наборов первого и второго звуковых сигналов в ответ на них.
14. Способ кодирования многоканального звукового сигнала, содержащий этапы:
1) генерирования части (m) доминирующего сигнала и части (s) остаточного сигнала, которые представляют собой комбинированное представление первого и второго звуковых сигналов (x1, х2), части (m, s) доминирующего и остаточного сигналов получают, применяя математическую процедуру к первому и второму звуковым сигналам (x1, х2), при этом в математической процедуре используется первый пространственный параметр, содержащий описание пространственных свойств первого и второго звуковых сигналов (x1, х2),
2) генерирования первого набора параметра, содержащего второй пространственный параметр,
3) генерирования второго набора параметра, содержащего третий пространственный параметр, и
4) генерирования кодированного выходного сигнала, содержащего первую выходную часть, содержащую часть (m) доминирующего сигнала и первый набор параметров, и вторую выходную часть, содержащую часть (s) остаточного сигнала и второй набор параметров.
15. Способ генерирования многоканального звукового сигнала на основе кодированного сигнала, содержащий этапы:
1) приема кодированного сигнала, содержащего часть доминирующего сигнала, часть остаточного сигнала и наборы первого и второго параметров, содержащие описание пространственных свойств первого и второго звуковых сигналов,
2) определения матрицы (ММ) смешения на основе части остаточного сигнала и второго пространственного параметра,
3) генерирования первого и второго звуковых сигналов на основе определенной матрицы смешения.
16. Способ по п.15, содержащий этап декоррелирования части доминирующего сигнала и генерирования декоррелированной части доминирующего сигнала в ответ на него.
17. Способ по п.16, содержащий также этап суммирования части остаточного сигнала и декоррелированной части доминирующего сигнала.
18. Способ по п.17, в котором определение матрицы (ММ) смешения основано на суммировании части остаточного сигнала и декоррелированной части доминирующего сигнала.
19. Способ по п.15, содержащий этап приема множества наборов первых и вторых наборов параметров и множества частей остаточного сигнала для генерирования множества наборов первого и второго звуковых сигналов в ответ на них.
20. Способ по п.19, содержащий этап приема трех наборов первых и вторых наборов параметров и трех частей остаточного сигнала для генерирования трех наборов первого и второго звуковых сигналов в ответ на них.
21. Кодированный многоканальный звуковой сигнал, содержащий:
первую часть (ОР1) сигнала, содержащую часть (m) доминирующего сигнала, и первый набор (PS1) параметров, содержащий описание пространственных свойств первого и второго звуковых сигналов (х1, х2), и
вторую часть (ОР2) сигнала, содержащую часть (s) остаточного сигнала, и второй набор (PS2) параметров, содержащий описание пространственных свойств первого и второго звуковых сигналов (xl, х2).
22. Носитель информации, на котором сохранен сигнал по п.21.
23. Считываемый компьютером носитель информации, содержащий выполняемый на компьютере программный код для осуществления способа по п.14.
24. Считываемый компьютером носитель информации, содержащий выполняемый на компьютере программный код для осуществления способа по п.15.
СПОСОБ ПЕРЕДАЧИ И/ИЛИ ЗАПОМИНАНИЯ ЦИФРОВЫХ СИГНАЛОВ НЕСКОЛЬКИХ КАНАЛОВ | 1993 |
|
RU2129336C1 |
УЛУЧШЕННАЯ СИСТЕМА КОДИРОВАНИЯ ДЛЯ СЖАТИЯ ЦИФРОВОЙ ПЕРЕДАЧИ | 1997 |
|
RU2181526C2 |
RU 2001117231 А, 27.06.2003. |
Авторы
Даты
2011-04-10—Публикация
2006-03-16—Подача