ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ
Настоящая заявка заявляет приоритет следующих приоритетных заявок: предварительной заявки США 63/049323 (ссылка: D20068USP1), поданной 8 июля 2020 г., и предварительной заявки США 63/208896 (ссылка: D20068USP2), поданной 9 июня 2021 г., которые включены в данную заявку посредством ссылки.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
Настоящее изобретение относится к способам и устройству обработки звукового сигнала. В настоящем описании дополнительно описана обработка декодером в таких кодеках, как кодек Голосовой и звуковой системы с эффектом присутствия (IVAS), в случае потери пакетов (кадров) с целью достижения лучшего возможного впечатления от звука. Этот принцип известен как маскирование потери пакетов (Packet Loss Concealment, PLC).
УРОВЕНЬ ТЕХНИКИ
Аудиокодеки для кодирования пространственного звука, такие как IVAS, включают метаданные, которые содержат параметры реконструкции (например, параметры пространственной реконструкции), делающие возможными точные пространственные построения кодированного звука. Тогда как вместо фактических звуковых сигналов может иметь место маскирование потери пакетов, потеря этих метаданных может приводить к воспринимаемой как неправильная пространственной реконструкции звука и, таким образом, к слышимым артефактам.
Таким образом, существует потребность в усовершенствованном маскировании потери пакетов для метаданных, содержащих параметры реконструкции, такие как параметры пространственной реконструкции.
Сущность изобретения
Ввиду вышесказанного, в настоящем изобретении предоставляются способы обработки звукового сигнала, способ кодирования звукового сигнала, а также соответствующие устройство, компьютерные программы и машиночитаемые носители данных, которые обладают признаками соответствующих независимых пунктов формулы изобретения.
Согласно одному аспекту настоящего изобретения предоставляется способ обработки звукового сигнала. Этот способ может выполняться в приемнике/декодере. Звуковой сигнал может содержать последовательность кадров. Каждый кадр может содержать представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно определенный (или предварительно установленный) формат каналов. Звуковой сигнал может представлять собой многоканальный звуковой сигнал. Предварительно установленный формат каналов может представлять собой амбиофонию первого порядка (FOA), например со звуковыми каналами (составляющими) W, X, Y и Z. В этом случае звуковой сигнал может содержать до четырех звуковых каналов. Множество звуковых каналов звукового сигнала могут относиться к каналам понижающего микширования, полученным путем понижающего микширования звуковых каналов предварительно установленного формата каналов. Параметры реконструкции могут представлять собой параметры пространственной реконструкции (SPAR). Способ может включать прием звукового сигнала. Способ может дополнительно включать генерирование реконструированного звукового сигнала в предварительно установленном формате каналов на основании принятого звукового сигнала. В этом отношении генерирование реконструированного звукового сигнала может быть основано на принятом звуковом сигнале и параметрах реконструкции (и/или оценках параметров реконструкции). Кроме того, генерирование реконструированного звукового сигнала может включать повышающее микширование (множества) звуковых каналов звукового сигнала. Повышающее микширование множества звуковых каналов в предварительно установленный формат каналов может относиться к реконструкции звуковых каналов предварительно установленного формата каналов на основании множества звуковых каналов и их декоррелированных версий. Эти декоррелированные версии могут быть сгенерированы на основании (по меньшей мере некоторых из) множества звуковых каналов звукового сигнала и параметров реконструкции. С этой целью на основании параметров реконструкции может быть определена матрица повышающего микширования. Генерирование реконструированного звукового сигнала может также включать определение того, был ли потерян по меньшей мере один кадр звукового сигнала. Тогда, если количество последовательно потерянных кадров превышает первое пороговое значение, указанное генерирование может включать осуществление затухания реконструированного звукового сигнала в предварительно определенную (или предварительно установленную) пространственную конфигурацию. В одном примере предварительно установленная пространственная конфигурация может относиться к всенаправленному звуковому сигналу. Для реконструированного звукового сигнала FOA это будет означать, что сохраняется только звуковой канал W. Первое пороговое значение может составлять, например, четыре или восемь кадров. Длительность кадра может составлять, например, 20 мс.
Сконфигурированный так, как определено выше, предложенный способ может уменьшать несогласованность звука в случае потери пакетов, особенно для длительных периодов потери пакетов, и обеспечить согласованное пространственное впечатление пользователя. В частности это может являться значимым в инфраструктуре Голосовых услуг с расширенными возможностями (EVS), где сигналы маскирования EVS для отдельных звуковых каналов в случае потери пакетов могут не согласовываться друг с другом.
В некоторых вариантах осуществления предварительно установленная пространственная конфигурация может соответствовать пространственно однородному звуковому сигналу. Например, для FOA реконструированный звуковой сигнал, подвергнутый затуханию в предварительно установленную пространственную конфигурацию, может содержать только аудиоканал W. Альтернативно предварительно установленная пространственная конфигурация может соответствовать предварительно установленному направлению реконструированного звукового сигнала. В этом случае для FOA одна из составляющих X, Y, Z может быть подвергнута затуханию в масштабированную версию W, а две другие из составляющих X, Y, Z могут быть подвергнуты затуханию, например, в нуль.
В некоторых вариантах осуществления затухание реконструированного звукового сигнала в предварительно установленную пространственную конфигурацию может включать линейную интерполяцию между единичной матрицей и целевой матрицей, характеризующей предварительно установленную пространственную конфигурацию, в соответствии с предварительно определенным временем затухания. В этом случае матрица повышающего микширования для реконструкции звука может быть определена (например, сгенерирована) на основании матричного произведения явно выраженной матрицы повышающего микширования и интерполированной матрицы. Здесь явно выраженная матрица повышающего микширования может быть получена на основании параметров реконструкции.
В некоторых вариантах осуществления способ может дополнительно включать осуществление постепенного плавного затухания реконструированного звукового сигнала, если количество последовательно потерянных кадров превышает второе пороговое значение, которое больше первого порогового значения или равно ему. Постепенное плавное затухание (т.е. приглушение) реконструированного звукового сигнала может достигаться путем применения постепенно спадающего коэффициента усиления к реконструированному звуковому сигналу, к множеству звуковых каналов звукового сигнала или к любым коэффициентам повышающего микширования, используемым при генерировании реконструированного звукового сигнала. Постепенное плавное затухание может выполняться в соответствии со (вторым) предварительно определенным временем затухания (постоянной времени). Например, реконструированный звуковой сигнал может приглушаться на 3 дБ на каждый (потерянный) кадр. Второе пороговое значение может составлять, например, восемь кадров.
Это вносит дополнительный вклад в обеспечение согласованного впечатления пользователя в случае потери пакетов, в особенности для весьма длительных промежутков потери пакетов.
В некоторых вариантах осуществления, если по меньшей мере один кадр звукового сигнала был потерян, способ может дополнительно включать генерирование оценок параметров реконструкции по меньшей мере одного потерянного кадра на основании одного или более параметров реконструкции более раннего кадра. Способ может дополнительно включать использование оценок параметров реконструкции по меньшей мере одного потерянного кадра для генерирования реконструированного звукового сигнала этого по меньшей мере одного потерянного кадра. Это может применяться в случае, если было потеряно меньше предварительно определенного количества кадров (например, меньше первого порогового значения). Альтернативно это может применяться до тех пор, пока реконструированный звуковой сигнал не будет подвергнут полному пространственному затуханию и/или полному плавному затуханию (приглушению).
В некоторых вариантах осуществления каждый параметр реконструкции может быть кодирован явно один раз на каждое заданное количество кадров в последовательности кадров, а для остальных кадров подвергается временно-дифференциальному кодированию между кадрами. Кроме того, оценивание заданного параметра реконструкции потерянного кадра может включать оценивание заданного параметра реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции. Альтернативно указанное оценивание может включать оценивание заданного параметра реконструкции потерянного кадра на основании самых последних определенных значений двух или более параметров реконструкции, отличных от заданного параметра реконструкции. В исключительных случаях указанное оценивание может включать оценивание заданного параметра реконструкции потерянного кадра на основании самого последнего определенного значения одного параметра реконструкции, отличного от заданного параметра реконструкции (например, для параметра реконструкции, относящегося к полосе частот, которая имеет только одну соседнюю полосу частот). Таким образом, заданный параметр реконструкции может или экстраполироваться по времени, или интерполироваться по параметрам реконструкции, или, в случае параметров реконструкции, например, низшей/высшей полос частот, экстраполироваться из одной соседней полосы частот. Дифференциальное кодирование может следовать схеме дифференциального кодирования (с чередованием), в соответствии с которой каждый кадр содержит по меньшей мере один параметр реконструкции, кодированный явно, и по меньшей мере один параметр реконструкции, кодированный дифференциально со ссылкой на более ранний кадр, при этом наборы параметров реконструкции, кодированных явно и кодированных дифференциально, отличаются от одного кадра к следующему. Содержимое этих наборов может повторяться после предварительно определенного периода кадров. Понятно, что значения параметров реконструкции могут определяться путем правильного декодирования указанных значений.
Таким образом могут быть предоставлены рациональные параметры реконструкции (например, параметры SPAR) в случае потери пакетов, чтобы обеспечивать согласованное пространственное впечатление, на основании, например, сигналов маскирования EVS. Кроме того, это дает возможность предоставлять лучшие параметры реконструкции (например, параметры SPAR) после потери пакетов с применением временно-дифференциального кодирования.
В некоторых вариантах осуществления способ может дополнительно включать определение показателя надежности самого последнего определенного значения заданного параметра реконструкции. Способ может дополнительно включать принятие решения, на основании показателя надежности, о том, оценивать ли заданный параметр реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции или же на основании самых последних определенных значений двух или более параметров реконструкции (в исключительных случаях, одного параметра реконструкции), отличных от заданного параметра реконструкции. Показатель надежности может быть определен на основании срока (например, в единицах кадров) самого последнего определенного значения заданного параметра реконструкции и/или срока (например, в единицах кадров) самых последних определенных значений параметра(-ов) реконструкции, отличных от заданного параметра реконструкции.
В некоторых вариантах осуществления, если количество кадров, для которых значение заданного параметра реконструкции нельзя определить, превышает третье пороговое значение, способ может дополнительно включать оценивание заданного параметра реконструкции потерянного кадра на основании самых последних определенных значений параметра(-ов) реконструкции, отличных от заданного параметра реконструкции. Иначе способ может дополнительно включать оценивание заданного параметра реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции.
В некоторых вариантах осуществления каждый кадр может включать параметры реконструкции, относящиеся к соответствующим полосам частот. Заданный параметр реконструкции потерянного кадра может быть оценен на основании (одного или более) параметров реконструкции, относящихся к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
В некоторых вариантах осуществления заданный параметр реконструкции может быть оценен путем интерполяции между параметрами реконструкции, относящимися к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции. В исключительных случаях для полосы частот на границе охватываемого диапазона частот (т.е. высшей или низшей полосы частот) заданный параметр реконструкции потерянного кадра может быть оценен путем экстраполяции из параметра реконструкции, относящегося к полосе частот, которая является соседней с высшей или низшей полосой частот (или ближайшей к ней).
В некоторых вариантах осуществления заданный параметр реконструкции может быть оценен путем интерполяции между параметрами реконструкции, относящимися к полосам частот, которые являются соседними с полосой частот, к которой относится заданный параметр реконструкции. Альтернативно, если полоса частот, к которой относится заданный параметр реконструкции, имеет только одну соседнюю полосу частот, параметр реконструкции может быть оценен путем экстраполяции из параметра реконструкции, относящегося к соседней полосе частот.
Согласно другому аспекту настоящего изобретения предоставляется способ обработки звукового сигнала. Этот способ может выполняться, например, в приемнике/декодере. Звуковой сигнал может содержать последовательность кадров. Каждый кадр может включать представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно определенный формат каналов. Способ может включать прием звукового сигнала. Способ может дополнительно включать генерирование реконструированного звукового сигнала в предварительно установленном формате каналов на основании принятого звукового сигнала. Здесь генерирование реконструированного звукового сигнала может включать определение того, был ли потерян по меньшей мере один кадр звукового сигнала. Если по меньшей мере один кадр звукового сигнала был потерян, указанное генерирование может дополнительно включать генерирование оценок параметров реконструкции по меньшей мере одного потерянного кадра на основании параметров реконструкции более раннего кадра. Кроме того, указанное генерирование может включать использование оценок параметров реконструкции по меньшей мере одного потерянного кадра для генерирования реконструированного звукового сигнала по меньшей мере одного потерянного кадра.
В некоторых вариантах осуществления каждый параметр реконструкции может быть кодирован явно один раз на каждое заданное количество кадров в последовательности кадров, а для остальных кадров подвергается временно-дифференциальному кодированию между кадрами. Тогда оценивание заданного параметра реконструкции потерянного кадра может включать оценивание заданного параметра реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции. Альтернативно указанное оценивание может включать оценивание заданного параметра реконструкции потерянного кадра на основании самых последних определенных значений двух или более параметров реконструкции, отличных от заданного параметра реконструкции. В исключительных случаях указанное оценивание может включать оценивание заданного параметра реконструкции потерянного кадра на основании самого последнего определенного значения одного параметра реконструкции, отличного от заданного параметра реконструкции (например, для параметра реконструкции, относящегося к полосе частот, которая имеет только одну соседнюю полосу частот).
В некоторых вариантах осуществления способ может дополнительно включать определение показателя надежности самого последнего определенного значения заданного параметра реконструкции. Способ может дополнительно включать принятие решения, на основании показателя надежности, о том, оценивать ли заданный параметр реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции или же на основании самых последних определенных значений двух или более параметров реконструкции (в исключительных случаях, одного параметра реконструкции), отличных от заданного параметра реконструкции.
В некоторых вариантах осуществления, если количество кадров, для которых значение заданного параметра реконструкции нельзя определить, превышает третье пороговое значение, способ может дополнительно включать оценивание заданного параметра реконструкции потерянного кадра на основании самых последних определенных значений двух или более параметров реконструкции (в исключительных случаях, одного параметра реконструкции), отличных от заданного параметра реконструкции. Иначе способ может дополнительно включать оценивание заданного параметра реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции.
В некоторых вариантах осуществления каждый кадр может содержать параметры реконструкции, относящиеся к соответствующим полосам частот. Тогда заданный параметр реконструкции потерянного кадра может быть оценен на основании (одного или более) параметров реконструкции, относящихся к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
В некоторых вариантах осуществления заданный параметр реконструкции может быть оценен путем интерполяции между параметрами реконструкции, относящимися к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
В некоторых вариантах осуществления заданный параметр реконструкции может быть оценен путем интерполяции между параметрами реконструкции, относящимися к полосам частот, которые являются соседними с полосой частот, к которой относится заданный параметр реконструкции. Альтернативно, если полоса частот, к которой относится заданный параметр реконструкции, имеет только одну соседнюю полосу частот, заданный параметр реконструкции может быть оценен путем экстраполяции из параметра реконструкции, относящегося к соседней полосе частот.
Согласно другому аспекту настоящего изобретения предоставляется способ обработки звукового сигнала. Этот способ может выполняться, например, в приемнике/декодере. Звуковой сигнал может содержать последовательность кадров. Каждый кадр может содержать представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно определенный формат каналов. Каждый параметр реконструкции может быть кодирован явно один раз на каждое заданное количество кадров в последовательности кадров, а для остальных кадров подвергается дифференциальному кодированию между кадрами. Способ может включать прием звукового сигнала. Способ может дополнительно включать генерирование реконструированного звукового сигнала в предварительно установленном формате каналов на основании принятого звукового сигнала. Здесь генерирование реконструированного звукового сигнала может включать, для заданного кадра звукового сигнала, идентификацию параметров реконструкции, которые декодированы правильно, и параметров реконструкции, которые нельзя правильно декодировать из-за отсутствия дифференциального основания. Указанное генерирование может дополнительно включать, для заданного кадра, оценивание параметров реконструкции, которые нельзя правильно декодировать, на основании правильно декодированных параметров реконструкции заданного кадра и/или правильно декодированных параметров реконструкции одного или более из более ранних кадров. Указанное генерирование может также дополнительно включать, для заданного кадра, использование правильно декодированных параметров реконструкции и оценочных параметров реконструкции для генерирования реконструированного звукового сигнала заданного кадра.
В некоторых вариантах осуществления оценивание заданного параметра реконструкции, который нельзя правильно декодировать для заданного кадра, может включать оценивание заданного параметра реконструкции на основании самого последнего правильно декодированного значения заданного параметра реконструкции. Альтернативно указанное оценивание может включать оценивание заданного параметра реконструкции на основании самых последних правильно декодированных значений двух или более параметров реконструкции, отличных от заданного параметра реконструкции. В исключительных случаях заданный параметр реконструкции потерянного кадра может быть оценен на основании самого последнего определенного значения одного параметра реконструкции, отличного от заданного параметра реконструкции (например, для параметра реконструкции, относящегося к полосе частот, имеющей только одну соседнюю полосу частот).
В некоторых вариантах осуществления способ может дополнительно включать определение показателя надежности самого последнего правильно декодированного значения заданного параметра реконструкции. Способ может дополнительно включать принятие решения, на основании показателя надежности, следует ли оценивать заданный параметр реконструкции на основании на основании самого последнего правильно декодированного значения заданного параметра реконструкции или же на основании самых последних правильно декодированных значений двух или более параметров реконструкции (в исключительных случаях, одного параметра реконструкции), отличных от заданного параметра реконструкции.
В некоторых вариантах осуществления способ может дополнительно включать, если самое последнее правильно декодированное значение заданного параметра реконструкции является более давним, чем предварительно определенное пороговое значение, в единицах кадров, оценивание заданного параметра реконструкции на основании самых последних правильно декодированных значений двух или более параметров реконструкции (в исключительных случаях, одного параметра реконструкции), отличных от заданного параметра реконструкции. Иначе способ может дополнительно включать оценивание заданного параметра реконструкции на основании самого последнего правильно декодированного значения заданного параметра реконструкции.
В некоторых вариантах осуществления каждый кадр может содержать параметры реконструкции, относящиеся к соответствующим полосам частот. Тогда заданный параметр реконструкции, который нельзя правильно декодировать для заданного кадра, может быть оценен на основании самых последних правильно декодированных значений одного или более параметров реконструкции, относящихся к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
В некоторых вариантах осуществления заданный параметр реконструкции может быть оценен путем интерполяции между параметрами реконструкции, относящимися к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
В некоторых вариантах осуществления заданный параметр реконструкции может быть оценен путем интерполяции между параметрами реконструкции, относящимися к полосам частот, которые являются соседними с полосой частот, к которой относится заданный параметр реконструкции. Альтернативно, если полоса частот, к которой относится заданный параметр реконструкции, имеет только одну соседнюю полосу частот, заданный параметр реконструкции может быть оценен путем экстраполяции из параметра реконструкции, относящегося к соседней полосе частот.
Согласно другому аспекту настоящего изобретения предоставляется способ кодирования звукового сигнала. Способ может выполняться, например, в кодере. Кодированный звуковой сигнал может содержать последовательность кадров. Каждый кадр может содержать представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно определенный формат каналов. Способ может включать, для каждого параметра реконструкции, явное кодирование параметра реконструкции один раз на каждое заданное количество кадров в последовательности кадров. Способ может дополнительно включать (временно-)дифференциальное кодирование параметра реконструкции между кадрами для остальных кадров. Здесь каждый кадр может содержать по меньшей мере один параметр реконструкции, закодированный явно, и по меньшей мере один параметр реконструкции, закодированный дифференциально со ссылкой на более ранний кадр. Наборы параметров реконструкции, закодированных явно и закодированных дифференциально, могут отличаться от одного кадра к следующему. Кроме того, содержимое этих наборов может повторяться после предварительно определенного периода кадров.
Согласно еще одному аспекту предоставляется компьютерная программа. Компьютерная программа может содержать команды, которые при исполнении процессором вызывают осуществление процессором всех этапов способов, описанных во всем настоящем описании.
Согласно другому аспекту предоставляется машиночитаемый носитель данных. На машиночитаемом носителе данных может храниться вышеупомянутая компьютерная программа.
Согласно еще одному аспекту предоставляется устройство, содержащее процессор и память, соединенную с процессором. Процессор может быть приспособлен для осуществления всех этапов способов, описанных во всем настоящем описании. Это устройство может относиться к приемнику/декодеру (декодирующему устройству) или кодеру (кодирующему устройству).
Будет понятно, что признаки устройства и этапы способов можно взаимно заменять многими методами. В частности, детали описанных способа(-ов) могут быть реализованы соответствующим устройством, и наоборот, как будет понятно специалисту в данной области техники. Кроме того, понятно, что любое из приведенных выше утверждений, сделанных в отношении способа(-ов) (и, например, его этапов), также применимо и к соответствующему устройству (и, например, его блокам, ступеням, элементам), и наоборот.
КРАТКОЕ ОПИСАНИЕ ГРАФИЧЕСКИХ МАТЕРИАЛОВ
Примерные варианты осуществления настоящего изобретения описаны ниже со ссылкой на сопроводительные графические материалы, на которых:
на фиг. 1 представлена блок-схема, иллюстрирующая примерную последовательность операций в случае потери пакетов и кадров без ошибок согласно вариантам осуществления настоящего изобретения,
на фиг. 2 представлена структурная схема, иллюстрирующая примерные кодеры и декодеры согласно вариантам осуществления настоящего изобретения,
на фиг. 3 и фиг. 4 представлены блок-схемы, иллюстрирующие примерные процессы PLC согласно вариантам осуществления настоящего изобретения,
на фиг. 5 изображен пример архитектуры мобильного устройства для реализации признаков и процессов, описанных на фиг. 1 - фиг. 4,
на фиг. 6 - фиг. 9 представлены блок-схемы, иллюстрирующие дополнительные примеры способов обработки (например, декодирования) звуковых сигналов согласно вариантам осуществления настоящего изобретения, и
на фиг. 10 показана блок-схема, иллюстрирующая пример способа кодирования звукового сигнала согласно вариантам осуществления настоящего изобретения.
ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ
Фигуры (фиг.) и следующее описание относятся к предпочтительным вариантам осуществления только в качестве иллюстрации. Следует отметить, что, исходя из следующего обсуждения, можно легко понять альтернативные варианты осуществления структур и способов, описанных в данной заявке, как жизнеспособные альтернативы, которые можно использовать без отступления от заявленных принципов.
Теперь будет сделана подробная ссылка на несколько вариантов осуществления, примеры которых проиллюстрированы на прилагаемых фигурах. Нужно отметить, что там, где это применимо, подобные или схожие ссылочные номера могут использоваться в фигурах и могут обозначать подобную или схожую функциональность. Фигуры изображают варианты осуществления описанной системы (или способа) только в целях иллюстрации. Специалисту в данной области будет легко понятно из следующего описания, что альтернативные варианты осуществления структур и способов, изображенных в настоящем документе, могут применяться без отступления от принципов, заявленных в настоящем документе.
Обзор
В широком смысле, технология согласно настоящему изобретению может включать:
захват параметров реконструкции (например, параметров SPAR) во время потерь пакетов из последнего кадра без ошибок,
приглушение и преобразование пространственного представления после длинных периодов потерь пакетов для уменьшения несогласованности сигналов маскирования (например, сигналов маскирования EVS) и
оценка параметров реконструкции после потери пакетов в случае временно-дифференциального кодирования.
Система IVAS
В первую очередь, в качестве неограничивающего примера системы, в которой могут применяться технические решения настоящего изобретения, будут описаны возможные реализации системы IVAS.
IVAS обеспечивает впечатление пространственного звука для приложений связи и развлечений. Лежащим в его основе форматом пространственного звука является Амбиофония первого порядка (First Order Ambisonics, FOA). Например, кодируются 4 сигнала (W, Y, Z, X), которые обеспечивают возможность представления в любом желаемом формате вывода, таком как воспроизведение через динамики с эффектом присутствия или бинауральное воспроизведение через наушники. В зависимости от общего битрейта, с помощью кодеков EVS (Enhanced Voice Service, усовершенствованной речевой службы), которые действуют параллельно с малой задержкой, передается 1, 2, 3 или 4 звуковых сигнала (каналов понижающего микширования). В декодере 4 сигнала FOA реконструируются путем обработки каналов понижающего микширования и их декоррелированных версий с использованием переданных параметров. Этот процесс также называется в данной заявке повышающим микшированием, а указанные параметры называются параметрами пространственной реконструкции (Spatial Reconstruction, SPAR). Процесс декодирования IVAS состоит из (базового) декодирования EVS и повышающего микширования SPAR. Декодированные сигналы EVS преобразуются блоком комплекснозначных фильтров с малой задержкой. Параметры SPAR кодируются для обоснованных с точки зрения восприятия полос частот, и количество этих полос обычно составляет 12. Кодированные каналы понижающего микширования, за исключением канала W, представляют собой остаточные сигналы после (перекрестного между каналами) предсказания с использованием параметров SPAR. Канал W передается в немодифицированном или модифицированном виде (активный W) так, чтобы было возможно лучшее предсказание остальных каналов. После повышающего микширования SPAR в частотной области сигналы FOA во временной области генерируются путем синтеза в блоке фильтров. Один звуковой кадр обычно имеет длительность 20 мс.
В итоге, процесс декодирования IVAS состоит из базового декодирования EVS каналов понижающего микширования, анализа в блоке фильтров, параметрической реконструкции 4 сигналов FOA (повышающего микширования) и синтеза в блоке фильтров.
В особенности при низких битрейтах, таких как 32 кбит/с или 64 кбит/с, параметры SPAR могут подвергаться временно-дифференциальному кодированию, например в зависимости от ранее декодированных кадров, для снижения битрейта SPAR.
В целом, технические решения (например, способы и устройства) согласно вариантам осуществления настоящего изобретения могут быть применены к многоканальным звуковым сигналам на основе кадров (или на основе пакетов), т.е. к (кодированным) звукового сигналам, содержащим последовательность кадров (или пакетов). Каждый кадр содержит представления множества звуковых каналов и параметры реконструкции (например, параметры SPAR) для повышающего микширования множества звуковых каналов в предварительно определенный формат каналов, такой как FOA со звуковыми каналами (составляющими) W, X, Y и Z. Множество звуковых каналов (кодированного) звукового сигнала могут относиться к каналам понижающего микширования, полученным путем понижающего микширования звуковых каналов предварительно установленного формата каналов, например W, X, Y и Z.
Ограничения системы IVAS
EVS- и SPAR-DTX
При обнаружении отсутствия голосовой активности (VAD) и низких уровнях фона кодер EVS может переключаться в режим прерывистой передачи (Discontinuous Transmission, DTX), действующий с очень низким битрейтом. Обычно в каждом 8-ом кадре передается небольшое количество параметров DTX (кадр индикатора тишины, SID), управляющих генерированием комфортного шума (CNG) в декодере. Подобным образом, для кадров SID передаются специальные параметры SPAR, обеспечивающие возможность достоверной пространственной реконструкции исходных характеристик пространственной окружающей обстановки. За кадром SID следует 7 кадров без каких-либо данных (NO_DATA), и параметры SPAR поддерживаются постоянными до приема следующего кадра SID или звукового кадра ACTIVE.
EVS-PLC
Если декодер EVS обнаруживает потерянный кадр, генерируется сигнал маскирования. Генерирование сигнала маскирования может направляться параметрами классификации сигналов, отправленными кодером в предыдущем кадре без ошибок и без маскирования, и для него используются различные технические решения, зависящие от режима кодека (кодек с преобразованием на основе MDCT или голосовой кодек с предсказанием), а также другие параметры. Маскирование EVS может приводить к бесконечному генерированию комфортного шума. Поскольку для IVAS в различных конфигурациях параллельно работают несколько экземпляров EVS (по одному для каждого канала понижающего микширования), маскирование EVS может быть рассогласованным на каналах понижающего микширования и для разного содержимого.
Необходимо отметить, что EVS-PLC не применим к метаданным, таким как параметры SPAR.
Временно-дифференциальное кодирование параметров реконструкции
Технические решения согласно вариантам осуществления настоящего изобретения применимы к кодекам, в которых используется временно-дифференциальное кодирование метаданных, в том числе параметров реконструкции (например, параметров, PSAR). Если иное не указано, дифференциальное кодирование в контексте настоящего изобретения будет означать временно-дифференциальное кодирование.
Например, каждый параметр реконструкции может явно (т.е. недифференциально) кодироваться один раз на каждое заданное количество кадров в последовательности кадров, а для остальных кадров кодироваться дифференциально между кадрами. В этом отношении временно-дифференциальное кодирование может следовать схеме дифференциального кодирования (с чередованием), в соответствии с которой каждый кадр содержит по меньшей мере один параметр реконструкции, кодированный явно, и по меньшей мере один параметр реконструкции, кодированный дифференциально со ссылкой на более ранний кадр. Наборы параметров реконструкции, кодированных явно и кодированных дифференциально, могут отличаться от одного кадра к следующему. Содержимое этих наборов может повторяться после предварительно определенного периода кадров. Например, содержимое вышеупомянутых наборов может быть задано группой схем кодирования (с чередованием), которые могут циклически повторяться в последовательности. Неограничивающие примеры таких схем кодирования, применимых, например, в контексте IVAS, приведены ниже.
Для эффективного кодирования параметров SPAR временно-дифференциальное кодирование может применяться, например, в соответствии со следующей схемой:
Здесь временно-дифференциальное кодирование всегда циклически повторяется через 4a, 4b, 4c, 4d и обратно к перезапуску на 4a. В зависимости от полезной нагрузки основной схемы и общего требования к битрейту временно-дифференциальное кодирование может применяться или не применяться.
Этот способ кодирования гарантирует, что после потери пакетов параметры для 3 полос (для конфигурации 12 полос с параметрами; к другим конфигурациям полос с параметрами подобным образом могут применяться другие схемы кодирования) всегда могут быть декодированы правильно, в отличие от временно-дифференциального кодирования для всех полос. Изменение схемы кодирования, как показано в Таблице 2, гарантирует, что параметры для всех полос могут быть правильно декодированы в пределах 4 последовательных (не потерянных) кадров. Однако, в зависимости от картины потери пакетов, параметры для некоторых полос могут не быть декодированы правильно за пределами 4 кадров.
Примерные технические решения
Предпосылки
Логическая схема в декодере отслеживает тип кадра (например, кадры NO_DATA, SID и ACTIVE) так, что кадры DTX и потерянные/ошибочные кадры могут обрабатываться по-разному.
Логическая схема в декодере отслеживает количество последовательных потерянных пакетов.
Логическая схема отслеживает полосы с временно-дифференцированными параметрами реконструкции (например, параметрами SPAR) после потери пакетов (например, при отсутствии основы для кодированной разности) и количество кадров после последнего основного кадра.
Пример вышеописанной логической схемы изображен ниже в виде псевдокода для декодирования одного кадра, причем параметры SPAR охватывают 12 полос частот.
/*Данные приняты. Переустановить счетчик потерянных кадров, который будет использоваться для управления
пространственным затуханием и приглушением для PLC*/
num_lost_frames = 0;
/* здесь отслеживается, имеет ли место режим DTX (кадр SID) или обычный голосовой/звуковой режим,
что позволяет адаптировать обработку в случае потери пакетов*/
если frame_type == SID_FRAME
sid_frame_received = 1; /*режим DTX*/
иначе если frame_type == ACTIVE_FRAME
sid_frame_received = 0; /*голосовой/звуковой режим*/
конец
/*Провести синтаксический анализ битового потока и декодировать параметры*/
[SPAR_parameters, coding_scheme] = decode_SPAR_parameters (frame_bits);
/* Параметры кодируются в соответствии с одной из схем в Таблице 1. На основе
текущей схемы кодирования некоторые или все полосы могут быть абсолютно закодированы
(например, независимо от предыдущих данных), а другие полосы могут быть закодированы временно-дифференциально.
При временно-дифференциальном кодировании основание для временно-дифференциального кодирования может быть потеряно с
ранее потерянным пакетом. Полосы с параметрами, в которых это произошло, можно пометить как invalid (недействительные)
и отслеживать ситуацию с помощью массива valid_bands. */
если coding_scheme=="base"
/*все полосы декодированы правильно, несмотря на ранее потерянные пакеты*/
valid_bands = [1,1,1,1,1,1,1,1,1,1,1,1]
иначе если coding_scheme=="4a"
valid_bands = [1,0,0,0,1,0,0,0,1,0,0,0] | valid_bands /* «|» означает логическое ИЛИ */
иначе если coding_scheme=="4b"
valid_bands = [0,1,0,0,0,1,0,0,0,1,0,0] | valid_bands
иначе если coding_scheme=="4c"
valid_bands = [0,0,1,0,0,0,1,0,0,0,1,0] | valid_bands
иначе если coding_scheme=="4d"
valid_bands = [0,0,0,1,0,0,0,1,0,0,0,1] | valid_bands
конец
/* для обоснованного решения о том, как лучше заменить недействительные параметры,
представляет интерес, насколько давними являются ранее правильно декодированные параметры для
конкретных полос. Это отслеживают с помощью массива num_frames_since_base. */
num_frames_since_base(valid_bands) = 0 /*правильно декодированные полосы*/
num_frames_since_base(~valid_bands) = num_frames_since_base(~valid_bands)+1
/*Здесь любые недействительные параметры полос заполняются на основании предыдущих
правильно декодированных параметров или текущих правильно декодированных параметров в ближайших
полосах частот. */
для band = invalid /*все полосы invalid (недействительны)*/
framesThreshold = 3; /* в качестве примера */
если num_frames_since_base(band)>framesThreshold
SPAR_parameters(band) = interpolateFromCurrentData(SPAR_parameters);
иначе
SPAR_parameters(band) = SPAR_parameters_previous(band);
конец
/*Примечание: Интерполяция может быть основана только на текущих действительных полосах или на текущих действительных
полосах и выбранных данных из предыдущих кадров. */
SPAR_parameters_previous = SPAR_parameters
иначе /*ошибочный кадр, потерянный кадр или кадр без данных в режиме DTX*/
num_lost_frames = num_lost_frames+1;
valid_bands = [0,0,0,0,0,0,0,0,0,0,0,0] /* нельзя декодировать ни один параметр */
num_frames_since_base(:) = num_frames_since_base(:)+1 /*отследить, когда
последний параметр был декодирован правильно*/
SPAR_parameters = SPAR_parameters_previous
Конец
Листинг 1. Логическая схема в отношении потерь пакетов для управления процессом декодирования IVAS
Предложенная обработка
В целом понятно, что способы согласно вариантам осуществления настоящего изобретения применимы к (кодированным) звуковым сигналам, содержащим последовательность кадров (пакетов), где каждый кадр содержит представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно определенный формат каналов. Обычно такие способы включают прием звукового сигнала и генерирование реконструированного звукового сигнала в предварительно установленном формате каналов на основании принятого звукового сигнала.
Далее будут описаны примеры этапов обработки в контексте IVAS, которая может использоваться при генерировании реконструированного звукового сигнала. Однако понятно, что эти этапы обработки не ограничиваются IVAS и в целом являются применимыми к PLC параметров реконструкции для аудиокодеков на основе кадров (на основе пакетов).
Приглушение: Если количество последовательных потерянных кадров превышает пороговое значение (второе пороговое значение в формуле изобретения, например 8), то декодированный выводной сигнал (например, выводной сигнал FOA) (постепенно) приглушают, например на 3 дБ на каждый (потерянный) кадр. Иначе приглушение не применяют. Приглушение может выполняться путем соответствующей модификации матрицы повышающего микширования (например, матрицы повышающего микширования SPAR). Приглушение делает PLC более согласованным по битрейтам и содержимому для длительных периодов потери пакетов. Согласно вышеописанной логической схеме, при необходимости существует средство применения приглушения также в случае CNG с DTX.
В целом, если количество последовательно потерянных кадров превышает пороговое значение (второе пороговое значение в формуле изобретения), реконструированный звуковой сигнал могут постепенно подвергать плавному затуханию (приглушать). Постепенное плавное затухание (приглушение) реконструированного звукового сигнала может достигаться путем применения постепенно спадающего коэффициента усиления к реконструированному звуковому сигналу, путем применения постепенно спадающего коэффициента усиления к множеству звуковых каналов звукового сигнала или путем применения постепенно спадающего коэффициента усиления к любым коэффициентам повышающего микширования, используемым при генерировании реконструированного звукового сигнала. Постепенное плавное затухание может выполняться в соответствии с предварительно определенным временем затухания (постоянной времени). Например, как описано выше, реконструированный звуковой сигнал может приглушаться на 3 дБ на каждый (потерянный) кадр. Второе пороговое значение может составлять, например, восемь кадров.
Пространственное затухание: Если количество последовательных потерянных кадров превышает пороговое значение (первое пороговое значение в формуле изобретения, например 4 или 8), то декодированный выводной сигнал (например, выводной сигнал FOA) пространственно плавно затухает в направлении к пространственной цели (т.е. в предварительно установленную пространственную конфигурацию) в пределах предварительно установленного количества кадров. Иначе пространственное затухание не применяется. Пространственное затухание может выполняться путем линейной интерполяции между единичной матрицей (например, размера 4х4) и матрицей пространственной цели в соответствии с предполагаемым временем затухания. В качестве примера, независимая от направления пространственная картина (например, приглушающая все каналы, за исключением W) может уменьшать пространственные нарушения непрерывности после потери пакетов (если не полностью приглушать). То есть в случае FOA предварительно установленная пространственная конфигурация может содержать только звуковой канал W. Альтернативно предварительно установленная пространственная конфигурация может относиться к предварительно установленному направлению. Например, другой полезной пространственной целью для FOA является фронтальная картина (X = W sqrt(2), Y=Z=0). То есть одна из составляющих X, Y, Z (например, Х) может быть подвергнута затуханию в масштабированную версию W, а две другие из составляющих X, Y, Z (например, Y и Z) могут быть подвергнуты затуханию в нуль. В любом случае, результирующая матрица затем применяется к матрице повышающего микширования SPAR для всех полос. Соответственно, матрица повышающего микширования (SPAR) для реконструкции звука может быть определена (например, сгенерирована) на основании матричного произведения явно выраженной матрицы повышающего микширования и интерполированной матрицы, где явно выраженная матрица повышающего микширования может быть получена из параметров реконструкции. Пространственное затухание делает PLC более согласованным по битрейтам и содержимому для длительных периодов потери пакетов. Согласно вышеописанной логической схеме, при необходимости существует средство применения пространственного затухания также в случае CNG с DTX. Формат FOA использован в качестве неограничивающего примера. Также могут использоваться и другие форматы, например пространственные форматы на основе каналов, в том числе стереофонический формат. Понятно, что в конкретном формате может использоваться соответствующая конкретная матрица пространственного затухания.
В целом генерирование реконструированного звукового сигнала может включать, если количество последовательно потерянных кадров превышает пороговое значение (первое пороговое значение в формуле изобретения), затухание реконструированного звукового сигнала в предварительно установленную пространственную конфигурацию. В соответствии с вышесказанным, эта предварительно установленная пространственная конфигурация может соответствовать пространственно равномерному звуковому сигналу или предварительно установленному направлению (например, предварительно установленному направлению, в котором воспроизводится реконструированный звуковой сигнал). Понятно, что (первое) пороговое значение для пространственного затухания может быть меньше (второго) порогового значения для плавного затухания (приглушения) или равно ему. Соответственно, при объединении вышеописанных этапов обработки реконструированный звуковой сигнал может сначала быть подвергнут затуханию в предварительно установленную пространственную конфигурацию с последующим или одновременным приглушением.
Оценивание параметров/восстановление после потери пакетов с помощью временно-дифференциального кодирования: Благодаря вышеописанной логической схеме можно идентифицировать полосы с параметрами, которые еще не являются правильно декодированными из-за отсутствия основания для временно-дифференциального кодирования. Эти полосы с параметрами могут быть распределены посредством данных предыдущих кадров так же, как в случае маскирования потери пакетов. В качестве альтернативной стратегии в случае, когда последнее принятое основание конкретного параметра (или, в целом, последний правильно декодированный параметр) считается устаревшим, предлагается линейная интерполяция (или интерполяция с ближайшим соседним элементом) по полосам частот. Для полос частот на границах охватываемого диапазона частот это может равняться экстраполяции из соответствующих им соседних (или ближайших) полос частот. Предложенный подход является выгодным, поскольку интерполяция по правильно декодированным полосам вероятно дает лучшие оценки параметров, чем использование давних данных предыдущих кадров в сочетании с новыми правильно декодированными данными.
А именно, предложенный подход может использоваться как в случае PLC для нескольких потерянных пакетов (например, перед пространственным затуханием и/или приглушением или во время пространственного затухания и/или приглушения до тех пор, пока реконструированный звуковой сигнал не будет подвергнут полному пространственному затуханию или полному плавному затуханию), так и в случае восстановления после всплеска потери пакетов.
В целом, когда по меньшей мере один кадр звукового сигнала был потерян, оценки параметров реконструкции по меньшей мере одного потерянного кадра могут быть оценены на основании параметров реконструкции более раннего кадра. Эти оценки затем могут быть использованы для генерирования реконструированного звукового сигнала по меньшей мере одного потерянного кадра.
Например, заданный параметр реконструкции потерянного кадра может быть экстраполирован по времени или интерполирован/экстраполирован по частоте (в целом, интерполирован/экстраполирован по другим параметрам реконструкции). В первом случае заданный параметр реконструкции потерянного кадра может быть оценен на основании самого последнего определенного значения заданного параметра реконструкции. В последнем случае заданный параметр реконструкции потерянного кадра может быть оценен на основании самых последних определенных значений одного (в случае полосы частот на границе охватываемого диапазона частот), двух или более параметров реконструкции, отличных от заданного параметра реконструкции.
Решение об использовании экстраполяции по времени или интерполяции/экстраполяции по другим параметрам реконструкции может быть принято на основании показателя надежности самого последнего определенного значения заданного параметра реконструкции. То есть на основании показателя надежности может быть принято решение о том, оценивать ли заданный параметр реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции или на основании самых последних определенных значений двух или более параметров реконструкции, отличных от заданного параметра реконструкции. Этот показатель надежности может быть определен на основании срока (например, в единицах кадров) самого последнего определенного значения заданного параметра реконструкции и/или срока (например, в единицах кадров) самых последних определенных значения(-ий) параметра(-ов) реконструкции, отличных от заданного параметра реконструкции. В одной реализации, если количество кадров, для которых значение заданного параметра реконструкции определить нельзя, превышает третье пороговое значение, заданный параметр реконструкции потерянного кадра может быть оценен на основании самых последних определенных значений одного, двух или более параметров реконструкции, отличных от заданного параметра реконструкции. Иначе заданный параметр реконструкции потерянного кадра может быть оценен на основании самого последнего определенного значения заданного параметра реконструкции.
Как отмечено выше, каждый кадр может содержать параметры реконструкции, относящиеся к соответствующим полосам частот, и заданный параметр реконструкции потерянного кадра может быть оценен на основании одного или более параметров реконструкции, относящихся к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции. Например, заданный параметр реконструкции может быть оценен путем интерполяции между одним или более параметрами реконструкции (или экстраполяции из них), относящимися к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции. Более конкретно, в некоторых реализациях заданный параметр реконструкции может быть оценен путем интерполяции между параметрами реконструкции, относящимися к полосам частот, которые являются соседними с полосой частот, к которой относится заданный параметр реконструкции, или, если полоса частот, к которой относится заданный параметр реконструкции, имеет только одну соседнюю (или ближайшую) полосу частот (что имеет место для высшей и низшей полос частот), путем экстраполяции из параметра реконструкции, относящегося к этой соседней (или ближайшей) полосе частот.
Понятно, что вышеописанные этапы обработки могут в целом использоваться или по отдельности, или в комбинации. То есть способы согласно настоящему изобретению могут включать любой один, любые два или все из вышеупомянутых этапов обработки с 1 по 3.
Краткое описание важных аспектов настоящего изобретения
В настоящем изобретении предложена концепция пространственной цели для PLC и пространственного плавного затухания, потенциально в сочетании с приглушением.
В настоящем изобретении предложена концепция получения кадров, которое включает сочетание маскирования и обычного декодирования во время фазы восстановления временно-дифференциального кодирования. Это может включать:
определение параметров после потери пакетов в случае временно-дифференциального кодирования на основании данных предыдущих кадров без ошибок и/или интерполяции текущих, правильно декодированных параметров, и
принятие решения о выборе между данными предыдущих кадров без ошибок и/или текущими интерполированными данными на основании показателя того, насколько новыми являются данные предыдущих кадров без ошибок.
Примерные процесс и система
Фиг. 1 представляет собой блок-схему, иллюстрирующая примерную последовательность операций в случае потери пакетов (левый путь) и кадров без ошибок (правый путь). Блок-схема до вхождения в блок «Сгенерировать матрицу повышающего микширования» подробно описана в форме псевдокода в Листинге 1 и в приведенном выше разделе «Предложенная обработка», пункт 3. Обработка в блоке «Модифицировать матрицу повышающего микширования» описана в приведенном выше разделе «Предложенная обработка», пункты 1 и 2.
Фиг. 2 представляет собой структурную схему, иллюстрирующую примерные кодер и декодер IVAS SPAR. Матрица повышающего микширования IVAS включает обработку декодированных каналов понижающего микширования и их декоррелированных версий с помощью параметров C, P1,…,PD), матрицы обратного микширования, а также обратного предсказания в одну матрицу повышающего микширования. Матрица повышающего микширования может быть модифицирована обработкой PLC.
Фиг. 3 и фиг. 4 представляют собой блок-схемы, иллюстрирующие примерные процессы PLC.
Иллюстративная архитектура системы
Фиг. 5 представляет собой схему архитектуры мобильного устройства для реализации признаков и процессов, описанных со ссылкой на фиг. 1-4, согласно одному варианту осуществления. Архитектура 800 может быть реализована в любом электронном устройстве, включая, но без ограничения: настольный компьютер, потребительское аудиовизуальное (AV) оборудование, радиовещательное оборудование, мобильные устройства (например, смартфон, планшетный компьютер, ноутбук, носимое устройство). В показанном примерном варианте осуществления архитектура 800 предназначена для смартфона и содержит процессор(ы) 801, интерфейс 802 периферийных устройств, звуковую подсистему 803, громкоговорители 804, микрофон 805, датчики 806 (например, акселерометры, гироскопы, барометр, магнитометр, фотокамеру), процессор 807 местоположения (например, приемник GNSS), подсистемы 808 беспроводной связи (например, Wi-Fi, Bluetooth, сотовой связи) и подсистему(-ы) 809 ввода-вывода (I/O), которые включают сенсорный контроллер 810 и другие контроллеры 811 ввода, сенсорную поверхность 812 и другие устройства 813 ввода/управления. Для реализации описанных вариантов осуществления также могут быть использованы другие архитектуры с большим или меньшим количеством компонентов.
Интерфейс 814 памяти соединен с процессорами 801, интерфейсом 802 периферийных устройств и запоминающим устройством 815 (например, флеш-памятью, RAM, ROM). В запоминающем устройстве 815 хранятся программные команды и данные, в том числе, но без ограничения: команды 816 операционной системы, команды 817 связи, команды 818 GUI, команды 819 обработки датчиков, команды 820 телефона, команды 821 электронного обмена сообщениями, команды 822 просмотра веб-страниц, команды 823 обработки звука, команды 824 навигации/GNSS и приложения/данные 825. Команды 823 обработки звука включают команды для выполнения обработки звука, описанной со ссылкой на фиг. 1-2.
Технические решения обработки звука и PLC для параметров реконструкции
Примеры PLC в контексте IVAS были описаны выше. Понятно, что концепции, представленные в этом контексте, в целом применимы к PLC параметров реконструкции для звуковых сигналов на основании кадров (на основании пакетов). Дополнительные примеры способов, в которых используются эти концепции, будут описаны ниже со ссылкой на фиг. 6-10.
План общего способа 600 обработки звукового сигнала приведен на фиг. 6. Как отмечено выше, (кодированный) звуковой сигнал содержит последовательность кадров, причем каждый кадр содержит представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно определенный формат каналов. Способ 600 включает этапы S610 и S620, которые могут включать дополнительные подэтапы и которые будут подробно описаны ниже со ссылкой на фиг. 7-9. Кроме того, способ 600 может выполняться, например, в приемнике/декодере.
На этапе S610 принимают (кодированный) звуковой сигнал. Звуковой сигнал может быть принят, например, как (пакетированный) битовый поток.
На этапе S620 на основании принятого звукового сигнала генерируют реконструированный звуковой сигнал в предварительно установленном формате каналов. Здесь реконструированный звуковой сигнал может генерироваться на основании принятого звукового сигнала и параметров реконструкции (и/или оценок параметров реконструкции, как подробного описано ниже). Кроме того, генерирование реконструированного звукового сигнала может включать повышающее микширование звуковых каналов звукового сигнала в предварительно установленный формат каналов. Повышающее микширование звуковых каналов в предварительно установленный формат каналов может относиться к реконструкции звуковых каналов предварительно установленного формата каналов на основании звуковых каналов звукового сигнала и их декоррелированных версий. Эти декоррелированные версии могут быть сгенерированы на основании (по меньшей мере некоторых из) звуковых каналов звукового сигнала и параметров реконструкции.
На фиг. 7 представлен способ 700, включающий примерные (под)этапы S710, S720 и S730 генерирования реконструированного звукового сигнала на этапе S620. Понятно, что этапы S720 и S730 относятся к возможным реализациям этапа S620, которые могут использоваться или по отдельности, или в комбинации. То есть этап S620 может включать (в дополнение к этапу S710) никакой, любой или оба из этапов S720 и S730.
На этапе S710 определяют, был ли потерян по меньшей мере один кадр звукового сигнала. Это может осуществляться в соответствии с приведенным выше описанием в разделе Предпосылки.
В этом случае на этапе S720, если в дальнейшем количество последовательно потерянных кадров превышает первое пороговое значение, реконструированный звуковой сигнал подвергают затуханию в предварительно установленную пространственную конфигурацию. Это может осуществляться в соответствии с приведенным выше разделом Предложенная обработка, пункт/этап 2.
Дополнительно или альтернативно, на этапе S730, если количество последовательно потерянных кадров превышает второе пороговое значение, которое больше первого порогового значения или равно ему, реконструированный звуковой сигнал постепенно подвергают плавному затуханию (приглушают). Это может осуществляться в соответствии с приведенным выше разделом Предложенная обработка, пункт/этап 1.
На фиг. 8 представлен способ 800, включающий примерные (под)этапы S810, S820 и S830 генерирования реконструированного звукового сигнала на этапе S620. Понятно, что этапы с S810 по S830 относятся к возможной реализации этапа S620, которая может использоваться или отдельно, или в комбинации с возможными реализацией(-ями), представленными на фиг. 7.
На этапе S810 определяют, был ли потерян по меньшей мере один кадр звукового сигнала. Это может осуществляться в соответствии с приведенным выше описанием в разделе Предпосылки.
Затем, на этапе S820, если по меньшей мере один кадр звукового сигнала был потерян, генерируют оценки параметров реконструкции по меньшей мере одного потерянного кадра на основании одного или более параметров реконструкции более раннего кадра. Это может осуществляться в соответствии с приведенным выше разделом Предложенная обработка, пункт/этап 3.
На этапе S830 оценки параметров реконструкции по меньшей мере одного потерянного кадра используют для генерирования реконструированного звукового сигнала по меньшей мере одного потерянного кадра. Это может осуществляться так, как описано выше для этапа S620, например посредством повышающего микширования. Понятно, что если фактические звуковые каналы были также потеряны, вместо них могут быть использованы их оценки. Примерами таких оценок являются сигналы маскирования EVS.
Способ 800 может применяться до тех пор, пока было потеряно менее предварительно определенного количества кадров (например, менее первого порогового значения или второго порогового значения). Альтернативно способ 800 может применяться до тех пор, пока реконструированный звуковой сигнал не будет подвергнут полному пространственному затуханию и/или полному плавному затуханию. По существу, в случае постоянной потери пакетов способ 800 может использоваться для компенсации потери пакетов до того, как приглушение/пространственное затухание произведет эффект или пока приглушение/пространственное затухание не будет завершено. Однако необходимо отметить, что концепция способа 800 также может использоваться для восстановления после всплеска потерь пакетов в присутствии временно-дифференциального кодирования параметров реконструкции.
Один пример такого способа обработки звукового сигнала для восстановления после всплеска потери пакетов, который может выполняться, например, в приемнике/декодере, будет описан ниже со ссылкой на фиг. 9. Как и ранее, предполагается, что звуковой сигнал содержит последовательность кадров, причем каждый кадр содержит представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно определенный формат каналов. Кроме того, предполагается, что каждый параметр реконструкции явно кодируется один раз на каждое заданное количество кадров в последовательности кадров, а для остальных кадров кодируется дифференциально между кадрами. Это может осуществляться в соответствии с приведенным выше разделом Временно-дифференциальное кодирование параметров реконструкции. По аналогии со способом 600, способ обработки звукового сигнала для восстановления после всплеска потери пакетов включает прием звукового сигнала (по аналогии с этапом S610) и генерирование реконструированного звукового сигнала в предварительно установленном формате каналов на основании принятого звукового сигнала (по аналогии с этапом S620). Способ 900, изображенный на фиг. 9 включает этапы S910, S920 и S930, которые являются подэтапами генерирования реконструированного звукового сигнала в предварительно установленном формате каналов на основании принятого звукового сигнала для заданного кадра. Понятно, что способ восстановления после всплеска потери пакетов может применяться для правильно принятых кадров (например, первых нескольких кадров), за которыми следуют несколько потерянных кадров.
На этапе S910 идентифицируют параметры реконструкции, которые декодированы правильно, и параметры реконструкции, которые нельзя правильно декодировать из-за отсутствия дифференциального основания. Отсутствие основания для временно-дифференциального кодирования, как ожидается, является результатом потери некоторого количества кадров (пакетов) в прошлом.
На этапе S920 параметры реконструкции, которые нельзя правильно декодировать, оценивают на основании правильно декодированных параметров реконструкции заданного кадра и/или правильно декодированных параметров реконструкции одного или более из более ранних кадров. Это можно осуществить в соответствии с приведенным выше разделом Предложенная обработка, пункт 3.
Например, оценивание заданного параметра реконструкции, который нельзя правильно декодировать для заданного кадра (из-за отсутствия основания для временно-дифференциального кодирования) может включать или оценивание заданного параметра реконструкции на основании самого последнего правильно декодированного значения заданного параметра реконструкции (например, последнего правильно декодированного значения перед (всплеском) потери пакетов), или оценивание заданного параметра реконструкции на основании самых последних правильно декодированных значений одного или более параметров реконструкции, отличных от заданного параметра реконструкции. А именно, самые последние правильно декодированные значения одного или более параметров реконструкции, отличных от заданных параметров реконструкции, могли быть декодированы для/из (текущего) заданного кадра. Решение о том, какому из двух подходов следовать, может быть принято на основании показателя надежности самого последнего правильно декодированного значения заданного параметра реконструкции. Этим показателем может являться, например, срок самого последнего правильно декодированного значения заданного параметра реконструкции. Например, если самое последнее правильно декодированное значение заданного параметра реконструкции является более давним, чем предварительно определенное пороговое значение (например, в единицах кадров), заданный параметр реконструкции может быть оценен на основании самых последних правильно декодированных значений одного или более параметров реконструкции, отличных от заданного параметра реконструкции. Иначе заданный параметр реконструкции может быть оценен на основании самого последнего правильно декодированного значения заданного параметра реконструкции. Понятно, однако, что также предусматриваются и другие показатели надежности.
В зависимости от применяемого кодека (такого как, например, IVAS), каждый кадр может содержать параметры реконструкции, относящиеся к соответствующим из множества полос частот. Тогда заданный параметр реконструкции, который нельзя правильно декодировать для заданного кадра, может быть оценен на основании самых последних правильно декодированных значений одного или более параметров реконструкции, относящихся к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции. Например, заданный параметр реконструкции может быть оценен путем интерполяции между параметрами реконструкции, относящимися к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции. В некоторых случаях заданный параметр реконструкции может быть экстраполирован из одного параметра реконструкции, относящегося к полосе частот, отличной от полосы частот, к которой относится заданный параметр реконструкции. В частности, заданный параметр реконструкции может быть оценен путем интерполяции между параметрами реконструкции, относящимися к полосам частот, которые являются соседними с полосой частот, к которой относится заданный параметр реконструкции. Если полоса частот, к которой относится заданный параметр реконструкции, имеет только одну соседнюю (или ближайшую) полосу частот (что имеет место, например, для высшей и низшей полос частот), заданный параметр реконструкции может быть оценен путем экстраполяции из параметра реконструкции, относящегося к этой соседней (или ближайшей) полосе частот.
На этапе S930 правильно декодированные параметры реконструкции и оценочные параметры реконструкции используют для генерирования реконструированного звукового сигнала заданного кадра. Это может осуществляться так, как описано выше для этапа S620, например посредством повышающего микширования.
Схема для временно-дифференциального кодирования параметров реконструкции была описана выше в разделе Временно-дифференциальное кодирование параметров реконструкции. Понятно, что настоящее изобретение также относится к способам кодирования звуковых сигналов, в которых применяется такое временно-дифференциальное кодирование. Пример такого способа 1000 кодирования звукового сигнала схематически изображен на фиг. 10. Предполагается, что кодированный звуковой сигнал содержит последовательность кадров, причем каждый кадр содержит представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно определенный формат каналов. По существу, в способе 1000 получают кодированный звуковой сигнал, который может быть декодирован, например, любым из вышеупомянутых способов. Способ 1000 включает этапы S1010 и S1020, которые могут выполняться для каждого параметра реконструкции (например, параметра SPAR), подлежащего кодированию.
На этапе S1010 параметр реконструкции кодируют явно (например, кодируют недифференциально, или в явном виде) один раз на каждое заданное количество кадров в последовательности кадров.
На этапе S1020 параметр реконструкции кодируют (временно-)дифференциально между кадрами для остальных кадров.
Выбор того, кодировать соответствующий параметр реконструкции дифференциально или недифференциально, для заданного кадра может быть сделан так, что каждый кадр содержит по меньшей мере один параметр реконструкции, закодированный явно, и по меньшей мере один параметр реконструкции, закодированный (временно-)дифференциально со ссылкой на более ранний кадр. Кроме того, для обеспечения возможности восстановления в случае потери пакетов, наборы параметров реконструкции, закодированных явно и закодированных дифференциально, отличаются от одного кадра к следующему. Например, наборы параметров реконструкции, закодированных явно и закодированных дифференциально, могут быть выбраны в соответствии с группой схем, при этом схемы циклически повторяются с некоторым периодом. То есть содержимое вышеупомянутых наборов параметров реконструкции может повторяться после предварительно определенного периода кадров. Понятно, что каждый параметр реконструкции кодируется явно один раз на каждое заданное количество кадров. Предпочтительно это заданное количество кадров является одинаковым для всех параметров реконструкции.
Преимущества
Как частично описано в приведенных выше разделах, с использованием технических решений, описанных в данном описании, для PLC можно обеспечить следующие технические преимущества перед традиционными технологиями.
Предоставление рациональных параметров реконструкции (например, параметров SPAR) в случае потери пакетов, чтобы обеспечивать согласованное пространственное впечатление, на основании, например, сигналов маскирования EVS.
Уменьшение несогласованности потерянных аудиоданных (например, маскирования EVS) для длительных периодов потерянных пакетов.
Предоставление лучших параметров реконструкции (например, параметров SPAR) после потери пакетов с применением временно-дифференциального кодирования.
Интерпретация
Аспекты систем, описанных в данном документе, могут быть реализованы в соответствующей сетевой среде обработки звука с использованием компьютеров для обработки файлов цифровых или оцифрованных звукозаписей. Части системы адаптивного звука могут включать одну или более сетей, которые содержат любое необходимое количество отдельных машин, в том числе один или более маршрутизаторов (не показаны), которые служат для буферизации и маршрутизации данных, передаваемых между компьютерами. Такая сеть может быть построена на различных разных сетевых протоколах и может представлять собой Интернет, глобальную вычислительную сеть (Wide Area Network, WAN), локальную вычислительную сеть (Local Area Network, LAN) или любую их комбинацию.
Один или более компонентов, блоков, процессов или других функциональных компонентов могут быть реализованы с помощью компьютерной программы, которая управляет действием вычислительного устройства на основе процессора системы. Следует также отметить, что различные функции, описанные в данном документе, могут быть описаны с использованием любого количества комбинаций аппаратного обеспечения, программно-аппаратного обеспечения и/или данных, и/или команд, воплощенных в различных машиночитаемых или читаемых с помощью компьютера носителях, исходя из характеристик их поведения, межрегистровой пересылки, логических компонентов и/или других характеристик. Читаемые с помощью компьютера носители, в которых могут быть воплощены такие форматированные данные и/или команды, включают, но без ограничения, физические (постоянные), энергонезависимые запоминающие носители в различных формах, такие как оптические, магнитные или полупроводниковые запоминающие носители.
Хотя одна или более реализаций описаны в качестве примера и в плане конкретных вариантов осуществления, необходимо понимать, что одна или более реализаций не ограничены раскрытыми вариантами осуществления. Наоборот, предполагается, что они должны охватывать различные модификации и подобные схемы, как будет очевидно специалистам в данной области техники. Поэтому объему прилагаемой формулы изобретения следует придавать самое широкое толкование, чтобы он охватывал все такие модификации и подобные схемы.
ПРОНУМЕРОВАННЫЕ ПРИМЕРНЫЕ ВАРИАНТЫ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯ
Различные аспекты и реализации настоящего изобретения можно также понять из следующих пронумерованных примерных вариантов осуществления (ППВО), которые не являются пунктами формулы изобретения.
ППВО1. Способ обработки звука, включающий: определение того, удовлетворяет ли количество последовательных потерянных кадров пороговому значению; и, в ответ на определение того, что это количество удовлетворяет пороговому значению, осуществление пространственного затухания декодированного выводного сигнала амбиофонии первого порядка (FOA).
ППВО2. Способ по ППВО1, в котором пороговое значение равно четырем или восьми.
ППВО3. Способ по ППВО1 или ППВО2, в котором осуществление пространственного затухания декодированного выводного сигнала FOA включает линейную интерполяцию между единичной матрицей и матрицей пространственной цели в соответствии с предполагаемым временем затухания.
ППВО4. Способ по любому из ППВО1-ППВО3, в котором пространственное затухание характеризуется уровнем затухания, который основан на пороговом значении времени.
ППВО5. Способ обработки звука, включающий: идентификацию правильно декодированных параметров; идентификацию полос с параметрами, еще не декодированных правильно из-за отсутствия основания временно-дифференциального кодирования; и распределение полос с параметрами, которые еще не декодированы правильно, по меньшей мере частично на основании правильно декодированных параметров.
ППВО6. Способ по ППВО5, в котором распределение полос с параметрами, которые еще не декодированы правильно, выполняют с использованием данных предыдущих кадров.
ППВО7. Способ по ППВО5 или ППВО6, в котором распределение полос с параметрами, которые еще не декодированы правильно, выполняют с использованием интерполяции.
ППВО8. Способ по ППВО7, в котором интерполяция включает линейную интерполяцию по полосам частот в ответ на определение того, что последнее правильно декодированное значение конкретного параметра является более давним, чем пороговое значение.
ППВО9. Способ по ППВО7 или ППВО8, в котором интерполяция включает интерполяцию между ближайшими соседними элементами.
ППВО10. Способ по любому из ППВО5-ППВО9, в котором распределение идентифицированных полос с параметрами включает: определение данных предыдущих кадров, которые считаются не содержащими ошибок; определение текущих интерполированных данных; и определение того, следует ли распределять идентифицированные полосы с параметрами с использованием данных предыдущих кадров без ошибок или текущих интерполированных данных, на основании показателей того, насколько новыми являются данные предыдущих кадров без ошибок.
ППВО11. Система, содержащая: один или более процессоров; и постоянный машиночитаемый носитель, на котором хранятся команды, которые при исполнении одним или более процессорами вызывают выполнение одним или более процессорами операций по любому из ППВО1-ППВО10.
ППВО12. Постоянный машиночитаемый носитель, на котором хранятся команды, которые при исполнении одним или более процессорами вызывают выполнение одним или более процессорами операций по любому из ППВО1-ППВО10.
Описаны способы обработки звукового сигнала для маскирования потери пакетов. Звуковой сигнал содержит последовательность кадров, причем каждый кадр содержит представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно определенный формат каналов. Один способ включает: прием звукового сигнала и генерирование реконструированного звукового сигнала в предварительно установленном формате каналов на основании принятого звукового сигнала. Генерирование реконструированного звукового сигнала включает: определение того, был ли потерян по меньшей мере один кадр звукового сигнала; и, если количество последовательно потерянных кадров превышает первое пороговое значение, осуществление затухания реконструированного звукового сигнала в предварительно установленную пространственную конфигурацию. Также описан способ кодирования звукового сигнала. Дополнительно описано устройство для осуществления способов, а также соответствующие программы и машиночитаемые носители данных. 5 н. и 17 з.п. ф-лы, 10 ил.
1. Способ обработки звукового сигнала, в котором звуковой сигнал содержит последовательность кадров, причем каждый кадр содержит представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно установленный формат каналов, при этом способ включает:
прием звукового сигнала; и
генерирование реконструированного звукового сигнала в предварительно установленном формате каналов на основании принятого звукового сигнала,
при этом генерирование реконструированного звукового сигнала включает:
определение того, был ли потерян по меньшей мере один кадр звукового сигнала; и
осуществление затухания реконструированного звукового сигнала в предварительно установленную пространственную конфигурацию, если количество последовательно потерянных кадров превышает первое пороговое значение,
при этом осуществление затухания реконструированного звукового сигнала в предварительно установленную пространственную конфигурацию включает линейную интерполяцию между единичной матрицей и целевой матрицей, характеризующей предварительно установленную пространственную конфигурацию, в соответствии с предварительно установленным временем затухания.
2. Способ по п. 1, отличающийся тем, что предварительно установленная пространственная конфигурация соответствует пространственно равномерному звуковому сигналу; или
предварительно установленная пространственная конфигурация соответствует предварительно установленному направлению.
3. Способ по п. 1 или 2, отличающийся тем, что дополнительно включает:
осуществление постепенного плавного затухания реконструированного звукового сигнала, если количество последовательно потерянных кадров превышает второе пороговое значение, которое больше первого порогового значения или равно ему.
4. Способ по любому из пп. 1–3, отличающийся тем, что дополнительно включает:
генерирование оценок параметров реконструкции по меньшей мере одного потерянного кадра на основании параметров реконструкции более раннего кадра, если по меньшей мере один кадр звукового сигнала был потерян; и
использование оценок параметров реконструкции по меньшей мере одного потерянного кадра для генерирования реконструированного звукового сигнала по меньшей мере одного потерянного кадра.
5. Способ по п. 4, отличающийся тем, что каждый параметр реконструкции кодируют явно один раз на каждое заданное количество кадров в последовательности кадров, а для остальных кадров выполняют дифференциальное кодирование между кадрами; и
при этом оценивание заданного параметра реконструкции потерянного кадра включает:
оценивание заданного параметра реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции; или
оценивание заданного параметра реконструкции потерянного кадра на основании самых последних определенных значений одного, двух или более параметров реконструкции, отличных от заданного параметра реконструкции.
6. Способ по п. 5, отличающийся тем, что включает:
определение показателя надежности самого последнего определенного значения заданного параметра реконструкции; и
принятие решения, на основании показателя надежности, о том, следует ли оценивать заданный параметр реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции или же на основании самых последних определенных значений одного, двух или более параметров реконструкции, отличных от заданного параметра реконструкции.
7. Способ по п. 5 или 6, отличающийся тем, что включает:
оценивание заданного параметра реконструкции потерянного кадра на основании самых последних определенных значений одного, двух или более параметров реконструкции, отличных от заданного параметра реконструкции, если количество кадров, для которых значение заданного параметра реконструкции определить нельзя, превышает третье пороговое значение; и
иначе оценивание заданного параметра реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции.
8. Способ по любому из пп. 4–7, отличающийся тем, что каждый кадр содержит параметры реконструкции, относящиеся к соответствующим полосам частот, и при этом заданный параметр реконструкции потерянного кадра может быть оценен на основании одного или более параметров реконструкции, относящихся к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
9. Способ по п. 8, отличающийся тем, что заданный параметр реконструкции оценивают путем интерполяции между параметрами реконструкции, относящимися к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
10. Способ по п. 8 или 9, отличающийся тем, что заданный параметр реконструкции оценивают путем интерполяции между параметрами реконструкции, относящимися к полосам частот, которые являются соседними с полосой частот, к которой относится заданный параметр реконструкции, или, если полоса частот, к которой относится заданный параметр реконструкции, имеет только одну соседнюю полосу частот, то путем экстраполяции из параметра реконструкции, относящегося к этой соседней полосе частот.
11. Способ обработки звукового сигнала, в котором звуковой сигнал содержит последовательность кадров, причем каждый кадр содержит представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно установленный формат каналов, при этом способ включает:
прием звукового сигнала; и
генерирование реконструированного звукового сигнала в предварительно установленном формате каналов на основании принятого звукового сигнала,
при этом генерирование реконструированного звукового сигнала включает:
определение того, был ли потерян по меньшей мере один кадр звукового сигнала; и
если по меньшей мере один кадр звукового сигнала был потерян:
генерирование оценок параметров реконструкции по меньшей мере одного потерянного кадра на основании одного или более параметров реконструкции более раннего кадра; и
использование оценок параметров реконструкции по меньшей мере одного потерянного кадра для генерирования реконструированного звукового сигнала по меньшей мере одного потерянного кадра; и
при этом каждый параметр реконструкции кодируют явно один раз на каждое заданное количество кадров в последовательности кадров, а для остальных кадров выполняют дифференциальное кодирование между кадрами; и
при этом оценивание заданного параметра реконструкции потерянного кадра включает:
оценивание заданного параметра реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции; или
оценивание заданного параметра реконструкции потерянного кадра на основании самых последних определенных значений одного, двух или более параметров реконструкции, отличных от заданного параметра реконструкции;
определение показателя надежности самого последнего определенного значения заданного параметра реконструкции; и
принятие решения, на основании показателя надежности, о том, следует ли оценивать заданный параметр реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции или же на основании самых последних определенных значений одного, двух или более параметров реконструкции, отличных от заданного параметра реконструкции.
12. Способ по п. 11, отличающийся тем, что включает:
оценивание заданного параметра реконструкции потерянного кадра на основании самых последних определенных значений одного, двух или более параметров реконструкции, отличных от заданного параметра реконструкции, если количество кадров, для которых значение заданного параметра реконструкции определить нельзя, превышает третье пороговое значение; и
иначе оценивание заданного параметра реконструкции потерянного кадра на основании самого последнего определенного значения заданного параметра реконструкции.
13. Способ по п. 11 или 12, отличающийся тем, что каждый кадр содержит параметры реконструкции, относящиеся к соответствующим полосам частот, и при этом заданный параметр реконструкции потерянного кадра может быть оценен на основании одного или более параметров реконструкции, относящихся к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
14. Способ по п. 13, отличающийся тем, что заданный параметр реконструкции оценивают путем интерполяции между параметрами реконструкции, относящимися к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
15. Способ по п. 13 или 14, отличающийся тем, что заданный параметр реконструкции оценивают путем интерполяции между параметрами реконструкции, относящимися к полосам частот, которые являются соседними с полосой частот, к которой относится заданный параметр реконструкции, или, если полоса частот, к которой относится заданный параметр реконструкции, имеет только одну соседнюю полосу частот, то путем экстраполяции из параметра реконструкции, относящегося к этой соседней полосе частот.
16. Способ обработки звукового сигнала, в котором звуковой сигнал содержит последовательность кадров, причем каждый кадр содержит представления множества звуковых каналов и параметры реконструкции для повышающего микширования множества звуковых каналов в предварительно установленный формат каналов, и при этом каждый параметр реконструкции явно кодируют один раз на каждое заданное количество кадров в последовательности кадров, а для остальных кадров применяют дифференциальное кодирование между кадрами, и при этом способ включает:
прием звукового сигнала; и
генерирование реконструированного звукового сигнала в предварительно установленном формате каналов на основании принятого звукового сигнала,
при этом генерирование реконструированного звукового сигнала включает, для заданного кадра звукового сигнала:
идентификацию параметров реконструкции, которые декодированы правильно, и параметров реконструкции, которые нельзя правильно декодировать из-за отсутствия дифференциального основания;
оценивание параметров реконструкции, которые нельзя правильно декодировать, на основании правильно декодированных параметров реконструкции заданного кадра и/или правильно декодированных параметров реконструкции одного или более из более ранних кадров; и
использование правильно декодированных параметров реконструкции и оценочных параметров реконструкции для генерирования реконструированного звукового сигнала заданного кадра; и
при этом оценивание заданного параметра реконструкции, который нельзя декодировать правильно, для заданного кадра включает:
оценивание заданного параметра реконструкции на основании самого последнего правильно декодированного значения заданного параметра реконструкции; или
оценивание заданного параметра реконструкции на основании самых последних правильно декодированных значений одного, двух или более параметров реконструкции, отличных от заданного параметра реконструкции;
определение показателя надежности самого последнего правильно декодированного значения заданного параметра реконструкции; и
принятие решения, на основании показателя надежности, о том, следует ли оценивать заданный параметр реконструкции на основании самого последнего правильно декодированного значения заданного параметра реконструкции или же на основании самых последних правильно декодированных значений одного, двух или более параметров реконструкции, отличных от заданного параметра реконструкции.
17. Способ по п. 16, отличающийся тем, что включает:
оценивание заданного параметра реконструкции на основании самых последних правильно декодированных значений одного, двух или более параметров реконструкции, отличных от заданного параметра реконструкции, если самое последнее правильно декодированное значение заданного параметра реконструкции является более давним, чем предварительно определенное пороговое значение, в единицах кадров; и
иначе оценивание заданного параметра реконструкции на основании самого последнего правильно декодированного значения заданного параметра реконструкции.
18. Способ по п. 16 или 17, отличающийся тем, что каждый кадр содержит параметры реконструкции, относящиеся к соответствующим полосам частот, и при этом заданный параметр реконструкции, который нельзя правильно декодировать для заданного кадра, оценивают на основании самых последних правильно декодированных значений одного или более параметров реконструкции, относящихся к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
19. Способ по п. 18, отличающийся тем, что заданный параметр реконструкции оценивают путем интерполяции между параметрами реконструкции, относящимися к полосам частот, отличным от полосы частот, к которой относится заданный параметр реконструкции.
20. Способ по п. 18 или 19, отличающийся тем, что заданный параметр реконструкции оценивают путем интерполяции между параметрами реконструкции, относящимися к полосам частот, которые являются соседними с полосой частот, к которой относится заданный параметр реконструкции, или, если полоса частот, к которой относится заданный параметр реконструкции, имеет только одну соседнюю полосу частот, то путем экстраполяции из параметра реконструкции, относящегося к этой соседней полосе частот.
21. Устройство обработки звукового сигнала, содержащее процессор и память, соединенную с процессором, в которой хранятся команды для процессора, при этом процессор выполнен с возможностью выполнения всех этапов способа по любому из пп. 1–20.
22. Машиночитаемый носитель данных, на котором хранятся команды, которые при исполнении вычислительным устройством вызывают выполнение вычислительным устройством всех этапов способа по любому из пп. 1–20.
Способ обработки целлюлозных материалов, с целью тонкого измельчения или переведения в коллоидальный раствор | 1923 |
|
SU2005A1 |
US 2012207307 A1, 16.08.2012 | |||
US 2013142339 A1, 06.06.2013 | |||
US 2011268280 A1, 03.11.2011. |
Авторы
Даты
2024-04-09—Публикация
2021-07-07—Подача