АППАРАТУРА И СПОСОБ ОБРАБОТКИ ТРЕХМЕРНОГО АУДИОСИГНАЛА Российский патент 2025 года по МПК G10L19/08 G10L25/27 

Описание патента на изобретение RU2835366C2

[0001] Настоящая заявка испрашивает приоритет на основании патентной заявки Китая №. 202110602507.4, поданной в Национальное управление интеллектуальной собственности Китая 31 мая 2021 г. под названием «THREE-DIMENSIONAL AUDIO SIGNAL PROCESSING METHOD AND APPARATUS», которая полностью включена в настоящий документ посредством ссылки.

ОБЛАСТЬ ТЕХНИКИ

[0002] Данная заявка относится к области технологий обработки звука и, в частности, к аппаратуре и способу обработки трехмерного аудиосигнала.

УРОВЕНЬ ТЕХНИКИ

[0003] Технология трехмерного аудио широко используется в беспроводной связи, речи, виртуальной реальности/дополненной реальности, мультимедийном аудио и т.п. Технология трехмерного аудио - это аудиотехнология для получения, обработки, передачи, рендеринга (воспроизведения) и проигрывания звукового события и информации трехмерного звукового поля в реальном мире. Технология трехмерного аудио придает звуку сильные ощущения пространства, охвата и погружения, а также обеспечивает необыкновенное «погружение» слухового опыта. Технология амбиофонии (эффекта присутствия) более высокого порядка (higher-order ambisonics, HOA) не зависит от расположения динамиков во время записи, кодирования и воспроизведения и имеет функцию вращающегося воспроизведения данных в формате HOA. Технология амбиофонии более высокого порядка обладает большей гибкостью при воспроизведении трехмерного аудио и поэтому является предметом большого внимания и исследований.

[0004] Устройство захвата (например, микрофон) захватывает большой объем данных для записи информации трехмерного звукового поля и передает трехмерный аудиосигнал на устройство воспроизведения (например, динамик или наушники), так что устройство воспроизведения воспроизводит трехмерный аудиосигнал. Поскольку объем данных информации трехмерного звукового поля велик, для хранения данных требуется большой объем памяти, а для передачи трехмерного аудиосигнала требуется широкая полоса пропускания. Чтобы решить вышеупомянутую задачу, трехмерный аудиосигнал может быть сжат, а сжатые данные могут быть сохранены или переданы.

[0005] В настоящее время кодер может кодировать трехмерный аудиосигнал, используя множество предварительно сконфигурированных виртуальных динамиков. Однако перед кодированием трехмерного аудиосигнала кодер не может классифицировать трехмерный аудиосигнал, и, следовательно, трехмерный аудиосигнал не может быть эффективно идентифицирован.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

[0006] Варианты осуществления этой заявки предоставляют аппаратуру и способ обработки трехмерного аудиосигнала для реализации классификации звукового поля трехмерного аудиосигнала, чтобы точно идентифицировать трехмерный аудиосигнал.

[0007] Для решения вышеизложенной технической задачи варианты осуществления настоящей заявки предусматривают следующие технические решения.

[0008] Согласно первому аспекту вариант осуществления этой заявки предоставляет способ обработки трехмерного аудиосигнала, включающий в себя: выполнение линейного разложения текущего кадра трехмерного аудиосигнала для получения результата линейного разложения; получение, на основе результата линейного разложения, параметра классификации звукового поля, соответствующего текущему кадру; и определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля. В приведенных выше решениях линейное разложение сначала выполняется на текущем кадре трехмерного аудиосигнала, чтобы получить результат линейного разложения. Затем параметр классификации звукового поля, соответствующий текущему кадру, получается на основе результата линейного разложения. Наконец, результат классификации звукового поля текущего кадра определяется на основе параметра классификации звукового поля. В этом варианте осуществления этой заявки линейное разложение выполняется на текущем кадре трехмерного аудиосигнала, чтобы получить результат линейного разложения текущего кадра. Затем параметр классификации звукового поля, соответствующий текущему кадру, получается на основе результата линейного разложения. Следовательно, результат классификации звукового поля текущего кадра определяется на основе параметра классификации звукового поля, и классификация звукового поля текущего кадра может быть реализована на основе результата классификации звукового поля. В этом варианте осуществления этой заявки классификация звукового поля выполняется на трехмерном аудиосигнале, чтобы точно идентифицировать трехмерный аудиосигнал.

[0009] В возможной реализации трехмерный аудиосигнал включает в себя сигнал HOA амбиофонии более высокого порядка или сигнал FOA амбиофонии первого порядка.

[0010] В возможной реализации выполнение линейного разложения текущего кадра трехмерного аудиосигнала для получения результата линейного разложения включает в себя: выполнение разложения по сингулярному значению в текущем кадре для получения сингулярного значения, соответствующего текущему кадру, где результат линейного разложения включает сингулярное значение; выполнение анализа главных компонент текущего кадра для получения первого значения признака, соответствующего текущему кадру, где результат линейного разложения включает в себя упомянутое первое значение признака; или выполнение независимого анализа компонентов текущего кадра для получения второго значения признака, соответствующего текущему кадру, где результат линейного разложения включает в себя упомянутое второе значение признака. В приведенных выше решениях линейное разложение может быть разложением по сингулярным значениям. Альтернативно, линейное разложение может представлять собой анализ главных компонентов для получения значения признака, или альтернативно линейное разложение может представлять собой анализ независимых компонентов для получения второго значения признака. Любым из трех методов может быть реализовано линейное разложение текущего кадра, чтобы обеспечить результат линейного анализа для последующего определения аудиоканала.

[0011] В возможной реализации имеется множество результатов линейного разложения и имеется множество параметров классификации звукового поля. Получение, на основе результата линейного разложения, параметра классификации звукового поля, соответствующего текущему кадру, включает в себя: получение отношения i-го результата линейного анализа текущего кадра к (i+1)-му результату линейного анализа текущего кадра, где i - целое положительное число; и получение, на основе упомянутого отношения, i-го параметра классификации звукового поля, соответствующего текущему кадру.

[0012] Кроме того, i-й результат линейного анализа и (i+1)-й результат линейного анализа представляют собой два последовательных результата линейного анализа текущего кадра.

[0013] В вышеупомянутых решениях сторона кодера может получить, на основе результата линейного разложения, параметр классификации звукового поля, соответствующий текущему кадру. Например, имеется множество результатов линейного разложения текущего кадра, и два последовательных результата линейного анализа из множества результатов линейного анализа представлены как i-й результат линейного анализа и (i+1)-й результат линейного анализа текущего кадра. В этом случае может быть вычислено отношение i-го результата линейного анализа текущего кадра к (i+1)-му результату линейного анализа текущего кадра, и конкретное значение i не ограничено. После того как отношение получено, i-й параметр классификации звукового поля, соответствующий текущему кадру, может быть получен на основе отношения i-го результата линейного анализа к (i+1)-му результату линейного анализа текущего кадра.

[0014] В возможной реализации существует множество параметров классификации звукового поля, и результат классификации звукового поля включает в себя тип звукового поля. Определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля включает в себя: когда все значения множества параметров классификации звукового поля соответствуют предустановленному условию принятия решения о (выбора источника) источнике дисперсионного звука, определение, что тип звукового поля является дисперсионным звуковым полем; или когда по меньшей мере одно из значений множества параметров классификации звукового поля соответствует предустановленному условию принятия решения о источниках гетерогенного звука определяют, что тип звукового поля является гетерогенным звуковым полем. В вышеупомянутых решениях тип звукового поля может включать в себя гетерогенное звуковое поле и дисперсионное звуковое поле. В этом варианте осуществления данной заявки предустановлены условие принятия решения о источнике дисперсионного звука и условие принятия решения о источнике (источниках) гетерогенного звука. Условие принятия решения о источнике дисперсионного звука используется для определения, является ли тип звукового поля дисперсионным звуковым полем, а условие принятия решения о источниках гетерогенного звука используется для определения, является ли тип звукового поля гетерогенным звуковым полем. После того как получено множество параметров классификации звукового поля текущего кадра, определение выполняется на основе значений множества параметров классификации звукового поля и предустановленного условия.

[0015] В возможной реализации условие принятия решения о источнике дисперсионного звука включает в себя то, что значение параметра классификации звукового поля меньше предустановленного порога определения источника гетерогенного звука; или условие принятия решения о источнике гетерогенного звука включает в себя то, что значение параметра классификации звукового поля больше или равно предустановленному порогу определения источника гетерогенного звука. В вышеизложенных решениях порог определения источника гетерогенного звука может быть предустановленным порогом, и конкретное значение не ограничено. Условие принятия решения о источнике дисперсионного звука включает в себя то, что значение параметра классификации звукового поля меньше предустановленного порога определения источника гетерогенного звука. Следовательно, когда все значения множества параметров классификации звукового поля меньше предустановленного порога определения источника гетерогенного звука, определяют, что тип звукового поля представляет собой дисперсионное звуковое поле. Условие принятия решения о источнике гетерогенного звука включает в себя то, что значение параметра классификации звукового поля больше или равно предустановленному порогу определения источника гетерогенного звука. Следовательно, когда по меньшей мере одно из значений множества параметров классификации звукового поля больше или равно предустановленному порогу определения источника гетерогенного звука, определяют, что тип звукового поля является гетерогенным звуковым полем.

[0016] В возможной реализации существует множество параметров классификации звукового поля, и результат классификации звукового поля включает в себя тип звукового поля, или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля. Определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля включает в себя: получение, на основе значений множества параметров классификации звукового поля, количества источников гетерогенного звука, соответствующих текущему кадру; и определение типа звукового поля на основе количества источников гетерогенного звука, соответствующих текущему кадру. В вышеупомянутых решениях после получения множества параметров классификации звукового поля, соответствующих текущему кадру, сторона кодера может получить, на основе значений множества параметров классификации звукового поля, количество источников гетерогенного звука, соответствующих текущему кадру. источники гетерогенного звука представляют собой точечные источники звука с разными положениями и/или направлениями, а количество источников гетерогенного звука, включенных в текущий кадр, называется количеством источников гетерогенного звука. Звуковое поле текущего кадра можно классифицировать по количеству источников гетерогенного звука. После того, как количество источников гетерогенного звука, соответствующих текущему кадру, получено для определения типа звукового поля, тип звукового поля, соответствующий текущему кадру, может быть определен путем анализа количества источников гетерогенного звука, соответствующих текущему кадру.

[0017] В возможной реализации существует множество параметров классификации звукового поля, и результат классификации звукового поля включает в себя некоторое количество источников гетерогенного звука. Определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля включает в себя: получение, на основе значений множества параметров классификации звукового поля, количества источников гетерогенного звука, соответствующих текущему кадру. В вышеупомянутых решениях после получения множества параметров классификации звукового поля, соответствующих текущему кадру, сторона кодера может получить, на основе значений множества параметров классификации звукового поля, количество источников гетерогенного звука, соответствующих текущему кадру. источники гетерогенного звука представляют собой точечные источники звука с разными положениями и/или направлениями, а количество источников гетерогенного звука, включенных в текущий кадр, называется количеством источников гетерогенного звука.

[0018] В возможной реализации множеством параметров классификации звукового поля являются temp[i], i=0, 1, …, min(L, K)-2, L указывает количество каналов текущего кадра, K - количество сигнальных точек, соответствующих каждому каналу текущего кадра, а min указывает операцию, в которой выбирается минимальное значение. Получение, на основе значений множества параметров классификации звукового поля, количества источников гетерогенного звука, соответствующих текущему кадру, включает в себя: последовательное выполнение следующих процедур определения, начиная с i=0: определение того, превышает ли temp[i] предустановленный порог определения источника гетерогенного звука; и когда temp[i] меньше порога определения источника гетерогенного звука в этой процедуре определения, обновление значения i до i+1 и продолжение выполнения следующей процедуры определения; или когда temp[i] больше или равно порогу определения источника гетерогенного звука в этой процедуре определения, прекращение выполнения процедуры определения и определение, что i в этой процедуре определения плюс 1 равно количеству источников гетерогенного звука. В вышеупомянутых решениях процедура определения выполняется множество раз, и каждый раз определяется, прекращать ли выполнение процедуры определения, для получения количества источников гетерогенного звука.

[0019] В возможной реализации определение типа звукового поля на основе количества источников гетерогенного звука, соответствующих текущему кадру, включает в себя: когда количество источников гетерогенного звука соответствует первому предустановленному условию, определение того, что тип звукового поля является первым типом звукового поля; или когда количество источников гетерогенного звука не соответствует первому предустановленному условию, определение того, что тип звукового поля является вторым типом звукового поля. Количество источников гетерогенного звука, соответствующих первому типу звукового поля, отличается от количества источников гетерогенного звука, соответствующих второму типу звукового поля. В вышеупомянутых решениях типы звукового поля могут быть разделены на два типа на основе разного количества источников гетерогенного звука: первый тип звукового поля и второй тип звукового поля. Сторона кодера получает предустановленное условие; определяет, соответствует ли количество источников гетерогенного звука предустановленному условию; и когда количество источников гетерогенного звука соответствует первому предустановленному условию, определяет, что тип звукового поля является первым типом звукового поля; или когда количество источников гетерогенного звука не соответствует первому предустановленному условию, определяет, что тип звукового поля является вторым типом звукового поля. В этом варианте осуществления этой заявки может быть определено, соответствует ли количество источников гетерогенного звука первому предустановленному условию, чтобы реализовать разделение типа звукового поля текущего кадра, чтобы точно идентифицировать, что тип звукового поля текущего кадра принадлежит первому типу звукового поля или второму типу звукового поля.

[0020] В возможной реализации первое предустановленное условие включает в себя то, что количество источников гетерогенного звука больше первого порога и меньше второго порога, а второй порог больше первого порога; или первое предустановленное условие включает в себя то, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог превышает первый порог. В вышеупомянутых решениях конкретные значения первого порога и второго порога не ограничены и могут быть конкретно определены на основе сценария применения. Второй порог больше первого порога. Следовательно, первый порог и второй порог могут образовывать предустановленный диапазон, и первое предустановленное условие может заключаться в том, что количество источников гетерогенного звука попадает в предустановленный диапазон, или первое предустановленное условие может заключаться в том, что количество источников гетерогенного звука находится за пределами предустановленного диапазона. Количество источников гетерогенного звука может быть определено на основе первого порога и второго порога в первом предустановленном условии, чтобы определить, соответствует ли количество источников гетерогенного звука первому предустановленному условию, чтобы точно идентифицировать, что тип звукового поля текущего кадра принадлежит первому типу звукового поля или второму типу звукового поля.

[0021] В возможной реализации способ дополнительно включает в себя: определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру. В вышеупомянутых решениях сторона кодера может определять, на основе результата классификации звукового поля, режим кодирования, соответствующий текущему кадру. Режим кодирования - это режим, используемый при кодировании текущего кадра трехмерного аудиосигнала. Существует множество режимов кодирования, и разные режимы кодирования могут использоваться на основе разных результатов классификации звукового поля текущего кадра. В этом варианте осуществления этой заявки соответствующие (подходящие) режимы кодирования выбираются для различных результатов классификации звукового поля текущего кадра, так что текущий кадр кодируется с использованием режима кодирования. Это повышает эффективность сжатия и слуховое качество аудиосигнала.

[0022] В возможной реализации определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру, включает в себя: когда результат классификации звукового поля включает в себя количество источников гетерогенного звука, или когда результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение, на основе количества источников гетерогенного звука, режима кодирования, соответствующего текущему кадру; когда результат классификации звукового поля включает в себя тип звукового поля или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение, на основе типа звукового поля, режима кодирования, соответствующего текущему кадру; или когда результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение, на основе количества источников гетерогенного звука и типа звукового поля, режима кодирования, соответствующего текущему кадру. В приведенных выше решениях сторона кодера может определить, на основе количества источников гетерогенного звука и/или типа звукового поля, режим кодирования, соответствующий текущему кадру, чтобы определить соответствующий режим кодирования на основе результата классификации звукового поля текущего кадра, так что определенный режим кодирования можно адаптировать к текущему кадру трехмерного аудиосигнала. Это повышает эффективность кодирования.

[0023] В возможной реализации определение, на основе количества источников гетерогенного звука, режима кодирования, соответствующего текущему кадру, включает в себя: когда количество источников гетерогенного звука соответствует второму предустановленному условию, определение того, что режим кодирования является первым режимом кодирования; или когда количество источников гетерогенного звука не соответствует второму предустановленному условию, определение, что режим кодирования является вторым режимом кодирования. Первый режим кодирования представляет собой режим кодирования HOA, основанный на выборе виртуального динамика, или режим кодирования HOA, основанный на направленной аудиокодировке, второй режим кодирования представляет собой режим кодирования HOA, основанный на выборе виртуального динамика, или режим кодирования HOA, основанный на направленной аудиокодировке, и первый режим кодирования и второй режим кодирования являются разными режимами кодирования. В вышеизложенных решениях режимы кодирования можно классифицировать на два типа на основе различного количества источников гетерогенного звука: первый режим кодирования и второй режим кодирования. Сторона кодера получает второе предустановленное условие; определяет, соответствует ли количество источников гетерогенного звука второму предустановленному условию; и когда количество источников гетерогенного звука соответствует второму предустановленному условию, определяет, что режим кодирования является первым режимом кодирования; или когда количество источников гетерогенного звука не соответствует второму предустановленному условию, определяет, что режим кодирования является вторым режимом кодирования. В этом варианте осуществления этой заявки может быть определено, соответствует ли количество источников гетерогенного звука второму предустановленному условию, чтобы реализовать разделение режима кодирования текущего кадра, чтобы точно идентифицировать, что режим кодирования текущего кадра принадлежит первому режиму кодирования или второму режиму кодирования.

[0024] В возможной реализации второе предустановленное условие включает в себя то, что количество источников гетерогенного звука больше первого порога и меньше второго порога, а второй порог больше первого порога; или второе предустановленное условие включает в себя то, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог превышает первый порог.

[0025] В возможной реализации определение, на основе типа звукового поля, режима кодирования, соответствующего текущему кадру, включает в себя: когда тип звукового поля представляет собой гетерогенное звуковое поле, определение того, что режим кодирования является режимом кодирования HOA на основе выбора виртуального динамика; или когда тип звукового поля представляет собой дисперсионное звуковое поле, определение того, что режим кодирования является режимом кодирования HOA на основе направленной аудиокодировки.

[0026] В возможной реализации определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру, включает в себя: определение, на основе результата классификации звукового поля текущего кадра, начального режима кодирования, соответствующего текущему кадру; получение окна затягивания (последействия), в котором находится текущий кадр, причем окно затягивания включает в себя начальный режим кодирования текущего кадра и режимы кодирования N-1 кадров перед текущим кадром, а N представляет собой длину окна затягивания; и определение режима кодирования текущего кадра на основе начального режима кодирования текущего кадра и режимов кодирования N-1 кадров. В вышеупомянутых решениях, в этом варианте осуществления этой заявки, начальный режим кодирования текущего кадра корректируется на основе окна затягивания, чтобы получить режим кодирования текущего кадра. Это гарантирует, что режимы кодирования последовательных кадров не переключаются часто, и повышает эффективность кодирования.

[0027] В возможной реализации способ дополнительно включает в себя: определение, на основе результата классификации звукового поля, параметра кодирования, соответствующего текущему кадру. В вышеизложенных решениях сторона кодера может определять, на основе результата классификации звукового поля, параметр кодирования, соответствующий текущему кадру. Параметр кодирования представляет собой параметр, используемый при кодировании текущего кадра трехмерного аудиосигнала. Существует множество параметров кодирования, и разные параметры кодирования могут использоваться на основе разных результатов классификации звукового поля текущего кадра. В этом варианте осуществления этой заявки соответствующие параметры кодирования выбираются для разных результатов классификации звукового поля текущего кадра, так что текущий кадр кодируется на основе параметра кодирования. Это повышает эффективность сжатия и слуховое качество аудиосигнала.

[0028] В возможной реализации параметр кодирования включает в себя по меньшей мере одно из следующего: количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала, количество битов кодирования сигнала виртуального динамика, количество битов кодирования остаточного сигнала или количество раундов выборки для поиска наиболее соответствующего (подходящего) динамика. Сигнал виртуального динамика и остаточный сигнал генерируются на основе трехмерного аудиосигнала.

[0029] В возможной реализации количество раундов выборки соответствует следующему соотношению: . I - количество раундов выборки, а d - количество источников гетерогенного звука, включенных в результат классификации звукового поля. В вышеизложенных решениях сторона кодера определяет, на основании количества источников гетерогенного звука текущего кадра, количество раундов выборки для поиска наиболее соответствующего динамика. Количество раундов выборки меньше или равно количеству источников гетерогенного звука текущего кадра, так что количество раундов выборки может соответствовать фактической ситуации классификации звукового поля текущего кадра. Это решает проблему, заключающуюся в том, что количество раундов выборки для поиска наиболее соответствующего динамика необходимо определять при кодировании текущего кадра.

[0030] В возможной реализации результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля. Когда тип звукового поля является гетерогенным звуковым полем, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению: F=min(S, PF), где F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное кодером; или когда типом звукового поля является дисперсионное звуковое поле, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению: F=1, где F - количество каналов сигнала виртуального динамика. В вышеизложенных решениях количество каналов сигнала виртуального динамика представляет собой количество каналов для передачи сигнала виртуального динамика, и количество каналов сигнала виртуального динамика может быть определено на основе количества источников гетерогенного звука и типа звукового поля. При описанном выше способе вычисления, когда тип звукового поля представляет собой дисперсионное звуковое поле, определяется, что количество каналов сигнала виртуального динамика равно 1, чтобы улучшить эффективность кодирования текущего кадра. Когда тип звукового поля представляет собой гетерогенное звуковое поле, min указывает на операцию, в которой выбирается минимальное значение, то есть выбор минимального значения из S и PF в качестве количества каналов сигнала виртуального динамика, так что количество каналов сигнала виртуального динамика может соответствовать фактической ситуации классификации звукового поля текущего кадра. Это решает проблему, заключающуюся в том, что количество каналов сигнала виртуального динамика необходимо определять при кодировании текущего кадра.

[0031] В возможной реализации, когда тип звукового поля представляет собой дисперсионное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению: R=max(C-1, PR), где PR - количество каналов остаточного сигнала, предустановленное кодером, а C - сумма количества каналов остаточного сигнала, предустановленного энкодером, и количества каналов сигнала виртуального динамика, предустановленного кодером; или когда тип звукового поля является гетерогенным звуковым полем, количество каналов остаточного сигнала удовлетворяет следующему соотношению: R=C - F, где R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером, F - количество каналов сигнала виртуального динамика. В приведенных выше решениях после того, как получено количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала может быть вычислено на основе предустановленного количества каналов остаточного сигнала и суммы предустановленного количества каналов остаточного сигнала и предустановленного количества каналов сигнала виртуального динамика. Значение PR может быть предустановлено на стороне кодера, а значение R может быть получено по формуле вычисления max(C-1, PR). Сумма предустановленного количества каналов остаточного сигнала и предустановленного количества каналов сигнала виртуального динамика предварительно устанавливается на стороне кодера. Кроме того, C также может называться общим количеством каналов передачи.

[0032] В возможной реализации результат классификации звукового поля включает в себя количество источников гетерогенного звука. Количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению: F=min(S, PF), где F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, а PF - количество каналов сигнала виртуального динамика, предустановленное кодером.

[0033] В возможной реализации количество каналов остаточного сигнала удовлетворяет следующему соотношению: R=C - F, где R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером, F - количество каналов сигнала виртуального динамика. В приведенных выше решениях после того, как получено количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала может быть вычислено на основе количества каналов сигнала виртуального динамика и суммы предустановленного количества каналов остаточного сигнала и предустановленного количества каналов сигнала виртуального динамика. Сумма предустановленного количества каналов остаточного сигнала и предустановленного количества каналов сигнала виртуального динамика предварительно устанавливается на стороне кодера. Кроме того, C также может называться общим количеством каналов передачи.

[0034] В возможной реализации результат классификации звукового поля включает в себя количество источников гетерогенного звука, или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля. Количество битов кодирования сигнала виртуального динамика получается на основе отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи. Количество битов кодирования остаточного сигнала получается на основе отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи. Количество битов кодирования канала передачи включает в себя количество битов кодирования сигнала виртуального динамика и количество битов кодирования остаточного сигнала, а когда количество источников гетерогенного звука меньше или равно количеству каналов сигнала виртуального динамика, отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи получается путем увеличения исходного отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи.

[0035] В возможной реализации способ дополнительно включает в себя: кодирование текущего кадра и результата классификации звукового поля и запись закодированного текущего кадра и результата классификации звукового поля в битовый поток.

[0036] Согласно второму аспекту вариант осуществления этой заявки дополнительно обеспечивает способ обработки трехмерного аудиосигнала, включающий в себя: прием битового потока; декодирование битового потока для получения результата классификации звукового поля текущего кадра; и получение трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля. В вышеупомянутых решениях результат классификации звукового поля может использоваться для декодирования текущего кадра в битовом потоке. Следовательно, сторона декодера выполняет декодирование способом декодирования, соответствующим звуковому полю текущего кадра, чтобы получить трехмерный аудиосигнал, отправленный стороной кодера. Это реализует передачу аудиосигнала со стороны кодера на сторону декодера.

[0037] В возможной реализации получение трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля включает в себя: определение режима декодирования текущего кадра на основе результата классификации звукового поля; и получение трехмерного аудиосигнала декодированного текущего кадра на основе режима декодирования.

[0038] В возможной реализации определение режима декодирования текущего кадра на основе результата классификации звукового поля включает в себя: когда результат классификации звукового поля включает в себя некоторое количество источников гетерогенного звука, или когда результат классификации звукового поля включает в себя некоторое количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе количества источников гетерогенного звука; когда результат классификации звукового поля включает в себя тип звукового поля или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе типа звукового поля; или когда результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе количества источников гетерогенного звука и типа звукового поля.

[0039] В возможной реализации определение, на основе количества источников гетерогенного звука, режима декодирования, соответствующего текущему кадру, включает в себя: когда количество источников гетерогенного звука соответствует предустановленному условию, определение того, что режим декодирования является первым режимом декодирования; или когда количество источников гетерогенного звука не соответствует предустановленному условию, определение того, что режим декодирования является вторым режимом декодирования. Первый режим декодирования представляет собой режим декодирования НОА, основанный на выборе виртуального динамика, или режим декодирования НОА, основанный на направленной аудиокодировке, второй режим декодирования представляет собой режим декодирования НОА, основанный на выборе виртуального динамика, или режим декодирования НОА, основанный на направленной аудиокодировке, и первый режим декодирования и второй режим декодирования являются разными режимами декодирования.

[0040] В возможной реализации предустановленное условие включает в себя то, что количество источников гетерогенного звука больше первого порога и меньше второго порога, а второй порог больше первого порога; или предустановленное условие включает в себя то, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог превышает первый порог.

[0041] В возможной реализации получение трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля включает в себя: определение параметра декодирования текущего кадра на основе результата классификации звукового поля; и получение трехмерного аудиосигнала декодированного текущего кадра на основе параметра декодирования.

[0042] В возможной реализации параметр декодирования включает в себя по меньшей мере одно из следующего: количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала, количество битов декодирования сигнала виртуального динамика или количество декодированных битов остаточного сигнала. Сигнал виртуального динамика и остаточный сигнал получаются путем декодирования битового потока.

[0043] В возможной реализации результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля. Когда тип звукового поля является гетерогенным звуковым полем, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению: F=min(S, PF), где F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное декодером; или когда типом звукового поля является дисперсионное звуковое поле, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению: F=1, где F - количество каналов сигнала виртуального динамика.

[0044] В возможной реализации, когда тип звукового поля представляет собой дисперсионное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению: R=max(C-1,PR), где PR - количество каналов остаточного сигнала, предустановленное декодером, а C - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером; или когда тип звукового поля является гетерогенным звуковым полем, количество каналов остаточного сигнала удовлетворяет следующему соотношению: R=C - F, где R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером, F - количество каналов сигнала виртуального динамика.

[0045] В возможной реализации результат классификации звукового поля включает в себя количество источников гетерогенного звука. Количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению: F=min(S, PF), где F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, а PF - количество каналов сигнала виртуального динамика, предустановленное декодером.

[0046] В возможной реализации количество каналов остаточного сигнала удовлетворяет следующему соотношению: R=C - F, где R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером, F - количество каналов сигнала виртуального динамика.

[0047] В возможной реализации результат классификации звукового поля включает в себя количество источников гетерогенного звука, или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля. Количество битов декодирования сигнала виртуального динамика получается на основе отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи. Количество битов декодирования остаточного сигнала получается на основе отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи. Количество битов декодирования канала передачи включает в себя количество битов декодирования сигнала виртуального динамика и количество битов декодирования остаточного сигнала, а когда количество источников гетерогенного звука меньше или равно количеству каналов сигнала виртуального динамика, отношение количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи получается путем увеличения исходного отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи.

[0048] Согласно третьему аспекту вариант осуществления этой заявки дополнительно предоставляет аппаратуру обработки трехмерного аудиосигнала, включающую в себя: модуль линейного анализа, сконфигурированный для выполнения линейного разложения трехмерного аудиосигнала для получения результата линейного разложения; модуль генерации параметров, сконфигурированный для получения, на основе результата линейного разложения, параметра классификации звукового поля, соответствующего текущему кадру; и модуль классификации звукового поля, сконфигурированный для определения результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля.

[0049] В третьем аспекте этой заявки модули, включенные в аппаратуру обработки трехмерного аудиосигнала, могут дополнительно выполнять этапы, описанные в первом аспекте и возможных реализациях. Для получения более подробной информации обратитесь к описаниям первого аспекта и возможных реализаций.

[0050] Согласно четвертому аспекту вариант осуществления этой заявки дополнительно предоставляет аппаратуру обработки трехмерного аудиосигнала, включающую в себя: модуль приема, сконфигурированный для приема битового потока; модуль декодирования, сконфигурированный для декодирования битового потока для получения результата классификации звукового поля текущего кадра; и модуль генерации сигнала, сконфигурированный для получения трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля.

[0051] В четвертом аспекте этой заявки модули, включенные в аппаратуру обработки трехмерного аудиосигнала, могут дополнительно выполнять этапы, описанные во втором аспекте и возможных реализациях. Для получения более подробной информации обратитесь к описаниям второго аспекта и возможных реализаций.

[0052] В возможной реализации количество битов кодирования сигнала виртуального динамика соответствует следующему соотношению:

[0053] - количество битов кодирования сигнала виртуального динамика, - весовой коэффициент, назначенный биту кодирования сигнала виртуального динамика, - весовой коэффициент, назначенный биту кодирования остаточного сигнала, round означает округление в меньшую сторону, F - количество каналов сигнала виртуального динамика, R указывает количество каналов остаточного сигнала, а numbit представляет собой сумму количества битов кодирования сигнала виртуального динамика и количества битов кодирования остаточного сигнала. Количество битов кодирования остаточного сигнала удовлетворяет следующему соотношению:

[0054] - количество битов кодирования остаточного сигнала, - количество битов кодирования сигнала виртуального динамика, а numbit - сумма количества битов кодирования сигнала виртуального динамика и количества битов кодирования остаточного сигнала.

[0055] В возможной реализации .

[0056] В возможной реализации количество битов кодирования остаточного сигнала удовлетворяет следующему соотношению:

[0057] - количество битов кодирования остаточного сигнала, - весовой коэффициент, назначенный биту кодирования сигнала виртуального динамика, - весовой коэффициент, назначенный биту кодирования остаточного сигнала, round означает округление в меньшую сторону, F - количество каналов сигнала виртуального динамика, R указывает количество каналов остаточного сигнала, а numbit представляет собой сумму количества битов кодирования сигнала виртуального динамика и количества битов кодирования остаточного сигнала.

[0058] Количество бит кодирования сигнала виртуального динамика удовлетворяет следующему соотношению:

[0059] - количество битов кодирования сигнала виртуального динамика, - количество битов кодирования остаточного сигнала, а numbit - сумма количества битов кодирования сигнала виртуального динамика и количества битов кодирования остаточного сигнала.

[0060] В возможной реализации количество битов кодирования каждого сигнала виртуального динамика соответствует следующему соотношению:

[0061] - количество битов кодирования каждого сигнала виртуального динамика, - весовой коэффициент, назначенный биту кодирования сигнала виртуального динамика, - весовой коэффициент, назначенный биту кодирования остаточного сигнала, round означает округление в меньшую сторону, F - количество каналов сигнала виртуального динамика, R указывает количество каналов остаточного сигнала, а numbit представляет собой сумму количества битов кодирования сигнала виртуального динамика и количества битов кодирования остаточного сигнала.

[0062] Количество битов кодирования каждого остаточного сигнала удовлетворяет следующему соотношению:

[0063] - количество битов кодирования каждого остаточного сигнала, - весовой коэффициент, назначенный биту кодирования сигнала виртуального динамика, - весовой коэффициент, назначенный биту кодирования остаточного сигнала, round означает округление в меньшую сторону, F - количество каналов сигнала виртуального динамика, R указывает количество каналов остаточного сигнала, а numbit представляет собой сумму количества битов кодирования сигнала виртуального динамика и количества битов кодирования остаточного сигнала.

[0064] Согласно пятому аспекту вариант осуществления этой заявки обеспечивает машиночитаемый носитель данных. Машиночитаемый носитель данных хранит инструкции. Когда инструкции выполняются на компьютере, компьютер имеет возможность выполнять способ в первом аспекте или втором аспекте.

[0065] Согласно шестому аспекту вариант осуществления этой заявки предоставляет компьютерный программный продукт, включающий в себя инструкции. Когда компьютерный программный продукт запускается на компьютере, компьютер имеет возможность выполнять способ в первом аспекте или втором аспекте.

[0066] Согласно седьмому аспекту вариант осуществления этой заявки предоставляет машиночитаемый носитель данных, включающий в себя битовый поток, сгенерированный в способе в первом аспекте.

[0067] Согласно восьмому аспекту вариант осуществления этой заявки предоставляет аппаратуру связи. Аппаратура связи может включать в себя такой объект, как терминальное устройство или микросхему. Аппаратура связи включает в себя процессор и память. Память сконфигурирована для хранения инструкций, а процессор сконфигурирован для выполнения инструкций в памяти, чтобы позволить аппаратуре связи выполнять способ в любой из реализаций первого аспекта или второго аспекта.

[0068] Согласно девятому аспекту, эта заявка обеспечивает систему микросхем. Система микросхем включает в себя процессор, сконфигурированный для поддержки аудиокодера или аудиодекодера при реализации функций в вышеупомянутых аспектах, например, отправке или обработке данных и/или информации в вышеупомянутом способе. В возможной реализации система микросхем дополнительно включает в себя память. Память сконфигурирована для хранения программных инструкций и данных, которые необходимы для аудиокодера или аудиодекодера. Система микросхем может включать в себя микросхему или может включать в себя микросхему и другой дискретный компонент.

[0069] Из вышеизложенных технических решений можно понять, что варианты осуществления этой заявки имеют следующие преимущества:

[0070] В этом варианте осуществления этой заявки сначала выполняется линейное разложение текущего кадра трехмерного аудиосигнала, чтобы получить результат линейного разложения. Затем параметр классификации звукового поля, соответствующий текущему кадру, получается на основе результата линейного разложения. Наконец, результат классификации звукового поля текущего кадра определяется на основе параметра классификации звукового поля. В этом варианте осуществления этой заявки линейное разложение выполняется на текущем кадре трехмерного аудиосигнала, чтобы получить результат линейного разложения текущего кадра. Затем параметр классификации звукового поля, соответствующий текущему кадру, получается на основе результата линейного разложения. Следовательно, результат классификации звукового поля текущего кадра определяется на основе параметра классификации звукового поля, и классификация звукового поля текущего кадра может быть реализована на основе результата классификации звукового поля. В этом варианте осуществления этой заявки классификация звукового поля выполняется на трехмерном аудиосигнале, чтобы точно идентифицировать трехмерный аудиосигнал.

Краткое описание чертежей

[0071] Фиг. 1 представляет собой схематическую диаграмму структуры системы обработки аудио согласно варианту осуществления этой заявки;

[0072] Фиг. 2a представляет собой принципиальную схему, на которой аудиокодер и аудиодекодер используются в терминальном устройстве согласно варианту осуществления этой заявки;

[0073] Фиг. 2b представляет собой принципиальную схему, на которой аудиокодер используется в беспроводном устройстве или устройстве базовой сети согласно варианту осуществления этой заявки;

[0074] Фиг. 2c представляет собой принципиальную схему, на которой аудиодекодер используется в беспроводном устройстве или устройстве базовой сети согласно варианту осуществления этой заявки;

[0075] Фиг. 3a представляет собой принципиальную схему, на которой многоканальный кодер и многоканальный декодер используются в терминальном устройстве согласно варианту осуществления этой заявки;

[0076] Фиг. 3b представляет собой принципиальную схему, на которой многоканальный кодер используется в беспроводном устройстве или устройстве базовой сети согласно варианту осуществления этой заявки;

[0077] Фиг. 3c представляет собой принципиальную схему, на которой многоканальный декодер используется в беспроводном устройстве или устройстве базовой сети согласно варианту осуществления этой заявки;

[0078] Фиг. 4 представляет собой принципиальную схему способа обработки трехмерного аудиосигнала согласно варианту осуществления этой заявки;

[0079] Фиг. 5 представляет собой принципиальную схему способа обработки трехмерного аудиосигнала согласно варианту осуществления этой заявки;

[0080] Фиг. 6 представляет собой принципиальную схему способа обработки трехмерного аудиосигнала согласно варианту осуществления этой заявки;

[0081] Фиг. 7 представляет собой принципиальную схему способа обработки трехмерного аудиосигнала согласно варианту осуществления этой заявки;

[0082] Фиг. 8 представляет собой схематическую блок-схему кодирования гибридного кодера НОА согласно варианту осуществления этой заявки;

[0083] Фиг. 9 представляет собой схематическую блок-схему определения режима кодирования сигнала НОА согласно варианту осуществления этой заявки;

[0084] Фиг. 10 представляет собой схематическую блок-схему декодирования гибридного декодера НОА согласно варианту осуществления этой заявки;

[0085] Фиг. 11 представляет собой схематическую блок-схему кодирования кодера НОА на основе MP согласно варианту осуществления этой заявки;

[0086] Фиг. 12 представляет собой схематическую диаграмму структуры аппаратуры кодирования аудио согласно варианту осуществления этой заявки;

[0087] Фиг. 13 представляет собой схематическую диаграмму структуры аппаратуры декодирования аудио согласно варианту осуществления этой заявки;

[0088] Фиг. 14 представляет собой схематическую диаграмму структуры композиции другой аппаратуры кодирования аудио согласно варианту осуществления этой заявки; и

[0089] Фиг. 15 представляет собой схематическую диаграмму структуры композиции другой аппаратуры декодирования аудио согласно варианту осуществления этой заявки.

Описание вариантов осуществления

[0090] Ниже описаны варианты осуществления этой заявки со ссылкой на прилагаемые чертежи.

[0091] В описании, формуле изобретения и сопроводительных чертежах настоящей заявки термины «первый», «второй» и т.п. предназначены для различения одинаковых объектов, но не обязательно указывают конкретный порядок или последовательность. Следует понимать, что термины, используемые таким образом, являются взаимозаменяемыми в соответствующих обстоятельствах, что является просто способом распознавания, который используется, когда в вариантах осуществления настоящей заявки описываются объекты, имеющие одинаковый атрибут. Кроме того, термины «включать в себя», «содержать» и любые другие варианты означают неисключительное включение, так что процесс, способ, система, продукт или устройство, включающее в себя ряд блоков, не обязательно ограничивается этими блоками, но могут включать в себя и другие блоки, явно не перечисленные или не присущие такому процессу, способу, системе, продукту или устройству.

[0092] Звук (sound) - это непрерывная волна, порождаемая вибрацией объекта. Объект, который излучает звуковую волну вследствие вибрации, называется источником звука. Когда звуковая волна распространяется через среду (например, воздух, твердое тело или жидкость), органы слуха человека или животного могут чувствовать звук.

[0093] К характеристикам звуковой волны относятся тон, интенсивность звука и тембр. Тон указывает на высоту звука. Интенсивность звука указывает на интенсивность звука. Интенсивность звука также можно назвать громкостью или громкостью. Единицей силы звука является децибел (decibel, dB). Тембр также называют качеством звука.

[0094] Частота звуковой волны определяет высоту тона. Более высокая частота указывает на более высокий тон. Количество раз, которое объект вибрирует за одну секунду, называется частотой, а единицей измерения частоты является герц (hertz, Hz). Частота звука, распознаваемая человеческим ухом, колеблется от 20 Гц до 20 000 Гц.

[0095] Амплитуда звуковой волны определяет интенсивность звука. Большая амплитуда указывает на большую интенсивность звука. Более близкое расстояние к источнику звука указывает на большую интенсивность звука.

[0096] Форма звуковой волны определяет тембр. Формы звуковой волны включают в себя прямоугольную волну, пилообразную волну, синусоидальную волну и пульсовую волну.

[0097] Звук можно разделить на регулярный звук и нерегулярный звук в зависимости от особенностей звуковой волны. Нерегулярный звук - это звук, создаваемый нерегулярной вибрацией источника звука. Нерегулярный звук - это, например, шум, который влияет на работу человека, учебу, отдых и тому подобное. Регулярный звук - это звук, создаваемый регулярной вибрацией источника звука. Регулярный звук включает в себя речь и музыку. Когда звук представлен электричеством, регулярный звук представляет собой аналоговый сигнал, который постоянно изменяется в частотно-временной области. Аналоговый сигнал может называться аудиосигналом (акустическим сигналом). Ауиосигнал - это носитель информации, несущий в себе речь, музыку и звуковой эффект.

[0098] Поскольку слуховое чувство человека способно различать распределение положения источника звука в пространстве, слушатель, слыша звук в пространстве, может ощутить не только тон, интенсивность звука и тембр звука, но и положение звука.

[0099] С ростом внимания и требований к качеству восприятия слуховой системы появляется технология трехмерного аудио, усиливающего ощущение продольной глубины, погружения и пространства звука. Таким образом, слушатель может слышать звук, исходящий от переднего, заднего, левого и правого источников звука, ощущать, что пространство, в котором находится слушатель, окружено пространственным звуковым полем (которое называется звуковым полем), генерируемым источниками звука, и чувствовать, как звук распространяется вокруг. Технология трехмерного аудио создает стереоэффект «погружения», благодаря которому слушатель чувствует себя так, словно находится в таком месте, как кинотеатр или концертный зал.

[00100] Технология трехмерного аудио - это технология, в которой пространство за пределами человеческого уха рассматривается как система, а сигнал, принимаемый барабанной перепонкой, представляет собой трехмерный аудиосигнал, который получается путем фильтрации и вывода системой вне уха, звука, издаваемого источником звука. Например, система вне человеческого уха может быть определена как ответ h(n) системы на воздействие, любой источник звука может быть определен как x(n), а сигнал, принимаемый барабанной перепонкой, является результатом свертки x(n) и h(n). В вариантах осуществления этой заявки трехмерный аудиосигнал может быть сигналом амбиофонии более высокого порядка (higher-order ambisonics, HOA) или сигналом амбиофонии первого порядка (first-order ambisonics, FOA). Трехмерное аудио также может называться трехмерным звуковым эффектом, пространственным аудио, реконструкцией трехмерного звукового поля, виртуальным 3D аудио, бинауральным звуком и т.п.

[00101] Звуковая волна распространяется в идеальной среде с количеством волн и угловой частотой . - частота звуковой волны, - скорость звука. Звуковое давление соответствует формуле (1) и является оператором Лапласа.

формула 1)

[00102] Предполагается, что система пространства вне человеческого уха представляет собой сферу, а слушатель находится в центре сферы. Звук снаружи сферы имеет проекцию на поверхность сферы, а звук вне сферы отфильтровывается. Предполагается, что источник звука распределен по сфере. Звуковое поле, создаваемое источником звука на поверхности сферы, используется для соответствия звуковому полю, генерируемому исходным источником звука, то есть технология трехмерного аудио представляет собой способ подбора звукового поля. В частности, уравнение формулы (1) решается в сферической системе координат, а в пассивной сферической области уравнение формулы (1) решается по следующей формуле (2):

формула (2)

[00103] указывает сферический радиус, указывает горизонтальный угол, указывает угол наклона, указывает количество волн, указывает амплитуду идеальной плоской волны и указывает порядковый номер последовательности (который также называется порядковым номером последовательности сигнала HOA) трехмерного аудиосигнала. указывает на сферическую функцию Бесселя, где сферическая функция Бесселя также называется радиальной базисной функцией, первая j указывает мнимую единицу измерения и не меняется в зависимости от угла. указывает сферическую гармоническую функцию в направлении , , и указывает сферическую гармоническую функцию в направлении источника звука. Коэффициент трехмерного аудиосигнала соответствует формуле (3):

формула (3)

[00104] Формула (3) подставляется в формулу (2), а формула (2) преобразуется в формулу (4):

формула (4)

[00105] указывает коэффициент трехмерного аудиосигнала N-го порядка и используется для приблизительного описания звукового поля. Звуковое поле - это область, в которой в среде существует звуковая волна. N представляет собой целое число, большее или равное 1. Например, значение N представляет собой целое число от 2 до 6. Коэффициент трехмерного аудиосигнала в вариантах осуществления этой заявки может быть коэффициентом HOA или коэффициентом амбиофонии (ambisonic).

[00106] Трехмерный аудиосигнал является носителем информации, который несет информацию о пространственной позиции источника звука в звуковом поле и описывает звуковое поле слушателя в пространстве. Формула (4) показывает, что звуковое поле можно развернуть по поверхности сферы как сферическую гармоническую функцию, то есть звуковое поле можно разложить на суперпозицию множества плоских волн. Следовательно, звуковое поле, описываемое трехмерным аудиосигналом, может быть выражено с использованием суперпозиции множества плоских волн, и звуковое поле может быть восстановлено на основе коэффициента трехмерного аудиосигнала.

[00107] По сравнению с 5.1-канальным аудиосигналом или 7.1-канальным аудиосигналом сигнал HOA N-го порядка имеет каналов. Следовательно, сигнал HOA включает в себя большой объем данных, используемых для описания пространственной информации звукового поля. Если устройство захвата (например, микрофон) передает трехмерный аудиосигнал на устройство воспроизведения (например, динамик), необходимо использовать большую полосу пропускания. В настоящее время кодер может сжимать и кодировать трехмерный аудиосигнал, используя способ кодировки пространственно сжатого объемного аудио (spatially squeezed surround audio coding, S3AC), способ направленной аудиокодировки (directional audio coding, DirAC) или способ кодирования на основе выбора виртуального динамика для получения битового потока и передачи битового потока на устройство воспроизведения. Способ кодирования, основанный на выборе виртуального динамика, также может называться способм кодирования совпадающей проекции (match projection, MP). Далее в качестве примера описания используется способ кодирования, основанный на выборе виртуального динамика. Устройство воспроизведения декодирует битовый поток, восстанавливает трехмерный аудиосигнал и воспроизводит восстановленный трехмерный аудиосигнал. Это уменьшает объем данных для передачи трехмерного аудиосигнала на устройство воспроизведения и занятость полосы пропускания.

[00108] Для трехмерного аудиосигнала в настоящее время звуковое поле трехмерного аудиосигнала не может быть классифицировано. Как классифицировать звуковое поле трехмерного аудиосигнала, является технической задачей, которую необходимо решить в вариантах осуществления этой заявки. В вариантах осуществления этой заявки линейное разложение выполняется в отношении трехмерного аудиосигнала, чтобы реализовать классификацию звукового поля трехмерного аудиосигнала. Это может точно реализовать классификацию звукового поля трехмерного аудиосигнала и получить результат классификации звукового поля текущего кадра.

[00109] Кроме того, когда текущий кодер сжимает и кодирует трехмерный аудиосигнал, невозможно получить высокую степень сжатия. Следовательно, как увеличить степень сжатия для выполнения кодирования со сжатием трехмерных аудиосигналов разных звуковых полей, является еще одной задачей, которую необходимо решить в вариантах осуществления этой заявки.

[00110] Вариант осуществления этой заявки обеспечивает технологию кодирования аудио и, в частности, обеспечивает технологию кодирования трехмерного аудио, ориентированную на трехмерный аудиосигнал. В частности, предусмотрена технология кодирования, в которой трехмерный аудиосигнал представляется с использованием меньшего количества каналов, чтобы улучшить традиционную систему кодирования аудио. Кодирование аудио (или обычно называемое кодировкой) включает в себя две части: кодирование аудио и декодирование аудио. Кодирование аудио выполняется на стороне источника и включает в себя обработку (например, сжатие) исходного аудио для уменьшения объема данных, необходимых для представления аудио. Это повышает эффективность хранения и/или передачи. Декодирование аудио выполняется на стороне назначения и включает в себя обратную обработку относительно кодера для восстановления исходного аудио. Часть кодирования и часть декодирования также называются кодировкой. Ниже подробно описаны реализации вариантов осуществления данной заявки со ссылкой на прилагаемые чертежи.

[00111] Технические решения в вариантах осуществления этой заявки могут быть применены к различным системам обработки звука. ФИГ. 1 представляет собой схематическую диаграмму структуры системы обработки аудио согласно варианту осуществления этой заявки. Система 100 обработки аудио может включать в себя аппаратуру 101 кодирования аудио и аппаратуру 102 декодирования аудио. Аппаратура 101 кодирования аудио может быть сконфигурирована для генерации битового потока. Затем битовый поток кодирования аудио может быть передан в аппаратуру 102 декодирования аудио через канал передачи аудио. Аппаратура 102 декодирования аудио может принимать битовый поток, затем выполнять функцию декодирования аудио аппаратуры 102 декодирования аудио, чтобы получить восстановленный сигнал.

[00112] В этом варианте осуществления этой заявки аппаратура кодирования аудио может использоваться в различных терминальных устройствах, которые требуют аудиосвязи, а также в беспроводных устройствах и устройствах базовой сети, которые требуют перекодирования. Например, аппаратура кодирования аудио может быть аудиокодером терминального устройства, беспроводного устройства или устройства базовой сети. Аналогично, аппаратура декодирования аудио может использоваться в различных терминальных устройствах, которые требуют аудиосвязи, а также в беспроводных устройствах и устройствах базовой сети, которые требуют перекодирования. Например, аппаратура декодирования аудио может быть аудиодекодером терминального устройства, беспроводного устройства или устройства базовой сети. Например, аудиокодер может включать в себя сеть радиодоступа, медиашлюз в базовой сети, устройство перекодирования, сервер медиаресурсов, мобильный терминал, терминал фиксированной сети и т.п. Альтернативно, аудиокодер может представлять собой аудиокодер, используемый в потоковой (streaming) медиа-службе виртуальной реальности (virtual reality, VR).

[00113] В этом варианте осуществления этой заявки в качестве примера используется модуль кодировки аудио (кодирования аудио и декодирования аудио), применимый к медиа-услуге потоковой передачи виртуальной реальности (потоковой передачи VR). Процедура сквозной обработки аудиосигнала включает в себя: после того как аудиосигнал A проходит через модуль захвата (acquisition), выполняется операция предварительной обработки (предварительной обработки звука). Операция предварительной обработки включает в себя: фильтрацию низкочастотной части сигнала, причем фильтрация может выполняться с использованием 20 Гц или 50 Гц в качестве точки разграничения; и извлечение информации об ориентации сигнала. Затем выполняются кодирование (кодирование аудио) и инкапсуляция (инкапсуляция файла/сегмента), и сигнал доставляется (delivery) на сторону декодера. Сторона декодера сначала выполняет декапсуляцию (декапсуляцию файла/сегмента), затем выполняет декодирование (декодирование аудио) и выполняет бинауральный рендеринг (рендеринг аудио) декодированного сигнала. Сигнал, полученный посредством рендеринга, сопоставляется с гарнитурой (наушниками) слушателя, причем гарнитура может быть независимой гарнитурой или гарнитурой на устройстве с очками.

[00114] Фиг. 2a представляет собой принципиальную схему, на которой аудиокодер и аудиодекодер используются в терминальном устройстве согласно варианту осуществления этой заявки. Каждое терминальное устройство может включать в себя аудиокодер, канальный кодер, аудиодекодер и канальный декодер. В частности, канальный кодер канала сконфигурирован для выполнения канального кодирования аудиосигнала, а канальный декодер канала сконфигурирован для выполнения канального декодирования аудиосигнала. Например, первое терминальное устройство 20 может включать в себя первый аудиокодер 201, первый канальный кодер 202, первый аудиодекодер 203 и первый канальный декодер 204. Второе терминальное устройство 21 может включать в себя второй аудиодекодер 211, второй канальный декодер 212, второй аудиокодер 213 и второй канальный кодер 214. Первое терминальное устройство 20 подключено к первому беспроводному или проводному сетевому устройству 22 связи, первое сетевое устройство 22 связи подключено к беспроводному или проводному второму сетевому устройству 23 связи через цифровой канал, а второе терминальное устройство 21 подключено к беспроводному или проводному второму сетевому устройству 23 связи. Сетевое устройство беспроводной или проводной связи в общем может представлять собой устройство передачи сигналов, например, базовую станцию связи или устройство коммутации данных.

[00115] При аудиосвязи терминальное устройство, служащее передающей стороной, сначала выполняет захват звука, выполняет кодирование аудио захваченного аудиосигнала, затем выполняет кодирование канала и передает закодированный сигнал в цифровом канале через беспроводную сеть или базовую сеть. Терминальное устройство, служащее принимающей стороной, выполняет декодирование канала на основе принятого сигнала, чтобы получить битовый поток, а затем восстанавливает аудиосигнал посредством декодирования аудио. Терминальное устройство на принимающей стороне выполняет воспроизведение аудио.

[00116] Фиг. 2b представляет собой принципиальную схему, в которой аудиокодер используется в беспроводном устройстве или устройстве базовой сети согласно варианту осуществления этой заявки. Беспроводное устройство или устройство 25 базовой сети включает в себя: декодер 251 канала, другой декодер 252 аудио, кодер 253 аудио, предусмотренный в этом варианте осуществления настоящей заявки, и кодер 254 канала. Другой аудиодекодер 252 является другим аудиодекодером, отличным от упомянутого аудиодекодера. В беспроводном устройстве или устройстве 25 базовой сети канальный декодер 251 сначала выполняет канальное декодирование сигнала, поступающего в устройство, а затем другой аудиодекодер 252 выполняет декодирование аудио. Затем аудиокодер 253, предусмотренный в этом варианте осуществления данной заявки, выполняет кодирование аудио, и, наконец, кодер 254 канала выполняет канальное кодирование аудиосигнала, а затем передает кодированный аудиосигнал после завершения кодирования канала. Другой аудиодекодер 252 выполняет декодирование аудио битового потока, декодированного канальным декодером 251.

[00117] Фиг. 2c представляет собой принципиальную схему, на которой аудиодекодер используется в беспроводном устройстве или устройстве базовой сети согласно варианту осуществления этой заявки. Беспроводное устройство или устройство 25 базовой сети включает в себя: канальный декодер 251, аудиодекодер 255, предусмотренный в этом варианте осуществления настоящей заявки, другой аудиокодер 256 и канальный кодер 254. Другой аудиокодер 256 является другим аудиокодером, отличным от упомянутого аудиокодера. В беспроводном устройстве или устройстве 25 базовой сети канальный декодер 251 сначала выполняет канальное декодирование сигнала, поступающего в устройство, а затем аудиодекодер 255 декодирует принятый битовый поток кодирования аудио. Затем другой аудиокодер 256 выполняет аудиокодирование, и, наконец, канальный кодер 254 выполняет канальное кодирование аудиосигнала, а затем передает кодированный аудиосигнал после завершения канального кодирования. Если в беспроводном устройстве или устройстве базовой сети необходимо реализовать перекодирование, необходимо выполнить соответствующую обработку кодирования аудио. Беспроводное устройство представляет собой связанное с радиочастотой устройство, осуществляющее связь, а устройство базовой сети представляет собой устройство, связанное с базовой сетью, осуществляющее связь.

[00118] В некоторых вариантах осуществления этой заявки устройство кодирования аудио может использоваться в различных терминальных устройствах, которые требуют аудиосвязи, а также в беспроводных устройствах и устройствах базовой сети, которые требуют перекодирования. Например, аппаратура кодирования аудио может быть многоканальным кодером терминального устройства, беспроводного устройства или устройства базовой сети. Аналогично, аппаратура декодирования аудио может использоваться в различных терминальных устройствах, которые требуют аудиосвязи, а также в беспроводных устройствах и устройствах базовой сети, которые требуют перекодирования. Например, аппаратура декодирования аудио может быть многоканальным декодером терминального устройства, беспроводного устройства или устройства базовой сети.

[00119] Фиг. 3a представляет собой принципиальную схему применения многоканального кодера и многоканального декодера в терминальном устройстве согласно варианту осуществления этой заявки. Каждое терминальное устройство может включать в себя многоканальный кодер, канальный кодер, многоканальный декодер и канальный декодер. Многоканальный кодер может выполнять способ кодирования аудио, предусмотренный в вариантах осуществления этой заявки, а многоканальный декодер может выполнять способ декодирования аудио, предусмотренный в вариантах осуществления этой заявки. В частности, канальный кодер сконфигурирован для выполнения канального кодирования многоканального сигнала, а канальный декодер сконфигурирован для выполнения канального декодирования многоканального сигнала. Например, первое терминальное устройство 30 может включать в себя первый многоканальный кодер 301, первый канальный кодер 302, первый многоканальный декодер 303 и первый канальный декодер 304. Второе терминальное устройство 31 может включать в себя второй многоканальный декодер 311, второй канальный декодер 312, второй многоканальный кодер 313 и второй канальный кодер 314. Первое терминальное устройство 30 подключено к беспроводному или проводному первому сетевому устройству 32 связи, первое сетевое устройство 32 связи подключено к беспроводному или проводному второму сетевому устройству 33 связи через цифровой канал, а второе терминальное устройство 31 подключено к беспроводному или проводному второму сетевому устройству 33 связи. Устройство беспроводной или проводной сети связи в общем может представлять собой устройство передачи сигналов, например, базовую станцию связи или устройство коммутации данных. При аудиосвязи терминальное устройство, служащее передающей стороной, выполняет многоканальное кодирование захваченного многоканального сигнала, затем выполняет канальное кодирование и передает закодированный сигнал в цифровом канале через беспроводную сеть или базовую сеть. Терминальное устройство, служащее приемной стороной, выполняет декодирование канала на основе принятого сигнала, чтобы получить битовый поток кодирования многоканального сигнала, а затем восстанавливает многоканальный сигнал посредством многоканального декодирования. Терминальное устройство, служащее принимающей стороной, выполняет воспроизведение.

[00120] Фиг. 3b представляет собой принципиальную схему применения многоканального кодера к беспроводному устройству или устройству базовой сети согласно варианту осуществления этой заявки. Беспроводное устройство или устройство 35 базовой сети включает в себя: канальный декодер 351, другой аудиодекодер 352, многоканальный кодер 353 и канальный кодер 354. ФИГ. 3b аналогична фиг. 2b, и подробности здесь снова не описываются.

[00121] Фиг. 3c представляет собой принципиальную схему применения многоканального декодера к беспроводному устройству или устройству базовой сети согласно варианту осуществления этой заявки. Беспроводное устройство или устройство 35 базовой сети включает в себя: канальный декодер 351, многоканальный декодер 355, другой аудиокодер 356 и канальный кодер 354. ФИГ. 3c аналогична фиг. 2c, и подробности здесь снова не описываются.

[00122] Кодирование аудио может быть частью многоканального кодера, а декодирование аудио может быть частью многоканального декодера. Например, выполнение многоканального кодирования захваченного многоканального сигнала может представлять собой обработку захваченного многоканального сигнала для получения аудиосигнала. Затем полученный аудиосигнал кодируется согласно способу, предусмотренному в вариантах осуществления этой заявки. Сторона декодера кодирует битовый поток на основе многоканального сигнала, выполняет декодирование для получения аудиосигнала и восстанавливает многоканальный сигнал после обработки повышающего микширования. Следовательно, варианты осуществления этой заявки также могут применяться к многоканальному кодеру и многоканальному декодеру в терминальном устройстве, беспроводном устройстве или устройстве базовой сети. В беспроводном или базовом сетевом устройстве, если необходимо реализовать перекодирование, необходимо выполнить соответствующую обработку многоканального кодирования.

[00123] Сначала описывается способ обработки трехмерного аудиосигнала, предусмотренный в вариантах осуществления этой заявки. Способ может быть реализован терминальным устройством. Например, терминальное устройство может быть аппаратурой кодирования аудио (которая далее называется стороной кодера или кодером). То, что терминальное устройство альтернативно может быть аппаратурой обработки трехмерного аудиосигнала, не ограничено. Как показано на фиг. 4, способ обработки трехмерного аудиосигнала в основном включает в себя следующие этапы.

[00124] Этап 401: выполняют линейное разложение текущего кадра трехмерного аудиосигнала, чтобы получить результат линейного разложения.

[00125] Сторона кодера может получить трехмерный аудиосигнал. Например, трехмерный аудиосигнал может быть аудиосигналом сцены. В частности, трехмерный аудиосигнал может быть сигналом временной области или сигналом частотной области. Кроме того, трехмерный аудиосигнал альтернативно может быть сигналом, полученным посредством понижающей дискретизации.

[00126] В некоторых вариантах осуществления этой заявки трехмерный аудиосигнал включает в себя сигнал HOA амбиофонии более высокого порядка или сигнал FOA амбиофонии первого порядка. То, что трехмерный аудиосигнал альтернативно может быть сигналом другого типа, не ограничено. Это всего лишь пример этой заявки, и он не предназначен для ограничения данного варианта осуществления этой заявки.

[00127] Например, трехмерный аудиосигнал может быть сигналом HOA во временной области или сигналом HOA в частотной области. В другом примере трехмерный аудиосигнал может включать в себя все каналы сигнала HOA или может включать в себя некоторые каналы HOA (например, канал FOA). Кроме того, трехмерный аудиосигнал может представлять собой все точки дискретизации сигнала HOA или может быть точками понижающей дискретизации 1/Q подлежащего анализу сигнала HOA, полученного посредством понижающей дискретизации. Q - интервал понижающей дискретизации, а 1/Q - частота понижающей дискретизации.

[00128] В этом варианте осуществления этой заявки трехмерный аудиосигнал включает в себя множество кадров. Ниже в качестве примера используется обработка одного кадра трехмерного аудиосигнала. Например, если кадр является текущим кадром, предыдущий кадр существует до текущего кадра, а следующий кадр существует после текущего кадра трехмерного аудиосигнала. Кроме того, в этом варианте осуществления данной заявки способ обработки другого кадра в трехмерном аудиосигнале, отличного от текущего кадра, аналогичен способу обработки текущего кадра. Ниже в качестве примера используется обработка текущего кадра.

[00129] В этом варианте осуществления этой заявки после получения текущего кадра трехмерного аудиосигнала сначала выполняется линейное разложение текущего кадра, чтобы получить результат линейного разложения текущего кадра. Существует множество способов линейного разложения, которые подробно описаны ниже.

[00130] В некоторых вариантах осуществления этой заявки выполнение линейного разложения текущего кадра трехмерного аудиосигнала для получения результата линейного разложения на этапе 401 включает в себя:

A1: выполнение разложения по сингулярным значениям в текущем кадре для получения сингулярного значения, соответствующего текущему кадру, где результат линейного разложения включает в себя сингулярное значение;

A2: выполнение анализа главных компонент текущего кадра для получения первого значения признака, соответствующего текущему кадру, где результат линейного разложения включает в себя первое значение признака; или

A3: выполнение независимого анализа компонентов текущего кадра для получения второго значения признака, соответствующего текущему кадру, где результат линейного разложения включает в себя второе значение признака.

[00131] Существует множество способов линейного разложения. Например, линейное разложение может включать в себя по меньшей мере одно из следующего: разложение по сингулярным значениям (singular value decomposition, SVD), анализ главных компонентов (principal component analysis, PCA) и анализ независимых компонентов (independent component analysis, ICA). При различных способах линейного разложения полученные результаты линейного разложения имеют разные методы выражения, которые подробно описаны ниже.

[00132] На этапе A1 линейное разложение может быть разложением по сингулярным значениям. Например, предполагается, что трехмерный аудиосигнал представляет собой сигнал HOA. Сигнал НОА образует матрицу А, а матрица А представляет собой матрицу L*K, где L равно количеству каналов сигнала НОА, а K - количеству сигнальных точек каждого канала сигнала НОА в текущем кадре. Например, количество сигнальных точек может включать в себя: количество частот, количество точек дискретизации во временной области или количество частот или количество точек дискретизации после понижающей дискретизации. Разложение по сингулярным значениям выполняется над матрицей A, и соблюдается следующее соотношение:

[00133] U - матрица L*L, - матрица K*K, верхний индекс T - транспонирование матрицы , а * означает умножение. представляет собой диагональную матрицу L*K, где каждый элемент на главной диагонали матрицы представляет собой сингулярное значение, полученное путем разложения по сингулярным значениям матрицы A, а все элементы вне главной диагонали равны 0. Элемент, а именно сингулярное значение матрицы A, на главной диагонали диагональной матрицы обозначается как v[i], где i=0, 1, …, min(L, K)-1.

[00134] Следует отметить, что если трехмерный аудиосигнал представляет собой сигнал НОА, полученный посредством понижающей дискретизации, K представляет собой количество сигнальных точек каждого канала сигнала НОА в текущем кадре после понижающей дискретизации. Например, количество сигнальных точек может быть количеством точек дискретизации или количеством частот.

[00135] В качестве альтернативы на этапе A2 линейное разложение может представлять собой анализ главных компонентов для получения значения признака. Чтобы отличить от другого значения признака в последующих вариантах реализации, значение признака, полученное посредством анализа главных компонентов, предустанавливается как первое значение признака. Конкретная реализация анализа главных компонент здесь снова не описывается.

[00136] На этапе A3 линейное разложение может альтернативно представлять собой анализ независимых компонентов для получения второго значения признака. Конкретная реализация анализа независимых компонентов здесь снова не описывается.

[00137] В этом варианте осуществления этой заявки линейное разложение текущего кадра может быть реализовано в любой из предшествующих реализаций от A1 до A3, чтобы получить множество типов результатов линейного разложения.

[00138] Этап 402: получают, на основе результата линейного разложения, параметр классификации звукового поля, соответствующий текущему кадру.

[00139] После получения результата линейного анализа текущего кадра сторона кодера анализирует результат линейного разложения, чтобы получить параметр классификации звукового поля, соответствующий текущему кадру. Параметр классификации звукового поля получается путем анализа результата линейного разложения текущего кадра, и параметр классификации звукового поля используется для определения результата классификации звукового поля текущего кадра. На основе различных конкретных реализаций результата линейного разложения параметр классификации звукового поля может иметь множество реализаций.

[00140] В этом варианте осуществления данной заявки может быть один или несколько результатов линейного разложения. Например, результат линейного разложения включает в себя сингулярное значение, это сингулярное значение является v[i] и i=0, 1, …, min(L, K)-1. Когда существует только одно сингулярное значение текущего кадра, существует только одно значение i, а именно, v[0]. Когда имеется множество сингулярных значений текущего кадра, существует множество значений i, а именно v[i], где i=1, …, min(L, K)-1.

[00141] В этом варианте осуществления этой заявки, когда есть два результата линейного разложения, имеется один полученный параметр классификации звукового поля. Когда количество результатов линейного разложения равно N, количество полученных параметров классификации звукового поля составляет N-1, и значение N не ограничено.

[00142] В некоторых вариантах осуществления этой заявки получение, на основе результата линейного разложения, параметра классификации звукового поля, соответствующего текущему кадру, на этапе 402 включает в себя:

B1: получение отношения i-го результата линейного анализа текущего кадра к (i+1)-му результату линейного анализа текущего кадра, где i представляет собой положительное целое число; и

B2: получение на основе отношения i-го параметра классификации звукового поля, соответствующего текущему кадру.

[00143] Сторона кодера может получить на основе результата линейного разложения параметр классификации звукового поля, соответствующий текущему кадру. Например, имеется множество результатов линейного разложения текущего кадра, и два последовательных результата линейного анализа из множества результатов линейного анализа представлены как i-й результат линейного анализа и (i+1)-й результат линейного анализа текущего кадра. В этом случае может быть вычислено отношение i-го результата линейного анализа текущего кадра к (i+1)-му результату линейного анализа текущего кадра, и конкретное значение i не ограничено.

[00144] Необязательно, i-й результат линейного анализа и (i+1)-й результат линейного анализа представляют собой два последовательных результата линейного анализа текущего кадра.

[00145] После того как соотношение получено, i-й параметр классификации звукового поля, соответствующий текущему кадру, может быть получен на основе отношения i-го результата линейного анализа к (i+1)-му результату линейного анализа текущего кадра. Можно узнать, что i-й параметр классификации звукового поля может быть вычислен на основе отношения i-го результата линейного анализа к (i+1)-му результату линейного анализа. (i+1)-й параметр классификации звукового поля может быть вычислен на основе отношения (i+1)-го результата линейного анализа к (i+2)-му результату линейного анализа, а остальные могут быть выведены по аналогии. Существует соответствие между результатом линейного анализа и параметром классификации звукового поля.

[00146] В реализации отношение i-го результата линейного анализа к (i+1)-му результату линейного анализа может использоваться в качестве i-го параметра классификации звукового поля. После того, как отношение i-го результата линейного анализа к (i+1)-му результату линейного анализа получено, множество способов вычисления могут дополнительно выполняться для этого отношения, что не ограничено, так что i-й параметр классификации звукового поля может быть вычислен. Например, операция умножения выполняется над соотношением на основе предустановленного поправочного коэффициента, чтобы получить i-й параметр классификации звукового поля.

[00147] Например, если для линейного разложения используется разложение по сингулярным значениям, сингулярное значение может быть получено на основе параметра классификации звукового поля посредством разложения по сингулярным значениям, а также вычислен параметр отношения между двумя соседними сингулярными значениями и использован в качестве параметра классификации звукового поля.

[00148] Например, вычисляется отношение temp[i] между сингулярными значениями и используется в качестве параметра классификации звукового поля. Для i=0, 1, …, min(L, K)-2 temp[i] соответствует:

temp[i]=v[i]/v[i+1].

[00149] Если PCA или ICA используются для линейного разложения, параметр классификации звукового поля может быть определен на основе значения признака. Способ вычисления параметра классификации звукового поля аналогичен способу вычисления отношения temp между сингулярными значениями. Альтернативно, соотношение между двумя последовательными значениями признаков может быть вычислено на основе значений признаков, полученных посредством линейного разложения, и это соотношение используется в качестве параметра классификации звукового поля.

[00150] Следует отметить, что если количество значений признаков или сингулярных значений, полученных посредством линейного разложения, больше 2, параметр классификации звукового поля является вектором. В противном случае параметр классификации звукового поля является скаляром. Например, для v[i], если значение i равно 2, вычисленный temp[i] является скаляром, то есть существует только одно значение temp. Для v[i], если значение i больше 2, вычисленный temp[i] является вектором, а temp включает в себя как минимум два элемента.

[00151] Этап 403: определяют результат классификации звукового поля текущего кадра на основе параметра классификации звукового поля.

[00152] В этом варианте осуществления этой заявки, после получения параметра классификации звукового поля, соответствующего текущему кадру, сторона кодера может выполнить классификацию звукового поля в текущем кадре на основе параметра классификации звукового поля. Поскольку параметр классификации звукового поля, соответствующий текущему кадру, может указывать параметр, необходимый для классификации звукового поля, соответствующего текущему кадру, результат классификации звукового поля текущего кадра может быть получен на основе параметра классификации звукового поля.

[00153] В некоторых вариантах осуществления этой заявки результат классификации звукового поля может включать в себя по меньшей мере одно из следующего: тип звукового поля и количество источников гетерогенного звука.

[00154] Тип звукового поля представляет собой тип звукового поля, который относится к текущему кадру и который определяется после того, как классификация звукового поля выполняется в текущем кадре. Существует множество способов классификации типов звукового поля. Например, типы звукового поля могут быть разделены на первый тип звукового поля и второй тип звукового поля. Альтернативно, типы звукового поля могут быть классифицированы на первый тип звукового поля, второй тип звукового поля, третий тип звукового поля и т.п. В частности, количество типов звукового поля, которые можно классифицировать, можно определить на основе сценария применения. В качестве другого примера, тип звукового поля может включать в себя гетерогенное звуковое поле и дисперсионное звуковое поле. Гетерогенное звуковое поле означает, что в звуковом поле существуют точечные источники звука с разными положениями и/или направлениями, а дисперсионное звуковое поле представляет собой звуковое поле, не включающее в себя источник гетерогенного звука. Например, точечные источники звука с разными положениями и/или направлениями являются источниками гетерогенного звука, звуковое поле, включающее в себя источник гетерогенного звука, является гетерогенным звуковым полем, а звуковое поле, которое не включает в себя источник гетерогенного звука, представляет собой дисперсионное звуковое поле.

[00155] Источники гетерогенного звука представляют собой точечные источники звука с разными положениями и/или направлениями, а количество источников гетерогенного звука, включенных в текущий кадр, называется количеством источников гетерогенного звука. Звуковое поле текущего кадра альтернативно может быть классифицировано на основе количества источников гетерогенного звука.

[00156] В некоторых вариантах осуществления этой заявки имеется множество параметров классификации звукового поля. Результат классификации звукового поля включает в себя тип звукового поля.

[00157] Определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля на этапе 403 включает в себя:

когда все значения множества параметров классификации звукового поля соответствуют предустановленному условию принятия решения о источнике дисперсионного звука, определяют, что тип звукового поля является дисперсионным звуковым полем; или

когда по меньшей мере одно из значений множества параметров классификации звукового поля соответствует предустановленному условию принятия решения о источнике гетерогенного звука определяют, что тип звукового поля является гетерогенным звуковым полем.

[00158] Тип звукового поля может включать в себя гетерогенное звуковое поле и дисперсионное звуковое поле. В этом варианте осуществления данной заявки предустановлены условие принятия решения о источнике дисперсионного звука и условие принятия решения о источнике гетерогенного звука. Условие принятия решения о источнике дисперсионного звука используется для определения того, является ли тип звукового поля дисперсионным звуковым полем, а условие принятия решения о источнике гетерогенного звука используется для определения того, является ли тип звукового поля гетерогенным звуковым полем. После того как получено множество параметров классификации звукового поля текущего кадра, определение выполняется на основе значений множества параметров классификации звукового поля и предустановленного условия. Конкретные реализации условия принятия решения о источнике дисперсионного звука и условия принятия решения о источнике гетерогенного звука здесь не ограничены.

[00159] После того как получено множество параметров классификации звукового поля, когда все значения множества параметров классификации звукового поля соответствуют предустановленному условию принятия решения о источнике дисперсионного звука, сторона кодера определяет, что тип звукового поля является дисперсионным звуковым полем. Например, текущий кадр соответствует N параметрам классификации звукового поля. Только когда все значения N параметров классификации звукового поля соответствуют предустановленному условию принятия решения о источнике дисперсионного звука, определяется, что тип звукового поля текущего кадра является дисперсионным звуковым полем.

[00160] После получения множества параметров классификации звукового поля, когда по меньшей мере одно из значений множества параметров классификации звукового поля соответствует предустановленному условию принятия решения о источнике гетерогенного звука сторона кодера определяет, что тип звукового поля является гетерогенным звуковым полем. Например, текущий кадр соответствует N параметрам классификации звукового поля. Только когда по меньшей мере одно из значений N параметров классификации звукового поля соответствует предустановленному условию принятия решения о источнике гетерогенного звука определяется, что тип звукового поля является гетерогенным звуковым полем.

[00161] Кроме того, в некоторых вариантах осуществления этой заявки условие принятия решения о источнике дисперсионного звука включает в себя то, что значение параметра классификации звукового поля меньше предустановленного порога определения источника гетерогенного звука; или

условие принятия решения о источнике гетерогенного звука включает в себя то, что значение параметра классификации звукового поля больше или равно предустановленному порогу определения источника гетерогенного звука.

[00162] Порог определения источника гетерогенного звука может быть предустановленным порогом, и конкретное значение не ограничено. Условие принятия решения о источнике дисперсионного звука включает в себя то, что значение параметра классификации звукового поля меньше предустановленного порога определения источника гетерогенного звука. Следовательно, когда все значения множества параметров классификации звукового поля меньше предустановленного порога определения источника гетерогенного звука, определяется, что тип звукового поля представляет собой дисперсионное звуковое поле. Условие принятия решения о источнике гетерогенного звука включает в себя то, что значение параметра классификации звукового поля больше или равно предустановленному порогу определения источника гетерогенного звука. Следовательно, когда по меньшей мере одно из значений множества параметров классификации звукового поля больше или равно предустановленному порогу определения источника гетерогенного звука, определяется, что тип звукового поля является гетерогенным звуковым полем.

[00163] В некоторых вариантах осуществления этой заявки имеется множество параметров классификации звукового поля.

[00164] Результат классификации звукового поля включает в себя тип звукового поля, или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля.

[00165] Определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля на этапе 403 включает в себя:

C1: получение на основе значений множества параметров классификации звукового поля количества источников гетерогенного звука, соответствующих текущему кадру; и

C2: определение типа звукового поля на основе количества источников гетерогенного звука, соответствующих текущему кадру.

[00166] После получения множества параметров классификации звукового поля, соответствующих текущему кадру, сторона кодера может получить, на основе значений множества параметров классификации звукового поля, количество источников гетерогенного звука, соответствующих текущему кадру. Источники гетерогенного звука представляют собой точечные источники звука с разными положениями и/или направлениями, а количество источников гетерогенного звука, включенных в текущий кадр, называется количеством источников гетерогенного звука. Звуковое поле текущего кадра можно классифицировать по количеству источников гетерогенного звука. После того, как количество источников гетерогенного звука, соответствующих текущему кадру, получено для определения типа звукового поля, тип звукового поля, соответствующий текущему кадру, может быть определен путем анализа количества источников гетерогенного звука, соответствующих текущему кадру.

[00167] В некоторых вариантах осуществления этой заявки имеется множество параметров классификации звукового поля.

[00168] Результат классификации звукового поля включает в себя некоторое количество источников гетерогенного звука.

[00169] Определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля на этапе 403 включает в себя:

D1: получение, на основе значений множества параметров классификации звукового поля, количества источников гетерогенного звука, соответствующих текущему кадру.

[00170] После получения множества параметров классификации звукового поля, соответствующих текущему кадру, сторона кодера может получить, на основе значений множества параметров классификации звукового поля, количество источников гетерогенного звука, соответствующих текущему кадру. Источники гетерогенного звука представляют собой точечные источники звука с разными положениями и/или направлениями, а количество источников гетерогенного звука, включенных в текущий кадр, называется количеством источников гетерогенного звука.

[00171] Дополнительно, в некоторых вариантах осуществления этой заявки множество параметров классификации звукового поля представляют собой temp[i], i=0, 1, ..., min(L, K)-2, L указывает количество каналов текущего кадра, K - количество сигнальных точек, соответствующих каждому каналу текущего кадра, а min указывает операцию, в которой выбирается минимальное значение. Например, количество сигнальных точек может представлять собой количество частот, количество точек дискретизации во временной области или количество частот или количество точек дискретизации во временной области после понижающей дискретизации.

[00172] Получение, на основе значений множества параметров классификации звукового поля, количества источников гетерогенного звука, соответствующих текущему кадру, на этапе C1 или этапе D1 включает в себя:

последовательное выполнение следующих процедур определения от i=0:

определение, превышает ли temp[i] предустановленный порог определения источника гетерогенного звука; и

когда temp[i] меньше порога определения источника гетерогенного звука в этой процедуре определения, обновляют значение i до i+1 и продолжают выполнять следующую процедуру определения; или

когда temp[i] больше или равна порогу определения источника гетерогенного звука в этой процедуре определения, прекращают выполнение процедуры определения и определяют, что i в этой процедуре определения плюс 1 равно количеству источников гетерогенного звука.

[00173] В частности, сторона кодера может оценивать количество источников гетерогенного звука на основе параметра классификации звукового поля и определять тип звукового поля.

[00174] Тип звукового поля может включать в себя гетерогенное звуковое поле и дисперсионное звуковое поле. Гетерогенное звуковое поле означает, что в звуковом поле существуют точечные источники звука с разными положениями и/или направлениями. Дисперсионное звуковое поле - это звуковое поле, не включающее в себя источник гетерогенного звука.

[00175] Если все значения параметров классификации звукового поля соответствуют условию принятия решения о дисперсионном звуковом поле, тип звукового поля является дисперсионным звуковым полем.

[00176] Когда значение параметров классификации звукового поля соответствует условию принятия решения о гетерогенном звуковом поле, определяется, что тип звукового поля является гетерогенным звуковым полем. Количество источников гетерогенного звука может быть оценено на основе порядкового номера значения, в значениях параметров классификации звукового поля, которое соответствует условию принятия решения о гетерогенном звуковом поле.

[00177] Например, когда отношение temp[i] между сингулярными значениями используется в качестве параметра классификации звукового поля, тип звукового поля и количество источников гетерогенного звука оцениваются на основе параметра классификации звукового поля, и значения temp[ i] последовательно определяются из i=0. Когда значение i равно m, значение m-го параметра классификации звукового поля представляется как temp[m]. Когда m-й параметр классификации звукового поля соответствует temp[m] ≥ TH1, тип звукового поля представляет собой гетерогенное звуковое поле, и в звуковом поле текущего кадра имеется (m+1) источников гетерогенного звука. Если temp[m] ≥ TH1 не соблюдается, типом звукового поля является дисперсионное звуковое поле. Диапазон значений m составляет [0, 1, …, min(L, K)-2], TH1 - предустановленный порог определения источника гетерогенного звука, а значение TH1 может быть константой, например, значением из TH1 может быть 30 или 100. Значение TH1 не ограничено в этом варианте осуществления данной заявки.

[00178] В некоторых вариантах реализации этой заявки определение типа звукового поля на основе количества источников гетерогенного звука, соответствующих текущему кадру, на этапе C2, включает в себя:

когда количество источников гетерогенного звука удовлетворяет первому предустановленному условию, определяют, что тип звукового поля является первым типом звукового поля; или

когда количество источников гетерогенного звука не соответствует первому предустановленному условию, определение, что тип звукового поля является вторым типом звукового поля.

[00179] Количество источников гетерогенного звука, соответствующих первому типу звукового поля, отличается от количества источников гетерогенного звука, соответствующих второму типу звукового поля.

[00180] В частности, типы звукового поля можно разделить на два типа на основе различного количества источников гетерогенного звука: первый тип звукового поля и второй тип звукового поля. Сторона кодера получает первое предустановленное условие; определяет, соответствует ли количество источников гетерогенного звука первому предустановленному условию; и когда количество источников гетерогенного звука соответствует первому предустановленному условию, определяют, что тип звукового поля является первым типом звукового поля; или когда количество источников гетерогенного звука не соответствует первому предустановленному условию, определяют, что тип звукового поля является вторым типом звукового поля. В этом варианте осуществления этой заявки может быть определено, соответствует ли количество источников гетерогенного звука первому предустановленному условию, чтобы реализовать разделение типа звукового поля текущего кадра, чтобы точно идентифицировать, что тип звукового поля текущего кадра принадлежит первому типу звукового поля или второму типу звукового поля.

[00181] В некоторых вариантах реализации этой заявки первое предустановленное условие включает в себя то, что количество источников гетерогенного звука больше первого порога или меньше второго порога, а второй порог больше первого порога; или

первое предустановленное условие включает в себя то, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог превышает первый порог.

[00182] Конкретные значения первого порога и второго порога не ограничены и могут быть конкретно определены на основе сценария применения. Второй порог больше первого порога. Следовательно, первый порог и второй порог могут образовывать предустановленный диапазон, и первое предустановленное условие может заключаться в том, что количество источников гетерогенного звука попадает в предустановленный диапазон, или первое предустановленное условие может заключаться в том, что количество источников гетерогенного звука находится за пределами предустановленного диапазона. Количество источников гетерогенного звука может быть определено на основе первого порога и второго порога в первом предустановленном условии, чтобы определить, соответствует ли количество источников гетерогенного звука первому предустановленному условию, чтобы точно определить, что тип звукового поля текущего кадра принадлежит первому типу звукового поля или второму типу звукового поля.

[00183] Например, первый порог равен 0, второй порог равен 3, а количество источников гетерогенного звука обозначается как n. В этом случае первое предустановленное условие может быть 0 < n < 3, или первое предустановленное условие может быть n ≥ 3 или n=0.

[00184] В некоторых вариантах осуществления этой заявки определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля может дополнительно включать в себя: определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля и другого параметра, указывающего признак трехмерного аудиосигнала.

[00185] Существует множество реализаций другого параметра, указывающего признак трехмерного аудиосигнала. Например, другой параметр, указывающий признак трехмерного аудиосигнала, может включать в себя по меньшей мере одно из следующего: параметр соотношения энергий трехмерного аудиосигнала, параметр высокочастотного анализа трехмерного аудиосигнала, параметр анализа низкочастотных характеристик трехмерного аудиосигнала и т.п.

[00186] Как показано на фиг. 5, способ обработки трехмерного аудиосигнала согласно варианту осуществления этой заявки в основном включает в себя следующие этапы.

[00187] Этап 501: выполнение линейного разложения текущего кадра трехмерного аудиосигнала, чтобы получить результат линейного разложения.

[00188] Этап 502: получение, на основе результата линейного разложения, параметра классификации звукового поля, соответствующего текущему кадру.

[00189] Этап 503: определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля.

[00190] Реализации этапов с 501 по 503 аналогичны реализациям этапов с 401 по 403 в предыдущем варианте осуществления, и этапы с 501 по 503 не описываются здесь подробно еще раз.

[00191] Этап 504: определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру.

[00192] Сторона кодера может выполнить этапы с 501 по 503. После получения результата классификации звукового поля текущего кадра сторона кодера может определить, на основе результата классификации звукового поля, режим кодирования, соответствующий текущему кадру. Режим кодирования - это режим, используемый при кодировании текущего кадра трехмерного аудиосигнала. Существует множество режимов кодирования, и разные режимы кодирования могут использоваться на основе разных результатов классификации звукового поля текущего кадра. В этом варианте осуществления этой заявки соответствующие (подходящие) режимы кодирования выбираются для различных результатов классификации звукового поля текущего кадра, так что текущий кадр кодируется с использованием режима кодирования. Это повышает эффективность сжатия и слуховое качество аудиосигнала.

[00193] Кроме того, в некоторых вариантах осуществления этой заявки определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру, на этапе 503 включает в себя:

E1: когда результат классификации звукового поля включает в себя количество источников гетерогенного звука или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение, на основе количества источников гетерогенного звука, соответствующего режима кодирования для текущего кадра;

E2: когда результат классификации звукового поля включает в себя тип звукового поля или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение, на основе типа звукового поля, режима кодирования, соответствующего текущему кадру ; или

E3: когда результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение, на основе количества источников гетерогенного звука и типа звукового поля, режима кодирования, соответствующего текущему кадру.

[00194] На этапе E1, после того как сторона кодера получает количество источников гетерогенного звука текущего кадра, количество источников гетерогенного звука может использоваться для определения режима кодирования, соответствующего текущему кадру. На этапе E2, после того как сторона кодера получает тип звукового поля текущего кадра, тип звукового поля может использоваться для определения режима кодирования, соответствующего текущему кадру. На этапе E3, после того как сторона кодера получает количество источников гетерогенного звука и тип звукового поля, количество источников гетерогенного звука и тип звукового поля могут использоваться для определения режима кодирования, соответствующего текущему кадру. Следовательно, сторона кодера может определить, на основе количества источников гетерогенного звука и/или типа звукового поля, режим кодирования, соответствующий текущему кадру, чтобы определить соответствующий режим кодирования на основе результата классификации звукового поля текущего кадра, так что определенный режим кодирования можно адаптировать к текущему кадру трехмерного аудиосигнала. Это повышает эффективность кодирования.

[00195] Дополнительно, в некоторых вариантах осуществления этой заявки определение, на основе количества источников гетерогенного звука, режима кодирования, соответствующего текущему кадру, на этапе E1 включает в себя:

когда количество источников гетерогенного звука соответствует второму предустановленному условию, определяют, что режим кодирования является первым режимом кодирования; или

когда количество источников гетерогенного звука не соответствует второму предустановленному условию, определение того, что режим кодирования является вторым режимом кодирования.

[00196] Первый режим кодирования представляет собой режим кодирования HOA, основанный на выборе виртуального динамика, или режим кодирования HOA, основанный на направленной аудиокодировке, второй режим кодирования представляет собой режим кодирования HOA, основанный на выборе виртуального динамика, или режим кодирования HOA, основанный на направленной аудиокодировке, и первый режим кодирования и второй режим кодирования являются разными режимами кодирования. Режим кодирования HOA, основанный на выборе виртуального динамика, также может называться режимом кодирования HOA, основанным на совпадающем проецировании (совпадающее проецирование, MP).

[00197] В частности, режимы кодирования можно классифицировать на два типа на основе различного количества источников гетерогенного звука: первый режим кодирования и второй режим кодирования. Сторона кодера получает второе предустановленное условие; определяет, соответствует ли количество источников гетерогенного звука второму предустановленному условию; и когда количество источников гетерогенного звука соответствует второму предустановленному условию, определяет, что режим кодирования является первым режимом кодирования; или когда количество источников гетерогенного звука не соответствует второму предустановленному условию, определяет, что режим кодирования является вторым режимом кодирования. В этом варианте осуществления этой заявки может быть определено, соответствует ли количество источников гетерогенного звука второму предустановленному условию, чтобы реализовать разделение режима кодирования текущего кадра, чтобы точно идентифицировать, что режим кодирования текущего кадра принадлежит первому режиму кодирования или второму режиму кодирования.

[00198] Например, когда первый режим кодирования является режимом кодирования HOA на основе выбора виртуального динамика, второй режим кодирования является режимом кодирования HOA на основе направленной аудиокодировки. Альтернативно, когда первый режим кодирования является режимом кодирования HOA, основанным на направленной аудиокодировки, второй режим кодирования является режимом кодирования HOA, основанным на выборе виртуального динамика, и конкретные реализации первого режима кодирования и второго режима кодирования могут быть определены на основе сценария применения.

[00199] Например, в этом варианте осуществления этой заявки результат классификации звукового поля может использоваться для определения режима кодирования, выбранного стороной кодера. Например, результат классификации звукового поля может использоваться для определения режима кодирования сигнала HOA. Например, режим кодирования определяется на основе типа звукового поля. Сигнал НОА, принадлежащий гетерогенному звуковому полю, пригоден для кодирования с использованием кодера, соответствующего режиму A кодирования , а сигнал НОА, принадлежащий дисперсионному звуковому полю, пригоден для кодирования с использованием кодера, соответствующего режиму B кодирования. В другом примере режим кодирования определяется на основе количества источников гетерогенного звука. Когда количество источников гетерогенного звука соответствует условию принятия решения об использовании режима X кодирования, кодирование выполняется с использованием кодера, соответствующего режиму X кодирования. В другом примере режим кодирования альтернативно определяется на основе типа звукового поля и количества источников гетерогенного звука. Когда тип звукового поля представляет собой дисперсионное звуковое поле, кодирование выполняется с использованием кодера, соответствующего режиму C кодирования. Когда тип звукового поля представляет собой гетерогенное звуковое поле и количество источников гетерогенного звука соответствует условию принятия решения об использовании режима X кодирования, кодирование выполняется с использованием кодера, соответствующего режиму X кодирования. Режим A кодирования, режим B кодирования, режим C кодирования и режим X кодирования могут включать в себя множество различных режимов кодирования. В этом варианте осуществления этой заявки разные результаты классификации звукового поля соответствуют разным режимам кодирования. Это не ограничено в этом варианте осуществления настоящей заявки. Например, режим X кодирования может быть режимом 1 кодирования, когда количество источников гетерогенного звука меньше предустановленного порога, или режимом 2 кодирования, когда количество источников гетерогенного звука больше или равно предустановленному порогу.

[00200] В некоторых вариантах осуществления этой заявки второе предустановленное условие включает в себя то, что количество источников гетерогенного звука больше первого порога или меньше второго порога, а второй порог больше первого порога; или

второе предустановленное условие включает в себя то, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог больше первого порога.

[00201] Конкретные значения первого порога и второго порога не ограничены и могут быть конкретно определены на основе сценария применения. Второй порог больше первого порога. Следовательно, первый порог и второй порог могут образовывать предустановленный диапазон, а второе предустановленное условие может заключаться в том, что количество источников гетерогенного звука попадает в предустановленный диапазон, или второе предустановленное условие может заключаться в том, что количество источников гетерогенного звука находится за пределами предустановленного диапазона. Количество источников гетерогенного звука может быть определено на основе второго порога и второго порога в первом предустановленном условии, чтобы определить, соответствует ли количество источников гетерогенного звука второму предустановленному условию, чтобы точно определить, что тип звукового поля текущего кадра принадлежит первому типу звукового поля или второму типу звукового поля.

[00202] Например, первый порог равен 0, второй порог равен 3, а количество источников гетерогенного звука обозначается как n. В этом случае второе предустановленное условие может быть 0 0 < n < 3, или второе предустановленное условие может быть n ≥ 3 или n=0.

[00203] Следует отметить, что в этом варианте осуществления данной заявки первое предустановленное условие представляет собой набор условий для идентификации различных типов звукового поля, а второе предварительно установленное условие представляет собой набор условий для идентификации различных режимов кодирования. Первое предварительно установленное условие и второе предварительно установленное условие могут включать в себя одинаковое содержимое условия или различное содержимое условия. Другими словами, первое предустановленное условие и второе предустановленное условие могут быть разными предустановленными условиями или одним и тем же предустановленным условием. Однако считается, что во время фактического использования могут быть различия. Первое предустановленное условие и второе предустановленное условие различаются использованием номеров, первый и второй.

[00204] В некоторых вариантах осуществления этой заявки определение, на основе типа звукового поля, режима кодирования, соответствующего текущему кадру, на этапе E2 включает в себя:

когда тип звукового поля представляет собой гетерогенное звуковое поле, определение, что режим кодирования является режимом кодирования HOA на основе выбора виртуального динамика; или

когда тип звукового поля представляет собой дисперсионное звуковое поле, определение, что режим кодирования является режимом кодирования HOA на основе направленной аудиокодировки.

[00205] Для звукового поля, в котором имеется мало источников гетерогенного звука в звуковом поле, и для дисперсионного звукового поля, режим кодирования НОА на основе направленного звука имеет более низкую эффективность сжатия, чем режим кодирования НОА на основе выбора виртуального динамика. Однако для звукового поля, в котором имеется множество источников гетерогенного звука в звуковом поле, режим кодирования НОА на основе выбора виртуального динамика имеет более низкую эффективность сжатия, чем режим кодирования НОА на основе направленного звука. В этом варианте осуществления этой заявки, когда тип звукового поля является гетерогенным звуковым полем, определяется, что режим кодирования является режимом кодирования HOA на основе выбора виртуального динамика. Когда тип звукового поля представляет собой дисперсионное звуковое поле, определяется, что режим кодирования является режимом кодирования HOA на основе направленной аудиокодировки. В этом варианте осуществления этой заявки соответствующий режим кодирования может быть выбран на основе результата классификации звукового поля текущего кадра, чтобы удовлетворить требованию получения максимальной эффективности сжатия для различных типов аудиосигналов.

[00206] В некоторых вариантах осуществления этой заявки определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру, на этапе 503 включает в себя:

F1: определение, на основе результата классификации звукового поля текущего кадра, начального режима кодирования, соответствующего текущему кадру;

F2: получение окна затягивания (hangover), в котором находится текущий кадр, где окно затягивания включает в себя начальный режим кодирования текущего кадра и режимы кодирования N-1 кадров перед текущим кадром, N - длина окна затягивания; и

F3: определение режима кодирования текущего кадра на основе начального режима кодирования текущего кадра и режимов кодирования N-1 кадров.

[00207] На этапе F1 начальный режим кодирования может быть режимом кодирования, определенным на основе результата классификации звукового поля. Например, режим кодирования текущего кадра может быть определен на основе любой из предшествующих реализаций на этапе E1-E3, и режим кодирования может использоваться в качестве начального режима кодирования на этапе F1. После получения начального режима кодирования, окно затягивания получается на основе текущего кадра и размера окна затягивания. Окно затягивания включает в себя начальный режим кодирования текущего кадра и режимы кодирования N-1 кадров перед текущим кадром, а N указывает количество кадров, включенных в окно затягивания. Наконец, режим кодирования текущего кадра определяется на основе режимов кодирования, отдельно соответствующих N кадрам в окне затягивания. Режим кодирования текущего кадра, полученный на этапе F3, может быть режимом кодирования, используемым при кодировании текущего кадра. В этом варианте осуществления этой заявки начальный режим кодирования текущего кадра корректируется на основе окна затягивания, чтобы получить режим кодирования текущего кадра. Это гарантирует, что режимы кодирования последовательных кадров не будут часто переключаться, и повышает эффективность кодирования.

[00208] Например, после того, как начальный режим кодирования текущего кадра получен, обработка окна затягивания может выполняться для текущего кадра, чтобы гарантировать, что режимы кодирования последовательных кадров не переключаются часто. Существует множество способов обработки окна затягивания. Это не ограничено в этом варианте осуществления настоящей заявки. Например, способ обработки может заключаться в сохранении идентификатора выбора кодера, длина которого составляет N кадров, в окне затягивания, где N кадров включают в себя идентификаторы выбора кодера текущего кадра и N-1 кадров перед текущим кадром; и когда идентификаторы выбора кодера накапливаются до предустановленного порога, обновляют идентификатор указания типа кодирования текущего кадра. Необязательно, в дополнение к обработке окна затягивания, может использоваться другая постобработка для выполнения коррекции текущего кадра. Например, начальный режим кодирования используется в качестве начальной классификации, начальная классификация модифицируется на основе таких признаков, как результат классификации речи и соотношение сигнал/шум аудиосигнала, а модифицированный результат используется в качестве конечного результата режима кодирования.

[00209] Как показано на фиг. 6, способ обработки трехмерного аудиосигнала согласно варианту осуществления этой заявки в основном включает в себя следующие этапы.

[00210] Этап 601: выполняют линейное разложение текущего кадра трехмерного аудиосигнала, чтобы получить результат линейного разложения.

[00211] Этап 602: получают на основе результата линейного разложения параметр классификации звукового поля, соответствующий текущему кадру.

[00212] Этап 603: определяют результат классификации звукового поля текущего кадра на основе параметра классификации звукового поля.

[00213] Реализации этапов с 601 по 603 аналогичны реализациям этапов с 401 по 403 в предшествующем варианте осуществления, а этапы с 601 по этап 603 не описываются здесь подробно еще раз.

[00214] Этап 604: определяют, на основе результата классификации звукового поля, параметр кодирования, соответствующий текущему кадру.

[00215] Сторона кодера может выполнить этапы с 601 по 603. После получения результата классификации звукового поля текущего кадра сторона кодера может определить на основе результата классификации звукового поля параметр кодирования, соответствующий текущему кадру. Параметр кодирования представляет собой параметр, используемый при кодировании текущего кадра трехмерного аудиосигнала. Существует множество параметров кодирования, и разные параметры кодирования могут использоваться на основе разных результатов классификации звукового поля текущего кадра. В этом варианте осуществления этой заявки соответствующие параметры кодирования выбираются для различных результатов классификации звукового поля текущего кадра, так что текущий кадр кодируется на основе параметра кодирования. Это повышает эффективность сжатия и слуховое качество аудиосигнала.

[00216] Кроме того, в некоторых вариантах осуществления этой заявки параметр кодирования включает в себя по меньшей мере одно из следующего: количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала, количество битов кодирования сигнала виртуального динамика, количество битов кодирования остаточного сигнала или количество раундов выборки для поиска наиболее соответствующего динамика.

[00217] Сигнал виртуального динамика и остаточный сигнал представляют собой сигналы, генерируемые на основе трехмерного аудиосигнала.

[00218] В частности, сторона кодера может определить параметр кодирования текущего кадра на основе результата классификации звукового поля текущего кадра, так что параметр кодирования может использоваться для кодирования текущего кадра. Существует множество реализаций параметра кодирования. Например, параметр кодирования включает в себя по меньшей мере одно из следующего: количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала, количество битов кодирования сигнала виртуального динамика, количество битов кодирования остаточного сигнала или количество раундов выборки для поиска наиболее соответствующего динамика. Количество каналов также может называться количеством каналов передачи. Количество каналов представляет собой количество каналов передачи, выделенных при кодировании сигнала, а количество битов кодирования представляет собой количество битов кодирования, выделенных при кодировании сигнала.

[00219] В способе выбора виртуального динамика, предусмотренном в этом варианте осуществления настоящей заявки, кодер осуществляет выборку каждого виртуального динамика в наборе кандидатных виртуальных динамиков на основе коэффициента виртуального динамика текущего кадра и выбирает виртуальный динамик текущего кадра на основе по значения выборки, чтобы уменьшить ответственность за вычисления для поиска виртуального динамика и уменьшить вычислительную нагрузку кодера. Количество раундов выборки для поиска наиболее соответствующего динамика - это количество раундов выборки, необходимое для поиска наиболее соответствующего динамика. В возможной реализации количество раундов выборки может быть предварительно сконфигурировано или может быть определено на основе результата классификации звукового поля текущего кадра. Например, количество раундов выборки для поиска наиболее соответствующего динамика представляет собой количество раундов выборки для поиска виртуального динамика в процессе определения сигнала виртуального динамика на основе трехмерного аудиосигнала.

[00220] Кроме того, сигнал виртуального динамика и остаточный сигнал в этом варианте осуществления данной заявки являются сигналами, сгенерированными на основе трехмерного аудиосигнала. Например, первый целевой виртуальный динамик выбирается из предустановленного набора виртуальных динамиков на основе аудиосигнала первой сцены, и сигнал виртуального динамика генерируется на основе аудиосигнала первой сцены и атрибутивной информации первого целевого виртуального динамика. Аудиосигнал второй сцены получается на основе атрибутивной информации первого целевого виртуального динамика и сигнала первого виртуального динамика, а остаточный сигнал генерируется на основе аудиосигнала первой сцены и аудиосигнала второй сцены.

[00221] В некоторых вариантах реализации этой заявки количество раундов выборки соответствует следующему соотношению:

[00222] I - количество раундов выборки, а d - количество источников гетерогенного звука, включенных в результат классификации звукового поля.

[00223] Сторона кодера определяет, на основе количества источников гетерогенного звука текущего кадра, количество раундов выборки для поиска наиболее соответствующего динамика. Количество раундов выборки меньше или равно количеству источников гетерогенного звука текущего кадра, так что количество раундов выборки может соответствовать фактической ситуации классификации звукового поля текущего кадра. Это решает проблему, заключающуюся в том, что количество раундов выборки для поиска наиболее соответствующего динамика необходимо определять при кодировании текущего кадра.

[00224] Например, количество I раундов выборки должно соответствовать следующим правилам: минимальное количество раундов выборки равно одному, максимальное количество раундов выборки не превышает общего количества динамиков, а максимальное количество раундов выборки не превышает количество каналов сигнала виртуального динамика. Например, общее количество динамиков может составлять 1024 динамика, полученных блоком генерации набора виртуальных динамиков в кодере, а количество каналов сигнала виртуального динамика представляет собой количество сигналов виртуальных динамиков, передаваемых кодером, а именно N каналов передачи, соответственно генерируемых N наиболее соответствующими динамиками. Обычно количество каналов сигнала виртуального динамика меньше общего количества динамиков. Способ оценки количества раундов выборки заключается в следующем: определяют, на основе количества источников гетерогенного звука, полученного в результате классификации звукового поля, в звуковом поле текущего кадра, количество I раундов выборки для поиска наиболее соответствующего динамика. Количество I раундов выборки удовлетворяет следующему соотношению: . d - количество источников звука в разных направлениях, входящих в звуковое поле, а именно количество оцененных источников гетерогенного звука в результате классификации звукового поля. Например, I = d. Альтернативно, количество раундов выборки I=min(d, общее количество динамиков, количество каналов сигнала виртуального динамика, предустановленное количество раундов выборки). Количество I раундов выборки может быть получено на основе min(d, общего количества динамиков, количества каналов сигнала виртуального динамика, предустановленного количества раундов выборки), так что сторона кодера может определить на основе значения I, количество раундов выборки для поиска наиболее соответствующего динамика.

[00225] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля.

[00226] Когда тип звукового поля является гетерогенным звуковым полем, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=min(S, PF), где

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное кодером; или

когда типом звукового поля является дисперсионное звуковое поле, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=1, где

F - количество каналов сигнала виртуального динамика.

[00227] Количество каналов сигнала виртуального динамика представляет собой количество каналов для передачи сигнала виртуального динамика, и количество каналов сигнала виртуального динамика может быть определено на основе количества источников гетерогенного звука и типа звукового поля. При описанном выше методе вычисления, когда тип звукового поля представляет собой дисперсионное звуковое поле, определяется, что количество каналов сигнала виртуального динамика равно 1, чтобы повысить эффективность кодирования текущего кадра. Когда тип звукового поля представляет собой гетерогенное звуковое поле, min указывает на операцию, в которой выбирается минимальное значение, то есть выбор минимального значения из S и PF в качестве количества каналов сигнала виртуального динамика, так что количество каналов сигнала виртуального динамика может соответствовать фактической ситуации классификации звукового поля текущего кадра. Это решает проблему, заключающуюся в том, что количество каналов сигнала виртуального динамика необходимо определять при кодировании текущего кадра.

[00228] В некоторых вариантах реализации этой заявки, когда типом звукового поля является дисперсионное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=max(C-1, PR), где

PR - количество каналов остаточного сигнала, предустановленное кодером, а C - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером; или

когда тип звукового поля представляет собой гетерогенное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=C - F, где

R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером, и F - количество каналов сигнала виртуального динамика.

[00229] После того, как количество каналов сигнала виртуального динамика получено, количество каналов остаточного сигнала может быть вычислено на основе предустановленного количества каналов остаточного сигнала и суммы предустановленного количества каналов остаточного сигнала и предустановленного количества каналов сигнала виртуального динамика. Значение PR может быть предустановлено на стороне кодера, а значение R может быть получено по формуле вычисления max(C-1, PR). Сумма предустановленного количества каналов остаточного сигнала и предустановленного количества каналов сигнала виртуального динамика предварительно устанавливается на стороне кодера. Кроме того, C также может называться общим количеством каналов передачи.

[00230] В некоторых вариантах осуществления этой заявки, после того как получено количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала может быть вычислено на основе количества каналов сигнала виртуального динамика и суммы предустановленного количества каналов остаточного сигнала и предустановленного количества каналов сигнала виртуального динамика. Сумма предустановленного количества каналов остаточного сигнала и предустановленного количества каналов сигнала виртуального динамика предварительно устанавливается на стороне кодера. Кроме того, C также может называться общим количеством каналов передачи.

[00231] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука.

[00232] Количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=min(S, PF), где

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное кодером.

[00233] Количество каналов сигнала виртуального динамика представляет собой количество каналов для передачи сигнала виртуального динамика, и количество каналов сигнала виртуального динамика может быть определено на основе количества источников гетерогенного звука. В приведенном выше способе вычисления min указывает операцию, в которой выбирается минимальное значение, то есть выбор минимального значения из S и PF в качестве количества каналов сигнала виртуального динамика, так что количество каналов виртуального динамика сигнал может соответствовать фактической ситуации классификации звукового поля текущего кадра. Это решает проблему, заключающуюся в том, что количество каналов сигнала виртуального динамика необходимо определять при кодировании текущего кадра.

[00234] В некоторых вариантах реализации этой заявки количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=C - F, где

R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером, и F - количество каналов сигнала виртуального динамика. Например, C представляет собой сумму PF и PR.

[00235] После того, как количество каналов сигнала виртуального динамика получено, количество каналов остаточного сигнала может быть вычислено на основе количества каналов сигнала виртуального динамика и суммы предустановленного количества каналов остаточного сигнала и предустановленного количества каналов сигнала виртуального динамика. Сумма предустановленного количества каналов остаточного сигнала и предустановленного количества каналов сигнала виртуального динамика предварительно устанавливается на стороне кодера. Кроме того, C также может называться общим количеством каналов передачи.

[00236] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука, или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля.

[00237] Количество битов кодирования сигнала виртуального динамика получается на основе отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи.

[00238] Количество битов кодирования остаточного сигнала получается на основе отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи.

[00239] Количество битов кодирования канала передачи включает в себя количество битов кодирования сигнала виртуального динамика и количество битов кодирования остаточного сигнала, а когда количество источников гетерогенного звука меньше или равно количеству каналов сигнала виртуального динамика, отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи получается путем увеличения исходного отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи.

[00240] Сторона кодера предустанавливает исходное отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи, получает количество источников гетерогенного звука и определяет, меньше ли количество источников гетерогенного звука или равно количеству каналов сигнала виртуального динамика. Если количество источников гетерогенного звука меньше или равно количеству каналов сигнала виртуального динамика, исходное отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи может быть увеличено, а повышенное исходное отношение определяется как отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи. Отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи может использоваться для вычисления количества битов кодирования сигнала виртуального динамика и количества битов кодирования остаточного сигнала. В вышеизложенном способе вычисления количество битов кодирования сигнала виртуального динамика и количество битов кодирования остаточного сигнала могут соответствовать фактической ситуации классификации звукового поля текущего кадра. Это решает проблему, заключающуюся в том, что количество битов кодирования сигнала виртуального динамика и количество битов кодирования остаточного сигнала необходимо определять при кодировании текущего кадра.

[00241] Например, сторона кодера определяет способ выделения битов для сигнала виртуального динамика и остаточного сигнала на основе результата классификации звукового поля, делит сигнал канала передачи на группу сигналов виртуального динамика и группу остаточных сигналов и использует предустановленная доля выделения группы сигналов виртуального динамика как исходное отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи. Когда количество гетерогенных источников звука ≤ количества каналов сигнала виртуального динамика, исходное отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи увеличивается на основе предустановленного значения регулировки, а увеличенное отношение используется как отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи. Например, увеличенное отношение равно сумме предустановленного значения регулировки и исходного отношения.

[00242] В некоторых вариантах реализации этой заявки отношение количества битов кодирования остаточного сигнала к количеству битов кодирования канала передачи=1,0 - отношение количества битов кодирования сигнала виртуального динамика к количеству кодирования. бит канала передачи.

[00243] В некоторых вариантах реализации этой заявки, помимо выполнения вышеупомянутых этапов, способ, выполняемый стороной кодера, может дополнительно включать в себя:

кодирование текущего кадра и результата классификации звукового поля и запись закодированного текущего кадра и результата классификации звукового поля в битовый поток.

[00244] Результат классификации звукового поля может быть закодирован в битовый поток. После того как сторона кодера отправляет битовый поток на сторону декодера, сторона декодера может получить результат классификации звукового поля на основе битового потока. Сторона декодера может получить, синтаксически анализируя битовый поток, результат классификации звукового поля, переносимый в битовом потоке, и получить статус распределения звукового поля текущего кадра на основе результата классификации звукового поля, так что текущий кадр может быть декодирован, чтобы получить трехмерный аудиосигнал.

[00245] В некоторых вариантах осуществления этой заявки кодирование текущего кадра и результат классификации звукового поля могут, в частности, включать в себя: непосредственное кодирование текущего кадра или первую обработку текущего кадра; и после получения сигнала виртуального динамика и остаточного сигнала, кодирование сигнала виртуального динамика и остаточного сигнала. Например, сторона кодера может конкретно представлять собой базовый кодер. Базовый кодер кодирует сигнал виртуального динамика, остаточный сигнал и результат классификации звукового поля для получения битового потока. Битовый поток также может называться битовым потоком кодирования аудиосигнала.

[00246] Способ обработки трехмерного аудиосигнала, предусмотренный в этом варианте осуществления настоящей заявки, может включать в себя способ кодирования аудио и способ декодирования аудио. Способ кодирования аудио выполняется устройством кодирования аудио, способ декодирования аудио выполняется устройством декодирования аудио, и устройство кодирования аудио может взаимодействовать с устройством декодирования аудио. ФИГ. 4 - фиг. 6, выполняются устройством кодирования аудио. Ниже описывается способ обработки трехмерного аудиосигнала, выполняемый устройством декодирования аудио (которое называется стороной декодера) согласно варианту осуществления этой заявки. Как показано на фиг. 7, способ в основном включает в себя следующие этапы.

[00247] Этап 701: принимают битовый поток.

[00248] Сторона декодера принимает битовый поток от стороны кодера. Битовый поток несет результат классификации звукового поля.

[00249] Этап 702: декодируют битовый поток, чтобы получить результат классификации звукового поля текущего кадра.

[00250] Сторона декодера синтаксически анализирует битовый поток и получает из битового потока результат классификации звукового поля текущего кадра. Результат классификации звукового поля получается на стороне кодера согласно вариантам осуществления, показанным на фиг. 4 - фиг. 6.

[00251] Этап 703: получают трехмерный аудиосигнал декодированного текущего кадра на основе результата классификации звукового поля.

[00252] После получения результата классификации звукового поля сторона декодера синтаксически анализирует битовый поток на основе результата классификации звукового поля, чтобы получить трехмерный аудиосигнал декодированного текущего кадра. Процесс декодирования текущего кадра не ограничен в этом варианте осуществления данной заявки. В этом варианте осуществления этой заявки сторона декодера может декодировать текущий кадр на основе результата классификации звукового поля. Результат классификации звукового поля можно использовать для декодирования текущего кадра в битовом потоке. Следовательно, сторона декодера выполняет декодирование методом декодирования, соответствующим звуковому полю текущего кадра, чтобы получить трехмерный аудиосигнал, отправленный стороной кодера. Это реализует передачу аудиосигнала со стороны кодера на сторону декодера.

[00253] Например, сторона декодера может определить, на основе результата классификации звукового поля, переданного в битовом потоке, режим декодирования и/или параметр декодирования, соответствующий режиму кодирования и/или параметру кодирования стороны кодера. По сравнению с методом, которым сторона кодера передает режим кодирования и/или параметр кодирования на сторону декодера, количество битов кодирования уменьшается.

[00254] В некоторых вариантах реализации этой заявки получение трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля на этапе 703 включает в себя:

G1: определение режима декодирования текущего кадра на основе результата классификации звукового поля; и

G2: получение трехмерного аудиосигнала декодированного текущего кадра на основе режима декодирования.

[00255] Режим декодирования соответствует режиму кодирования в предшествующих вариантах осуществления. Реализация этапа G1 аналогична этапу 504 в предшествующем варианте осуществления. Подробности здесь повторно не приводятся. После получения режима декодирования сторона декодера может декодировать битовый поток на основе режима декодирования, чтобы получить трехмерный аудиосигнал декодированного текущего кадра.

[00256] Дополнительно, в некоторых вариантах осуществления этой заявки, определение режима декодирования текущего кадра на основе результата классификации звукового поля на этапе G1 включает в себя:

когда результат классификации звукового поля включает в себя количество источников гетерогенного звука или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе количества источников гетерогенного звука;

когда результат классификации звукового поля включает в себя тип звукового поля или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе типа звукового поля; или

когда результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе количества источников гетерогенного звука и типа звукового поля.

[00257] Реализации предшествующих этапов аналогичны реализациям этапов E1-E3 в вышеизложенном варианте осуществления. Подробности здесь повторно не приводятся.

[00258] В некоторых вариантах осуществления этой заявки определение режима декодирования текущего кадра на основе количества источников гетерогенного звука включает в себя:

когда количество источников гетерогенного звука соответствует предустановленному условию, определяют, что режим декодирования является первым режимом декодирования; или

когда количество источников гетерогенного звука не соответствует предустановленному условию, определение того, что режим декодирования является вторым режимом декодирования.

[00259] Первый режим декодирования представляет собой режим декодирования НОА, основанный на выборе виртуального динамика, или режим декодирования НОА, основанный на направленной аудиокодировке, второй режим декодирования представляет собой режим декодирования НОА, основанный на выборе виртуального динамика, или режим декодирования НОА, основанный на направленной аудиокодировке, и первый режим декодирования и второй режим декодирования являются разными режимами декодирования.

[00260] Следует отметить, что предустановленное условие представляет собой условие, установленное стороной декодера для идентификации различных режимов декодирования, и реализация предустановленного условия не ограничена.

[00261] В некоторых вариантах реализации этой заявки предустановленное условие включает в себя то, что количество источников гетерогенного звука больше первого порога или меньше второго порога, а второй порог больше первого порога; или

предустановленное условие включает в себя то, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог превышает первый порог.

[00262] В некоторых вариантах реализации этой заявки получение трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля на этапе 703 включает в себя:

H1: определение параметра декодирования текущего кадра на основе результата классификации звукового поля; и

H2: получение трехмерного аудиосигнала декодированного текущего кадра на основе параметра декодирования.

[00263] Параметр декодирования соответствует параметру кодирования в предшествующих вариантах осуществления. Реализация этапа H1 аналогична этапу 604 в предшествующем варианте осуществления. Подробности здесь повторно не приводятся. После получения параметра декодирования сторона декодера может декодировать битовый поток на основе параметра декодирования, чтобы получить трехмерный аудиосигнал декодированного текущего кадра.

[00264] В некоторых вариантах осуществления этой заявки параметр декодирования включает в себя по меньшей мере одно из следующего: количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала, количество битов декодирования сигнала виртуального динамика или количество битов декодирования остаточного сигнала.

[00265] Сигнал виртуального динамика и остаточный сигнал получаются путем декодирования битового потока.

[00266] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля.

[00267] Когда тип звукового поля является гетерогенным звуковым полем, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=min(S, PF), где

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное декодером; или

когда типом звукового поля является дисперсионное звуковое поле, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=1, где

F - количество каналов сигнала виртуального динамика.

[00268] В некоторых вариантах реализации этой заявки, когда типом звукового поля является дисперсионное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=max(C-1, PR), где

PR - количество каналов остаточного сигнала, предустановленное декодером, а C - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером; или

когда тип звукового поля представляет собой гетерогенное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=C - F, где

R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером, F - количество каналов сигнала виртуального динамика.

[00269] Следует отметить, что количество каналов сигнала виртуального динамика, предустановленное декодером, равно количеству каналов сигнала виртуального динамика, предустановленному кодером. Аналогично количество каналов остаточного сигнала, предустановленное декодером, равно количеству каналов остаточного сигнала, предустановленному кодером.

[00270] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука.

[00271] Количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=min(S, PF), где

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное декодером.

[00272] В некоторых вариантах реализации этой заявки количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=C - F, где

R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером, F - количество каналов сигнала виртуального динамика.

[00273] Следует отметить, что реализация параметра декодирования аналогична реализации параметра кодирования в предшествующем варианте осуществления. Подробности здесь повторно не приводятся.

[00274] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука, или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля.

[00275] Количество битов декодирования сигнала виртуального динамика получается на основе отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи.

[00276] Количество битов декодирования остаточного сигнала получается на основе отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи.

[00277] Количество битов декодирования канала передачи включает в себя количество битов декодирования сигнала виртуального динамика и количество битов декодирования остаточного сигнала, а когда количество источников гетерогенного звука меньше или равно количеству каналов сигнала виртуального динамика, отношение количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи получается путем увеличения исходного отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи.

[00278] Для лучшего понимания и реализации вышеупомянутых решений в вариантах осуществления этой заявки ниже представлены конкретные описания с использованием соответствующих сценариев применения в качестве примеров.

[00279] В этом варианте осуществления данной заявки используется пример, в котором трехмерный аудиосигнал представляет собой сигнал HOA. Способ классификации звукового поля для сигнала HOA в этом варианте осуществления данной заявки применяется к гибридному кодеру HOA. ФИГ. 8 показывает базовую процедуру кодирования. Сторона кодера выполняет классификацию сигнала HOA, подлежащего кодированию, чтобы определить, подходит ли кодируемый сигнал HOA текущего кадра для схемы кодирования HOA, основанной на выборе виртуального динамика, или схемы кодирования HOA, основанной на направленной аудиокодировке DirAC, и определить режим кодирования HOA текущего кадра на основе результата классификации звукового поля. В частности, кодер НОА включает в себя блок выбора кодера. Блок выбора кодера выполняет классификацию звукового поля на сигнале НОА, подлежащем кодированию, и определяет режим кодирования текущего кадра; и выбирает, на основе режима кодирования, кодер A или кодер B для кодирования, чтобы получить окончательный кодированный битовый поток. Кодер A и кодер B обозначают разные типы кодеров, и каждый тип кодера адаптирован к типу звукового поля текущего кадра. Когда для кодирования используется кодер, адаптированный к типу звукового поля, степень сжатия сигнала может быть улучшена.

[00280] Конкретный процесс выполнения классификации звукового поля для кодируемого сигнала HOA и определения режима кодирования включает в себя:

выполнение классификации звукового поля на сигнале НОА, подлежащем кодированию, чтобы получить результат классификации звукового поля; и

определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру.

[00281] Режим кодирования текущего кадра указывает способ выбора кодера текущего кадра. Критерий для определения идентификатора выбора кодера может быть определен на основе типа звукового поля сигнала НОА, к которому применимы кодер A и кодер B. Например, тип сигнала, обрабатываемый кодером А, представляет собой сигнал НОА с гетерогенным звуковым полем и количество источников гетерогенного звука у которого меньше 3, а тип сигнала, обрабатываемый кодером B, представляет собой сигнал НОА с гетерогенным звуковым полем и у которого количество источников гетерогенного звука больше или равно 3. Альтернативно, тип сигнала, обрабатываемый кодером B, представляет собой сигнал HOA с дисперсионным звуковым полем или количество источников гетерогенного звука которого больше или равно 3.

[00282] Следует отметить, что обработка окна затягивания (hangover) также может выполняться над результатом классификации звукового поля, чтобы гарантировать, что режимы кодирования между последовательными кадрами не переключаются часто. Существует множество методов обработки окна затягивания. Это не ограничено в этом варианте осуществления настоящей заявки. Например, способ обработки может заключаться в сохранении идентификатора выбора кодера, длина которого составляет N кадров, в окне затягивания, где N кадров включают в себя идентификаторы выбора кодера текущего кадра и N-1 кадров перед текущим кадром; и когда идентификаторы выбора кодера накапливаются до предустановленного порога, обновляют идентификатор указания типа кодирования текущего кадра. Необязательно, в дополнение к обработке окна затягивания, может использоваться другая обработка для выполнения коррекции результата классификации звукового поля.

[00283] Как показано на фиг. 9, процедура определения режима кодирования сигнала НОА в основном включает в себя:

[00284] S01: получают подлежащий анализу сигнал НОА.

[00285] S02: выполняют понижающую дискретизацию сигнала HOA.

[00286] То, что выполнение понижающей дискретизации анализируемого сигнала HOA является необязательным этапом, не ограничено.

[00287] Понижающая выборка выполняется для анализируемого сигнала HOA, чтобы уменьшить сложность вычислений. Подлежащий анализу сигнал HOA может быть сигналом HOA во временной области или может быть сигналом HOA в частотной области. Анализируемый сигнал HOA может включать в себя все каналы или некоторые каналы HOA (например, канал FOA). Например, анализируемый сигнал HOA может представлять собой все точки выборки или точки понижающей дискретизации 1/Q. Например, в этом варианте осуществления используются 1/120 точек понижающей дискретизации.

[00288] Например, порядок сигнала НОА текущего кадра равен 3, количество каналов сигнала НОА равно 16, а длина кадра текущего кадра равна 20 миллисекунд (мс), то есть сигнал текущего кадра включает в себя 960 точек дискретизации. После того, как сигнал HOA текущего кадра, подлежащий кодированию, обрабатывается путем понижающей дискретизации 1/120, каждый канал сигнала включает в себя восемь точек дискретизации. Другими словами, сигнал НОА имеет 16 каналов, и каждый канал имеет восемь точек дискретизации, формирующих входной сигнал анализа типа звукового поля, а именно анализируемый сигнал НОА.

[00289] Этап S03: выполняют анализ типа звукового поля на основе сигнала, полученного посредством понижающей дискретизации.

[00290] После того как понижающая дискретизация выполняется для сигнала HOA, тип звукового поля получается путем анализа количества источников гетерогенного звука сигнала HOA.

[00291] Например, анализ типа звукового поля в этом варианте осуществления данной заявки может выполнять линейное разложение сигнала HOA, получать результат линейного разложения посредством линейного разложения, а затем получать результат классификации звукового поля на основе результата линейного разложения.

[00292] Например, количество источников гетерогенного звука можно получить на основе результата линейного разложения. Например, результат линейного разложения может включать в себя значение признака. То, что количество источников гетерогенного звука оценивается на основе соотношения между значениями признаков, в частности, включает в себя:

выполнение разложения по сингулярным значениям анализируемого сигнала HOA, чтобы получить сингулярное значение v[i], где i=0, 1, …, min(L, K)-1.

[00293] L равно количеству каналов сигнала НОА, а K - количеству сигнальных точек каждого канала текущего кадра. Например, количество сигнальных точек может быть количеством частот. В этом варианте осуществления L=16, K=8 и min(L, K)=8.

[00294] Отношение temp[i] между сингулярными значениями v вычисляется и используется в качестве параметра классификации звукового поля, где для i=0, 1, …, min(L, K)-2:

temp[i]=v[i]/v[i+1].

[00295] Порог определения источника гетерогенного звука равен 100, а количество n источников гетерогенного звука можно оценить следующим методом:

определение, превышает ли temp[i] 100, исходя из i=0; и если temp[i] больше или равно 100 и соблюдено temp[i] ≥ 100, определение прекращается; в противном случае i=i+1, продолжая выполнять определение. При остановке определения количество n источников гетерогенного звука равно порядковому номеру i при остановке определения плюс 1. Например, при i=0, если temp[0] ≥ 100, определение прекращается, а количество n источников гетерогенного звука равно 1. В противном случае i устанавливается равным 1, и определение продолжает выполняться, когда i=1. При i=1 и temp[1] ≥ 100 определение прекращается и количество n источников гетерогенного звука становится равным i+1=2.

[00296] Этап S04: определяют предсказанный режим кодирования на основе результата анализа типа звукового поля.

[00297] Предсказанный режим кодирования определяется на основе количества n источников гетерогенного звука.

[00298] Когда 0 < n < 3, предсказанным режимом кодирования является режим 1 кодирования.

[00299] Когда n ≥ 3 или n=0, предсказанным режимом кодирования является режим 2 кодирования.

[00300] Например, режим 1 кодирования может быть режимом кодирования HOA на основе выбора виртуального динамика. Режим 2 кодирования может представлять собой схему кодирования HOA, основанную на направленной аудиокодировке DirAC.

[00301] Этап S05: определяют фактический режим кодирования на основе предсказанного режима кодирования.

[00302] После того как определен предсказанный режим кодирования текущего кадра, затем определяется фактический режим кодирования. Например, окно затягивания используется для определения фактического режима кодирования. В окне затягивания, когда ожидаемые режимы 2 кодирования множества кадров в окне затягивания накапливаются до предустановленного порога, фактическим режимом кодирования текущего кадра является режим 2 кодирования. В противном случае фактическим режимом кодирования текущего кадра является режим 1 кодирования.

[00303] Например, в окне затягивания ожидаются результаты режима кодирования для 10 кадров, включая результат решения о режиме кодирования текущего кадра на этапе S03 и результаты режима кодирования для девяти кадров перед текущим кадром. Если в ожидаемых результатах режима кодирования 10 кадров, чьи режимы кодирования представляют собой режим 2 кодирования, суммируются до семи кадров, фактический режим кодирования текущего кадра определяется как режим 2 кодирования.

[00304] Этап S06: получают окончательный режим кодирования.

[00305] Базовая процедура декодирования гибридного декодера НОА, соответствующего стороне кодера, показана на фиг. 10. Сторона декодера получает битовый поток со стороны кодера, а затем анализирует битовый поток, чтобы получить режим декодирования HOA текущего кадра. Соответствующая схема декодирования выбирается на основе режима декодирования НОА текущего кадра для декодирования, чтобы получить восстановленный сигнал НОА. В частности, сторона декодера включает в себя блок выбора декодера. Блок выбора декодера синтаксически анализирует битовый поток, определяет режим декодирования и выбирает, на основе режима декодирования, декодер A или декодер B для декодирования, чтобы получить восстановленный сигнал НОА. Декодер A и декодер B обозначают разные типы декодера, и каждый тип декодера адаптирован к типу звукового поля текущего кадра. Когда для декодирования используется декодер, адаптированный к типу звукового поля, сигнал НОА может быть правильно восстановлен.

[00306] Из приведенных выше описаний можно понять, что классификация звукового поля выполняется для сигнала HOA, подлежащего кодированию, и режим кодирования определяется на основе результата классификации звукового поля, так что для соответствующих типов сигнала используются разные режимы кодирования для получения максимальной эффективности сжатия сигналов разных типов.

[00307] Ниже описывается кодер HOA на основе выбора виртуального динамика согласно варианту осуществления этой заявки. На ФИГ. 11 показана базовая процедура кодирования.

[00308] Сторона кодера может включать в себя: блок конфигурации виртуального динамика, блок анализа кодирования, блок генерации набора виртуальных динамиков, блок выбора виртуального динамика, блок генерации сигнала виртуального динамика, основной блок обработки кодера, блок восстановления сигнала, блок генерации остаточного сигнала, блок выбора и блок компенсации сигнала. Далее отдельно описываются функции блоков, входящих в состав кодера. В этом варианте осуществления этой заявки сторона кодера, показанная на фиг. 11, может генерировать один сигнал виртуального динамика или множество сигналов виртуального динамика. Процедура генерации множества сигналов виртуального динамика может выполнять генерацию на основе структуры кодера в течение множества раз, показана на фиг. 11. Ниже в качестве примера используется процедура генерации сигнала одного виртуального динамика.

[00309] Блок конфигурации виртуального динамика выполнен с возможностью конфигурирования виртуального динамика в наборе виртуальных динамиков, чтобы получить множество виртуальных динамиков.

[00310] Блок конфигурации виртуального динамика выводит параметр конфигурации виртуального динамика на основе информации конфигурации кодера. Информация конфигурации кодера включает в себя, но без ограничения, порядок HOA, битовую скорость кодирования, определяемую пользователем информацию и т.п. Параметр конфигурации виртуального динамика включает в себя, но без ограничения, количество виртуальных динамиков, порядок HOA виртуального динамика, координаты положения виртуального динамика и т.п.

[00311] Параметр конфигурации виртуального динамика, выводимый блоком конфигурации виртуального динамика, используется в качестве входных данных блока генерации набора виртуальных динамиков.

[00312] Блок анализа кодирования выполнен с возможностью выполнения анализа кодирования сигнала HOA, подлежащего кодированию, например, анализа распределения звукового поля, включая такие характеристики, как количество источников звука, направленность и степень дисперсии подлежащего кодированию сигнала НОА, подлежащего кодированию сигнала НОА. Эта функция используется как одно из определяющих условий для определения того, как выбрать целевой виртуальный динамик.

[00313] В этом варианте осуществления этой заявки то, что сторона кодера альтернативно может не включать в себя блок анализа кодирования, не ограничено. Другими словами, сторона кодера может не анализировать входной сигнал, а использовать конфигурацию по умолчанию, чтобы определить, как выбрать целевой виртуальный динамик.

[00314] Сторона кодера получает сигнал НОА, подлежащий кодированию. Например, сторона кодера может использовать сигнал HOA, записанный с фактического устройства захвата, или сигнал HOA, синтезированный с использованием искусственного аудиообъекта в качестве входа кодера. Кроме того, сигнал HOA, подлежащий кодированию, вводимый кодером, может быть сигналом HOA во временной области или сигналом HOA в частотной области.

[00315] Блок формирования набора виртуальных динамиков сконфигурирован для создания набора виртуальных динамиков. Набор виртуальных динамиков может включать в себя множество виртуальных динамиков, и виртуальный динамик в наборе виртуальных динамиков также может называться «кандидатным виртуальным динамиком».

[00316] Блок генерации набора виртуальных динамиков генерирует коэффициент HOA указанного кандидатного виртуального динамика на основе параметра конфигурации виртуального динамика. Координаты (а именно, координаты положения или информация о положении) кандидатного виртуального динамика и порядок HOA кандидатного виртуального динамика необходимы для генерирования коэффициента HOA кандидатного виртуального динамика. Способ определения координат кандидатного виртуального динамика включает в себя, но без ограничения, генерирование K кандидатных виртуальных динамиков в соответствии с принципом равноудаленности и генерирование, в соответствии с принципом слухового восприятия, K кандидатных виртуальных динамиков, которые распределены неравномерно. Ниже описан пример генерирования фиксированного количества виртуальных динамиков, которые равномерно распределены.

[00317] Координаты кандидатных виртуальных динамиков, которые равномерно распределены, генерируются на основе количества кандидатных виртуальных динамиков, например, приблизительно равномерное расположение динамиков получается с использованием численного итеративного метода вычисления.

[00318] Коэффициент HOA, выдаваемый блоком генерации набора виртуальных динамиков, кандидатного виртуального динамика, используется в качестве входных данных блока выбора виртуального динамика.

[00319] Блок выбора виртуального динамика выполнен с возможностью выбора целевого виртуального динамика из множества кандидатных виртуальных динамиков в наборе виртуальных динамиков на основе подлежащего кодированию сигнала НОА, причем целевой виртуальный динамик может называться «виртуальным динамиком, соответствующим сигналу HOA, подлежащему кодированию» или соответствующим виртуальным динамиком.

[00320] Блок выбора виртуального динамика сопоставляет подлежащий кодированию сигнал HOA с коэффициентом HOA, выдаваемым блоком генерации набора виртуальных динамиков, кандидатного виртуального динамика, и выбирает указанный соответствующий виртуальный динамик.

[00321] В этом варианте осуществления данной заявки классификация звукового поля выполняется на подлежащем кодированию сигнале HOA, чтобы получить результат классификации звукового поля, и параметр кодирования определяется на основе результата классификации звукового поля.

[00322] Блок анализа кодирования сконфигурирован для выполнения анализа кодирования на основе подлежащего кодированию сигнала HOA, причем анализ может включать в себя: выполнение классификации звукового поля на основе подлежащего кодированию сигнала HOA. Для способа классификации звукового поля обратитесь к предшествующему варианту осуществления. Подробности здесь повторно не приводятся.

[00323] Параметр кодирования определяется на основе результата классификации звукового поля. Параметр кодирования может включать в себя по меньшей мере одно из количества каналов сигнала виртуального динамика, количества каналов остаточного сигнала или количества раундов выборки для поиска наиболее соответствующего динамика в схеме кодирования HOA на основе выбора виртуального динамика.

[00324] В частности, блок выбора виртуального динамика на основе определенного количества раундов выборки для поиска наиболее соответствующего динамика и каналов сигнала виртуального динамика сопоставляет подлежащий кодированию коэффициент HOA с коэффициентом HOA, выдаваемым блоком генерации набора виртуальных динамиков, кандидатного динамика, выбирает наиболее соответствующий виртуальный динамик и получает коэффициент HOA соответствующего виртуального динамика. Количество наиболее подходящих виртуальных динамиков равно количеству каналов сигнала виртуального динамика.

[00325] Блок выбора виртуального динамика сопоставляет, используя способ поиска наиболее соответствующего динамика на основе осуществления выборки, подлежащий кодированию коэффициент HOA с коэффициентом HOA, выдаваемым блоком генерации набора виртуальных динамиков, кандидатного виртуального динамика, выбирает наиболее соответствующий виртуальный динамик, и может определять, на основе результата классификации звукового поля, количество I раундов выборки для поиска наиболее соответствующего динамика.

[00326] Количество I раундов выборки должно соответствовать следующим правилам: минимальное количество раундов выборки равно одному, максимальное количество не превышает общего количества динамиков (например, 1024 динамиков, полученных блоком генерации набора виртуальных динамиков) и количество каналов сигнала виртуального динамика (количество сигналов виртуального динамика, передаваемых кодером, а именно, N каналов передачи, соответственно генерируемых N наиболее соответствующими динамиками). Обычно количество каналов сигнала виртуального динамика меньше общего количества динамиков.

[00327] Способ оценки количества раундов выборки следующий:

определяют, на основании количества источников гетерогенного звука, полученного в результате классификации звукового поля, в звуковом поле, количества I раундов выборки для выбора динамика.

[00328] Количество I раундов выборки соответствует . d - количество источников звука в разных направлениях, входящих в звуковое поле, а именно, количество оцененных источников гетерогенного звука в результате классификации звукового поля. Например, I = d.

[00329] Количество каналов сигнала виртуального динамика и количество каналов остаточного сигнала определяются на основе типа звукового поля.

[00330] Затем вариант осуществления этой заявки предоставляет способ выбора количества F каналов адаптивного сигнала виртуального динамика.

[00331] Когда тип звукового поля представляет собой гетерогенное звуковое поле, F=min(S, PF), где S - количество источников гетерогенного звука в звуковом поле, а PF - количество каналов сигнала виртуального динамика, предустановленное кодером.

[00332] Когда тип звукового поля является дисперсионным звуковым полем, F=1.

[00333] Затем вариант осуществления этой заявки предоставляет способ выбора количества R каналов адаптивного остаточного сигнала.

[00334] Когда тип звукового поля является дисперсионным звуковым полем источника, R=max(C-1, PR), где C - предустановленное общее количество каналов передачи, а PR - количество остаточных сигналов, предустановленное кодером. Например, C представляет собой сумму PF и PR.

[00335] Когда тип звукового поля является гетерогенным звуковым полем, R=C - F.

[00336] Способ определения выделения битов сигнала виртуального динамика и остаточного сигнала на основе результата классификации звукового поля заключается в следующем:

[00337] Когда количество источников гетерогенного звука ≤ количества каналов сигнала виртуального динамика, энергия остаточного сигнала мала, и, следовательно, каналу сигнала виртуального динамика может быть выделено больше битов.

[00338] В некоторых вариантах осуществления сигнал виртуального динамика и остаточный сигнал разделены на две группы, а именно группу сигналов виртуального динамика и группу остаточных сигналов. Когда количество источников гетерогенного звука ≤ количества каналов сигнала виртуального динамика, предустановленная доля выделения группы сигналов виртуального динамика увеличивается на основе предустановленного значения регулировки, и используется увеличенная доля выделения группы сигналов виртуального динамика как доля выделения группы сигналов виртуального динамика.

[00339] Доля выделения группы остаточных сигналов = 1,0 - доля выделения группы сигналов виртуального динамика.

[00340] Блок генерации сигнала виртуального динамика вычисляет сигнал виртуального динамика на основе коэффициента HOA, подлежащего кодированию, и коэффициента HOA соответствующего виртуального динамика.

[00341] Блок восстановления сигнала восстанавливает сигнал HOA на основе сигнала виртуального динамика и коэффициента HOA соответствующего виртуального динамика.

[00342] Блок генерации остаточного сигнала вычисляет остаточный сигнал на основе количества каналов остаточного сигнала, определенного на этапе 1, коэффициента HOA, подлежащего кодированию, и восстановленного сигнала HOA, выдаваемого блоком восстановления сигнала HOA.

[00343] Блок компенсации сигнала должен выполнить компенсацию информации на остаточном сигнале, которая не передается, поскольку потеря информации происходит, когда количество каналов, которое меньше, чем коэффициент амбиофонии N-го порядка, выбрано в качестве передаваемых остаточных сигналов, по сравнению с остаточным сигналом с коэффициентом амбиофонии N-го порядка.

[00344] Сигнал виртуального динамика имеет высокую амплитуду или энергию, а передаваемый остаточный сигнал имеет низкую амплитуду или энергию. Следовательно, блок выбора предварительно выделяет все доступные биты для сигнала виртуального динамика и остаточного сигнала, подлежащего передаче. Полученная информация о предварительном выделении битов используется для направления базового кодера для обработки.

[00345] Блок обработки базового кодера выполняет обработку базового кодера на канале передачи и выводит битовый поток передачи. Канал передачи включает в себя канал сигнала виртуального динамика и канал остаточного сигнала.

[00346] Параметр кодирования определяется на основе результата классификации звукового поля. Параметр кодирования может дополнительно включать в себя по меньшей мере одно из выделения битов сигнала виртуального динамика и выделения битов остаточного сигнала в схеме кодирования HOA на основе выбора виртуального динамика. Если выделение битов сигнала виртуального динамика и выделение битов остаточного сигнала определяются на основе результата классификации звукового поля, выделение битов сигнала виртуального динамика и остаточного сигнала необходимо определять на основе результата классификации звукового поля.

[00347] В некоторых вариантах осуществления способ определения выделения битов сигнала виртуального динамика и остаточного сигнала на основе результата классификации звукового поля заключается в следующем: предполагается, что количество каналов сигнала виртуального динамика равно F, количество каналов остаточного сигнала равно R, а общее количество битов, которые можно использовать для кодирования сигнала виртуального динамика и остаточного сигнала, является нулевым.

[00348] В одном способе сначала определяют общее количество битов кодирования сигнала виртуального динамика, общее количество битов кодирования остаточного сигнала, а затем определяют количество битов кодирования каждого канала. Например, общее количество бит кодирования сигнала виртуального динамика равно:

[00349] - весовой коэффициент, выделенный биту кодирования сигнала виртуального динамика, - весовой коэффициент, выделенный биту кодирования остаточного сигнала, а round() указывает округление в меньшую сторону. Например, . Например, , и .

[00350] Общее количество битов кодирования остаточного сигнала равно .

[00351] Затем биты кодирования каждого канала сигнала виртуального динамика выделяются согласно критерию выделения битов сигнала виртуального динамика, а биты кодирования каждого канала остаточного сигнала выделяются согласно критерию выделения битов остаточного сигнала.

[00352] Альтернативно, общее количество битов кодирования остаточного сигнала равно:

[00353] - весовой коэффициент, выделенный биту кодирования сигнала виртуального динамика, - весовой коэффициент, выделенный биту кодирования остаточного сигнала, а round() указывает округление в меньшую сторону. Например, . Например, и и .

[00354] Общее количество битов кодирования сигнала виртуального динамика равно .

[00355] Затем биты кодирования каждого канала сигнала виртуального динамика выделяются согласно критерию выделения битов сигнала виртуального динамика, а биты кодирования каждого канала остаточного сигнала выделяются согласно критерию выделения битов остаточного сигнала.

[00356] Кроме того, альтернативно количество битов кодирования каждого канала может определяться напрямую. Например, количество битов кодирования каждого сигнала виртуального динамика равно:

[00357] Количество битов кодирования каждого остаточного сигнала равно:

[00358] Следует отметить, что результат выделения битов, который в конечном итоге используется для кодирования сигнала виртуального динамика и остаточного сигнала, может быть определен на основе скорректированного результата выделения битов, полученного с использованием вышеизложенного способа. После получения результата выделения битов для кодирования сигнала виртуального динамика и остаточного сигнала, базовый блок обработки кодера кодирует сигнал виртуального динамика и остаточный сигнал на основе результата выделения битов.

[00359] Классификация звукового поля выполняется на кодируемом сигнале НОА, параметр кодирования определяется на основе результата классификации звукового поля, и кодируемый сигнал кодируется на основе определенного параметра кодирования. Параметр кодирования включает в себя по меньшей мере одно из количества каналов сигнала виртуального динамика, количества каналов остаточного сигнала, выделения битов сигнала виртуального динамика, выделения битов остаточного сигнала или количества раундов выборки для поиска наиболее соответствующего динамика в схеме кодирования HOA на основе выбора виртуального динамика. Описания параметра кодирования см. в предыдущем содержимом. Подробности здесь повторно не приводятся.

[00360] Из приведенного выше примера можно понять, что в этом варианте осуществления данной заявки классификация звукового поля выполняется на кодируемом сигнале НОА, так что соответствующий режим кодирования и/или параметр кодирования выбираются на основе различных признаков сигнала HOA, подлежащего кодированию, для кодирования сигнала HOA. Это повышает эффективность сжатия и качество звука.

[00361] Процедура декодирования, выполняемая стороной декодера, не описана подробно в вариантах осуществления этой заявки.

[00362] Следует отметить, что для краткого описания приведенные выше варианты осуществления способа представлены как последовательность действий. Однако специалист в данной области техники должен понимать, что данная заявка не ограничивается описанным порядком действий, поскольку согласно данной заявке некоторые этапы могут выполняться в другом порядке или одновременно. Кроме того, специалисту в данной области техники должно быть понятно, что все варианты реализации, описанные в этом описании, относятся к примерным вариантам реализации, и задействованные действия и модули не обязательно требуются для данной заявки.

[00363] Чтобы лучше реализовать решения вариантов осуществления этой заявки, ниже дополнительно представлено соответствующая аппаратура для реализации решений.

[00364] На Фиг. 12 показана аппаратура обработки трехмерного аудиосигнала согласно варианту осуществления этой заявки. Например, аппаратура обработки трехмерного аудиосигнала, в частности, представляет собой аппаратуру 1200 кодирования аудио и может включать в себя модуль 1201 линейного анализа, модуль 1202 генерации параметров и модуль 1203 классификации звукового поля.

[00365] Модуль линейного анализа сконфигурирован для выполнения линейного разложения трехмерного аудиосигнала для получения результата линейного разложения.

[00366] Модуль генерации параметров выполнен с возможностью получения на основе результата линейного разложения параметра классификации звукового поля, соответствующего текущему кадру.

[00367] Модуль классификации звукового поля выполнен с возможностью определения результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля.

[00368] В некоторых вариантах осуществления этой заявки трехмерный аудиосигнал включает в себя сигнал HOA амбиофонии более высокого порядка или сигнал FOA амбиофонии первого порядка.

[00369] В некоторых вариантах осуществления этой заявки модуль линейного анализа сконфигурирован для: выполнения разложения по сингулярному значению текущего кадра, чтобы получить сингулярное значение, соответствующее текущему кадру, где результат линейного разложения включает в себя сингулярное значение; выполнения синтаксического анализа главных компонент текущего кадра, чтобы получить первое значение признака, соответствующее текущему кадру, где результат линейного разложения включает в себя первое значение признака; или выполнить анализ независимых компонентов текущего кадра, чтобы получить второе значение признака, соответствующее текущему кадру, где результат линейного разложения включает в себя второе значение признака.

[00370] В некоторых вариантах осуществления этой заявки имеется множество результатов линейного разложения и имеется множество параметров классификации звукового поля.

[00371] Модуль генерации параметров выполнен с возможностью: получать отношение i-го результата линейного анализа текущего кадра к (i+1)-му результату линейного анализа текущего кадра, где i представляет собой положительное целое число; и получать на основе отношения i-й параметр классификации звукового поля, соответствующий текущему кадру.

[00372] Необязательно, i-й результат линейного анализа и (i+1)-й результат линейного анализа представляют собой два последовательных результата линейного анализа текущего кадра.

[00373] В некоторых вариантах осуществления этой заявки существует множество параметров классификации звукового поля, и результат классификации звукового поля включает в себя тип звукового поля. Модуль классификации звукового поля выполнен с возможностью: когда все значения множества параметров классификации звукового поля соответствуют предустановленному условию принятия решения о источнике дисперсионного звука, определять, что тип звукового поля является дисперсионным звуковым полем; или когда по меньшей мере одно из значений множества параметров классификации звукового поля соответствует предустановленному условию принятия решения о источнике гетерогенного звука определить, что тип звукового поля является гетерогенным звуковым полем.

[00374] В некоторых вариантах осуществления этой заявки условие принятия решения о источнике дисперсионного звука включает в себя то, что значение параметра классификации звукового поля меньше предустановленного порога определения источника гетерогенного звука; или условие принятия решения о источнике гетерогенного звука включает в себя то, что значение параметра классификации звукового поля больше или равно предустановленному порогу определения источника гетерогенного звука.

[00375] В некоторых вариантах осуществления этой заявки имеется множество параметров классификации звукового поля.

[00376] Результат классификации звукового поля включает в себя тип звукового поля, или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля.

[00377] Модуль классификации звукового поля выполнен с возможностью: получать на основе значений множества параметров классификации звукового поля количество источников гетерогенного звука, соответствующих текущему кадру; и определять тип звукового поля на основе количества источников гетерогенного звука, соответствующих текущему кадру.

[00378] В некоторых вариантах осуществления этой заявки имеется множество параметров классификации звукового поля.

[00379] Результат классификации звукового поля включает в себя некоторое количество источников гетерогенного звука.

[00380] Модуль классификации звукового поля выполнен с возможностью получения на основе значений множества параметров классификации звукового поля количества источников гетерогенного звука, соответствующих текущему кадру.

[00381] В некоторых вариантах осуществления этой заявки множеством параметров классификации звукового поля являются temp[i], i=0, 1, ..., min(L, K)-2, L указывает количество каналов текущего кадра, K - количество сигнальных точек, соответствующих каждому каналу текущего кадра, а min указывает на операцию, в которой выбирается минимальное значение.

[00382] Модуль классификации звукового поля настроен на последовательное выполнение следующего процесса определения, начиная с i=0:

определение того, превышает ли temp[i] предустановленный порог определения источника гетерогенного звука; и

когда temp[i] меньше порогового значения определения источника гетерогенного звука в этой процедуре определения, обновляют значение i до i+1 и продолжают выполнять следующую процедуру определения; или

когда temp[i] больше или равно порогу определения источника гетерогенного звука в этой процедуре определения, прекращают выполнение процедуры определения и определяют, что i в этой процедуре определения плюс 1 равно количеству источников гетерогенного звука.

[00383] В некоторых вариантах осуществления этой заявки определение типа звукового поля на основе количества источников гетерогенного звука, соответствующих текущему кадру, включает в себя:

когда количество источников гетерогенного звука удовлетворяет первому предустановленному условию, определяют, что тип звукового поля является первым типом звукового поля; или

когда количество источников гетерогенного звука не соответствует первому предустановленному условию, определение того, что тип звукового поля является вторым типом звукового поля.

[00384] Количество источников гетерогенного звука, соответствующих первому типу звукового поля, отличается от количества источников гетерогенного звука, соответствующих второму типу звукового поля.

[00385] В некоторых вариантах реализации этой заявки первое предустановленное условие включает в себя то, что количество источников гетерогенного звука больше первого порога или меньше второго порога, а второй порог больше первого порога; или

первое предустановленное условие включает в себя то, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог превышает первый порог.

[00386] В некоторых вариантах осуществления этой заявки устройство кодирования аудио дополнительно включает в себя модуль определения режима кодирования (не показан на фиг. 12). Модуль определения режима кодирования выполнен с возможностью определения, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру.

[00387] В возможной реализации модуль определения режима кодирования выполнен с возможностью: когда результат классификации звукового поля включает в себя количество источников гетерогенного звука или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определять на основе количества источников гетерогенного звука, режим кодирования, соответствующий текущему кадру; когда результат классификации звукового поля включает в себя тип звукового поля или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определять, на основе типа звукового поля, режим кодирования, соответствующий текущему кадру; или когда результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определять, на основе количества источников гетерогенного звука и типа звукового поля, режим кодирования, соответствующий текущему кадру.

[00388] В некоторых вариантах осуществления этой заявки модуль определения режима кодирования выполнен с возможностью: когда количество источников гетерогенного звука соответствует второму предустановленному условию, определять, что режим кодирования является первым режимом кодирования; или когда количество источников гетерогенного звука не соответствует второму предустановленному условию, определять, что режим кодирования является вторым режимом кодирования.

[00389] Первый режим кодирования представляет собой режим кодирования HOA, основанный на выборе виртуального динамика, или режим кодирования HOA, основанный на направленной аудиокодировке, второй режим кодирования представляет собой режим кодирования HOA, основанный на выборе виртуального динамика, или режим кодирования HOA, основанный на направленной аудиокодировке, и первый режим кодирования и второй режим кодирования являются разными режимами кодирования.

[00390] В некоторых вариантах реализации этой заявки второе предустановленное условие включает в себя то, что количество источников гетерогенного звука больше первого порога или меньше второго порога, а второй порог больше первого порога; или

второе предустановленное условие включает в себя то, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог больше первого порога.

[00391] В некоторых вариантах осуществления этой заявки модуль определения режима кодирования выполнен с возможностью: когда тип звукового поля является гетерогенным звуковым полем, определять, что режим кодирования является режимом кодирования HOA на основе выбора виртуального динамика; или когда тип звукового поля представляет собой дисперсионное звуковое поле, определять, что режим кодирования является режимом кодирования HOA на основе направленной аудиокодировки.

[00392] В некоторых вариантах осуществления этой заявки модуль определения режима кодирования выполнен с возможностью: определять на основе результата классификации звукового поля текущего кадра начальный режим кодирования, соответствующий текущему кадру; получать окно затягивания, в котором находится текущий кадр, причем окно затягивания включает в себя начальный режим кодирования текущего кадра и режимы кодирования N-1 кадров перед текущим кадром, и N представляет собой длину окна затягивания; и определять режим кодирования текущего кадра на основе начального режима кодирования текущего кадра и режимов кодирования N-1 кадров.

[00393] В некоторых вариантах осуществления этой заявки аппаратура кодирования аудио дополнительно включает в себя модуль определения параметров кодирования (не показан на фиг. 12). Модуль определения параметра кодирования выполнен с возможностью определения, на основе результата классификации звукового поля, параметра кодирования, соответствующего текущему кадру.

[00394] В некоторых вариантах осуществления этой заявки параметр кодирования включает в себя по меньшей мере одно из следующего: количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала, количество битов кодирования сигнала виртуального динамика, количество битов кодирования остаточного сигнала или количества раундов выборки для поиска наиболее соответствующего динамика.

[00395] Сигнал виртуального динамика и остаточный сигнал представляют собой сигналы, генерируемые на основе трехмерного аудиосигнала.

[00396] В некоторых вариантах реализации этой заявки количество раундов выборки соответствует следующему соотношению:

.

[00397] I - количество раундов выборки, а d - количество источников гетерогенного звука, включенных в результат классификации звукового поля.

[00398] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля.

[00399] Когда тип звукового поля является гетерогенным звуковым полем, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=min(S, PF), где

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное кодером; или

когда типом звукового поля является дисперсионное звуковое поле, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=1, где

F - количество каналов сигнала виртуального динамика.

[00400] В некоторых вариантах реализации этой заявки, когда типом звукового поля является дисперсионное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=max(C-1, PR), где

PR - количество каналов остаточного сигнала, предустановленное кодером, а C - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером; или

когда тип звукового поля представляет собой гетерогенное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=C - F, где

R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером, F - количество каналов сигнала виртуального динамика.

[00401] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука.

[00402] Количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=min(S, PF), где

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное кодером.

[00403] В некоторых вариантах реализации этой заявки количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=C - F, где

R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером, и F - количество каналов сигнала виртуального динамика.

[00404] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука, или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля.

[00405] Количество битов кодирования сигнала виртуального динамика получается на основе отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи.

[00406] Количество битов кодирования остаточного сигнала получается на основе отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи.

[00407] Количество битов кодирования канала передачи включает в себя количество битов кодирования сигнала виртуального динамика и количество битов кодирования остаточного сигнала, а когда количество источников гетерогенного звука меньше или равно количеству каналов сигнала виртуального динамика, отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи получается путем увеличения исходного отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи.

[00408] В некоторых вариантах осуществления этой заявки аппаратура кодирования аудио дополнительно включает в себя модуль кодирования (не показан на фиг. 12). Модуль кодирования выполнен с возможностью кодирования текущего кадра и результата классификации звукового поля и записи закодированного текущего кадра и результата классификации звукового поля в битовый поток.

[00409] Из примера в предыдущем варианте осуществления можно понять, что линейное разложение сначала выполняется на текущем кадре трехмерного аудиосигнала, чтобы получить результат линейного разложения. Затем параметр классификации звукового поля, соответствующий текущему кадру, получается на основе результата линейного разложения. Наконец, результат классификации звукового поля текущего кадра определяется на основе параметра классификации звукового поля. В этом варианте осуществления этой заявки линейное разложение выполняется на текущем кадре трехмерного аудиосигнала, чтобы получить результат линейного разложения текущего кадра. Затем параметр классификации звукового поля, соответствующий текущему кадру, получается на основе результата линейного разложения. Следовательно, результат классификации звукового поля текущего кадра определяется на основе параметра классификации звукового поля, и классификация звукового поля текущего кадра может быть реализована на основе результата классификации звукового поля. В этом варианте осуществления этой заявки классификация звукового поля выполняется на трехмерном аудиосигнале, чтобы точно идентифицировать трехмерный аудиосигнал.

[00410] На Фиг. 13 показана аппаратура обработки трехмерного аудиосигнала согласно варианту осуществления этой заявки. Например, аппаратура обработки трехмерного аудиосигнала, в частности, представляет собой аппаратуру 1300 декодирования аудио и может включать в себя модуль 1301 приема, модуль 1302 декодирования и модуль 1303 генерации сигнала.

[00411] Модуль приема сконфигурирован для приема битового потока.

[00412] Модуль декодирования выполнен с возможностью декодирования битового потока для получения результата классификации звукового поля текущего кадра.

[00413] Модуль генерации сигнала выполнен с возможностью получения трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля.

[00414] В некоторых вариантах осуществления этой заявки модуль генерации сигнала сконфигурирован для определения режима декодирования текущего кадра на основе результата классификации звукового поля и получения трехмерного аудиосигнала декодированного текущего кадра на основе режима декодирования.

[00415] В некоторых вариантах осуществления этой заявки модуль генерации сигнала выполнен с возможностью: когда результат классификации звукового поля включает в себя количество источников гетерогенного звука или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определять режим декодирования текущего кадра на основе количества источников гетерогенного звука; когда результат классификации звукового поля включает в себя тип звукового поля или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определять режим декодирования текущего кадра на основе типа звукового поля; или когда результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля, определять режим декодирования текущего кадра на основе количества источников гетерогенного звука и типа звукового поля.

[00416] В некоторых вариантах осуществления этой заявки модуль генерации сигнала выполнен с возможностью: когда количество источников гетерогенного звука соответствует предустановленному условию, определять, что режим декодирования является первым режимом декодирования; или когда количество источников гетерогенного звука не соответствует предустановленному условию, определять, что режим декодирования является вторым режимом декодирования.

[00417] Первый режим декодирования представляет собой режим декодирования НОА, основанный на выборе виртуального динамика, или режим декодирования НОА, основанный на направленной аудиокодировке, второй режим декодирования представляет собой режим декодирования НОА, основанный на выборе виртуального динамика, или режим декодирования НОА, основанный на направленной аудиокодировке, и первый режим декодирования и второй режим декодирования являются разными режимами декодирования.

[00418] В некоторых вариантах реализации этой заявки предустановленное условие включает в себя то, что количество источников гетерогенного звука больше первого порога или меньше второго порога, а второй порог больше первого порога; или

предустановленное условие включает в себя то, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог превышает первый порог.

[00419] В некоторых вариантах осуществления этой заявки модуль генерации сигнала выполнен с возможностью определения параметра декодирования текущего кадра на основе результата классификации звукового поля и получения трехмерного аудиосигнала декодированного текущего кадра на основе параметра декодирования.

[00420] В некоторых вариантах осуществления этой заявки параметр декодирования включает в себя по меньшей мере одно из следующего: количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала, количество битов декодирования сигнала виртуального динамика или количество битов декодирования остаточного сигнала.

[00421] Сигнал виртуального динамика и остаточный сигнал получаются путем декодирования битового потока.

[00422] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля.

[00423] Когда тип звукового поля является гетерогенным звуковым полем, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=min(S, PF), где

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное декодером; или

когда типом звукового поля является дисперсионное звуковое поле, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=1, где

F - количество каналов сигнала виртуального динамика.

[00424] В некоторых вариантах реализации этой заявки, когда типом звукового поля является дисперсионное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=max(C-1, PR), где

PR - количество каналов остаточного сигнала, предустановленное декодером, а C - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером; или

когда тип звукового поля представляет собой гетерогенное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=C - F, где

R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером, F - количество каналов сигнала виртуального динамика.

[00425] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука.

[00426] Количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=min(S, PF), где

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное декодером.

[00427] В некоторых вариантах реализации этой заявки количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=C - F, где

R - количество каналов остаточного сигнала, C - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером, F - количество каналов сигнала виртуального динамика.

[00428] В некоторых вариантах осуществления этой заявки результат классификации звукового поля включает в себя количество источников гетерогенного звука, или результат классификации звукового поля включает в себя количество источников гетерогенного звука и тип звукового поля.

[00429] Количество битов декодирования сигнала виртуального динамика получается на основе отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи.

[00430] Количество битов декодирования остаточного сигнала получается на основе отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи.

[00431] Количество битов декодирования канала передачи включает в себя количество битов декодирования сигнала виртуального динамика и количество битов декодирования остаточного сигнала, а когда количество источников гетерогенного звука меньше или равно количеству каналов сигнала виртуального динамика, отношение количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи получается путем увеличения исходного отношения количества битов декодирования сигнала виртуального динамика к количеству декодирование битов канала передачи.

[00432] Из примера в предшествующем варианте осуществления можно понять, что результат классификации звукового поля может использоваться для декодирования текущего кадра в битовом потоке. Следовательно, сторона декодера выполняет декодирование способом декодирования, соответствующим звуковому полю текущего кадра, чтобы получить трехмерный аудиосигнал, отправленный стороной кодера. Это реализует передачу аудиосигнала со стороны кодера на сторону декодера.

[00433] Следует отметить, что такой контент, как обмен информацией между модулями/блоками аппаратуры и процессы его выполнения, основан на той же идее, что и варианты осуществления способа настоящей заявки, и дает тот же технический эффект, что и варианты осуществления способа данной заявки. Конкретное содержание приведено в приведенных выше описаниях вариантов осуществления способа настоящей заявки. Подробности здесь повторно не приводятся.

[00434] Вариант осуществления данной заявки дополнительно обеспечивает компьютерный носитель данных. Компьютерный носитель данных хранит программу, и программа выполняет часть или все этапы, описанные в предшествующих вариантах осуществления способа.

[00435] Нижеследующее описывает другую аппаратуру кодирования аудио согласно варианту осуществления этой заявки. См. фиг. 14. Аппаратура 1400 кодирования аудио включает в себя:

приемник 1401, передатчик 1402, процессор 1403 и память 1404 (в аппаратуре 1400 кодирования аудио может быть один или несколько процессоров 1403, и один процессор используется в качестве примера на фиг. 14). В некоторых вариантах реализации этой заявки приемник 1401, передатчик 1402, процессор 1403 и память 1404 могут быть соединены через шину или другим способом. На фиг. 14 в качестве примера использовано соединение через шину.

[00436] Память 1404 может включать в себя постоянное запоминающее устройство и оперативное запоминающее устройство и обеспечивать инструкции и данные для процессора 1403. Часть памяти 1404 может дополнительно включать в себя энергонезависимую оперативную память (non-volatile random access memory, NVRAM). Память 1404 хранит операционную систему и рабочие инструкции, исполняемый модуль или структуру данных, или их подмножество, или их расширенный набор. Рабочие инструкции могут включать в себя различные рабочие инструкции, используемые для реализации различных операций. Операционная система может включать в себя различные системные программы для реализации различных базовых служб и обработки аппаратных задач.

[00437] Процессор 1403 управляет работой аппаратуры кодирования аудио, и процессор 1403 также может называться центральным процессором (central processing unit, CPU). Во время конкретного применения компоненты аппаратуры кодирования аудио соединяются вместе через систему шин. В дополнение к шине данных система шин может дополнительно включать в себя шину питания, шину управления, шину сигналов состояния и т.п. Однако для наглядности различные типы шин на рисунке обозначены как система шин.

[00438] Способ, раскрытый в вариантах реализации этой заявки, может быть применен к процессору 1403 или может быть реализован с использованием процессора 1403. Процессор 1403 может представлять собой микросхему интегральной схемы и иметь возможность обработки сигналов. В процессе реализации этапы вышеупомянутых способов могут быть реализованы с использованием аппаратной интегральной логической схемы в процессоре 1403 или с помощью инструкций в форме программного обеспечения. Процессор 1403 может быть процессором общего назначения, процессором цифровых сигналов (digital signal processor, DSP), интегральной схемой специального назначения (application-specific integrated circuit, ASIC), программируемой пользователем вентильной матрицей (field programmable gate array, FPGA) или другое программируемое логическое устройство, дискретное вентильное или транзисторное логическое устройство или дискретный аппаратный компонент для реализации или выполнения способов, этапов и логических блок-схем, которые раскрыты в вариантах осуществления этой заявки. Процессор общего назначения может быть микропроцессором, или процессор может быть любым традиционным процессором или подобным. Этапы способа, раскрытого со ссылкой на варианты осуществления настоящей заявки, могут быть осуществлены и выполнены непосредственно с использованием процессора аппаратного декодирования или могут быть выполнены и выполнены с использованием комбинации аппаратных и программных модулей в процессоре декодирования. Программный модуль может быть расположен на материнском носителе данных в данной области техники, таком как оперативная память, флэш-память, постоянная память, программируемая постоянная память, электрически стираемая программируемая память или регистр. Носитель данных расположен в памяти 1404, а процессор 1403 считывает информацию в памяти 1404 и выполняет этапы способа в сочетании с аппаратными средствами в процессоре 1403.

[00439] Приемник 1401 может быть сконфигурирован для приема входной цифровой или символьной информации и формирования входного сигнала, связанного с настройкой и управлением функциями устройства кодирования аудио. Передатчик 1402 может включать в себя устройство отображения, такое как экран дисплея, и может быть сконфигурирован для вывода цифровой или символьной информации через внешний интерфейс.

[00440] В этом варианте осуществления этой заявки процессор 1403 сконфигурирован для выполнения способа, выполняемого аппаратурой кодирования аудио в вариантах осуществления, показанных на фиг. 4 на фиг. 6.

[00441] Нижеследующее описывает другую аппаратуру декодирования аудио согласно варианту осуществления этой заявки. См. фиг. 15. Аппаратура 1500 декодирования аудио включает в себя:

приемник 1501, передатчик 1502, процессор 1503 и память 1504 (в аппаратуре 1500 декодирования аудио может быть один или несколько процессоров 1503, и один процессор используется в качестве примера на фиг. 15). В некоторых вариантах реализации этой заявки приемник 1501, передатчик 1502, процессор 1503 и память 1504 могут быть соединены через шину или другим способом. На фиг. 15 в качестве примера использовано соединение через шину.

[00442] Память 1504 может включать в себя постоянное запоминающее устройство и оперативное запоминающее устройство и предоставлять инструкции и данные для процессора 1503. Часть памяти 1504 может дополнительно включать в себя NVRAM. Память 1504 хранит операционную систему и рабочие инструкции, исполняемый модуль или структуру данных, или их подмножество, или их расширенный набор. Рабочие инструкции могут включать в себя различные рабочие инструкции, используемые для реализации различных операций. Операционная система может включать в себя различные системные программы для реализации различных базовых служб и обработки аппаратных задач.

[00443] Процессор 1503 управляет работой аппаратуры декодирования аудио, и процессор 1503 также может называться CPU. Во время конкретного применения компоненты аппаратуры декодирования аудио соединяются друг с другом через систему шин. В дополнение к шине данных система шин может дополнительно включать в себя шину питания, шину управления, шину сигналов состояния и т.п. Однако для наглядности различные типы шин на рисунке обозначены как система шин.

[00444] Способ, раскрытый в вариантах реализации этой заявки, может быть применен к процессору 1503 или может быть реализован с использованием процессора 1503. Процессор 1503 может представлять собой микросхему интегральной схемы и иметь возможность обработки сигналов. В процессе реализации этапы вышеупомянутых способов могут быть реализованы с использованием аппаратной интегральной логической схемы в процессоре 1503 или с помощью инструкций в виде программного обеспечения. Вышеупомянутый процессор 1503 может быть процессором общего назначения, DSP, ASIC, FPGA или другим программируемым логическим компонентом, дискретным вентильным или транзисторным логическим устройством или дискретным аппаратным компонентом для реализации или выполнения способов, этапов, и логические блок-схемы, которые раскрыты в вариантах осуществления этой заявки. Процессор общего назначения может быть микропроцессором, или процессор может быть любым традиционным процессором или подобным. Этапы способа, раскрытого со ссылкой на варианты осуществления настоящей заявки, могут быть осуществлены и выполнены непосредственно с использованием процессора аппаратного декодирования или могут быть осуществлены и выполнены с использованием комбинации аппаратных и программных модулей в процессоре декодирования. Программный модуль может быть расположен на материнском носителе данных в данной области техники, таком как оперативная память, флэш-память, постоянная память, программируемая постоянная память, электрически стираемая программируемая память или регистр. Носитель данных расположен в памяти 1504, а процессор 1503 считывает информацию в памяти 1504 и выполняет этапы способа в сочетании с аппаратными средствами в процессоре 1503.

[00445] В этом варианте осуществления этой заявки процессор 1503 сконфигурирован для выполнения способа, выполняемого аппаратурой декодирования аудио в варианте осуществления, показанном на фиг. 7.

[00446] В другой возможной конструкции, когда аппаратура кодирования аудио или аппаратура декодирования аудио представляет собой микросхему в терминале, микросхема включает в себя блок обработки и блок связи. Блоком обработки может быть, например, процессор, а блоком связи может быть, например, интерфейс ввода/вывода, вывод или схема. Блок обработки может выполнять исполняемые компьютером инструкции, хранящиеся в блоке хранения, так что микросхема в терминале выполняет способ кодирования аудио в любой из реализаций первого аспекта или способ декодирования аудио в любой из реализаций второго аспекта. Необязательно, блок хранения представляет собой блок хранения в микросхеме, например, регистр или буфер. Альтернативно, запоминающее устройство может представлять собой запоминающее устройство в терминале, но вне микросхемы, например, постоянное запоминающее устройство (read-only memory, ROM), другой тип статического запоминающего устройства, которое может хранить статическую информацию и инструкции, или оперативное запоминающее устройство (random access memory, RAM).

[00447] Упомянутый выше процессор может представлять собой центральный процессор общего назначения, микропроцессор, ASIC или одну или более интегральных схем, сконфигурированных для управления выполнением программы способа в первом аспекте или втором аспекте.

[00448] Кроме того, следует отметить, что описанные выше варианты осуществления аппаратуры являются лишь примером. Блоки, описанные как отдельные части, могут быть или не быть физически отдельными, и части, отображаемые как блоки, могут быть или не быть физическими блоками, могут быть расположены в одном месте или могут быть распределены по множеству сетевых блоков. Некоторые или все модули могут быть выбраны на основе фактических требований для достижения целей решений вариантов осуществления. Кроме того, на прилагаемых чертежах вариантов осуществления аппаратуры, представленных в настоящей заявке, взаимосвязи соединений между модулями указывают на то, что модули имеют коммуникационные соединения друг с другом, которые могут быть конкретно реализованы в виде одной или нескольких коммуникационных шин или сигнальных кабелей.

[00449] На основании описаний вышеизложенных реализаций специалист в данной области техники может ясно понять, что эта заявка может быть реализована с помощью программного обеспечения в дополнение к необходимому универсальному аппаратному обеспечению или с помощью специализированного аппаратного обеспечения, включая специализированную интегральную схему, выделенный CPU, выделенную память, выделенный компонент и т.п. Как правило, любые функции, которые может выполнять компьютерная программа, могут быть легко реализованы с использованием соответствующего аппаратного обеспечения. Более того, конкретная аппаратная структура, используемая для достижения одной и той же функции, может иметь различные формы, например, в виде аналоговой схемы, цифровой схемы или выделенной схемы. Однако, что касается этой заявки, в большинстве случаев реализация программного обеспечения является лучшей реализацией. На основе такого понимания технические решения этой заявки по существу или часть, способствующая традиционной технологии, могут быть реализованы в форме программного продукта. Компьютерный программный продукт хранится на читаемом носителе информации, таком как дискета, флэш-накопитель USB, съемный жесткий диск, ПЗУ, ОЗУ, магнитный диск или оптический диск компьютера, и включает в себя несколько инструкций для указания компьютерному устройству (которое может быть персональным компьютером, сервером или сетевым устройством) выполнять способы, описанные в вариантах осуществления этой заявки.

[00450] Все или некоторые из вышеизложенных вариантов осуществления могут быть реализованы с использованием программного обеспечения, аппаратного обеспечения, микропрограммы или любой их комбинации. Когда для реализации вариантов осуществления используется программное обеспечение, все или часть вариантов осуществления могут быть реализованы в форме компьютерного программного продукта.

[00451] Компьютерный программный продукт включает в себя одну или более компьютерных инструкций. Когда инструкции компьютерной программы загружаются и выполняются на компьютере, процедура или функции согласно вариантам осуществления этой заявки полностью или частично генерируются. Компьютер может быть компьютером общего назначения, специализированным компьютером, компьютерной сетью или другими программируемыми устройствами. Компьютерные инструкции могут храниться на машиночитаемом носителе данных или могут передаваться с машиночитаемого носителя данных на другой машиночитаемый носитель данных. другой машиночитаемый носитель. Например, компьютерные инструкции могут передаваться с веб-сайта, компьютера, сервера или центра хранения и обработки данных на другой веб-сайт, компьютер, сервер или центр хранения и обработки данных в проводным (например, коаксиальный кабель, оптоволокно или цифровая абонентская линия (DSL)) или беспроводным (например, инфракрасным, радио или микроволновым). Машиночитаемый носитель данных может быть любым используемым носителем, доступным для компьютера, или устройством хранения данных, таким как сервер или центр обработки данных, объединяющим один или несколько используемых носителей. Используемый носитель может представлять собой магнитный носитель (например, дискету, жесткий диск или магнитную ленту), оптический носитель (например, DVD), полупроводниковый носитель (например, твердотельный диск, (Solid-State Disk, SSD)) или тому подобное.

Похожие патенты RU2835366C2

название год авторы номер документа
СПОСОБЫ И УСТРОЙСТВА ДЛЯ ФОРМИРОВАНИЯ ИЛИ ДЕКОДИРОВАНИЯ БИТОВОГО ПОТОКА, СОДЕРЖАЩЕГО ИММЕРСИВНЫЕ АУДИОСИГНАЛЫ 2019
  • Брун, Стефан
  • Торрес, Хуан Феликс
RU2802677C2
УМЕНЬШЕНИЕ КОРРЕЛЯЦИИ МЕЖДУ ФОНОВЫМИ КАНАЛАМИ АМБИОФОНИИ ВЫСШЕГО ПОРЯДКА (НОА) 2015
  • Петерс Нильс Гюнтер
  • Сен Дипанджан
  • Моррелл Мартин Джеймс
RU2741763C2
КОДИРОВАНИЕ ВЕКТОРОВ, РАЗЛОЖЕННЫХ ИЗ АУДИОСИГНАЛОВ НА ОСНОВЕ АМБИОФОНИИ ВЫСШЕГО ПОРЯДКА 2015
  • Ким Моо Янг
  • Питерс Нилс Гюнтер
  • Сен Дипанджан
RU2685997C2
ОПРЕДЕЛЕНИЕ МЕЖДУ СКАЛЯРНЫМ И ВЕКТОРНЫМ КВАНТОВАНИЕМ В КОЭФФИЦИЕНТАХ АМБИОФОНИИ ВЫСШЕГО ПОРЯДКА 2015
  • Ким Моо Янг
  • Петерс Нильс Гюнтер
  • Сен Дипанджан
RU2656833C1
СПОСОБЫ И УСТРОЙСТВА ДЛЯ КОДИРОВАНИЯ И/ИЛИ ДЕКОДИРОВАНИЯ АУДИОСИГНАЛОВ ПОГРУЖЕНИЯ 2019
  • Макграт, Дэвид С.
  • Эккерт, Майкл
  • Пурнхаген, Хейко
  • Брун, Стефан
RU2802803C2
УСТРОЙСТВО И СПОСОБ ДЛЯ КОДИРОВАНИЯ ПРОСТРАНСТВЕННОГО ЗВУКОВОГО ПРЕДСТАВЛЕНИЯ ИЛИ УСТРОЙСТВО И СПОСОБ ДЛЯ ДЕКОДИРОВАНИЯ ЗАКОДИРОВАННОГО АУДИОСИГНАЛА С ИСПОЛЬЗОВАНИЕМ ТРАНСПОРТНЫХ МЕТАДАННЫХ И СООТВЕТСТВУЮЩИЕ КОМПЬЮТЕРНЫЕ ПРОГРАММЫ 2020
  • Кюх, Фабиан
  • Тиргарт, Оливер
  • Фукс, Гийом
  • Дёла, Штефан
  • Бутеон, Александр
  • Херре, Юрген
  • Байер, Штефан
RU2792050C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ДЕКОДИРОВАНИЯ СЖАТОГО ЗВУКОВОГО ПРЕДСТАВЛЕНИЯ ЗВУКА ИЛИ ЗВУКОВОГО ПОЛЯ С ПОМОЩЬЮ HOA 2023
  • Кордон, Свен
  • Крюгер, Александр
RU2833441C1
УКАЗАНИЕ ВОЗМОЖНОСТИ ПОВТОРНОГО ИСПОЛЬЗОВАНИЯ ПАРАМЕТРОВ КАДРА ДЛЯ КОДИРОВАНИЯ ВЕКТОРОВ 2015
  • Петерс Нильс Гюнтер
  • Сен Дипанджан
RU2689427C2
ВЫБОР КОДОВЫХ КНИГ ДЛЯ КОДИРОВАНИЯ ВЕКТОРОВ, РАЗЛОЖЕННЫХ ИЗ АУДИОСИГНАЛОВ НА ОСНОВЕ АМФИБИОФОНИИ ВЫСШЕГО ПОРЯДКА 2015
  • Ким Моо Янг
  • Петерс Нильс Гюнтер
  • Сен Дипанджан
RU2688275C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ДЕКОДИРОВАНИЯ СЖАТОГО ЗВУКОВОГО ПРЕДСТАВЛЕНИЯ ЗВУКА ИЛИ ЗВУКОВОГО ПОЛЯ С ПОМОЩЬЮ HOA 2015
  • Кордон, Свен
  • Крюгер, Александр
RU2802176C2

Иллюстрации к изобретению RU 2 835 366 C2

Реферат патента 2025 года АППАРАТУРА И СПОСОБ ОБРАБОТКИ ТРЕХМЕРНОГО АУДИОСИГНАЛА

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности идентификации трехмерного аудиосигнала. Технический результат достигается за счет того, что определение режима кодирования или декодирования текущего кадра на основе результата классификации звукового поля содержит: когда результат классификации звукового поля содержит количество источников гетерогенного звука или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение режима кодирования или декодирования текущего кадра на основе количества источников гетерогенного звука; когда результат классификации звукового поля содержит тип звукового поля или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение режима кодирования или декодирования текущего кадра на основе типа звукового поля; или, когда результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение режима кодирования или декодирования текущего кадра на основе количества источников гетерогенного звука и типа звукового поля. 9 н. и 34 з.п. ф-лы, 19 ил.

Формула изобретения RU 2 835 366 C2

1. Способ обработки трехмерного аудиосигнала, содержащий:

выполнение линейного разложения текущего кадра трехмерного аудиосигнала для получения результата линейного разложения;

получение, на основе результата линейного разложения, параметра классификации звукового поля, соответствующего текущему кадру;

определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля; и

определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру,

причем определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру, содержит:

когда результат классификации звукового поля содержит количество источников гетерогенного звука или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение, на основе количества источников гетерогенного звука, режима кодирования, соответствующего текущему кадру;

когда результат классификации звукового поля содержит тип звукового поля или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение, на основе типа звукового поля, режима кодирования, соответствующего текущему кадру; или,

когда результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение, на основе количества источников гетерогенного звука и типа звукового поля, режима кодирования, соответствующего текущему кадру.

2. Способ по п. 1, в котором трехмерный аудиосигнал содержит сигнал НОА амбиофонии более высокого порядка или сигнал FOA амбиофонии первого порядка.

3. Способ по п. 1 или 2, в котором выполнение линейного разложения текущего кадра трехмерного аудиосигнала для получения результата линейного разложения содержит:

выполнение разложения по сингулярному значению текущего кадра для получения сингулярного значения, соответствующего текущему кадру, при этом результат линейного разложения содержит сингулярное значение;

выполнение анализа главных компонентов текущего кадра для получения первого значения признака, соответствующего текущему кадру, при этом результат линейного разложения содержит первое значение признака; или

выполнение анализа независимых компонентов текущего кадра для получения второго значения признака, соответствующего текущему кадру, при этом результат линейного разложения содержит второе значение признака.

4. Способ по любому из пп. 1-3, в котором имеется N результатов линейного разложения и имеется N-1 параметров классификации звукового поля; и

получение, на основе результата линейного разложения, параметра классификации звукового поля, соответствующего текущему кадру, содержит:

получение отношения i-го результата линейного разложения текущего кадра к (i+1)-му результату линейного разложения текущего кадра, где i представляет собой положительное целое число; и

получение, на основе упомянутого отношения, i-го параметра классификации звукового поля, соответствующего текущему кадру.

5. Способ по любому из пп. 1-4, в котором имеется множество параметров классификации звукового поля и результат классификации звукового поля содержит тип звукового поля; и

определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля содержит:

когда все значения множества параметров классификации звукового поля соответствуют предустановленному условию принятия решения об источнике дисперсионного звука, определяют, что тип звукового поля является дисперсионным звуковым полем; или,

когда по меньшей мере одно из значений множества параметров классификации звукового поля соответствует предустановленному условию принятия решения об источнике гетерогенного звука, определяют, что тип звукового поля является гетерогенным звуковым полем.

6. Способ по п. 5, в котором условие принятия решения об источнике дисперсионного звука включает в себя то, что значение параметра классификации звукового поля меньше предустановленного порога определения источника гетерогенного звука; или

условие принятия решения об источнике гетерогенного звука включает в себя то, что значение параметра классификации звукового поля больше или равно предустановленному порогу определения источника гетерогенного звука.

7. Способ по любому из пп. 1-4, в котором имеется множество параметров классификации звукового поля;

результат классификации звукового поля содержит тип звукового поля или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля; и

определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля содержит:

получение, на основе значений множества параметров классификации звукового поля, количества источников гетерогенного звука, соответствующих текущему кадру; и

определение типа звукового поля на основе количества источников гетерогенного звука, соответствующих текущему кадру.

8. Способ по любому из пп. 1-4, в котором имеется множество параметров классификации звукового поля;

результат классификации звукового поля включает в себя количество источников гетерогенного звука; и

определение результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля содержит

получение, на основе значений множества параметров классификации звукового поля, количества источников гетерогенного звука, соответствующих текущему кадру.

9. Способ по п. 7 или 8, в котором множество параметров классификации звукового поля представляют собой temp[i], 1=0, 1, …, min(L, К)-2, L указывает количество каналов текущего кадра, К - количество сигнальных точек, соответствующих каждому каналу текущего кадра, a min указывает операцию, в которой выбирается минимальное значение; и

получение, на основе значений множества параметров классификации звукового поля, количества источников гетерогенного звука, соответствующих текущему кадру, содержит:

последовательное выполнение следующих определяющих процедур от i=0:

определение, превышает ли temp[i] предустановленный порог определения источника гетерогенного звука; и,

когда temp[i] меньше порога определения источника гетерогенного звука в этой процедуре определения, обновляют значение i до i+1 и продолжают выполнять следующую процедуру определения; или,

когда temp[i] больше или равно порогу определения источника гетерогенного звука в этой процедуре определения, прекращают выполнение процедуры определения и определяют, что i в этой процедуре определения плюс 1 равно количеству источников гетерогенного звука.

10. Способ по п. 7, в котором определение типа звукового поля на основе количества источников гетерогенного звука, соответствующих текущему кадру, содержит:

когда количество источников гетерогенного звука удовлетворяет первому предустановленному условию, определяют, что тип звукового поля является первым типом звукового поля; или,

когда количество источников гетерогенного звука не соответствует первому предустановленному условию, определяют, что тип звукового поля является вторым типом звукового поля, при этом

количество источников гетерогенного звука, соответствующих первому типу звукового поля, отличается от количества источников гетерогенного звука, соответствующих второму типу звукового поля.

11. Способ по п. 10, в котором первое предустановленное условие содержит то, что количество источников гетерогенного звука больше первого порога и меньше второго порога, а второй порог больше первого порога; или

первое предустановленное условие содержит то, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог превышает первый порог.

12. Способ по п. 1, в котором определение, на основе количества источников гетерогенного звука, режима кодирования, соответствующего текущему кадру, содержит:

когда количество источников гетерогенного звука соответствует второму предустановленному условию, определение, что режим кодирования является первым режимом кодирования; или,

когда количество источников гетерогенного звука не соответствует второму предустановленному условию, определение, что режим кодирования является вторым режимом кодирования, при этом

первый режим кодирования представляет собой режим кодирования НОА, основанный на выборе виртуального динамика, или режим кодирования НОА, основанный на направленной аудиокодировке, второй режим кодирования представляет собой режим кодирования НОА, основанный на выборе виртуального динамика, или режим кодирования НОА, основанный на направленной аудиокодировке, и первый режим кодирования и второй режим кодирования являются разными режимами кодирования.

13. Способ по п. 12, в котором второе предустановленное условие включает в себя то, что количество источников гетерогенного звука больше первого порога и меньше второго порога, а второй порог больше первого порога; или

второе предустановленное условие заключается в том, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог больше первого порога.

14. Способ по п. 1, в котором определение, на основе типа звукового поля, режима кодирования, соответствующего текущему кадру, содержит:

когда тип звукового поля представляет собой гетерогенное звуковое поле, определение, что режим кодирования является режимом кодирования НОА на основе выбора виртуального динамика; или,

когда тип звукового поля представляет собой дисперсионное звуковое поле, определение, что режим кодирования является режимом кодирования НОА на основе направленной аудиокодировки.

15. Способ по п. 1, в котором определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру, содержит:

определение, на основе результата классификации звукового поля текущего кадра, начального режима кодирования, соответствующего текущему кадру;

получение окна затягивания, в котором находится текущий кадр, при этом окно затягивания содержит начальный режим кодирования текущего кадра и режимы кодирования N-1 кадров перед текущим кадром, а N представляет собой длину окна затягивания; и

определение режима кодирования текущего кадра на основе начального режима кодирования текущего кадра и режимов кодирования N-1 кадров в окне затягивания.

16. Способ по любому из пп. 1-15, при этом способ дополнительно содержит

определение, на основе результата классификации звукового поля, параметра кодирования, соответствующего текущему кадру.

17. Способ по п. 16, в котором параметр кодирования содержит по меньшей мере одно из следующего: количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала, количество битов кодирования сигнала виртуального динамика, количество битов кодирования остаточного сигнала или количество раундов выборки для поиска наиболее соответствующего динамика, при этом

сигнал виртуального динамика и остаточный сигнал генерируются на основе трехмерного аудиосигнала.

18. Способ по п. 17, в котором количество раундов выборки удовлетворяет следующему соотношению:

I - количество раундов выборки, а d - количество источников гетерогенного звука, содержащихся в результате классификации звукового поля.

19. Способ по п. 17 или 18, в котором результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля; и,

когда тип звукового поля является гетерогенным звуковым полем, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное кодером; или,

когда типом звукового поля является дисперсионное звуковое поле, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F=1, где

F - количество каналов сигнала виртуального динамика.

20. Способ по любому из пп. 17-19, в котором, когда тип звукового поля представляет собой дисперсионное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

PR - количество каналов остаточного сигнала, предустановленное кодером, а С - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером; или,

когда тип звукового поля представляет собой гетерогенное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R - количество каналов остаточного сигнала, С - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером, и F - количество каналов сигнала виртуального динамика.

21. Способ по п. 17 или 18, в котором результат классификации звукового поля содержит количество источников гетерогенного звука; и

количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное кодером.

22. Способ по п. 17, 18, 19 или 21, в котором количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R=C - F, где

R - количество каналов остаточного сигнала, С - сумма количества каналов остаточного сигнала, предустановленного кодером, и количества каналов сигнала виртуального динамика, предустановленного кодером, и F - количество каналов сигнала виртуального динамика.

23. Способ по любому из пп. 17-22, в котором результат классификации звукового поля содержит количество источников гетерогенного звука или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля;

количество битов кодирования сигнала виртуального динамика получают на основе отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи;

количество битов кодирования остаточного сигнала получают на основе отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи; и

количество битов кодирования канала передачи содержит количество битов кодирования сигнала виртуального динамика и количество битов кодирования остаточного сигнала, а когда количество источников гетерогенного звука меньше или равно количеству каналов сигнала виртуального динамика, отношение количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи получают путем увеличения исходного отношения количества битов кодирования сигнала виртуального динамика к количеству битов кодирования канала передачи.

24. Способ по любому из пп. 1-23, при этом способ дополнительно содержит

кодирование текущего кадра и результата классификации звукового поля и запись закодированного текущего кадра и результата классификации звукового поля в битовый поток.

25. Способ обработки трехмерного аудиосигнала, содержащий:

прием битового потока;

декодирование битового потока для получения результата классификации звукового поля текущего кадра; и

получение трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля,

причем получение трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля содержит:

определение режима декодирования текущего кадра на основе результата классификации звукового поля; и

получение трехмерного аудиосигнала декодированного текущего кадра на основе режима декодирования,

причем определение режима декодирования текущего кадра на основе результата классификации звукового поля содержит:

когда результат классификации звукового поля содержит количество источников гетерогенного звука или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе количества источников гетерогенного звука;

когда результат классификации звукового поля содержит тип звукового поля или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе типа звукового поля; или,

когда результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе количества источников гетерогенного звука и типа звукового поля.

26. Способ по п. 25, в котором определение, на основе количества источников гетерогенного звука, режима декодирования, соответствующего текущему кадру, содержит:

когда количество источников гетерогенного звука соответствует предустановленному условию, определение, что режим декодирования является первым режимом декодирования; или,

когда количество источников гетерогенного звука не соответствует предустановленному условию, определение, что режим декодирования является вторым режимом декодирования, при этом

первый режим декодирования представляет собой режим декодирования НОА, основанный на выборе виртуального динамика, или режим декодирования НОА, основанный на направленной аудиокодировке, второй режим декодирования представляет собой режим декодирования НОА, основанный на выборе виртуального динамика, или режим декодирования НОА, основанный на направленной аудиокодировке, и первый режим декодирования и второй режим декодирования являются разными режимами декодирования.

27. Способ по п. 26, в котором предустановленное условие содержит то, что количество источников гетерогенного звука больше первого порога и меньше второго порога, а второй порог больше первого порога; или

предустановленное условие состоит в том, что количество источников гетерогенного звука не превышает первого порога или не меньше второго порога, а второй порог больше первого порога.

28. Способ по п. 25, в котором получение трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля содержит:

определение параметра декодирования текущего кадра на основе результата классификации звукового поля; и

получение трехмерного аудиосигнала декодированного текущего кадра на основе параметра декодирования.

29. Способ по п. 28, в котором параметр декодирования содержит по меньшей мере одно из следующего: количество каналов сигнала виртуального динамика, количество каналов остаточного сигнала, количество битов декодирования сигнала виртуального динамика или количество бит декодирования остаточного сигнала, при этом

сигнал виртуального динамика и остаточный сигнал получаются путем декодирования битового потока.

30. Способ по п. 29, в котором результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля; и,

когда тип звукового поля является гетерогенным звуковым полем, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное декодером; или,

когда типом звукового поля является дисперсионное звуковое поле, количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F - количество каналов сигнала виртуального динамика.

31. Способ по п. 29 или 30, в котором, когда типом звукового поля является дисперсионное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

PR - количество каналов остаточного сигнала, предустановленное декодером, а С - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером; или,

когда тип звукового поля представляет собой гетерогенное звуковое поле, количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R - количество каналов остаточного сигнала, С - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером, F - количество каналов сигнала виртуального динамика.

32. Способ по п. 29 или 31, в котором результат классификации звукового поля содержит количество источников гетерогенного звука; и

количество каналов сигнала виртуального динамика удовлетворяет следующему соотношению:

F - количество каналов сигнала виртуального динамика, S - количество источников гетерогенного звука, PF - количество каналов сигнала виртуального динамика, предустановленное декодером.

33. Способ по любому из пп. 29-32, в котором количество каналов остаточного сигнала удовлетворяет следующему соотношению:

R - количество каналов остаточного сигнала, С - сумма количества каналов остаточного сигнала, предустановленного декодером, и количества каналов сигнала виртуального динамика, предустановленного декодером, F - количество каналов сигнала виртуального динамика.

34. Способ по любому из пп. 29-33, в котором результат классификации звукового поля содержит количество источников гетерогенного звука или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля;

причем количество битов декодирования сигнала виртуального динамика получают на основе отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи;

причем количество битов декодирования остаточного сигнала получают на основе отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи; и

при этом количество битов декодирования канала передачи содержит количество битов декодирования сигнала виртуального динамика и количество битов декодирования остаточного сигнала, а когда количество источников гетерогенного звука меньше или равно количеству каналов сигнала виртуального динамика, отношение количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи получают путем увеличения исходного отношения количества битов декодирования сигнала виртуального динамика к количеству битов декодирования канала передачи.

35. Аппаратура обработки трехмерного аудиосигнала, содержащая:

модуль линейного анализа, сконфигурированный для выполнения линейного разложения трехмерного аудиосигнала для получения результата линейного разложения;

модуль генерации параметров, выполненный с возможностью получения, на основе результата линейного разложения, параметра классификации звукового поля, соответствующего текущему кадру; и

модуль классификации звукового поля, сконфигурированный для определения результата классификации звукового поля текущего кадра на основе параметра классификации звукового поля; и определения, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру,

причем определение, на основе результата классификации звукового поля, режима кодирования, соответствующего текущему кадру, содержит:

когда результат классификации звукового поля содержит количество источников гетерогенного звука или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение, на основе количества источников гетерогенного звука, режима кодирования, соответствующего текущему кадру;

когда результат классификации звукового поля содержит тип звукового поля или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение, на основе типа звукового поля, режима кодирования, соответствующего текущему кадру; или,

когда результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение, на основе количества источников гетерогенного звука и типа звукового поля, режима кодирования, соответствующего текущему кадру.

36. Аппаратура обработки трехмерного аудиосигнала, содержащая:

модуль приема, сконфигурированный для приема битового потока;

модуль декодирования, сконфигурированный для декодирования битового потока для получения результата классификации звукового поля текущего кадра; и

модуль генерации сигнала, сконфигурированный для получения трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля,

причем получение трехмерного аудиосигнала декодированного текущего кадра на основе результата классификации звукового поля содержит:

определение режима декодирования текущего кадра на основе результата классификации звукового поля; и

получение трехмерного аудиосигнала декодированного текущего кадра на основе режима декодирования,

причем определение режима декодирования текущего кадра на основе результата классификации звукового поля содержит:

когда результат классификации звукового поля содержит количество источников гетерогенного звука или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе количества источников гетерогенного звука;

когда результат классификации звукового поля содержит тип звукового поля или результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе типа звукового поля; или,

когда результат классификации звукового поля содержит количество источников гетерогенного звука и тип звукового поля, определение режима декодирования текущего кадра на основе количества источников гетерогенного звука и типа звукового поля.

37. Аппаратура обработки трехмерного аудиосигнала, причем аппаратура обработки трехмерного аудиосигнала содержит по меньшей мере один процессор, при этом по меньшей мере один процессор соединен с памятью и выполнен с возможностью считывания и выполнения инструкций, хранящихся в памяти, для выполнения способа по любому из пп. 1-24.

38. Аппаратура обработки трехмерного аудиосигнала по п. 37, причем аппаратура обработки трехмерного аудиосигнала дополнительно содержит память.

39. Аппаратура обработки трехмерного аудиосигнала, причем аппаратура обработки трехмерного аудиосигнала содержит по меньшей мере один процессор, при этом по меньшей мере один процессор соединен с памятью и выполнен с возможностью считывания и выполнения инструкций, хранящихся в памяти, для выполнения способа по любому из пп. 25-34.

40. Аппаратура обработки трехмерного аудиосигнала по п. 39, причем аппаратура декодирования аудио дополнительно содержит память.

41. Машиночитаемый носитель информации, содержащий инструкции, при этом, когда инструкции выполняются на компьютере, компьютер выполняет способ по любому из пп. 1-24.

42. Машиночитаемый носитель информации, содержащий инструкции, при этом, когда инструкции выполняются на компьютере, компьютер выполняет способ по любому из пп. 25-34.

43. Машиночитаемый носитель данных, содержащий битовый поток, сгенерированный с использованием способа по любому из пп. 1-24.

Документы, цитированные в отчете о поиске Патент 2025 года RU2835366C2

Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса 1924
  • Шапошников Н.П.
SU2015A1
Токарный резец 1924
  • Г. Клопшток
SU2016A1
US 10264386 B1, 16.04.2019
Способ получения цианистых соединений 1924
  • Климов Б.К.
SU2018A1
УСТРОЙСТВО И СПОСОБ ОБРАБОТКИ СТЕРЕОФОНИЧЕСКИХ СИГНАЛОВ ДЛЯ ВОСПРОИЗВЕДЕНИЯ В АВТОМОБИЛЯХ ДЛЯ ДОСТИЖЕНИЯ ОТДЕЛЬНОГО ТРЕХМЕРНОГО ЗВУКА ПОСРЕДСТВОМ ПЕРЕДНИХ ГРОМКОГОВОРИТЕЛЕЙ 2016
  • Хесс Вольфганг
  • Хелльмут Оливер
  • Фарга Штефан
  • Хабетс Эмануэль
  • Плогстис Ян
  • Херре Юрген
RU2706581C2

RU 2 835 366 C2

Авторы

Гао, Юань

Лю, Шуай

Ван, Бинь

Ван, Чжэ

Цюй, Тяньшу

Сюй, Цзяхао

Даты

2025-02-25Публикация

2022-05-30Подача