Область техники, к которой относится изобретение
Настоящая технология относится к устройству декодирования, способу декодирования, устройству кодирования, способу кодирования и программе и, более конкретно, к устройству декодирования, способу декодирования, устройству кодирования, способу кодирования и программе, с помощью которых можно получать высококачественный реалистический звук.
Уровень техники
В последние годы все страны в мире внедрили службу распространения кинофильмов, широковещательное цифровое телевидение и архивирование следующего поколения. В дополнение к стереофоническому радиовещанию, соответствующему существующему уровню техники, начало внедряться звуковое радиовещание, соответствующее многочисленным каналам, таким как 5.1 каналы.
Чтобы дополнительно улучшить качество изображения, было изучено следующее поколение телевидения высокой четкости с повышенным количеством пикселей. При изучении следующего поколения телевидения высокой четкости в области обработки звука, чтобы достигнуть реалистического звука, ожидалось, что концепция каналов должна распространиться на многочисленные каналы, число которых больше, чем 5.1 каналов в горизонтальном направлении и вертикальном направлении.
В качестве технологии, относящейся к кодированию аудиоданных, была предложена технология, которая группирует окна из разных каналов в некие мозаичные элементы, чтобы повысить эффективность кодирования (смотрите, например, патентный документ 1).
Перечень литературы
Патентные документы
Патентный документ 1: JP 2010-217900 А
Сущность изобретения
Проблемы, решаемые изобретением
Однако в упомянутой выше технологии трудно получить высококачественный реалистический звук.
Например, при многоканальном кодировании, основанном на стандарте Moving Picture Experts Group-2 Advanced Audio Coding (MPEG-2AAC) и стандарте MPEG-4AAC, являющихся международными стандартами, определены только расположение громкоговорителей в горизонтальном направлении и информация о понижающем микшировании от 5.1 каналов до стереоканалов. Поэтому, трудно удовлетворительно отреагировать на расширение количества каналов в плоскости и в вертикальном направлении.
Настоящая технология была разработана с точки зрения упомянутых выше проблем и позволяет получить высококачественный реалистический звук.
Решения проблем
Устройство декодирования, соответствующее первому варианту настоящей технологии, содержит блок декодирования, декодирующий аудиоданные, содержащиеся в кодированном битовом потоке, блок считывания, считывающий информацию о положении источника звука в отношении высоты расположения источника звука аудиоданных из области, в которой могут храниться произвольные данные кодированного битового потока, и блок вывода, который выводит декодированные аудиоданные на основе информации о положении источника звука.
Информация о положении источника звука может быть информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя.
Идентификационная информация для идентификации, присутствует ли информация о положении источника звука, сохраняется в области, в которой могут храниться произвольные данные, и блок считывания может считывать информацию о положении источника звука на основе идентификационной информации.
Сначала заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, могут сохраняться как идентификационная информация в области, в которой могут храниться произвольные данные.
Блок считывания может решить, что информация о положении источника звука является действительной, когда первая идентификационная информация, содержащаяся в области, в которой могут храниться произвольные данные, является заданной конкретной информацией и вторая идентификационная информация, считанная из области, в которой могут храниться произвольные данные, идентична второй идентификационной информации, которая вычисляется на основе считанной информации о положении источника звука.
Вторая идентификационная информация может быть вычислена на основе информации, полученной при выполнении выравнивания байтов для информации, содержащей информацию о положении источника звука.
Устройство декодирования или программа, соответствующая первому варианту настоящей технологии, содержит этап декодирования аудиоданных, содержащихся в кодированном битовом потоке, этап считывания, на котором считывают информацию о высоте источника звука аудиоданных из области, в которой могут храниться произвольные данные кодированного битового потока, и этап вывода на котором выводят аудиоданные, декодированные на основе информации о положении источника звука.
В первом варианте настоящей технологии декодируются аудиоданные, содержащиеся в кодированном битовом потоке, информация о положении источника звука в отношении высоты источника звука аудиоданных считывается из области, в которой могут храниться произвольные данные кодированного битового потока, и декодированные аудиоданные выводятся на основе информации о положении источника звука.
Устройство кодирования, соответствующее второму варианту настоящей технологии, содержит блок сбора данных, получающий информацию о положении источника звука в отношении высоты источника звука, блок кодирования, кодирующий аудиоданные и информацию о положении источника звука, и блок упаковки, который хранит кодированную информацию о положении источника звука в области, в которой могут храниться произвольные данные, и формирует кодированный битовый поток, содержащий кодированные аудиоданные и кодированную информацию о положении источника звука.
Информация о положении источника звука может быть информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя.
Информация о положении источника звука и идентификационная информация для идентификации, присутствует ли информация о положении источника звука, могут быть сохранены в области, в которой могут храниться произвольные данные.
Первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, могут сохраняться как идентификационная информация в области, в которой могут храниться произвольные данные.
Информация для подачи команд на выравнивание байтов для информации, содержащей информацию о положении источника звука и информацию для подачи команды на сравнение между второй идентификационной информацией, которая вычисляется на основе информации, полученной выравниванием байтов, и втор идентификационной информацией, хранящейся в области, в которой могут хранит] произвольные данные, может дополнительно сохраняться в области, в которой могут храниться произвольные данные.
Способ кодирования или программа, соответствующие второму варианту настоящей технологии, содержит этапы, на которых собирают информацию о положен источника звука в отношении высоты источника звука, кодируют аудиоданные информацию о положении источника звука, и сохраняют кодированную информацию о положении источника звука в области, в которой могут храниться произвольные данные, и формируют кодированный битовый поток, содержащий кодированные аудиоданные кодированную информацию о положении источника звука.
Во втором варианте, соответствующем настоящей технологии, получают информацию о положении источника звука в отношении высоты источника звука. Аудиоданные и информация о положении источника звука кодируются. Кодированная информация о положении источника звука хранится в области, в которой могут хранить произвольные данные и кодированный битовый поток, содержащий кодированные аудиоданные, и формируется кодированная информация о положении источника звука.
Результаты изобретения
В соответствии с первым и вторым вариантами настоящей технологии можно получить высококачественный реалистический звук.
Краткое описание чертежей
Фиг. 1 - расположение громкоговорителей.
Фиг. 2 - пример расположения громкоговорителей.
Фиг. 3 - кодированный битовый поток.
Фиг. 4 - синтаксис height_extension_element.
Фиг. 5 - расположение громкоговорителей по высоте.
Фиг. 6 - синтаксис вспомогательных данных MPEG4.
Фиг. 7 - синтаксис bs_info().
Фиг. 8 - синтаксис ancillary_data_status().
Фиг. 9 - синтаксис downmixing_levels_MPEG4().
Фиг. 10 - синтаксис audio_coding_mode().
Фиг. 11 - синтаксис MPEG4_ext_ancillary_data().
Фиг. 12 - синтаксис ext_ancillary_data_status().
Фиг. 13 - синтаксис ext_downmixing_levels().
Фиг. 14 - объекты, к которым применяется каждый из коэффициентов.
Фиг. 15 - синтаксис ext_downmixing_global_gains().
Фиг. 16 - синтаксис ext_downmixing_lfe_level().
Фиг. 17 - понижающее микширование.
Фиг. 18 - коэффициент, определяемый для dmix_lfe_idx.
Фиг. 19 - коэффициенты, определяемые для dmix_a_idx и dmix_b_idx.
Фиг. 20 - синтаксис drc_presentation_mode.
Фиг. 21 - синтаксис drc_presentation_mode.
Фиг 22 - пример структуры устройства кодирования.
Фиг. 23 - блок-схема последовательности выполнения операций процесса кодирования.
Фиг 24 - пример структуры устройства декодирования.
Фиг. 25 - блок-схема последовательности выполнения операций процесса декодирования.
Фиг 26 - пример структуры устройства кодирования.
Фиг. 27 - блок-схема последовательности выполнения операций процесса кодирования.
Фиг. 28 - пример устройства декодирования.
Фиг 29 - пример структуры блока процесса понижающего микширования.
Фиг 30 - пример структуры блока понижающего микширования.
Фиг 31 - пример структуры блока понижающего микширования.
Фиг 32 - пример структуры блока понижающего микширования.
Фиг 33 - пример структуры блока понижающего микширования.
Фиг 34 - пример структуры блока понижающего микширования.
Фиг 35 - пример структуры блока понижающего микширования.
Фиг. 36 - блок-схема последовательности выполнения операций процесса декодирования.
Фиг. 37 - блок-схема последовательности выполнения операций процесса перегруппировки.
Фиг. 38 - блок-схема последовательности выполнения операций процесса перегруппировки.
Фиг. 39 - блок-схема последовательности выполнения операций процесса понижающего микширования.
Фиг. 40 - пример структуры компьютера.
Подробное описание изобретения
Далее варианты осуществления, к которым применяется настоящая технология, будут описаны со ссылкой на чертежи.
Первый вариант осуществления
Общее представление настоящей технологии
Сначала будет описано общее представление настоящей технологии.
Настоящая технология относится к кодированию и декодированию данных. Например, при многоканальном кодировании, основанном на стандарте MPEG-2AAC или стандарте MPEG-4AAC, трудно получить информацию для расширения канала в горизонтальной плоскости и в вертикальном направлении.
При многоканальном кодировании нет никакой информации о понижающем микшировании содержимого расширенного канала, и соответствующее отношение микширования каналов не известно. Поэтому, для переносного устройства с малым количеством каналов воспроизведения трудно воспроизводить звук.
Настоящая технология может получить высококачественный реалистический звук, используя следующие характеристики (1)-(4).
(1) Информация о расположении громкоговорителей в вертикальном направлении записывается в области комментария в РСЕ (Program_config_element), определенном существующим стандартом ААС.
(2) В случае характеристики (1), чтобы отличить публичные комментарии от информации о расположении громкоговорителей в вертикальном направлении, устройство кодирования кодирует два элемента идентификационной информации, а именно синхронное слово и контрольный код CRC, и устройство декодирования сравнивает два элемента идентификационной информации. Когда два элемента идентификационной информации идентичны друг другу, устройство декодирования получает информацию о расположении громкоговорителей.
(3) Информация о понижающем микшировании аудиоданных записывается в области вспомогательных данных (DSE (data_stream_element)).
(4) Понижающее микширование от 6.1 каналов или 7.1 каналов к 2 каналам является двухэтапным процессом, содержащим понижающее микширование от 6.1 каналов или 7.1 каналов к каналам 5.1 и понижающее микширование от 5.1 каналов к 2 каналам.
Также, использование информации о расположении громкоговорителей в вертикальном направлении позволяет воспроизводить звуковую картину в вертикальном направлении, в дополнение к воспроизведению в плоскости, и воспроизводить более реалистический звук, чем планарные многочисленные каналы, соответствующие предшествующему уровню техники.
Кроме того, когда передается информация о понижающем микшировании от 6.1 каналов или 7.1 каналов к 5.1 каналам или 2 каналам, использование одного элемента данных кодирования позволяет воспроизвести звук с числом каналов, наиболее подходящим для каждой среды воспроизведения. В устройстве декодирования, соответствующем предшествующему уровню техники, который не соответствует настоящей технологии, информация в вертикальном направлении игнорируется как публичный комментарий, и аудиоданные декодируются. Следовательно, совместимость не нарушается.
Расположение громкоговорителей
Далее будет описано расположение громкоговорителей при воспроизведении аудиоданных.
Например, предположим, что, как показано на фиг. 1, пользователь наблюдает экран TVS устройства дисплея, такого как телевизор, с передней стороны. То есть предполагается, что на фиг. 1 пользователь располагается перед экраном TVS дисплея.
В этом случае, предполагается, что 13 громкоговорителей, а именно Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE располагаются так, чтобы окружать пользователя.
Здесь далее, каналы аудиоданных (звуки), воспроизводимые громкоговорителями Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE, упоминаются как Lvh, Rvh, Lrs, Ls, L, Lc, C, Rc, R, Rs, Rrs, Cs и LFE, соответственно.
Как показано на фиг. 2, канал L является "передним левым", канал R является "передним правым" и канал С является "передним центральным".
Кроме того, канал Ls является "левым окружающим", канал Rs является "правым окружающим", канал Lrs является "левым задним", канал Rrs является "правым задним" и канал Cs является "центральным обратным".
Канал Lvh является "левым верхним передним", канал Rvh является "правым верхним передним" и канал LFE является каналом "низкочастотного эффекта".
Возвращаясь к фиг. 1, громкоговоритель Lvh и громкоговоритель Rvh располагаются на передних верхних левой и правой сторонах пользователя. Уровень, на котором расположены громкоговорители Rvh и Lvh, является "верхним уровнем".
Громкоговоритель L, С и R располагаются слева, в центре и справа от пользователя. Громкоговорители Lc и Rc располагаются между громкоговорителями L и С и между громкоговорителями R и С, соответственно. Кроме того, громкоговорители Ls и Rs располагаются на левой и правой сторонах пользователя, соответственно, и громкоговорители Lrs, Rrs и Cs располагаются на задней левой, задней правой сторонах от пользователя и сзади пользователя, соответственно.
Громкоговорители Lrs, Ls, L, Lc, С, Rc, R, Rs, Rrs и Cs располагаются в плоскости, находящейся, по существу, на высоте ушей пользователя, так чтобы окружать пользователя. Уровень, на котором расположены громкоговорители, является "средним уровнем".
Громкоговоритель LFE располагается на передней нижней стороне пользователя и уровень, на котором расположен громкоговоритель LFE, является "уровнем LFE".
Кодированный битовый поток
Когда аудиоданные каждого канала кодируются, получается, например, кодированный битовый поток, показанный на фиг. 3. То есть на фиг. 3 показан синтаксис кодированного битового потока кадра ААС.
Кодированный битовый поток, показанный на фиг. 3, содержит "Header/sideinfo", "РСЕ", "SCE", "CPE", "LFE", "DSE", "FIL (DRC)" и "FIL(END)". В этом примере кодированный битовый поток содержит три "СРЕ".
Например, "РСЕ" содержит информацию о каждом канале аудиоданных. В этом примере "РСЕ" содержит "Matrix-mixdown", которая является информацией о понижающем микшировании аудиоданных, и "Height Infomation", которая является информацией о расположении громкоговорителей. Кроме того, "РСЕ" содержит "comment_field_data", которая является областью комментария (поле комментария), в которой могут храниться свободные комментарии, и "commentfielddata" содержит элемент "heightextension_element", который является расширенной областью. Область комментария может хранить произвольные данные, такие как публичные комментарии. "height_extension_element" содержит "Height Infomation", которая является информацией о высоте расположения громкоговорителей.
"SCE" содержит аудиоданные одиночного канала, "СРЕ" содержит аудиоданные пары каналов, то есть двух каналов, и "LFE" содержит аудиоданные, например, канала LFE. Например, "SCE" хранит аудиоданные канала С или Cs и "СРЕ" содержит аудиоданные канала L или R или канала Lvh или Rvh.
Кроме того, "DSE" является областью вспомогательных данных. "DSE" хранит свободные данные. В этом примере "DSE" содержит в качестве информации о понижающем микшировании аудиоданных "Downmix 5.1ch to 2ch" (понижающее микширование с 5.1 каналов до 2 каналов) , "Dynamic Range Control" (управление динамическим диапазоном), "DRC Presentation Mode" (режим презентации DRC), "Downmix 6.1ch and 7.1ch to 5.1ch" (понижающее микширование с 6.1 каналов и 7.1 каналов до 5.1 каналов), "global gain downmixing" (понижающее микширование с глобальным усилением), и "LFE downmixing" (понижающее микширование LFE).
Кроме того, "FIL(DRC)" содержит информацию об управлении динамическим диапазоном звуков. Например, "FIL(DRC)" содержит "Program Reference Level" (контрольный уровень программы) и "Dynamic Range Control" (управление динамическим диапазоном).
Поле комментария
Как описано выше, данные "comment_field_data" для "РСЕ" содержат элемент "height_extension_element". Поэтому, многоканальное воспроизведение достигается информацией о расположении громкоговорителей в вертикальном направлении. То есть высококачественный реалистический звук воспроизводится громкоговорителями, которые располагаются на уровне на каждой высоте, таком как "Top layer" (верхний уровень) или "Middle layer" (средний уровень).
Например, как показано на фиг. 4, "height_extension_element" содержит синхронное слово для отличия от других публичных комментариев. То есть на фиг. 4 показан синтаксис "height_extension_element".
На фиг. 4, "PCE_HEIGHT_EXTENSION_SYNC" указывает синхронное слово.
Кроме того, выражения "front_element_height_info[i]", "side_element_height_info[i]", и "back_element_height_info[i]" указывают высоты громкоговорителей, которые располагаются на передней стороне, сбоку и сзади от наблюдателя, то есть уровни.
Кроме того, "byte_alignment()" указывает выравнивание байтов и "height_info_crc_check" указывает контрольный код CRC, который используется в качестве идентификационной информации. Кроме того, контрольный код CRC вычисляется на основе информации, которая считывается между "PCE_HEIGHT_EXTENSION_SYNC" и "byte_alignment()", то есть между синхронным словом, информацией о расположении каждого громкоговорителя (информацией о каждом канале) и выравниванием байтов. Затем определяется, идентичен ли вычисленный контрольный код CRC контрольному коду CRC, указанному "height_info_crc_check". Когда контрольные коды CRC идентичны друг другу, принимается решение, что информация о расположении каждого из громкоговорителей считывается правильно. Кроме того, "crc_cal()!=height_info_crc_check" указывает сравнение между контрольными кодами CRC.
Например, "front_element_height_info[i]", "side_element _height_info[i]" и "back_element_height_info[i]", которые являются информацией о положении источников звука, то есть расположении (высоте) громкоговорителей, устанавливается, как показано на фиг. 5.
То есть, когда информация о "front_element_height_info[i]", "side_element_height_info[i]" и "back_element_height_info[i]" равна "0", "1" и "2", высотами громкоговорителей являются "Normal height" (нормальная высота), "Top speaker" (верхний громкоговоритель) и "Bottom Speaker" (нижний громкоговоритель), соответственно. То есть уровнями, на которых располагаются громкоговорители, являются "Middle layer" (средний уровень), "Top layer" (верхний уровень) и "LFE layer" (уровень LFE).
DSE
Далее будут описаны данные "MPEG4 ancillary data" (вспомогательные данные MPEG4), которые являются областью вспомогательных данных, содержащейся в "DSE", то есть "data_stream_byte[]" для "data_stream_element()". Управление понижающим микшированием DRC для аудиоданных от 6.1 каналов или 7.1 каналов к 5.1 каналам или 2 каналам может быть выполнено посредством "MPEG4 ancillary data".
На фиг. 6 представлен синтаксис "MPEG4 ancillary data" (вспомогательных данных MPEG4). "MPEG4 ancillary data" содержат "bs_info()", "ancillary_data_status()", "downmixing_levels_MPEG4()", "audio_ coding_mode()", "Compression_value", и "MPEG4_ext_ancillary_data()".
Здесь, "Compression_value" соответствует "Dynamic Range Control" (управлению динамическим диапазоном), показанному на фиг. 3. Кроме того, синтаксис "bs_info()", "ancillary_data_status()", "downmixing_levels_MPEG4()", "audio_ coding_mode()" и "MPEG4_ext_ancillary_ data()" является таким, как показано на фиг. 7-11, соответственно.
Например, как показано на фиг. 7, "bs_info()" содержит "mpeg_audio_type", "dolby_surround_mode", "drc_presentation_ mode" и "pseudo_surround_enable".
Кроме того, "drc_presentation_mode" соответствует режиму "DRC Presentation Mode" (режиму представления DRC), показанному на фиг. 3. Дополнительно, выражение "pseudo_surround_enable" содержит информацию, указывающую процедуру понижающего микширования от 5.1 каналов до 2 каналов, то есть информацию, указывающую один из множества способов понижающего микширования, которые должны использоваться для понижающего микширования.
Например, процесс изменяется в зависимости от того, равно ли 0 или 1 выражение "ancillary_data_extension_status", содержащееся в "ancillary_data_status()", показанном на фиг. 8. Когда "ancillary_data_extension_status" равно 1, доступ к "MPEG4_ext_ancillary_data()" в "MPEG4 ancillary data", показанных на фиг. 6, выполняется и управление DRC понижающим микшированием выполняется. С другой стороны, когда "ancillary_data_extension_status" равно 0, выполняется процесс, соответствующий предшествующему уровню техники. Таким образом, можно гарантировать совместимость с существующим стандартом.
Кроме того, выражение "downmixing_levels_MPEG4_status", содержащееся в выражении "ancillary_data_status()", показанном на фиг. 8, является информацией для назначения коэффициента (отношение микширования), который используется для пониженного микширования с 5.1 каналов до 2 каналов. То есть, когда "downmixing_levels_MPEG4_status" равно 1, коэффициент, который определяется информацией, хранящейся в выражении "downmixing_levels_MPEG4()", показанном на фиг. 9, используется для пониженного микширования.
Кроме того, выражение "downmixing_levels_MPEG4()", показанное на фиг. 9, содержит "center_mix_level_value" и "surround_mix_level_ value" в качестве информации для указания коэффициента понижающего микширования. Например, значения коэффициентов, соответствующие "center_mix_level_value" и "surround_mix_level_value", определяются таблицей, показанной на фиг. 19, которая будет описана ниже.
Кроме того, выражение "downmixing_levels_MPEG4()", показанное на фиг. 9, соответствует выражению "Downmix 5.1ch to 2ch", показанному на фиг. 3.
Дополнительно, выражение "MPEG4_ext_ancillary_data()", показанное на фиг. 11, содержит выражения "ext_ancillary_data_status()", "ext_downmixing_levels()", "ext_downmixing_global_gains()" и "ext_downmixing_lfe_level()".
Информация, требующаяся для расширения количества каналов так, чтобы расширить аудиоданные 5.1 каналов до аудиоданных 7.1 каналов или 6.1 каналов, хранится в "MPEG4_ext_ancillary_data()".
Конкретно, выражение "ext_ancillary_data_status()" содержит информацию (флаг), указывающую понижающее микширование для количества каналов, большего, чем 5.1 каналов, до 5.1 каналов, информацию, указывающая, выполнять ли управление усилением во время понижающего микширования, и информацию, указывающую, использовать ли канал LFE во время понижающего микширования.
Информация для указания коэффициента (отношения микширования), используемого во время понижающего микширования, хранится в "ext_downmixing_levels()", и информация, связанная с усилением во время регулировки усиления, содержится в "ext_downmixing_global_gains()". Кроме того, информация для указания коэффициента (отношения микширования) канала LEF, используемого во время понижающего микширования, хранится в "ext_downmixing_lfe_level()".
Конкретно, например, синтаксис "ext_ancillary_data_ status()" является таким, как показано на фиг. 12. В "ext_ancillary_data_status()" "ext_downmixing_levels_ status" указывает, осуществлять ли пониженное микширование 6.1 каналов или 7.1 каналов до 5.1 каналов. То есть "ext_downmixing_levels_status" указывает, присутствует ли "ext_downmixing_levels()". "ext_downmixing_levels_status" соответствует "Downmix 6.1ch and 7.1ch to 5.1ch" (пониженное микширование 6.1 каналов и 7.1 каналов до 5.1 каналов), показанному на фиг. 3.
Кроме того, выражение "ext_downmixing_global_gains_status" указывает, выполнять ли глобальное управление усилением, и соответствует "global gain downmixing", показанному на фиг. 3. То есть "ext_downmixing_global_gains_status" указывает, присутствует ли "ext_downmixing_global_gains()". Кроме того, "ext_downmixing_lfe_level_status" указывает, используется ли канал LFE, когда 5.1 каналов понижаются микшированием до 2 каналов, и соответствует "LFE downmixing", показанному на фиг. 3.
Синтаксис "ext_downmixing_levels()" в выражении "MPEG4_ext_ancillary_data()", показанном на фиг. 11, является таким, как показано на фиг. 13, и "dmix_a_idx" и "dmix_b_idx", показанные на фиг. 13, являются информацией, указывающей отношение микширования (коэффициент) во время понижающего микширования.
На фиг. 14 показана связь между "dmix_a_idx" и "dmix_b_idx", определенными выражением "ext_downmixing_levels()", и компоненты, к которым применяются "dmix_a_idx" и "dmix_b_idx", когда аудиоданные 7.1 каналов понижаются микшированием.
Синтаксис "ext_downmixing_global_gains()" и "ext_downmixing_lfe_level()" в выражении "MPEG4_ext_ancillary_data()", показанном на фиг. 11, является таким, как показано на фиг. 15 и 16.
Например, выражение "ext_downmixing_global_gains()", показанное на фиг. 15, содержит выражение "dmx_gain_5_sign", которое указывает знак усиления во время понижающего микширования до 5.1 каналов, усиление "dmx_gain_5_idx", "dmx_gain_2_sign", которое указывает знак усиления во время понижающего микширования до 2 каналов и усиление "dmx_gain_2_idx".
Кроме того, выражение "ext_downmixing_lfe_level()", показанное на фиг. 16, содержит "dmix_lfe_idx" и "dmix_lfe_idx" и является информацией, указывающей отношение (коэффициент) микширования канала LFE во время понижающего микширования.
Понижающее микширование
Кроме того, выражение "pseudo_surround_enable" в синтаксисе "bs_info()", показанном на фиг. 7, указывает процедуру процесса понижающего микширования и процедура процесса является такой, как показано на фиг. 17. Здесь на фиг. 17 показаны две процедуры, когда "pseudo_surround_enable" равно 0 и когда "pseudo_surround_enable" равно 1.
Далее будет описан процесс понижающего микширования аудиоданных.
Сначала будет описано понижающее микширование от 5.1 каналов до 2 каналов. В этом случае, когда канал L и канал R после понижающего микширования являются каналом L' и каналом R', соответственно, выполняется следующий процесс.
То есть когда выражение "pseudo_surround_enable" равно 0, аудиоданные канала L' и канала R' вычисляются следующим выражением (1).
Когда выражение "pseudo_surround_enable" равно 1, аудиоданные канала L' и канала R' вычисляются следующим выражением (2).
В выражении (1) и выражении (2), L, R, С, Ls, Rs и LFE являются каналами, образующими 5.1 каналов, и указывают на каналы L, R, С, Ls, Rs и LFE, которые были описаны со ссылкой на фиг. 1 и 2, соответственно.
В выражении (1) и выражении (2), "с" является константой, которая определяется значением "dmix_lfe_idx", содержащимся в "ext_downmixing_lfe_level()", показанном на фиг. 16. Например, значение константы с, соответствующее каждому значению "dmix_lfe_idx", является таким, как показано на фиг. 18. Конкретно, когда "ext_downmixing_lfe_level_status" в выражении "ext_ancillary_data_status()", показанном на фиг. 12, равно 0, канал LFE не используется при вычислении, использующем выражение (1) и выражение (2). Когда выражение "ext_downmixing_lfe_level_status" равно 1, значение константы с, умноженное на канал LFE, определяется на основе таблицы, показанной на фиг. 18.
В выражении (1) и выражении (2), "а" и "b" являются константами, которые определяется значениями "dmix_a_idx" и "dmix_b_idx", содержащимися в "ext_downmixing_lfe_level)", показанном на фиг. 13. В выражении (1) и выражении (2), "а" и "b" могут быть константами, которые определяется значениями "center_mix_level_value" и "surround_mix_level_value" в "downrnixing_levels_MPEG4()", показанном на фиг. 9.
Например, значения констант а и b относительно значений "dmix_a_idx" и "dmix_b_idx" или значений "center_mix_level_value" и "surround_mix_level_value" являются такими, как показано на фиг. 19. В этом примере, поскольку ссылка делается на одну и ту же таблица посредством "dmix_a_idx" и "dmix_b_idx", и "center_mix_level_value" и "surround_mix_level_value", константы (коэффициенты) а и b для пониженного микширования имеют одно и то же значение.
Далее будет описано пониженное микширование с 7.1 каналов или 6.1 каналов до каналов 5.1.
Когда аудиоданные каналов С, L, R, Ls, Rs, Lrs, Rrs и LFE, содержащих каналы громкоговорителей Lrs и Rrs, которые располагаются сзади пользователя, преобразуются в аудиоданные каналов 5.1, содержащих каналы С, L', R', , Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (3). Здесь, каналы С, L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. Кроме того, в выражении (3), С, L, R, Ls, Rs, Lrs, Rrs и LFE указывают аудиоданные каналов С, L, R, Ls, Rs, Lrs, Rrs и LFE.
В выражении (3) d1 и d2 являются константами. Например, константы d1 и d2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.
Когда аудиоданные каналов С, L, R, Lc, Rc, Ls, Rs и LFE, содержащих каналы громкоговорителей Lc и Rc, которые располагаются спереди пользователя, преобразуются в аудиоданные каналов 5.1, содержащих каналы С, L', R', Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (4). Здесь, каналы С, L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. В выражении (4), С, L, R, Lc, Rc, Ls, Rs и LFE указывают аудиоданные каналов С, L, R, Lc, Rc, Lb, Rs и LFE.
В выражении (4) e1 и e2 являются константами. Например, константы e1 и е2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.
Когда аудиоданные каналов С, L, R, Lvh, Rvh, Ls, Rs и LFE, содержащих каналы громкоговорителей Rvh и Lvh, которые располагаются спереди пользователя, преобразуются в аудиоданные 5.1 каналов, содержащих каналы С, L', R', Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (5). Здесь, каналы С, L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. В выражении (5), С, L, R, Lvh, Rvh, Ls, Rs и LFE указывают аудиоданные каналов С, L, R, Lvh, Rvh, Ls, Rs и LFE.
В выражении (5) f1 и f2 являются константами. Например, константы f1 и f2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.
При выполнении понижающего микширования с 6.1 каналов на 5.1 каналы выполняется следующий процесс. То есть, когда аудиоданные каналов С, L, R, Ls, Rs, Cs и LFE преобразуются в аудиоданные 5.1 каналов, содержащих каналы С', L', R', Ls', Rs' и LFE', вычисление выполняется согласно следующему выражению (6). Здесь, каналы С', L', R', Ls', Rs' и LFE' указывают каналы С, L, R, Ls, Rs и LFE после понижающего микширования, соответственно. В выражении (6), С, L, R, Ls, Rs, Cs и LFE указывают аудиоданные каналов С, L, R, Ls, Rs, Cs и LFE.
В выражении (6) g1 и g2 являются константами. Например, константы g1 и g2 определяются для значений "dmix_a_idx" и "dmix_b_idx", показанных на фиг. 19.
Далее будет описано глобальное усиление для коррекции громкости во время понижающего микширования.
Глобальное усиление при понижающем микшировании используется для коррекции громкости звука, который увеличивается или уменьшается при понижающем микшировании. Здесь, dmx_gain5 указывает значение коррекции для понижающего микширования от 7.1 каналов или 6.1 каналов до 5.1 каналов, и dmx_gain2 указывает на значение коррекции для понижающего микширования от 5.1 каналов до 2 каналов. Кроме того, dmx_gain2 поддерживает устройство декодирования или битовый поток, который не соответствует 7.1 каналам.
Применение и порядок их действия подобны сильному сжатию DRC. Кроме того, устройство декодирования может соответственно выполнять выборочную оценку для периода, в котором аудиокадр является долгим, или для периода, в котором аудиокадр слишком короткий, чтобы определить глобальное усиление при понижающем микшировании.
Во время понижающего микширования от 7.1 каналов до 2 каналов применяется объединенное усиление, то есть (dmx_gain5 + dmx_gain2). Например, 6-битовое целое число без знака используется в качестве dmx_gain5 и dmx_gain2, и dmx_gain5 и dmx_gain2 квантуются в интервале 0,25 дБ.
Поэтому, когда dmx_gain5 и dmx_gain2 объединяются друг с другом, объединенное усиление находится в диапазоне ±15,75 дБ. Значение усиления применяется к выборке аудиоданных декодированного текущего кадра.
Конкретно, во время понижающего микширования до 5.1 каналов выполняется следующий процесс. То есть, когда коррекция усиления выполняется для аудиоданных каналов С, ', L', R', Ls', Rs' и LFE', полученных путем понижающего микширования, чтобы получить аудиоданные каналов Сʺ, Lʺ, Rʺ, Lsʺ, Rsʺ и LFEʺ, вычисление выполняется согласно следующему выражению (7).
Здесь, dmx_gain5 - скалярное значение и является значением усиления, которое вычисляется от "dmx_gain_5_sign" и "dmx_gain_5_idx", показанных на фиг. 15, согласно следующему выражению (8).
Подобным образом, во время понижающего микширования до 2 каналов выполняется следующий процесс. То есть, когда коррекция усиления выполняется для аудиоданных каналов L' and R', полученных путем понижающего микширования, чтобы получить аудиоданные каналов Lʺ и Rʺ, вычисление выполняется согласно следующему выражению (9).
Здесь, dmx_gain2 - скалярное значение и является значением усиления, которое вычисляется из "dmx_gain_2_sign" и "dmx_gain_2_idx", показанных на фиг. 15, согласно следующему выражению (10).
Во время понижающего микширования от 7.1 каналов до 2 каналов, после того, как 7.1 каналов понижаются до 5.1 каналов, и 5.1 каналов понижаются до 2 каналов, для полученного сигнала (данных) может быть выполнена корректировка усиления. В этом случае, значение усиления dmx_gain_7to2, применяемое к аудиоданным, может быть получено, объединяя dmx_gain5 и dmx_gain2, как описано в следующем выражении (11).
Понижающее микширование от 6.1 каналов до 2 каналов выполняется аналогично понижающему микшированию от 7.1 каналов до 2 каналов.
Например, во время понижающего микширования от 7.1 каналов до 2 каналов, когда коррекция усиления выполняется на двух этапах согласно выражению (7) или выражению (9), возможно получить аудиоданные 5.1 каналов и аудиоданные 2 каналов.
Режим представления DRC
Кроме того, выражение "drc_presentation_mode", содержащееся в "bs_info()", показанном на фиг. 7, является таким, как показано на фиг. 20. То есть на фиг. 20 показан синтаксис "drc_presentation_mode".
Когда выражение "drc_presentation_mode" равно "01", режим является режимом представления DRC 1 ("DRC presentation mode 1"). Когда "drc_presentation_mode" равно "10", режим является режимом представления DRC 2 ("DRC presentation mode 2"). В "DRC presentation mode 1" и "DRC presentation mode 2" управление усилением выполняется как показано на фиг. 21.
Пример структуры устройства кодирования
Далее будут описаны конкретные варианты осуществления, к которым применяется настоящая технология.
На фиг. 22 представлен пример структуры устройства кодирования, соответствующего варианту осуществления, к которому применяется настоящая технология. Устройство 11 кодирования содержит блок 21 ввода, блок 22 кодирования и блок 23 упаковки.
Блок 21 ввода получает аудиоданные и информацию об аудиоданных извне и предоставляет аудиоданные и информацию блоку 22 кодирования. Например, информацию о расположении (высоте расположения) громкоговорителей получают как информацию об аудиоданных.
Блок 22 кодирования кодирует аудиоданные и информацию об аудиоданных, предоставленные от блока 21 ввода, и подает кодированные аудиоданные и информацию на блок 23 упаковки. Блок 23 упаковки упаковывает аудиоданные и информацию об аудиоданных, предоставленные от блока 22 ввода, чтобы сформировать кодированный битовый поток, показанный на фиг. 3, и выводит кодированный битовый поток.
Описание процесса кодирования
Далее процесс кодирования устройством 11 кодирования будет описан со ссылкой на блок-схему последовательности выполнения операций, показанную на фиг. 23.
На этапе S11 блок 21 ввода получает аудиоданные и информацию об аудиоданных и предоставляет аудиоданные и информацию блоку 22 кодирования. Например, получают аудиоданные каждого канала из числа 7.1 каналов и информацию (здесь далее упоминаемую как информация о расположении громкоговорителей) о расположении громкоговорителей, которая должна храниться в выражении "height_extension_element", показанном на фиг. 4.
На этапе S12 блок 22 кодирования кодирует аудиоданные каждого канала, предоставленные от блока 21 ввода.
На этапе S13 блок 22 кодирования кодирует информацию о расположении громкоговорителей, предоставленную от блока 21 ввода. В этом случае, блок 22 кодирования формирует синхронное слово, которое должно храниться в "PCE_HEIGHT_EXTENSION_SYNC", содержащемся в "height_extension_element", показанном на фиг. 4, или контрольный код CRC, являющийся идентификационной информацией, которая должна храниться в "height_info_crc_cheek", и подаст синхронное слово или контрольный код CRC и кодированную информацию о расположении громкоговорителей на блок 23 упаковки.
Кроме того, блок 22 кодирования формирует информацию, требующуюся для формирования кодированного битового потока, и подает сформированную информацию и кодированные аудиоданные или информацию о расположении громкоговорителей на блок 23 упаковки.
На этапе S14 блок 23 упаковки выполняет упаковку битов для аудиоданных или информацию о расположении громкоговорителей, предоставленную от блока 22 кодирования, чтобы сформировать кодированный битовый поток, показанный на фиг. 3. В этом случае, блок 23 упаковки сохраняет, например, информацию о расположении громкоговорителей или синхронное слово и контрольный код CRC в "РСЕ" и хранит аудиоданные в "SCE" или "СРЕ".
Когда кодированный битовый поток выведен, процесс кодирования заканчивается.
Таким образом, устройство 11 кодирования вставляет информацию о расположении громкоговорителей, которая является информацией о расположении громкоговорителей на каждом уровне, в кодированный битовый поток и выводит кодированные аудиоданные. Также, когда используется информация о расположении громкоговорителей в вертикальном направлении, можно воспроизвести звуковую картину в вертикальном направлении, в дополнение к воспроизведению в плоскости. Поэтому можно воспроизводить более реалистический звук.
Пример структуры устройства декодирования
Далее будет описано устройство декодирования, которое принимает кодированный битовый поток, выведенный с устройства 11 кодирования, и декодирует кодированный битовый поток.
На фиг. 24 показан пример структуры устройства декодирования. Устройство 51 декодирования содержит разделительный блок 61, блок 62 декодирования и блок 63 вывода.
Разделительный блок 61 принимает кодированный битовый поток, переданный от устройства 11 кодирования, выполняет распаковку битов кодированного битового потока и подает распакованный кодированный битовый поток на блок 62 декодирования.
Блок 62 декодирования декодирует, например, кодированный битовый поток, поданный от разделительного блока 61, то есть аудиоданные каждого канала или информацию о расположении громкоговорителей, и предоставляет расшифрованные аудиоданные на блок 63 вывода. Например, при необходимости, блок 62 декодирования выполняет пониженное микширование аудиоданных.
Устройство 63 вывода выводит аудиоданные, поданные блоком 62 декодирования на основе расположения громкоговорителей (карте громкоговорителей), назначенным блоком 62 декодирования. Аудиоданные каждого канала, выведенные устройством 63 вывода, подаются на громкоговорители каждого канала и затем воспроизводятся.
Описание процесса декодирования
Далее процесс декодирования устройством 51 декодирования будет описан со ссылкой на блок-схему последовательности выполнения операций, показанную на фиг. 25.
На этапе S41 блок 62 декодирования декодирует аудиоданные.
То есть разделительный блок 61 принимает кодированный битовый поток, переданный от устройства 11 кодирования, и выполняет распаковку битов кодированного битового потока. Затем, разделительный блок 61 подает аудиоданные, полученные распаковкой битов, и различные виды информации, такие как информация о расположении громкоговорителей, на блок 62 декодирования. Блок 62 декодирования декодирует аудиоданные, предоставленные от разделительного блока 61, и подает расшифрованные аудиоданные на блок 63 вывода.
На этапе S42 блок 62 декодирования обнаруживает синхронное слово в информации, поданной от разделительного блока 61. Конкретно, синхронное слово обнаруживается в "height_extension_element", показанном на фиг. 4.
На этапе S43 блок 62 декодирования определяет, обнаружено ли синхронное слово. Когда на этапе S43 определено, что синхронное слово обнаружено, блок 62 декодирования на этапе S44 декодирует информацию о расположении громкоговорителей.
То есть блок 62 декодирования считывает информацию, такую как "front_element_height_info[i]", "side_element_height_info [i]" и "back_element_height_info[i]" из выражения "height_extension_ element", показанного на фиг. 4. Таким образом, можно найти положения (каналы) громкоговорителей, где каждый элемент аудиоданных может воспроизводиться с высоким качеством.
На этапе S41 блок 62 декодирования формирует идентификационную информацию. То есть блок 62 декодирования вычисляет контрольный код CRC на основе информации, которая считывается между "PCE_HEIGHT_EXTENSION_SYNC" и "byte_alignment()" в "height_extension_element", то есть в синхронном слове, информацию о расположении громкоговорителей и выравнивании байтов и получает идентификационную информацию.
На этапе S46 блок 62 декодирования 62 сравнивает идентификационную информацию, сформированную на этапе S45, с идентификационной информацией, содержащейся в "height_info_crc_check" для выражения "height_extension_element", показанного на фиг. 4, и определяет, идентичны друг другу ли элементы идентификационной информации.
Когда на этапе S46 определено, что элементы идентификационной информации идентичны друг другу, блок 62 декодирования подает декодированные аудиоданные на блок 63 вывода и дает команду вывода аудиоданных на основе полученной информации о расположении громкоговорителей. Затем процесс переходит к этапу S47.
На этапе S47 блок 63 вывода выводит аудиоданные, полученные от блока 62 декодирования на основе расположения громкоговорителей (карты громкоговорителей), указанного блоком 62 декодирования. На этом процесс декодирования заканчивается.
С другой стороны, когда на этапе S43 определено, что синхронное слово не обнаружено или когда на этапе S46 определено, что элементы идентификационной информации не идентичны друг другу, блок 63 вывода выводит аудиоданные на основе заданного на этапе S48 расположения громкоговорителей.
То есть, когда информация о расположении громкоговорителей считана из "height_extension_element" правильно, выполняется процесс на этапе S48. В этом случае, блок 62 декодирования подает аудиоданные на блок 63 вывода и дает команду вывода аудиоданных, так чтобы аудиоданные каждого канала воспроизводились громкоговорителями каждого заданного канала. Затем блок 63 вывода выводит аудиоданные в ответ на команды от блока 62 декодирования и процесс декодирования заканчивается.
Таким образом, устройство 51 декодирования декодирует информацию о расположении громкоговорителей или аудиоданные, содержащиеся в кодированном битовом потоке, и выводит аудиоданные на основе информации о расположении громкоговорителей. Поскольку информация о расположении громкоговорителей содержит информацию о расположении громкоговорителей в вертикальном направлении, возможно воспроизводить звуковую картину в вертикальном направлении, в дополнение к воспроизведению в плоскости. Поэтому можно воспроизводить более реалистический звук.
Конкретно, когда аудиоданные декодированы, например, при необходимости, выполняется также процесс понижающего микширования аудиоданных.
В этом случае, например, блок 62 декодирования считывает "MPEG4_ext_ancillary_data()", когда выражение "ancillary_data_extension_status" в выражении "ancillary_data_status()" для "MPEG4 ancillary data", показанного на фиг. 6, равно "1". Затем блок 62 декодирования считывает каждый элемент информации, содержащейся в "MPEG4_ext_ancillary_data()'', показанном на фиг. 11, и выполняет процесс понижающего микширования аудиоданных или процесс коррекции усиления.
Например, блок 62 декодирования выполняет понижающее микширование аудиоданных 7.1 каналов или 6.1 каналов до аудиоданных 5.1 каналов или дополнительно понижает микшированием аудиоданные 5.1 каналов до аудиоданных 2 каналов.
В этом случае, при необходимости, блок 62 декодирования использует аудиоданные канала LFE для понижающего микширования. Коэффициенты, умноженные по каждому каналу, определяются со ссылкой на выражение "ext_downmixing_levels()", показанное на фиг. 13, или "ext_downmixing_lfe_level()", показанное на фиг. 16. Кроме того, коррекция усиления во время понижающего микширования выполняется со ссылкой на "ext_downmixing_global_gains()", показанное на фиг. 15.
Пример структуры устройства кодирования
Далее будет описан пример подробной структуры упомянутых выше устройства кодирования и устройства декодирования и приведено подробное описание работы этих устройств.
На фиг. 26 показан пример подробной структуры устройства кодирования. Устройство 91 кодирования содержит блок 21 ввода, блок 22 кодирования и блок 23 упаковки.
На фиг. 26, компоненты, соответствующие тем, которые показаны на фиг. 22, обозначаются теми же самыми ссылочными позициями и их описание повторяться не будет.
Блок 22 кодирования содержит блок 101 кодирования РСЕ, блок 102 кодирования DSE и блок 103 кодирования аудиоэлементов.
Блок 101 кодирования РСЕ кодирует РСЕ на основе информации, предоставленной от блока 21 ввода. То есть блок 101 кодирования РСЕ формирует каждый элемент информации, которая должна храниться в РСЕ, в то же время кодируя каждый элемент информации, если необходимо. Блок 101 кодирования РСЕ содержит блок 111 кодирования синхронного слова, блок 112 кодирования информации о расположении и блок 113 кодирования идентификационной информации.
Блок 111 кодирования синхронного слова кодирует синхронное слово и использует кодированное синхронное слово в качестве информации, которая должна храниться в расширенной области, содержащейся в области комментария РСЕ. Блок 112 кодирования информации о расположении кодирует информацию о расположении громкоговорителей, которая указывает высоты (уровни) громкоговорителей для каждого элемента аудиоданных и подается от блока 21 ввода, и использует кодированную информацию о расположении громкоговорителей в качестве информации, которая должна храниться в расширенной области, предназначенной для области комментария.
Блок 113 кодирования идентификационной информации кодирует идентификационную информацию. Например, блок 113 кодирования идентификационной информации, в случае необходимости, формирует контрольный код CRC в качестве идентификационной информации на основе синхронного слова и информации о расположении громкоговорителей, и использует контрольный код CRC в качестве информации, которая должна храниться в расширенной области, предназначенной для области комментария.
Блок 102 кодирования DSE кодирует DSE на основе информации, предоставленной от блока 21 ввода. То есть блок 102 кодирования DSE формирует каждый элемент информации, которая должна храниться в DSE, в то же время кодируя каждый элемент информации, если необходимо. Блок 102 кодирования DSE содержит блок 114 кодирования расширенной информации и блок 115 кодирования информации о пониженном микшировании.
Блок 114 кодирования расширенной информации кодирует информацию (флаг), указывающую, содержится ли расширенная информация в "MPEG4_ext_ancillary_data()", который является расширенной областью DSE. Блок 115 кодирования о понижающем микшировании кодирует информацию о понижающем микшировании аудиоданных. Блок 103 кодирования аудиоэлементов кодирует аудиоданные, полученные от блока 21 ввода.
Блок 22 кодирования подает информацию, полученную кодированием каждого типа данных, которые должны храниться в каждом элементе, на блок 23 упаковки.
Описание процесса кодирования
Далее процесс кодирования устройством 91 кодирования будет описан со ссылкой на блок-схему последовательности выполнения операций, показанную на фиг. 27. Процесс кодирования будет описан более подробно чем процесс, который был описан со ссылкой на блок-схему последовательности выполнения операций, показанную на фиг. 23.
На этапе S71 блок 21 ввода получает аудиоданные и информацию, требующуюся для кодирования аудиоданных, и подает аудиоданные и информацию на блок 22 кодирования.
Например, блок 21 ввода получает в качестве аудиоданных данные импульсно-кодовой модуляции (РСМ) для каждого канала, информацию, указывающую расположение каждого канального громкоговорителя, информацию для указания коэффициента понижающего микширования и информацию, указывающую битовую скорость кодированного битового потока. Здесь, информацией, указывающей коэффициент понижающего микширования, является информация, указывающая коэффициент, который умножается на аудиоданные каждого канала во время понижающего микширования от 7.1 каналов или 6.1 каналов до 5.1 каналов и понижающего микширования от 5.1 каналов до 2 каналов.
Кроме того, блок 21 ввода получает имя файла кодированного битового потока, который должен быть получен. Имя файла соответственно используется устройством кодирования.
На этапе S72 блок 103 кодирования аудиоэлементов кодирует аудиоданные, полученные от блока 21 ввода и кодированные аудиоданные должны храниться в каждом элементе, таком как SCE, СРЕ и LFE. В этом случае, аудиоданные кодируются с битовой скоростью, которая определяется битовой скоростью, предоставленной от блока 21 ввода блоку 22 кодирования, и количеством кодов, предоставленных в информации, отличной от аудиоданных.
Например, аудиоданные канала С или канала Cs должны кодироваться и сохраняться в SCE. Аудиоданные канала L или канала R должны кодироваться и сохраняться в СРЕ. Кроме того, аудиоданные канала LFE должны кодироваться и сохраняться в LFE.
На этапе S73 блок 111 кодирования синхронного слова кодирует синхронное слово на основе информации, поданной от блока 21 ввода, и кодированное синхронное слово является информацией, которая должна храниться в "PCE_HEIGHT_EXTENSION_SYNC" для "height_extension_element", показанного на фиг. 4.
На этапе S74 блок 112 кодирования информации о расположении кодирует информацию о расположении громкоговорителей для каждых аудиоданных, которые подаются от блока 21 ввода.
Кодированная информация о расположении громкоговорителей хранится в "height_extension_element" в позиции для источника звука в блоке 23 упаковки, то есть в порядке, соответствующем расположению громкоговорителей. То есть информация о расположении громкоговорителей, указывающая высоту громкоговорителей (высоту источника звука) каждого канала, воспроизводимого громкоговорителем, который расположен перед пользователем, хранится как "front_element_height_info[i]" в "height_extension_element".
Кроме того, информация о расположении громкоговорителей, указывающая высоту громкоговорителей каждого канала, воспроизводимого громкоговорителем, который располагается сбоку от пользователя, хранится как "side_element_height_info[i]" в "height_extension_element" вслед за "front_element_height_info [i]". Затем, информация о расположении громкоговорителей, указывающая высоту громкоговорителей для каждого канала, воспроизводимого громкоговорителем, который располагается позади пользователя, хранится как "back_element_height_info[i]" в "height_extension_element" вслед за "side_element_height_info[i]".
На этапе S75 блок 113 кодирования идентификационной информации кодирует идентификационную информацию. Например, блок 113 кодирования идентификационной информации формирует контрольный код CRC как идентификационную информацию на основе синхронного слова и информации о расположении громкоговорителей, если необходимо. Контрольный код CRC является информацией, которая должна храниться в "height_info_crc_check" элемента "height_extension_element". Синхронное слово и контрольный код CRC являются информацией для идентификации, присутствует ли информация о расположении громкоговорителей в кодированном битовом потоке.
Кроме того, блок 113 кодирования идентификационной информации формирует информацию, дающую команду на выполнение выравнивания байтов, как информацию, которая должна храниться в "byte_alignment()" элемента "height_extension_element". Блок 113 кодирования идентификационной информации формирует информацию, дающую команду на выполнение сравнения идентификационной информации, как информацию, которая должна храниться в "if(crc_cal()!=height_info_crc_check)" элемента "height_extension_element".
Информация, которая должна храниться в расширенной области, содержащейся в области комментария РСЕ, то есть "height_extension_element", формируется процессом от этапа S73 до этапа S75.
На этапе S76 блок 101 кодирования РСЕ кодирует РСЕ на основе, например, информации, получаемой от блока 21 ввода или сформированной информации, которая хранится в расширенной области.
Например, блок 101 кодирования РСЕ формирует в качестве информации, которая должна храниться в РСЕ, информацию, указывающую количество каналов, воспроизводимых передними, боковыми и задними громкоговорителями, или информацию, указывающую, какому из каналов С, L и R принадлежит каждый элемент аудиоданных.
На этапе S77 блок 114 кодирования расширенной информации кодирует информацию, указывающую, содержится ли расширенная информация в расширенной области DSE, на основе информации, получаемой от блока 21 ввода, и кодированная информация должна храниться в "ancillary_data_extension_status" элемента "ancillary_data_status()", показанного на фиг. 8. Например, в качестве информации, указывающей, содержится ли расширенная информация, то есть информация, указывающая, должна ли храниться расширенная информация, "0" или "1" должны сохраняться в "ancillary_data_extension_status".
На этапе S78 блок 115 кодирования информации о понижающем микшировании кодирует информацию о понижающем микшировании аудиоданных на основе информации, получаемой от блока 21 ввода.
Например, блок 115 кодирования информации о понижающем микшировании кодирует информацию для указания коэффициента понижающего микширования, поданного от блока 21 ввода. Конкретно, блок 115 кодирования информации понижающего микширования кодирует информацию, указывающую коэффициент, который умножается на аудиоданные каждого канала во время понижающего микширования от 5.1 каналов до 2 каналов и должен быть равен "center_mix_level_value" и "surround_mix_level_value", хранящимся в "downmixing_levels_MPEG4()"
Кроме того, блок 115 кодирования информации понижающего микширования кодирует информацию, указывающую коэффициент, который умножается на аудиоданные канала LFE во время понижающего микширования от 5.1 каналов до 2 каналов и должен быть "dmix_lfe_idx", хранящимся в выражении "ext_downmixing_lfe_level()", показанном на фиг. 16. Аналогично, блок 115 кодирования информации о понижающем микшировании кодирует информацию, указывающую процедуру понижающего микширования до 2 каналов, которая подается от блока 21 ввода и которая должна быть "pseudo_surround_enable", хранящемся в "bs_info()", показанном на фиг. 7.
Блок 115 кодирования информации понижающего микширования кодирует информацию, указывающую коэффициент, который умножается на аудиоданные каждого канала во время понижающего микширования от 7.1 каналов или 6.1 каналов до 5.1 каналов и должен быть равен "center_mix_level_value" и "surround_mix_level_value", хранящемся в "downmixing_levels_MPEG4()".
Блок 115 кодирования информации понижающего микширования кодирует информацию, указывающую, должен ли использоваться канал LFE во время понижающего микширования от 5.1 каналов до 2 каналов. Кодированная информация должна храниться в "ext_downmixing_lfe_level_status", показанном на фиг. 12, содержащемся в "ext_ancillary_data_status()", показанном на фиг. 11, который является расширенной областью.
Блок 115 кодирования понижающего микширования кодирует информацию, требующуюся для регулировки усиления во время понижающего микширования. Кодированная информация должна храниться в "ext_downmixing_global_gains" в данных "MPEG4_ext_ancillary_data()", показанных на фиг. 11.
На этапе S79 блок 102 кодирования DSE кодирует DSE на основе информации, получаемой от блока 21 ввода или из сформированной информации о понижающем микшировании.
Информация, которая должна храниться в каждом элементе, таком как РСЕ, SCE, CPE, LFE и DSE, получается посредством описанного выше процесса. Блок 22 кодирования подает информацию, которая должна храниться в каждом элементе, в блок 23 упаковки. Кроме того, блок 22 кодирования формирует элементы, такие как "Header/Sideinfo", "FIL(DRC)" и "FIL(END)", и, при необходимости, подает сформированные элементы на блок 23 упаковки.
На этапе S80 блок 23 упаковки выполняет упаковку битов для аудиоданных или информации о расположении громкоговорителей, предоставленной от блока 22 кодирования, чтобы сформировать кодированный битовый поток, показанный на фиг. 3, и выводит кодированный битовый поток. Например, блок 23 упаковки хранит информацию, поданную от блока 22 кодирования в РСЕ или DSE, чтобы сформировать кодированный битовый поток. Когда кодированный битовый поток выведен, процесс кодирования заканчивается.
Таким образом, устройство 91 кодирования вставляет, например, информацию о расположении громкоговорителей, информацию о понижающем микшировании и информацию, указывающую, введена ли расширенная информация в расширенной области в кодированный битовый поток, и выводит кодированные аудиоданные. По существу, когда информация о расположении громкоговорителей и информация о понижающем микшировании сохраняются в кодированном битовом потоке, на стороне декодирования кодированного битового потока может быть получен высококачественный реалистический звук.
Например, когда информация о расположении громкоговорителей в вертикальном направлении хранится в кодированном битовом потоке, на стороне декодирования может воспроизводиться звуковая картина в вертикальном направлении, а также в плоскости. Поэтому можно воспроизводить реалистический звук.
Кроме того, кодированный битовый поток содержит множество элементов идентификационной информации (идентификационных кодов) для идентификации информации о расположении громкоговорителей, чтобы идентифицировать, является ли информация, хранящаяся в расширенной области в области для комментариев, информацией о расположении громкоговорителей или текстовой информацией, такой как другие комментарии. В этом варианте осуществления кодированный битовый поток содержит в качестве идентификационной информации синхронное слово, расположенное непосредственно перед информацией о расположении громкоговорителей и контрольным кодом CRC, который определяется содержанием хранящейся информации, такой как информация о расположении громкоговорителей.
Когда в кодированном битовом потоке содержатся два элемента идентификационной информации, возможно надежно указать, является ли информация, содержащаяся в кодированном битовом потоке, информацией о расположении громкоговорителей. В результате, используя полученную информацию о расположении громкоговорителей, можно получить высококачественный реалистический звук.
Кроме того, в кодированном битовом потоке в качестве информации для понижающего микширования аудиоданных в DSE содержится "pseudo_surround_enable". Эта информация делает возможным назначать любой из множества способов в качестве способа понижающего микширования каналов с 5.1 каналов до 2 каналов. Следовательно, возможно повысить гибкость аудиоданных на стороне декодирования.
Конкретно, в настоящем варианте осуществления в качестве способа понижающего микширования каналов с 5.1 каналов до 2 каналов существуют способ, использующий выражение (1), и способ, использующий выражение (2). Например, на стороне декодирования аудиоданные 2 каналов, полученные понижающим микшированием, передаются на воспроизводящее устройство и воспроизводящее устройство преобразует аудиоданные 2 каналов в аудиоданные 5.1 каналов и воспроизводит преобразованные звуковые данные.
В этом случае, при способе, использующем выражение (1), и при способе, использующем выражение (2), соответствующий акустический эффект, который заранее предполагается, когда воспроизводятся окончательные аудиоданные 5.1 каналов, вряд ли будет получен из аудиоданных, полученных любым из этих двух способов.
Однако в кодированном битовом потоке, полученном устройство 91 кодирования, способ понижающего микширования, способный получить акустический эффект, предполагаемый на стороне декодирования, может определяться посредством "pseudo_surround_enable". Поэтому на стороне декодирования может быть получен высококачественный реалистический звук.
Кроме того, в кодированном битовом потоке информация (флаг), указывающая, содержится ли расширенная информация, хранится в "ancillary_data_extension_status". Поэтому в отношении этой информации можно указать, содержится ли расширенная информация в "MPEG4_ext_ancillary_data ()", которая является расширенной областью.
Например, в этом примере, "ext_ancillary_data_status()", "ext_downmixing levels()", "ext_downmixing_global_gains" и "ext_downmixing_lfe_level()" в качестве расширенной информации, в случае необходимости, сохраняются в расширенной области.
Когда расширенная информация может быть получена, возможно повысить гибкость при понижающем микшировании аудиоданных, и на стороне декодирования могут быть получены различные виды аудиоданных. В результате можно получить высококачественный реалистический звук.
Пример структуры устройства декодирования
Далее будет описана подробная структура устройства декодирования.
На фиг. 28 показан пример подробной структуры устройства декодирования. На фиг. 28 компоненты, соответствующие тем, которые показаны на фиг. 24, обозначаются теми же самыми ссылочными позициями и их описание повторяться не будет.
Устройство 141 декодирования содержит разделительный блок 61, блок 62 декодирования, переключающий блок 151, блок 152 понижающего микширования и блок 63 вывода.
Разделительный блок 61 принимает кодированный битовый поток с выхода устройства 91 кодирования, распаковывает кодированный битовый поток и подает распакованный кодированный битовый поток на блок 62 декодирования. Кроме того, разделительный блок 61 получает формальный параметр понижающего микширования и имя файла аудиоданных.
Формальный параметр понижающего микширования является информацией, указывающей форму понижающего микширования аудиоданных, содержащихся в кодированном битовом потоке в устройстве 141 декодирования. Например, информация, указывающая понижающее микширование указания с 7.1 каналов или 6.1 каналов до 5.1 каналов, информация указывающая понижающее микширование с 7.1 каналов или 6.1 каналов до 2 каналов, информация, указывающая понижающее микширование с 5.1 каналов до 2 каналов, или информация, указывающая, что понижающее микширование не выполняется, вводится как формальный параметр понижающего микширования.
Формальный параметр понижающего микширования, полученный разделительным блоком 61, подается на переключающий блок 151 и блок 152 процесса понижающего микширования. Кроме того, имя файла, полученное разделительным блоком 61, соответственно используется в устройстве 141 декодирования.
Блок 62 декодирования декодирует кодированный битовый поток, поданный от разделительного блока 61. Блок 62 кодирования содержит блок 161 декодирования РСЕ, блок 162 декодирования DSE и блок 163 кодирования аудиоэлементов.
Блок 161 декодирования РСЕ декодирует РСЕ, содержащийся в кодированном битовом потоке и предоставляет информацию, полученную декодированием, на блок 152 процесса понижающего микширования и устройство 63 вывода. Блок 161 декодирования РСЕ блок 171 обнаружения синхронного слова и блок 172 вычисления идентификационной информации.
Блок 171 обнаружения синхронного слова обнаруживает синхронное слово в расширенной области в области комментариев РСЕ и считывает синхронное слово. Блок 172 вычисления идентификационной информации вычисляет идентификационную информацию на основе информации, которая считывается из расширенной области в области комментария РСЕ.
Блок 162 декодирования DSE декодирует DSE, содержащийся в кодированном битовом потоке, и подает информацию, полученную декодированием, на блок 152 процесса понижающего микширования. Блок 162 декодирования DSE содержит блок 173 обнаружения расширения и блок 174 декодирования информации пониженного микширования.
Блок 173 обнаружения расширения обнаруживает, содержится ли расширенная информация в выражении "MPEG4_ancillary_data()" для DSE. Блок 174 декодирования информации о понижающем микшировании декодирует информацию о понижающем микшировании, которая содержится в DSE.
Блок 163 декодирования аудиоэлементов декодирует аудиоданные, содержащиеся в кодированном битовом потоке, и подает аудиоданные на переключающий блок 151.
Переключающий блок 151 изменяет выходное назначение аудиоданных, поданных от блока 62 декодирования на блок 152 процесса понижающего микширования или на блок 63 вывода на основе формального параметра понижающего микширования, поданного от разделительного блока 61.
Блок 152 процесса понижающего микширования производит понижающее микширование аудиоданных, поданных от переключающего блока 151, на основе формального параметра понижающего микширования, поданного от разделительного блока 61, и информации, поданной от блока 62 декодирования, и подает аудиоданные после понижающего микширования на блок 63 вывода.
Блок 63 вывода выводит аудиоданные, полученные от переключающего блока 151 или блока 152 процесса понижающего микширования, на основе информации, поданной от блока 62 декодирования. Блок 63 вывода содержит блок 181 процесса перегруппировки. Блок 181 процесса перегруппировки перегруппирует аудиоданные, полученные от переключающего блока 151, на основе информации, поданной от блока 161 декодирования РСЕ, и выводит аудиоданные.
Пример структуры блока процесса понижающего микширования
На фиг. 29 показана подробная структура блок 152 процесса понижающего микширования, показанного на фиг. 28. То есть блок 152 процесса понижающего микширования содержит переключающий блок 211, переключающий блок 212, блоки 213-1-213-4 понижающего микширования, переключающий блок 214, блок 215 регулировки усиления, переключающий блок 216, блок 217-1 понижающего микширования, блок 217-2 понижающего микширования и блок 218 регулировки усиления.
Переключающий блок 211 подает аудиоданные, полученные от переключающего блока 151, на переключающий блок 212 или на переключающий блок 216. Например, выходным назначением аудиоданных является переключающий блок 212, когда аудиоданные являются данными 7.1 каналов или 6.1 каналов, и является переключающий блок 216, когда аудиоданными являются данные 5.1 каналов.
Переключающий блок 212 подает аудиоданные, полученные от переключающего блока 211, на любой из блоков 213-1-213-4 понижающего микширования. Например, переключающий блок 212 выводит аудиоданные на блок 213-1 понижающего микширования, когда аудиоданные являются данными 6.1 каналов.
Когда аудиоданные являются данными каналов L, Lc, С, Rc, R, Ls, Rs и LFE, переключающий блок 212 подает аудиоданные от переключающего блока 211 к блоку 213-2 понижающего микширования. Когда аудиоданные являются данными каналов L, R, С, Ls, Rs, Lrs, Rrs и LFE, переключающий блок 212 подает аудиоданные от переключающего блока 211 к блоку 213-3 понижающего микширования.
Когда аудиоданные являются данными каналов L, R, С, Ls, Rs, Lvh, Rvh и LFE, переключающий блок 212 подает аудиоданные от переключающего блока 211 к блоку 213-4 понижающего микширования.
Блоки 213-1-213-4 понижающего микширования производят операцию понижающего микширования аудиоданных, подаваемых от переключающего блока 212, в аудиоданные 5.1 каналов и подают аудиоданные на переключающий блок 214. Здесь далее, когда нет необходимости конкретно различать друг от друга блоки 213-1-213-4, они упоминаются просто как блоки 213 понижающего микширования.
Переключающий блок 214 подает аудиоданные, полученные от блока 213 понижающего микширования на блок 215 регулировки усиления или на переключающий блок 216. Например, когда для аудиоданных, содержащихся в кодированном битовом потоке, производится операция понижающего микширования до аудиоданных 5.1 каналов, переключающий блок 214 подает аудиоданные на блок 215 регулировки усиления. С другой стороны, когда для аудиоданных, содержащихся в кодированном битовом потоке, производится операция понижающего микширования до аудиоданных 2 каналов, переключающий блок 214 подает аудиоданные на переключающий блок 216.
Блок 225 регулировки усиления регулирует усиление аудиоданных, поданных от переключающего блока 214, и подает аудиоданные на блок 63 вывода.
Переключающий блок 216 подает аудиоданные, полученные от переключающего блока 211 или от переключающего блока 214, на блок 217-1 понижающего микширования или блок 217-2 понижающего микширования. Например, переключающий блок 216 изменяет назначение вывода аудиоданных в зависимости от значения "pseudo_surround_enable", содержащегося в DSE кодированного битового потока.
Блок 217-1 понижающего микширования и блок 217-2 понижающего микширования выполняют операцию понижающего микширования аудиоданных, поданных от переключающего блока 216 для данных 2 каналов, и подают данные на блок 218 регулировки усиления. Здесь далее, когда нет необходимости конкретно различать друг от друга блок 217-1 понижающего микширования и блок 217-2 понижающего микширования, они упоминаются просто как блоки 217 понижающего микширования.
Блок 218 регулировки усиления регулирует усиление аудиоданных, поданных от блока 217 понижающего микширования, и подает аудиоданные на блок 63 вывода.
Пример структуры блока процесса понижающего микширования
Далее будет описан пример подробной структуры блока 213 понижающего микширования и блока 217 понижающего микширования, показанных на фиг. 29.
На фиг. 30 показан пример структуры блока 213-1 понижающего микширования, показанного на фиг. 29.
Блок 213-1 понижающего микширования содержит входные выводы 241-1-241-7, умножительные блоки 242-244, блок 245 сложения, блок 246 сложения и выходные выводы 247-1-247-6.
Аудиоданные каналов L, R, С, Ls, Rs, Cs и LFE подаются от переключающего блока 212 на входные выводы 241-1-241-7.
С входных выводов 241-1-241-3 аудиоданные, полученные от переключающего блока 212, подаются на переключающий блок 214 через выходные выводы 247-1-247-3, без каких-либо изменений в аудиоданных. То есть аудиоданные каналов L, R и С, которые подаются на блок 213-1 понижающего микширования, подвергаются понижающему микшированию и выводятся как аудиоданные каналов L, R и С после понижающего микширования на следующий этап.
С входных выводов 241-4-241-6 аудиоданные, поступившие от переключающего блока 212, подаются на умножительные блоки 242-244. Умножительный блок 242 умножает аудиоданные, полученные от входного вывода 241-4, на коэффициент понижающего микширования и подает аудиоданные на блок 245 сложения.
Умножительный блок 243 умножает аудиоданные, поданные с входного вывода 241-5, на коэффициент понижающего микширования и подает аудиоданные на блок 246 сложения. Умножительный блок 244 умножает аудиоданные, поданные с входного вывода 241-6, на коэффициент понижающего микширования и подает аудиоданные на блок 245 сложения и на блок 246 сложения.
Блок 245 сложения складывает аудиоданные, полученные от умножительного блока 242, и аудиоданные, полученные от умножительного блока 244, и подает сложенные аудиоданные на выходной вывод 247-4. С выходного вывода-4 аудиоданные, полученные от блока 245 сложения, подаются в качестве аудиоданных канала Ls после понижающего микширования на переключающий блок 214.
Блок 246 сложения складывает аудиоданные, полученные от умножительного блока 243, и аудиоданные, полученные от умножительного блока 244, и подает сложенные аудиоданные на выходной вывод 247-5.
С выходного вывода 247-5 аудиоданные, полученные от блока 246 сложения, в качестве аудиоданных канала Rs после понижающего микширования подаются на переключающий блок 214.
С входного вывода 241-7 аудиоданные, полученные от переключающего блока 212, подаются на переключающий блок 214 через выходной вывод 247-6 без каких-либо изменений в аудиоданных. То есть аудиоданные канала LFE, поданные на блок 213-1 понижающего микширования, выводятся в качестве аудиоданных канала LFE после понижающего микширования на следующий этап без какого-либо изменения.
Здесь далее, когда нет необходимости конкретно различать друг от друга входные выводы 241-1-241-7, они упоминаются просто как входные выводы 241. Здесь далее, когда нет необходимости конкретно различать друг от друга выходные выводы 247-1-247-6, они упоминаются просто как выходные выводы 247.
По существу, в блоке 213-1 понижающего микширования выполняется процесс, соответствующий вычислению, использующему упомянутое выше выражение (6).
На фиг. 31 показан пример структуры блока 213-2 понижающего микширования, показанного на фиг. 29.
Блок 213-2 понижающего микширования содержит входные выводы 271-1-271-8, умножительные блоки 272-275, блок 276 сложения, блок 277 сложения, блок 278 сложения и выходные выводы 279-1-279-6.
Аудиоданные каналов L, Lc, C, Rc, R, Ls, Rs и LFE переключающего блока 212 на входные выводы 271-1-271-8..
С входных выводов 271-1-271-5 аудиоданные, полученные от переключающего блока 212, подаются на блок 276 сложения, умножительные блоки 272 и 273, блок 277 сложения, умножительные блоки 274 и 275 и блок 278 сложения, соответственно.
Умножительный блок 272 и умножительный блок 273 умножают аудиоданные, поданные с входного вывода 271-2, на коэффициент понижающего микширования и подают аудиоданные на блок 276 сложения и на блок 277 сложения, соответственно. Умножительный блок 274 и умножительный блок 275 умножают аудиоданные, поданные с входного вывода 271-4, на коэффициент понижающего микширования и подают аудиоданные на блок 277 сложения и на блок 278 сложения, соответственно.
Блок 276 сложения складывает аудиоданные, полученные от входного вывода 271-1, и аудиоданные, полученные от умножительного блока 272, и подает сложенные аудиоданные на выходной вывод 279-1. С выходного вывода 279-1 аудиоданные, полученные от блока 276 сложения, подаются в качестве аудиоданных канала L после понижающего микширования на переключающий блок 214.
Блок 277 сложения складывает аудиоданные, полученные от входного вывода 271-3, и аудиоданные, полученные от умножительного блока 273, и аудиоданные, полученные от умножительного блока 274, и подает сложенные аудиоданные на выходной вывод 279-2. С выходного вывода 279-2 аудиоданные, полученные от блока 277 сложения, подаются в качестве аудиоданных канала С после понижающего микширования на переключающий блок 214.
Блок 278 сложения складывает аудиоданные, полученные от входного вывода 271-5, и аудиоданные, полученные от умножительного блока 275. и подает сложенные аудиоданные на выходной вывод 279-3. С выходного вывода 279-3 аудиоданные, полученные от блока 278 сложения, подаются в качестве аудиоданных канала R после понижающего микширования на переключающий блок 214.
С входных выводов 271-6-241-8 аудиоданные, полученные от переключающего блока 212, подаются на переключающий блок 214 через выходные выводы 279-4-279-6, без каких-либо изменений в аудиоданных. То есть аудиоданные каналов Ls, Rs и LFE, поданные на блок 213-2 понижающего микширования, выводятся в качестве аудиоданных каналов Ls, Rs и LFE после понижающего микширования на следующий этап без какого-либо изменения.
Здесь далее, когда нет необходимости конкретно различать друг от друга входные выводы 271-1-271-8, они упоминаются просто как входные выводы 271. Когда нет необходимости конкретно различать друг от друга выходные выводы 279-1-279-6, они упоминаются просто как выходные выводы 279.
По существу, в блоке 213-2 понижающего микширования выполняется процесс, соответствующий вычислению, использующему упомянутое выше выражение (4).
На фиг. 32 показан пример структуры блока 213-3 понижающего микширования, показанного на фиг. 29.
Блок 213-3 понижающего микширования содержит входные выводы 301-1-301-8, умножительные блоки 302-305, блок 306 сложения, блок 307 сложения и выходные выводы 308-1-308-6.
Аудиоданные каналов L, R, С, Ls, Rs, Lrs, Rrs и LFE подаются от переключающего блока 212 на входные выводы 301-1-301-8.
С входных выводов 301-1-301-3 аудиоданные, полученные от переключающего блока 212, подаются на переключающий блок 214 через выходные выводы 308-1-308-3, соответственно, без каких-либо изменений в аудиоданных. То есть аудиоданные каналов L, R и С, которые подаются на блок 213-3 понижающего микширования, выводятся как аудиоданные каналов L, R и С после понижающего микширования на следующий этап.
С входных выводов 301-4-301-7 аудиоданные, полученные от переключающего блока 212, подаются на умножительные блоки 302-305, соответственно. Умножительные блоки 302-305 умножают аудиоданные, поданные с входных выводов 301-4-301-7, на коэффициент понижающего микширования и подают аудиоданные на блок 306 сложения, на блок 307 сложения, на блок 306 сложения и блок 307 сложения, соответственно.
Блок 306 сложения складывает аудиоданные, полученные от умножительного блока 302, и аудиоданные, полученные от умножительного блока 304, и подает аудиоданные на выходной вывод 308-4. С выходного вывода 308-4 аудиоданные, полученные от блока 306 сложения, подаются в качестве аудиоданных канала Ls после понижающего микширования на переключающий блок 214.
Блок 307 сложения складывает аудиоданные, полученные от умножительного блока 303, и аудиоданные, полученные от умножительного блока 305, и подает аудиоданные на выходной вывод 308-5. С выходного вывода 308-5 аудиоданные, полученные от блока 307 сложения, подаются в качестве аудиоданных канала Rs после понижающего микширования на переключающий блок 214.
С входного вывода 301-8 аудиоданные, полученные от переключающего блока 212, подаются на переключающий блок 214 через выходной вывод 308-6 без каких-либо изменений в аудиоданных. То есть аудиоданные канала LFE, поданные на блок 213-3 понижающего микширования, выводятся в качестве аудиоданных канала LFE после понижающего микширования на следующий этап без какого-либо изменения.
Здесь далее, когда нет необходимости конкретно различать друг от друга входные выводы 301-1-301-8, они упоминаются просто как входные выводы 301. Когда нет необходимости конкретно различать друг от друга выходные выводы 308-1-308-6, они упоминаются просто как выходные выводы 308.
По существу, в блоке 213-3 понижающего микширования выполняется процесс, соответствующий вычислению, использующему упомянутое выше выражение (3).
На фиг. 33 показан пример структуры блока 213-4 понижающего микширования, показанного на фиг. 29.
Блок 213-4 понижающего микширования содержит входные выводы 331-1-331-8, умножительные блоки 332-335, блок 336 сложения, блок 337 сложения и выходные выводы 338-1-338-6.
Аудиоданные каналов L, R, С, Ls, Rs, Lvh, Rvh, и LFE подаются от переключающего блока 212 на входные выводы 331-1-331-8, соответственно.
С входного вывода 331-1 и входного вывода 331-2 аудиоданные, полученные от переключающего блока 212, подаются на умножительный блок 332 и умножительный блок 333, соответственно. С входного вывода 331-6 и входного вывода 331-7 аудиоданные, полученные от переключающего блока 212, подаются на умножительный блок 334 и умножительный блок 335, соответственно.
Умножительные блоки 332-335 умножают аудиоданные, поданные с входного вывода 331-1, входного вывода 331-2, входного вывода 331-6 и входного вывода 331-7, на коэффициент понижающего микширования и подают аудиоданные на блок 336 сложения, на блок 337 сложения и на блок 337 сложения, соответственно.
Блок 336 сложения складывает аудиоданные, полученные от умножительного блока 332, и аудиоданные, полученные от умножительного блока 334, и подает аудиоданные на выходной вывод 338-1. С выходного вывода 338-1 аудиоданные, полученные от блока 336 сложения, подаются в качестве аудиоданных канала L после понижающего микширования на переключающий блок 214.
Блок 337 сложения складывает аудиоданные, полученные от умножительного блока 333, и аудиоданные, полученные от умножительного блока 335, и подает аудиоданные на выходной вывод 338-2. С выходного вывода 338-2 аудиоданные, полученные от блока 337 сложения, подаются в качестве аудиоданных канала R после понижающего микширования на переключающий блок 214.
С входных выводов 331-3-331-5 и входного вывода 331-8 аудиоданные, полученные от переключающего блока 212, подаются на переключающий блок 214 через выходные выводы 338-3-338-5 и выходной вывод 338-6, соответственно, без каких-либо изменений в аудиоданных. То есть аудиоданные каналов С, Ls, Rs и LFE, поданные на блок 213-4 понижающего микширования, выводятся в качестве аудиоданных каналов С, Ls, Rs и LFE после понижающего микширования на следующий этап без какого-либо изменения.
Здесь далее, когда нет необходимости конкретно различать друг от друга входные выводы 331-1-331-8, они упоминаются просто как входные выводы 331. Когда нет необходимости конкретно различать друг от друга выходные выводы 338-1-338-6, они упоминаются просто как выходные выводы 338.
По существу, в блоке 213-4 понижающего микширования выполняется процесс, соответствующий вычислению, использующему упомянутое выше выражение (5).
Далее будет описан пример подробной структуры блока 217 понижающего микширования, показанного на фиг. 29.
На фиг. 34 показан пример структуры блока 217-1 понижающего микширования, показанного на фиг. 29.
Блок 217-1 понижающего микширования содержит входные выводы 361-1-361-6, умножительные блоки 362-365, блоки 366-371 сложения, и выходной вывод 372-1 и выходной вывод 372-2.
Аудиоданные каналов L, R, С, Ls, Rs и LFE подаются от переключающего блока 216 на входные выводы 361-1-361-6, соответственно.
С входных выводов 361-1-361-6 аудиоданные, полученные от переключающего блока 216, подаются на блок 366 сложения, блок 369 сложения и умножительные блоки 362-365, соответственно.
Умножительные блоки 362-305 умножают аудиоданные, поданные с входных выводов 361-3-36-6, на коэффициент понижающего микширования и подают аудиоданные на блоки 366 и 369 сложения, на блок 367 сложения, блок 370 сложения и на блоки 368 и 371 сложения, соответственно.
Блок 366 сложения складывает аудиоданные, полученные от входного вывода 361-1, и аудиоданные, полученные от умножительного блока 362, и подает сложенные аудиоданные на блок 367 сложения. Блок 367 сложения складывает аудиоданные, полученные от блока 366 сложения, и аудиоданные, полученные от умножительного блока 363, и подает сложенные аудиоданные на блок 368 сложения.
Блок 368 сложения складывает аудиоданные, полученные от блока 367 сложения, и аудиоданные, полученные от умножительного блока 365, и подает сложенные аудиоданные на выходной вывод 372-1. С выходного вывода 372-1 аудиоданные, полученные от блока 368 сложения, подаются в качестве аудиоданных канала L после понижающего микширования на блок 218 регулировки усиления.
Блок 369 сложения складывает аудиоданные, полученные от входного вывода 361-2, и аудиоданные, полученные от умножительного блока 362, и подает сложенные аудиоданные на блок 370 сложения. Блок 370 сложения складывает аудиоданные, полученные от блока 369 сложения, и аудиоданные, полученные от умножительного блока 364, и подает сложенные аудиоданные на блок 371 сложения.
Блок 371 сложения складывает аудиоданные, полученные от блока 370 сложения, и аудиоданные, полученные от умножительного блока 365, и подает сложенные аудиоданные на выходной вывод 372-2. С выходного вывода 372-2 аудиоданные, полученные от блока 371 сложения, подаются в качестве аудиоданных канала R после понижающего микширования на блок 218 регулировки усиления.
Здесь далее, когда нет необходимости конкретно различать друг от друга входные выводы 361-1-361-6, они упоминаются просто как входные выводы 361. Когда нет необходимости конкретно различать друг от друга выходные выводы 372-1-372-2, они упоминаются просто как выходные выводы 372.
По существу, в блоке 217-1 понижающего микширования выполняется процесс, соответствующий вычислению, использующему упомянутое выше выражение (1).
На фиг. 35 показан пример структуры блока 217-2 понижающего микширования, показанного на фиг. 29.
Блок 217-2 понижающего микширования содержит входные выводы 401-1-401-6, умножительные блоки 401-405, блок 406 сложения, блок 407 вычитания, блок 408 вычитания, блоки 409-413 сложения, выходной вывод 414-1 и выходной вывод 414-2.
Аудиоданные каналов L, R, С, Ls, Rs и LFE подаются от переключающего блока 216 на входные выводы 401-1-401-6, соответственно.
С входных выводов 401-1-401-6 аудиоданные, полученные от переключающего блока 216, подаются на блок 406 сложения, блок 410 сложения и умножительные блоки 401-405, соответственно.
Умножительные блоки 402-405 умножают аудиоданные, полученные с входных выводов 401-3-401-6, на коэффициент понижающего микширования и подают аудиоданные на блоки 406 и 410 сложения, на блок 407 вычитания и блок 411 сложения, блок 408 вычитания и блок 412 сложения и блоки 409 и 413 сложения, соответственно.
Блок 406 сложения складывает аудиоданные, полученные от входного вывода 401-1, и аудиоданные, полученные от умножительного блока 402, и подает сложенные аудиоданные на блок 407 вычитания. Блок 407 вычитания вычитает аудиоданные, полученные от умножительного блока 403, из аудиоданных, поданных от блока 406 сложения, и подает вычтенные аудиоданные на блок 408 вычитания.
Блок 408 вычитания вычитает аудиоданные, полученные от умножительного блока 404, из аудиоданных, полученных от блока 407 вычитания, и подает вычтенные аудиоданные на блок 409 сложения. Блок 409 сложения складывает аудиоданные, полученные от блока 408 вычитания, и аудиоданные, полученные от умножительного блока 405, и подает сложенные аудиоданные на выходной вывод 414-1. С выходного вывода 414-1 аудиоданные, полученные от блока 409 сложения, подаются в качестве аудиоданных канала L после понижающего микширования на блок 218 регулировки усиления.
Блок 410 сложения складывает аудиоданные, полученные от входного вывода 401-2, и аудиоданные, полученные от умножительного блока 402, и подает сложенные аудиоданные на блок 411 сложения. Блок 411 сложения складывает аудиоданные, полученные от блока 410 сложения, и аудиоданные, полученные от умножительного блока 403, и подает сложенные аудиоданные на блок 412 сложения.
Блок 412 сложения складывает аудиоданные, полученные от блока 411 сложения, и аудиоданные, полученные от умножительного блока 404, и подает сложенные аудиоданные на блок 413 сложения. Блок 413 сложения складывает аудиоданные, полученные от блока 412 сложения, и аудиоданные, полученные от умножительного блока 405, и подает сложенные аудиоданные на выходной вывод 414-2. С выходного вывода 414-2 аудиоданные, полученные от блока 413 сложения, подаются в качестве аудиоданных канала R после понижающего микширования на блок 218 регулировки усиления.
Здесь далее, когда нет необходимости конкретно различать друг от друга входные выводы 401-1-401-6, они упоминаются просто как входные выводы 401. Когда нет необходимости конкретно различать друг от друга выходные выводы 414-1-414-2, они упоминаются просто как выходные выводы 414.
По существу, в блоке 217-2 понижающего микширования выполняется процесс, соответствующий вычислению, использующему упомянутое выше выражение (2).
Описание процесса декодирования
Далее процесс декодирования устройством 141 декодирования будет описан со ссылкой на блок-схему последовательности выполнения операций, показанную на фиг. 36.
На этапе S111 разделительный блок 61 получает формальный параметр понижающего микширования и кодированный битовый поток с выхода устройства 91 кодирования. Например, формальный параметр понижающего микширования получают от устройства обработки информации, содержащего устройство декодирования.
Разделительный блок 61 подает полученный формальный параметр понижающего микширования на переключающий блок 151 и на блок 152 процесса понижающего микширования. Кроме того, разделительный блок 61 получает выходное имя файла аудиоданных и соответственно, при необходимости, использует выходное имя файла.
На этапе S112 разделительный блок 61 распаковывает кодированный битовый поток и подает каждый элемент, полученный при распаковке, на блок 62 декодирования.
На этапе S113 блок 161 декодирования РСЕ декодирует РСЕ, поданный от разделительного блока 61. Например, блок 161 декодирования РСЕ считывает "height_extension_element", который является расширенной областью, из области комментария РСЕ или считывает информацию о расположении громкоговорителей из РСЕ. Здесь, в качестве информации о расположении громкоговорителей используется, например, количество каналов, воспроизводимых громкоговорителями, которые расположены перед, сбоку и сзади пользователя, или информация, указывающая какому из каналов С, L и R принадлежит каждый элемент аудиоданных.
На этапе S114 блок 162 декодирования DSE декодирует DSE, поданный от разделительного блока 61. Например, блок 162 декодирования DSE считывает данные "MPEG4 ancillary data" из DSE или считывает необходимую информацию из "MPEG4 ancillary data".
Конкретно, например, блок 174 декодирования информации о понижающем микшировании для блока 162 декодирования DSE считывает значение "center_mix_level_value" или "surround_mix_level_value" в качестве информации, указывающей коэффициент, используемый для понижающего микширования, из "downmixing_levels_MPEG4()", показанного на фиг. 9, и подает считанную информацию на блок 152 процесса понижающего микширования.
На этапе S115 блок 163 декодирования аудиоэлементов декодирует аудиоданные, хранящиеся в каждом из SCE, СРЕ и LFE, поданных от разделительного блока 61. Таким образом, данные РСМ каждого канала получаются как аудиоданные.
Например, канал декодированных аудиоданных, то есть положение расположения на горизонтальной плоскости, может быть указан таким элементом, как SCE, хранящим аудиоданные, или информацией о расположении громкоговорителей, которую получают декодированием DSE. Однако в этом случае, поскольку информация о расположении громкоговорителей, являющаяся информацией о расположении громкоговорителей по высоте, не считывается, высота (уровень) каждого канала не указывается.
Блок 163 декодирования аудиоэлементов подает аудиоданные, полученные декодированием, на переключающий блок 151.
На этапе S116 переключающий блок 151 определяет, осуществлять ли понижающее микширование аудиоданных на основе формального параметра понижающего микширования, полученного от разделительного блока 61. Например, когда формальный параметр понижающего микширования указывает, что понижающее микширование не выполняется, переключающий блок 151 принимает решение не выполнять понижающее микширование.
На этапе S116, когда принято решение, что понижающее микширование не выполняется, переключающий блок 151 подает аудиоданные, полученные от блока 62 декодирования, на блок 181 процесса перегруппировки и процесс переходит к этапу S117.
На этапе S117 устройство 141 декодирования выполняет процесс перегруппировки, чтобы перегруппировать каждый элемент аудиоданных на основе расположения громкоговорителей, и выводит аудиоданные. Когда кодированный битовый поток выведен, процесс кодирования заканчивается. Кроме того, процесс перегруппировки ниже будет описан подробно.
С другой стороны, когда на этапе S116 принято решение, что понижающее микширование выполняется, переключающий блок 151 подает аудиоданные, полученные от блока 62 декодирования, на переключающий блок 211 блока 152 процесса понижающего микширования и процесс переходит к этапу S118.
На этапе S118 устройство 141 декодирования выполняет процесс понижающего микширования, чтобы осуществить понижающее микширование каждого элемента аудиоданных в аудиоданные, соответствующие количеству каналов, указанному формальным параметром понижающего микширования, и выводит аудиоданные. Когда аудиоданные выведены, процесс декодирования заканчивается. Кроме того, процесс понижающего микширования ниже будет описан подробно.
Таким образом, устройство 141 декодирования декодирует кодированный битовый поток и выводит аудиоданные.
Описание процесса перегруппировки
Далее будет описан процесс перегруппировки, соответствующий процессу, описанному на этапе S117 на фиг. 36, будет описан со ссылкой на блок-схемы последовательности выполнения операций, показанные на фиг. 37 и 38.
На этапе S141 блок 171 обнаружения синхронного слова устанавливает параметр cmt_byte для считывания синхронного слова из области комментария (расширенной области) РСЕ, такого, которое равно количеству байтов в области комментария РСЕ. То есть количество байтов в области комментария устанавливается как значение параметра cmt_byte.
На этапе S142 блок 171 обнаружения синхронного слова считывает данные, соответствующие количеству данных заданного синхронного слова, из области комментария РСЕ. Например, в примере, показанном на фиг. 4, поскольку "PCE_HEIGHT_EXTENSION_SYNC", являющееся синхронным словом, равно 8 битам, то есть 1 байту, из заголовка области комментария РСЕ считываются 1-байтные данные.
На этапе S143 блок 161 декодирования РСЕ решает, являются ли данные, считанные на этапе S142, идентичными синхронному слову. То есть определяется, являются ли считанные данные синхронным словом.
Когда на этапе S143 решено, что считанные данные не идентичны синхронному слову, блок 171 обнаружения синхронного слова снижает значение параметра cmt_byte на значение, соответствующее объему данных, считанных на этапе S144. В данном случае значение параметра cmt_byte снижается на 1 байт.
На этапе S145 блок 171 обнаружения синхронного слова определяет, является ли значение параметра cmt_byte большим, чем 0. То есть определяется, является ли параметр cmt_byte большим, чем 0, то есть все ли данные в области комментария считываются.
Когда на этапе S145 определено, что значение параметра cmt_byte больше 0, не все данные считываются из области комментария и процесс возвращается к этапу S142. Затем описанный выше процесс повторяется. То есть данные, соответствующие объему данных синхронного слова, считываются вслед за данными, считанными из области комментария, и сравниваются с синхронным словом.
С другой стороны, когда на этапе S145 определяется, что значение параметра cmt_byte не больше 0, процесс переходит к этапу S146. В сущности, процесс переходит к процессу S146, когда все данные в области комментария считаны, но никакое синхронное слово в области комментария не обнаружено.
На этапе S146 блок 161 декодирования РСЕ решает, что нет никакой информации о расположении громкоговорителей, и подает информацию, указывающую, что нет никакой информации о расположении громкоговорителей, на блок 181 процесса перегруппировки. Затем процесс переходит к этапу S164. В сущности, поскольку синхронное слово располагается непосредственно перед информацией о расположении громкоговорителей в элементе "height_extension_element", можно упростить и надежно указывать, является ли информация, содержащаяся в области комментария информацией о расположении громкоговорителей.
Когда на этапе S143 определено, что данные, считанные из области комментария идентичны синхронному слову, синхронное слово обнаруживается. Поэтому процесс переходит к этапу S147, чтобы считать информацию о расположении громкоговорителей сразу же после синхронного слова.
На этапе S147 блок 161 декодирования РСЕ устанавливает значение параметра num_fr_elem для считывания информации о расположении громкоговорителей аудиоданных, воспроизводимых громкоговорителем, который расположен перед пользователем, как количество элементов, принадлежащих передней стороне.
Здесь, количество элементов, принадлежащих передней стороне, равно количеству элементов аудиоданных (количеству каналов), воспроизводимых громкоговорителем, расположенным перед пользователем. Количество элементов сохраняется в РСЕ. Поэтому значение параметра num_fr_elem является количеством элементов информации о расположении громкоговорителей аудиоданных, считанных из "height_extension_element и воспроизводимых громкоговорителем, расположенным перед пользователем.
На этапе S148 блок 161 декодирования РСЕ определяет, является ли значение параметра num_fr_elem большим, чем 0.
Когда на этапе S148 определено, что значение параметра num_fr_elem больше 0, процесс переходит к этапу S149, поскольку вся информация о расположении громкоговорителей не считывается.
На этапе S149 блок 161 декодирования РСЕ считывает информацию о расположении громкоговорителей, соответствующую одному элементу, расположенному вслед за синхронным словом в области комментария. В примере, показанном на фиг. 4, когда один элемент информации о расположении громкоговорителей равен 2 битам, 2-битные данные, расположенные непосредственно после данных, считанных из области комментария, считываются как один элемент информации о расположении громкоговорителей.
Возможно указать каждый элемент информации о расположении громкоговорителей об аудиоданных на основе, например, положения расположения в информации о расположении громкоговорителей в элементе "height_extension_element" или в элементе, хранящем аудиоданные, таком как SCE.
На этапе S150, поскольку считывается один элемент информации о расположении громкоговорителей, блок 161 декодирования РСЕ уменьшает значение параметра num_fr_elem на 1. После того, как параметр num_fr_elem обновлен, процесс возвращается к этапу Step SI48 и упомянутый выше процесс повторяется. То есть считывается следующая информация о расположении громкоговорителей.
Когда на этапе S148 определено, что значение параметра num_fr_elem не больше 0, процесс переходит к этапу S151, поскольку вся информация о переднем элементе из информации о расположении громкоговорителей считана.
На этапе S151 блок 161 декодирования РСЕ устанавливает значение параметра num_side_elem для считывания информации о расположении громкоговорителей в аудиоданных, воспроизводимых громкоговорителем, который расположен сбоку от пользователя, как количество элементов, принадлежащих боковой стороне.
Здесь, количество элементов, принадлежащих боковой стороне, равно количеству элементов аудиоданных, воспроизводимых громкоговорителем, расположенным сбоку от пользователя. Количество элементов сохраняется в РСЕ.
На этапе S152 блок 161 декодирования РСЕ определяет, является ли значение параметра num_side_elem большим, чем 0.
Когда на этапе S152 определено, что значение параметра num_side_elem больше 0, блок 161 декодирования РСЕ считывает информацию о расположении громкоговорителей, соответствующую одному элементу и расположенную вслед за данными, считанными из области комментария на этапе S153. Информация о расположении громкоговорителей, считанная на этапе S153, является информацией о расположении громкоговорителей канала, находящегося сбоку от пользователя, то есть "side_element_height_info[i]".
На этапе S154 блок 161 декодирования РСЕ уменьшает значение параметра num_side_elem на 1. После того, как параметр num_side_elem обновлен, процесс возвращается к этапу S152 и упомянутый выше процесс повторяется.
С другой стороны, когда на этапе S152 определено, что значение параметра num_side_elem не больше 0, процесс переходит к этапу S155, поскольку вся информация о боковом элементе из информации о расположении громкоговорителей считана.
На этапе S155 блок 161 декодирования РСЕ устанавливает значение параметра num_back_elem для считывания информации о расположении громкоговорителей в аудиоданных, воспроизводимых громкоговорителем, который расположен сзади от пользователя, как количество элементов, принадлежащих задней стороне.
Здесь, количество элементов, принадлежащих задней стороне, равно количеству элементов аудиоданных, воспроизводимых громкоговорителем, расположенным сзади от пользователя. Количество элементов сохраняется в РСЕ.
На этапе S156 блок 161 декодирования РСЕ определяет, является ли значение параметра num_back_elem большим, чем 0.
Когда на этапе S156 определено, что значение параметра num_back_elem больше 0, блок 161 декодирования РСЕ считывает информацию о расположении громкоговорителей, соответствующую одному элементу и расположенную вслед за данными, считанными из области комментария на этапе S157. Информация о расположении громкоговорителей, считанная на этапе S157, является информацией о расположении громкоговорителей для канала, находящегося сзади от пользователя, то есть "back_element_height_info[i]".
На этапе S158 блок 161 декодирования РСЕ уменьшает значение параметра num_back_elem на 1. После того, как параметр num_back_elem обновлен, процесс возвращается к этапу S156 и упомянутый выше процесс повторяется.
Когда на этапе S156 определено, что значение параметра num_back_elem не больше 0, процесс переходит к этапу S159, поскольку вся информация о заднем элементе из информации о расположении громкоговорителей считана.
На этапе S159 блок 172 вычисления идентификационной информации выполняет выравнивание байтов.
Например, информация "byte_alignment()" для подачи команды на выполнение выравнивания байтов хранится после информации о расположении громкоговорителей в "height_extension_element", показанном на фиг. 4. Поэтому, когда эта информация считана, блок 172 вычисления идентификационной информации выполняет выравнивание байтов.
Конкретно, блок 172 вычисления идентификационной информации adds добавляет заданные данные непосредственно после информации, которая считывается между "PCE_HEIGHT_EXTENSION_SYNC" и "byte_alignment()" в "height_extension_element", так что объем данных считанной информации является целым числом, кратным 8 битам. То есть выравнивание байтов выполняется так, что общий объем данных считанного синхронного слова, информация о расположении громкоговорителей и добавленные данные являются целым числом, кратным 8 битам.
В этом примере количество каналов аудиоданных, то есть количество элементов информации о расположении громкоговорителей, содержащееся в кодированном битовом потоке, находится в пределах заданного диапазона. Поэтому, данные, полученные выравниванием байтов, то есть один элемент данных (здесь далее также упоминаемый как данные выравнивания), содержащий синхронное слово, информацию о расположении громкоговорителей и добавленные данные, обязательно равен заданному объему данных.
Другими словами, объем данных выравнивания обязательно равен заданному объему данных, независимо от количества элементов информации о расположении громкоговорителей, содержащихся в "height_extension_element", то есть от количества каналов аудиоданных. Поэтому, если объем данных выравнивания не является заданным объемом данных на момент, когда формируются данные выравнивания, блок 161 декодирования РСЕ решает, что считанная информация о расположении громкоговорителей является неправильной информацией о расположении громкоговорителей, то есть считанная информация о расположении громкоговорителей недействительна.
На этапе S160 блок 172 вычисления идентификационной информации считывает идентификационную информацию, которая следует за "byte_alignment()", считанным на этапе S159, то есть информацию, хранящуюся в "height_info_crc_check" в элементе "height_extension_element". Здесь, например, в качестве идентификационной информации считывается контрольный код CRC.
На этапе S161 блок 172 вычисления идентификационной информации вычисляет идентификационную информацию на основе данных выравнивания, полученных на этапе S159. Например, в качестве идентификационной информации вычисляется контрольный код CRC.
На этапе S162 блок 161 декодирования РСЕ решает, является ли идентификационная информация, считанная на этапе S160, идентичной идентификационной информации, вычисленной на этапе S161.
Когда объем данных выравнивания не равен заданному объему данных, блок 161 декодирования РСЕ не выполняет этап S160 и этап S161 и на этапе S162 решает, что элементы идентификационной информации не идентичны друг другу.
Когда на этапе S162 решено, что элементы идентификационной информации не идентичны друг другу, блок 161 декодирования РСЕ делает недействительной считанную информацию о расположении громкоговорителей и на этапе S163 подает информацию, указывающую, что считанная информация о расположении громкоговорителей является недействительной, на блок 181 процесса перегруппировки и на блок 152 процесса понижающего микширования. Затем процесс переходит к этапу S164.
Когда процесс на этапе S163 или процесс на этапе S146 выполнен, блок 181 процесса перегруппировки на этапе S164 выводит аудиоданные, полученные от переключающего блока 151, на заданную группу громкоговорителей.
В этом случае, например, блок 181 процесса перегруппировки определяет группирование громкоговорителей каждого элемента аудиоданных на основе информации о расположении громкоговорителей, которая считывается из РСЕ и подается от блока 161 декодирования РСЕ. Ссылочное место назначения информации, которое используется блоком 181 процесса перегруппировки для определения группировки громкоговорителей, зависит от службы или применения, использующих аудиоданные, и задается на основе количества каналов аудиоданных.
Когда процесс на этапе S164 выполнен, процесс перегруппировки заканчивается. На этом процесс на этапе S117, показанный на фиг. 36, заканчивается. На этом процесс декодирования заканчивается.
С другой стороны, когда на этапе S162 решено, что элементы идентификационной информации идентичны друг другу, блок 161 декодирования РСЕ делает действительной считанную информацию о расположении громкоговорителей и на этапе S165 подает информацию о расположении громкоговорителей на блок 181 процесса перегруппировки и на блок 152 процесса понижающего микширования. В этом случае, блок 161 декодирования РСЕ также подает информацию о расположении громкоговорителей, считанную из РСЕ, на блок 181 процесса перегруппировки и на блок 152 процесса понижающего микширования.
На этапе S166 блок 181 процесса перегруппировки выводит аудиоданные, полученные от переключающего блока 151, соответствующие расположению громкоговорителей, которые определены, например, информацией о расположении громкоговорителей, поданной от блока 161 декодирования РСЕ. То есть аудиоданные каждого канала перегруппировываются в порядке, который определяется, например, информацией о расположении громкоговорителей и затем выводится на следующий этап. Когда процесс на этапе S166 выполнен, процесс перегруппировки заканчивается. На этом процесс на этапе S117, показанный на фиг. 36, заканчивается. На этом процесс декодирования заканчивается.
Таким образом, устройство 141 декодирования проверяет синхронное слово или код проверки CRC из области комментария РСЕ, считывает информацию о расположении громкоговорителей и выводит декодированные аудиоданные, согласно расположению, соответствующему информации о расположении громкоговорителей.
В сущности, поскольку информация о расположении громкоговорителей считана и расположение громкоговорителей (положение источников звука) определено, возможно воспроизвести звуковую картину в вертикальном направлении и получить высококачественный реалистический звук.
Кроме того, поскольку информация о расположении громкоговорителей считывается, используя синхронное слово и контрольный код CRC, возможно надежно считывать информацию о расположении громкоговорителей из области комментария, в которой, весьма вероятно, должна храниться другая текстовая информация. То есть возможно надежно различать информацию о расположении громкоговорителей и прочую информацию.
В частности, устройство 141 декодирования различает информацию о расположении громкоговорителей и прочую информацию, используя три элемента, а именно идентичность синхронных слов, идентичность контрольных кодов CRC и идентичность объемов данных выравнивания. Поэтому, возможно предотвращать ошибки при обнаружении информации о расположении громкоговорителей. По существу, поскольку ошибки при обнаружении информации о расположении громкоговорителей предотвращаются, возможно воспроизводить аудиоданные, соответствующие правильному расположению громкоговорителей и получать высококачественный реалистический звук.
Описание процесса понижающего микширования
Далее процесс понижающего микширования, соответствующий процессу, описанному на этапе S118 на фиг. 36, будет описан со ссылкой на блок-схему последовательности выполнения операций, показанную на фиг. 39. В этом случае, аудиоданные каждого канала подаются от переключающего блока 151 на переключающий блок 211 блока 152 процесса понижающего микширования.
На этапе S191 блок 173 обнаружения расширения блока 162 декодирования DSE считывает "ancillary_data_extension_status" из "ancillary_data_status()" в "MPEG4_ancillary_data()" из DSE.
На этапе S192 блок 173 обнаружения расширения определяет, равно ли 1 считанное выражение "ancillary_data_extension_status".
Когда на этапе S192 решено, что "ancillary_data_extension_status" не равно 1, то есть "ancillary_data_extension_status" равно 0, блок 152 процесса понижающего микширования выполняет понижающее микширование аудиоданных, используя на этапе S193 заданный способ.
Например, блок 152 процесса понижающего микширования осуществляет понижающее микширование аудиоданных, поданных от переключающего блока 151, используя коэффициент, определяемый с помощью "center_mix_level_value" или "surround_mix_level_value", поданных от блока 174 декодирования информации о понижающем микшировании, и подает аудиоданные на блок 63 вывода.
Когда "ancillary_data_extension_status" равно 0, процесс понижающего микширования может выполняться любым способом.
На этапе S194 блок 63 вывода выводит аудиоданные, полученные от блока 152 процесса понижающего микширования, на новый этап без какого-либо изменения аудиоданных. На этом процесс понижающего микширования заканчивается. Таким образом, процесс на этапе S118, показанный на фиг. 36, заканчивается. Поэтому процесс декодирования заканчивается. С другой стороны, когда на этапе определено, что "ancillary_data_extension_status" равно 1, процесс переходит к этапу S195.
На этапе S195 блок 174 декодирования информации о понижающем микшировании считывает информацию, содержащуюся в "ext_downmixing_levels()" в выражении "MPEG4_ext_ancillary_data()", показанном на фиг. 11, и подает считанную информацию на блок 152 процесса понижающего микширования. Таким образом, например, считывается выражение "dmix_a_idx" and "dmix_b_idx", показанное на фиг. 13.
Когда выражение "ext_downmixing_levels_status", показанное на фиг. 12, содержащееся в "MPEG4_ext_ancillary_data()", равно 0, считывание выражений "dmix_a_idx" и "dmix_b_idx" не выполняется.
На этапе S196 блок 174 декодирования информации о понижающем микшировании считывает информацию, содержащуюся в "ext_downmixing_levels()" из выражения "MPEG4_ext_ancillary_data()", показанного на фиг. 11, и выводит считанную информацию на блок 152 процесса понижающего микширования. Таким образом, например, считываются элементы информации, показанные на фиг. 15, то есть "dmx_gain_5_sign", "dmx_gain_5_idx", "dmx_gain_2_sign" и "dmx_gain_2_idx".
Считывание элементов информации не выполняется, когда выражение "ext_downmixing_global_gains_status", показанное на фиг. 12, содержащееся в "MPEG4_ext_ancillary_data()", равно 0.
На этапе S197 блок 174 декодирования информации о понижающем микшировании считывает информацию, содержащуюся в "ext_downmixing_lfe_level()" выражения "MPEG4_ext_ancillary_data()", и подает считанную информацию на блок 152 процесса понижающего микширования. Таким образом, например, считывается выражение "dmix_lfe_idx", показанное на фиг. 16.
Конкретно, блок 174 декодирования информации о понижающем микшировании считывает выражение "ext_downmixing_lfe_level_status", показанное на фиг. 12, и считывает выражение "dmix_lfe_idx" на основе значения "ext_downmixing_lfe_level_status".
То есть считывание выражения "dmix_lfe_idx" не выполняется, когда выражение "ext_downmixing_lfe_level_status", содержащееся в "MPEG4_ext_ancillary_data()", равно 0. В этом случае, аудиоданные канала LFE при понижающем микшировании аудиоданных от 5.1 каналов до 2 каналов, которое будет описано ниже, не используются. То есть коэффициент, на который умножаются аудиоданные канала LFE, равн 0.
На этапе S198 блок 174 декодирования информации о понижающем микшировании считывает информацию, содержащуюся в выражении "ext_downmixing_levels()", из выражения "MPEG4_ext_ancillary_data()", показанного на фиг. 7, и подает считанную информацию на блок 152 процесса понижающего микширования.
На этапе S199 блок 152 процесса понижающего микширования определяет, осуществлять ли вывод аудиоданных из 2 каналов на основе формального параметра понижающего микширования, полученного от разделительного блока 61.
Например, когда формальный параметр понижающего микширования указывает понижающее микширование от 7.1 каналов или 6.1 каналов до 2 каналов или понижающее микширование от 5.1 каналов до 2 каналов, принимается решение, что аудио данные выводятся из 2 каналов.
Когда на этапе S199 решено, что аудиоданные выводятся из 2 каналов, процесс переходит к этапу S200. В этом случае, назначение выхода переключающего блока 214 изменяется на переключающий блок 216.
На этапе S200 блок 152 процесса понижающего микширования определяет, является ли входной сигнал аудиоданных входным сигналом 5.1 каналов на основе формального параметра понижающего микширования, поданного от разделительного блока 61. Например, когда формальный параметр понижающего микширования указывает понижающее микширование от 5.1 каналов до 2 каналов, принимается решение, что входным сигналом являются 5.1 каналов.
Когда на этапе S200 определено, что входной сигнал не является сигналом 5.1 каналов, процесс переходит к этапу S201 и выполняется понижающее микширование от 7.1 каналов или 6.1 каналов до 2 каналов.
В этом случае, переключающий блок 211 подает аудиоданные, полученные от переключающего блока 151, на переключающий блок 212. Переключающий блок 212 подает аудиоданные, полученные от переключающего блока 211, на любой из блоков 213-1-213-4 понижающего микширования на основе информации о расположении громкоговорителей, получаемой от блока 161 декодирования РСЕ. Например, когда аудиоданные являются данными 6.1 каналов, аудиоданные каждого канала подаются на блок 213-1 понижающего микширования.
На этапе S201 блок 213 понижающего микширования выполняет понижающее микширование до 5.1 каналов на основе выражений "dmix_a_idx" и "dmix_b_idx", которые считываются из "ext_downmixing_levels()" и подаются от блока 174 декодирования информации понижающего микширования.
Например, когда аудиоданные подаются на блок 213-1 понижающего микширования, блок 213-1 понижающего микширования устанавливает константы, которые определяются для значений "dmix_a_idx" и "dmix_b_idx" как константы g1 и g2 со ссылкой на таблицу, показанную, соответственно, на фиг. 19. Затем блок 213-1 понижающего микширования использует константы g1 и g2 как коэффициенты, используемые в умножительных блоках 242 и 243 и умножительном блоке 244, соответственно, формирует аудиоданные 5.1 каналов, используя выражение (6), и подает аудиоданные на переключающий блок 214.
Аналогично, когда аудиоданные подаются на блок 213-2 понижающего микширования, блок 213-2 понижающего микширования устанавливает константы, которые определяются для значений "dmix_a_idx" и "dmix_b_idx" как константы e1 и е2, соответственно. Затем блок 213-2 понижающего микширования использует константы e1 и е2 как коэффициенты, используемые в умножительных блоках 273 и 274 и умножительных блоках 272 и 275, соответственно, формирует аудиоданные 5.1 каналов, используя выражение (4), и подает полученные аудиоданные 5.1 каналов на переключающий блок 214.
Когда аудиоданные подаются на блок 213-3 понижающего микширования, блок 213-3 понижающего микширования устанавливает константы, которые определяются для значений "dmix_a_idx" и "dmix_b_idx" как константы d1 и d2, соответственно. Затем блок 213-3 понижающего микширования использует константы d1 и d2 как коэффициенты, используемые в умножительных блоках 302 и 303 и умножительных блоках 304 и 305, соответственно, формирует аудиоданные, используя выражение (3), и подает полученные аудиоданные на переключающий блок 214.
Когда аудиоданные подаются на блок 213-4 понижающего микширования, блок 213-4 понижающего микширования устанавливает константы, которые определяются для значений "dmix_a_idx" и "dmix_b_idx" как константы f1 и f2, соответственно. Затем блок 213-4 понижающего микширования использует константы f1 и f2 как коэффициенты, используемые в умножительных блоках 332 и 333 и умножительных блоках 334 и 335, соответственно, формирует аудиоданные, используя выражение (5), и полает полученные аудиоданные на переключающий блок 214.
Когда аудиоданные 5.1 каналов подаются на переключающий блок 214, переключающий блок 214 подает аудиоданные, полученные от блока 213 понижающего микширования, на переключающий блок 216. Переключающий блок 216 подает аудиоданные, полученные от переключающего блока 214, на блок 217-1 понижающего микширования или на блок 217-2 понижающего микширования на основе значения "pseudo_surround_enable", полученного от блока 174 декодирования информации понижающем микшировании.
Например, когда значение "pseudo_surround_enable" равно 0, аудиоданные подаются на блок 217-1 понижающего микширования. Когда значение "pseudo_surround_enable" равно 1, аудиоданные подаются на блок 217-2 понижающего микширования.
На этапе S202 блок 217 понижающего микширования выполняет процесс понижающего микширования аудиоданных, полученных от переключающего блока 216, на 2 канала, на основе информации о понижающем микшировании, полученной от блока 174 декодирования информации о понижающем микшировании. То есть понижающее микширование до 2 каналов выполняется на основе информации, содержащейся в "downmixing_levels_MPEG4()", и информации, содержащейся в "ext_downmixing_lfe_level()".
Например, когда аудиоданные подаются на блок 217-1 понижающего микширования, блок 217-1 понижающего микширования устанавливает константы, которые определяются для значений "center_mix_level_value" и "surround_mix_level_value" как константы а и b со ссылкой на таблицу, показанную, соответственно, на фиг. 19. Кроме того, блок 217-1 понижающего микширования устанавливает константу, которая определяется для значения "dmix_lfe_idx" как константа со ссылкой на таблицу, показанную на фиг. 18.
Затем блок 217-1 понижающего микширования использует константы a, b и с как коэффициенты, используемые в умножительных блоках 363 и 364, умножительном блоке 362 и умножительном блоке 365, соответственно, формирует аудиоданные, используя выражение (1), и подает полученные аудиоданные 2 каналов на блок 218 регулировки усиления.
Когда аудиоданные поданы на блок 217-2 понижающего микширования, блок 217-2 понижающего микширования определяет константы a, b и с подобно блоку 217-1 понижающего микширования. Затем блок 217-2 понижающего микширования использует константы a, b и с как коэффициенты, используемые в умножительных блоках 403 и 404, умножительном блоке 402 и умножительном блоке 405, соответственно, формирует аудиоданные, используя выражение (2), и подает полученные аудиоданные на блок 218 регулировки усиления.
На этапе S203 блок 218 регулировки усиления регулирует усиление аудиоданных, полученных от блока 217 понижающего микширования на основе информации, считываемой из выражения "ext_downmixing_global_gains()" и получаемой от блока 174 декодирования информации о понижающем кодировании.
Конкретно, блок 218 регулировки усиления вычисляет выражение (11) на основе "dmx_gain_5_sign", "dmx_gain_5_idx", "dmx_gain_2_sign" и "dmx_gain_2_idx", которые считываются из выражения "ext_downmixing_global_gains()", и вычисляет значение усиления dmx_gain_7to2. Затем блок 218 регулировки усиления умножает аудиоданные каждого канала на значение усиления dmx_gain_7to2 и подает аудиоданные на блок 63 вывода.
На этапе S204 блок 63 вывода выводит аудиоданные, полученные от блока 218 регулировки усиления на следующий этап без какого-либо изменения аудиоданных. На этом процесс понижающего микширования заканчивается. Таким образом, процесс на этапе S118, показанном на фиг. 36, заканчивается. Следовательно, заканчивается процесс декодирования. Аудиоданные выводятся от блока 63 вывода, когда аудиоданные выводятся от блока 181 процесса перегруппировки и когда аудиоданные выводятся от блока 152 процесса понижающего микширования без каких-либо изменений. На этапе после блока 63 вывода один или два вывода аудиоданных, которые должны использоваться, могут быть заданы.
Когда на этапе S200 определено, что входной сигнал является сигналом 5.1 каналов, процесс переходит к этапу S205 и выполняется понижающее микширование от 5.1 каналов до 2 каналов.
В этом случае, переключающий блок 211 подает аудиоданные, полученные от переключающего блока 151, на переключающий блок 216. Переключающий блок 216 подает аудиоданные, полученные от переключающего блока 211, на блок 217-1 понижающего микширования или на блок 217-2 понижающего микширования на основе значения "pseudo_surround_enable", полученного от блока 174 декодирования информации о понижающем микшировании.
На этапе S205 блок 217 понижающего микширования выполняет процесс понижающего микширования аудиоданных, полученных от переключающего блока 216, до 2 каналов на основе информации о понижающем микшировании, полученной от блока 174 декодирования информации о понижающем микшировании. Кроме того, на этапе S205 выполняется тот же самый процесс, что и на этапе S202.
На этапе S206 блок 218 регулировки усиления регулирует усиление аудиоданных, полученных от блока 217 понижающего микширования на основе информации, считываемой из выражения "ext_downmixing_global_gains()" и полученной от блока 174 декодирования информации о понижающем микшировании.
Конкретно, блок 218 регулировки усиления вычисляет выражение (9) на основе "dmx_gain_2_sign" и "dmx_gain_2_idx", которые считываются из выражения "ext_downmixing_global_gains()", и подает аудиоданные, полученные вычислением, на блок 63 вывода.
На этапе S207 блок 63 вывода выводит аудиоданные, полученные от блока 218 регулировки усиления, на следующий этап без какого-либо изменения аудиоданных. На этом процесс понижающего микширования заканчивается. Таким образом, процесс на этапе S118, показанном на фиг. 36, заканчивается. На этом процесс декодирования заканчивается.
Когда на этапе S199 определено, что аудиоданные не являются выходным сигналом от 2 каналов, то есть аудиоданные являются выходными данными от 5.1 каналов, процесс переходит к этапу S208 и выполняется понижающее микширование от 7.1 каналов или 6.1 каналов до 5.1 каналов.
В этом случае, переключающий блок 211 подает аудиоданные, полученные от переключающего блока 151, на переключающий блок 212. Переключающий блок 212 подает аудиоданные, полученные от переключающего блока 211, на любой из блоков 213-1-213-4 понижающего микширования на основе информации о расположении громкоговорителей, получаемой от блока 161 декодирования РСЕ. В этом случае, назначением выхода переключающего блока 214 является блок 215 регулировки усиления.
На этапе S208 блок 213 понижающего микширования выполняет понижающее микширование до 5.1 каналов на основе "dmix_a_idx" и "dmixbidx", которые считываются из "ext_downmixing_levels()" и подаются от блока 174 декодирования информации понижающего микширования. На этапе S208 выполняется тот же самый процесс, что и на этапе S201.
Когда выполняется понижающее микширование до 5.1 каналов и аудиоданные подаются от блока 213 понижающего микширования на переключающий блок 214, переключающий блок 214 подает полученные аудиоданные на блок 215 регулировки усиления.
На этапе S209 блок 215 регулировки усиления регулирует усиление аудиоданных, полученных от переключающего блока 214, на основе информации, считываемой из выражения "ext_downmixing_global_gains()" и получаемой от блока 174 декодирования информации о понижающем микшировании.
Конкретно, блок 215 регулировки усиления вычисляет выражение (7) на основе "dmx_gain_5_sign" и "dmx_gain_5_idx", которые считываются из выражения "ext_downmixing_global_gains()", и подает аудиоданные, полученные вычислением, на блок 63 вывода.
На этапе S210 блок 63 вывода выводит аудиоданные, полученные от блока 215 регулировки усиления, на следующий этап без какого-либо изменения аудиоданных. На этом процесс понижающего микширования заканчивается. Таким образом, процесс на этапе S118, показанном на фиг. 36, заканчивается. На этом процесс декодирования заканчивается.
Таким образом, устройство 141 декодирования выполняет понижающее микширование аудиоданных на основе информации, считанной из кодированного битового потока.
Например, в кодированном битовом потоке, поскольку выражение "pseudo_surround_enable" содержится в DSE, возможно выполнить процесс понижающего микширования от 5.1 каналов до 2 каналов, используя способ, наиболее пригодный для аудиоданных из множества способов. Поэтому на стороне декодирования может быть получен высококачественный реалистический звук.
Кроме того, в кодированном битовом потоке информация, указывающая, содержится ли расширенная информация, хранится в "ancillary_data_extension_status". Поэтому в отношении этой информации можно указать, содержится ли расширенная информация в расширенной области. Когда расширенная информация может быть получена, можно повысить гибкость при понижающем микшировании аудиоданных. В результате можно получить высококачественный реалистический звук.
Описанные выше последовательности процессов могут выполняться посредством аппаратурного обеспечения или программного обеспечения. Когда последовательности процессов выполняются посредством программного обеспечения, программа, образующая программное обеспечение, устанавливается на компьютер. Здесь, примеры компьютера содержат компьютер, который встраивается в специализированное аппаратурное обеспечение, и универсальный персональный компьютер, на который устанавливаются различного рода программы и который может выполнять различного рода функции.
На фиг. 40 показана блок-схема примера структуры аппаратурного обеспечения компьютера, выполняющего программу для осуществления упомянутой выше последовательности процессов.
В компьютере центральный процессор (CPU) 501, постоянное запоминающее устройство (ROM) 502 оперативная память (RAM) 503 соединяются друг с другом через шину 504.
Интерфейс 505 ввода-вывода соединяется с шиной 504. Блок 506 ввода, устройство 507 вывода, блок 508 записи, блок 509 связи и привод 510 соединяются с интерфейсом ввода-вывода 505.
Блок 506 ввода содержит, например, клавиатуру, мышь, микрофон и элемент получения изображений. Устройство 507 вывода содержит, например, дисплей и громкоговоритель. Блок 508 записи содержит жесткий деск и энергонезависимую память. Блок 509 связи является, например, сетевым интерфейсом. Привод 510 приводит в действие съемный носитель 511, такой как магнитный диск, оптический диск, магнитооптический диск или полупроводниковую память.
В компьютере, имеющем упомянутую выше структуру, например, CPU 501 загружает программу, записанную в блоке 508 записи, в RAM 503 через интерфейс 505 ввода-вывода и шину 504. Затем выполняется описанная выше последовательность процессов.
Программа, выполняемая компьютером (CPU 501), может записываться на съемном носителе 511 в качестве упакованного носителя и быть предоставлена позже. Альтернативно, программы могут обеспечиваться посредством проводной или беспроводной среды передачи, такой как локальная сеть, Интернет или цифровое спутниковое вещание.
В компьютере съемный носитель 511 может вставляться в дисковод 510 для установки программы в блок 508 записи через интерфейс 505 ввода-вывода. Кроме того, программа может быть принята блоком 509 связи через проводную или беспроводную среду передачи и затем устанавливаться в блок 508 записи. Альтернативно, программа может быть заранее установлена в ROM 502 в блок 508 записи.
Программы, которые должны выполняться компьютером, могут быть программами для выполнения операций в хронологическом порядке в соответствии с последовательностью, описанной в настоящем описании, или могут быть программами для выполнения операций параллельно или выполнения операции по мере необходимости, такой как, например, вызов.
Вариант осуществления настоящей технологии не ограничивается описанным выше вариантом осуществления и различные модификации и изменения варианта осуществления могут быть сделаны, не отступая от объема и сущности настоящей технологии.
Например, настоящая технология может иметь структуру вычислительного облака, в которой одна функция выполняется несколькими устройствами через сеть и совместно обрабатывается множеством устройств.
В описанном выше варианте осуществления каждый этап, представленный в упомянутых выше блок-схемах последовательности выполнения операций, выполняется одним устройством. Однако каждый этап может выполняться совместно и осуществляться множеством устройств.
В описанном выше варианте осуществления, когда один этап содержит множество процессов, множество процессов, содержащихся в одном этапе, выполняются одним устройством. Однако множество процессов могут выполняться совместно и осуществляться множеством устройств.
Кроме того, настоящая технология может иметь следующую структуру.
[1] Устройство декодирования, содержащее:
блок декодирования, который декодирует аудиоданные, содержащиеся в кодированном битовом потоке;
блок считывания, который считывает информацию о положении источника звука в отношении высоты источника звука аудиоданных из области, в которой могут храниться произвольные данные кодированного битового потока; и
блок вывода, который выводит декодированные аудиоданные на основе информации о положении источника звука.
[2] В устройстве декодирования по п. [1] информация о положении источника звука может быть информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя.
[3] В устройстве декодирования по п. [1] или [2] идентификационная информация для идентификации, хранится ли информация о положении источника звука в области, в которой могут храниться произвольные данные, и блок считывания считывает информацию о положении источника звука на основе идентификационной информации.
[4] В устройстве декодирования по п. [3] первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, хранятся как идентификационная информация в области, в которой могут храниться произвольные данные.
[5] В устройстве декодирования по п. [4] блок считывания определяет, что информация о положении источника звука является действительной, когда первая идентификационная информация, содержащаяся в области, в которой могут храниться произвольные данные, является заданной конкретной информацией, и вторая идентификационная информация, считанная из области, в которой могут храниться произвольные данные, идентична второй идентификационной информации, которая вычисляется на основе считанной информации о положении источника звука.
[6] В устройстве декодирования по п. [5] вторая идентификационная информация вычисляется на основе информации, полученной при выполнении выравнивания байтов для информации, содержащей информацию о положении источника звука.
[7] Способ, содержащий этапы, на которых:
декодируют аудиоданные, содержащиеся в кодированном битовом потоке;
считывают информацию о положении источника звука в отношении высоты источника звука аудиоданных из области, в которой могут храниться произвольные данные кодированного битового потока; и
выводят декодированные аудиоданные на основе информации о положении источника звука.
[8] Программа, заставляющая компьютер выполнять процесс, содержащий:
этап декодирования аудиоданных, содержащихся в кодированном битовом потоке;
этап считывания информации о положении источника звука в отношении высоты источника звука аудиоданных из области, в которой могут храниться произвольные данные кодированного битового потока; и
этап вывода декодированных аудиоданных на основе информации о положении источника звука.
[9] Устройство кодирования, содержащее:
блок получения данных, который получает информацию о положении источника звука в отношении высоты источника звука;
блок кодирования, кодирующий аудиоданные и информацию о положении источника звука; и
блок упаковки, который хранит кодированную информацию о положении источника звука в области, в которой могут храниться произвольные данные, и формирует кодированный битовый поток, содержащий кодированные аудиоданные и информацию о положении источника звука.
[10] В устройстве декодирования по п. [9] информация о положении источника звука является информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя.
[11] В устройстве кодирования по п. [9] или [10] информация о положении источника звука и идентификационная информация для идентификации, присутствует ли информация о положении источника звука, сохраняются в области, в которой могут храниться произвольные данные.
[12] В устройстве декодирования по п. [11] первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, хранятся как идентификационная информация в области, в которой могут храниться произвольные данные.
[13] В устройстве кодирования по п. [12] информация для подачи команд на выполнение выравнивания байтов для информации, содержащей информацию о расположении источника звука и информацию для подачи команды сравнения между второй идентификационной информацией, которая вычисляется на основе информации, полученной посредством выравнивания байтов, и второй идентификационной информацией, хранящейся в области, в которой могут храниться произвольные данные, дополнительно сохраняется в области, в которой могут храниться произвольные данные.
[14] Способ кодирования, содержащий этапы, на которых:
получают информацию о положении источника звука в отношении высоты источника звука;
кодируют аудиоданные и информацию о положении источника звука; и
сохраняют кодированную информацию о положении источника звука в области, в которой могут храниться произвольные данные, и формируют кодированный битовый поток, содержащий кодированные аудиоданные и информацию о положении источника звука.
[15] Программа, заставляющая компьютер выполнять процесс, содержащий этапы, на которых
получают информацию о положении источника звука в отношении высоты источника звука;
кодируют аудиоданные и информацию о положении источника звука; и
сохраняют кодированную информацию о положении источника звука в области, в которой могут храниться произвольные данные, и формируют кодированный битовый поток, содержащий кодированные аудиоданные и информацию о положении источника звука.
Перечень ссылочных позиций
11 Устройство кодирования
21 Блок ввода
22 Блок кодирования
23 Блок упаковки
51 Устройство декодирования
61 Разделительный блок
62 Блок декодирования
63 Блок вывода
91 Устройство кодирования
101 Блок кодирования РСЕ
102 Блок кодирования DSE
103 Блок кодирования аудиоэлементов
111 Блок кодирования синхронного слова
112 Блок кодирования информации о расположении
113 Блок кодирования идентификационной информации
114 Блок кодирования расширенной информации
115 Блок кодирования информации о понижающем микшировании
141 Устройство декодирования
152 Блок процесса понижающего микширования
161 Блок декодирования РСЕ
162 Блок декодирования DSE
163 Блок декодирования аудиоэлементов
171 Блок обнаружения синхронного слова
172 Блок вычисления идентификационной информации
173 Блок обнаружения расширения
174 Блок декодирования информации о понижающем микшировании
181 Блок процесса перегруппировки
Изобретение относится к устройствам декодирования и кодирования информации. Технический результат заключается в повышении эффективности кодирования для получения высококачественного реалистического звука. Устройство кодирования хранит информацию о расположении громкоговорителей в области комментария в РСЕ кодированного битового потока и хранит синхронное слово и идентификационную информацию в области комментария, так что другие публичные комментарии и информация о расположении громкоговорителей, хранящиеся в области комментария, могут различаться друг от друга. Когда кодированный битовый поток декодирован, хранится ли информация о расположении громкоговорителей, определяется на основе синхронного слова и идентификационной информации, хранящихся в области комментария. Аудиоданные, содержащиеся в кодированном битовом потоке, выводятся согласно расположению громкоговорителей в соответствии с результатом определения. 6 н. и 1 з.п. ф-лы, 40 ил.
1. Устройство декодирования, содержащее:
блок декодирования, предназначенный для декодирования аудиоданных, содержащихся в кодированном битовом потоке;
блок считывания, предназначенный для считывания информации о положении источника звука в отношении высоты источника звука аудиоданных из области, в которой могут храниться произвольные данные кодированного битового потока; и
блок вывода, предназначенный для вывода декодированных аудиоданных на основе информации о положении источников звука,
в котором информация о положении источника звука является информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя,
в котором идентификационная информация для идентификации, присутствует ли информация о положении источника звука, сохраняется в области, в которой могут храниться произвольные данные; и
блок считывания, выполненный с возможностью считывания информации о положении источника звука на основе идентификационной информации,
в котором первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, сохраняются как идентификационная информация в области, в которой могут храниться произвольные данные,
в котором блок считывания выполнен с возможностью определения, что информация о положении источника звука является действительной, когда первая идентификационная информация, содержащаяся в области, в которой могут храниться произвольные данные, является заданной конкретной информацией и вторая идентификационная информация, считанная из области, в которой могут храниться произвольные данные, идентична второй идентификационной информации, которая вычисляется на основе считанной информации о положении источника звука.
2. Устройство декодирования по п. 1,
в котором вторая идентификационная информация вычисляется на основе информации, полученной при выполнении выравнивания байтов для информации, содержащей информацию о положении источника звука.
3. Способ декодирования, содержащий этапы, на которых:
декодируют аудиоданные, содержащиеся в кодированном битовом потоке;
считывают информацию о положении источника звука в отношении высоты источника звука аудиоданных из области, в которой могут храниться произвольные данные кодированного битового потока; и
выводят декодированные аудиоданные на основе информации о положении источника звука,
в котором информация о положении источника звука является информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя,
в котором идентификационная информация для идентификации, присутствует ли информация о положении источника звука, сохраняется в области, в которой могут храниться произвольные данные, и информация о положении источника звука считывается на основе идентификационной информации,
в котором первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, сохраняются как идентификационная информация в области, в которой могут храниться произвольные данные,
в котором определяют, является ли информация о положении источника звука действительной, когда первая идентификационная информация, содержащаяся в области, в которой могут храниться произвольные данные, является заданной конкретной информацией и вторая идентификационная информация, считанная из области, в которой могут храниться произвольные данные, идентична второй идентификационной информации, которая вычисляется на основе считанной информации о положении источника звука.
4. Носитель записи, содержащий записанную на нем программу, заставляющую компьютер выполнять процесс, содержащий этапы, на которых:
декодируют аудиоданные, содержащиеся в кодированном битовом потоке;
считывают информацию о положении источника звука в отношении высоты источника звука аудиоданных из области, в которой могут храниться произвольные данные кодированного битового потока; и
выводят декодированные аудиоданные на основе информации о положении источника звука,
в котором информация о положении источника звука является информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя,
в котором идентификационная информация для идентификации, присутствует ли информация о положении источника звука, сохраняется в области, в которой могут храниться произвольные данные, и информация о положении источника звука считывается на основе идентификационной информации,
в котором первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, сохраняются как идентификационная информация в области, в которой могут храниться произвольные данные,
в котором определяют является ли информация о положении источника звука действительной, когда первая идентификационная информация, содержащаяся в области, в которой могут храниться произвольные данные, является заданной конкретной информацией и вторая идентификационная информация, считанная из области, в которой могут храниться произвольные данные, идентична второй идентификационной информации, которая вычисляется на основе считанной информации о положении источника звука.
5. Устройство кодирования, содержащее:
блок получения данных, предназначенный для получения аудиоданных и информации о положении источника звука в отношении высоты источника звука;
блок кодирования, предназначенный для кодирования аудиоданных и информации о положении источника звука; и
блок упаковки, предназначенный для хранения кодированной информации о положении источника звука в области, в которой могут храниться произвольные данные, и формирования кодированного битового потока, содержащего кодированные аудиоданные и кодированную информацию о положении источника звука и вывода кодированного битового потока,
в котором информация о положении источника звука является информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя,
в котором информация о положении источника звука и идентификационная информация для идентификации, присутствует ли информация о положении источника звука, хранятся в области, в которой могут храниться произвольные данные,
в котором первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, сохраняются как идентификационная информация в области, в которой могут храниться произвольные данные,
в котором информация для подачи команд на выполнение выравнивания байтов для информации, содержащей информацию о расположении источника звука и информацию для подачи команды сравнения между второй идентификационной информацией, которая вычисляется на основе информации, полученной посредством выравнивания байтов, и второй идентификационной информацией, хранящейся в области, в которой могут храниться произвольные данные, дополнительно сохраняется в области, в которой могут храниться произвольные данные.
6. Способ кодирования, содержащий этапы, на которых:
получают аудиоданные и информацию о положении источника звука в отношении высоты источника звука;
кодируют аудиоданные и информацию о положении источника звука; и
сохраняют кодированную информацию о положении источника звука в области, в которой могут храниться произвольные данные, и формируют кодированный битовый поток, содержащий кодированные аудиоданные и информацию о положении источника звука и выводят кодированный битовый поток,
в котором информация о положении источника звука является информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя,
в котором информация о положении источника звука и идентификационная информация для идентификации, присутствует ли информация о положении источника звука, хранятся в области, в которой могут храниться произвольные данные,
в котором первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, сохраняются как идентификационная информация в области, в которой могут храниться произвольные данные,
в котором информация для подачи команд на выполнение выравнивания байтов для информации, содержащей информацию о расположении источника звука и информацию для подачи команды сравнения между второй идентификационной информацией, которая вычисляется на основе информации, полученной посредством выравнивания байтов, и второй идентификационной информацией, хранящейся в области, в которой могут храниться произвольные данные, дополнительно сохраняется в области, в которой могут храниться произвольные данные.
7. Носитель записи, содержащий записанную на нем программу, заставляющую компьютер выполнять процесс, содержащий этапы, на которых:
получают аудиоданные и информацию о положении источника звука в отношении высоты источника звука;
кодируют аудиоданные и информацию о положении источника звука; и
сохраняют кодированную информацию о положении источника звука в области, в которой могут храниться произвольные данные, и формируют кодированный битовый поток, содержащий кодированные аудиоданные и информацию о положении источника звука и выводят кодированный битовый поток,
в котором информация о положении источника звука является информацией, указывающей, что высота источника звука, по существу, равна высоте пользователя, больше, чем высота пользователя, или меньше, чем высота пользователя,
в котором информация о положении источника звука и идентификационная информация для идентификации, присутствует ли информация о положении источника звука, хранятся в области, в которой могут храниться произвольные данные,
в котором первая заданная идентификационная информация и вторая идентификационная информация, которая вычисляется на основе информации о положении источника звука, сохраняются как идентификационная информация в области, в которой могут храниться произвольные данные,
в котором информация для подачи команд на выполнение выравнивания байтов для информации, содержащей информацию о расположении источника звука и информацию для подачи команды сравнения между второй идентификационной информацией, которая вычисляется на основе информации, полученной посредством выравнивания байтов, и второй идентификационной информацией, хранящейся в области, в которой могут храниться произвольные данные, дополнительно сохраняется в области, в которой могут храниться произвольные данные.
EP 1855506 A2, 14.11.2007; | |||
Колосоуборка | 1923 |
|
SU2009A1 |
Колосоуборка | 1923 |
|
SU2009A1 |
АУДИОКОДЕР, АУДИОДЕКОДЕР И АУДИОПРОЦЕССОР, ИМЕЮЩИЙ ДИНАМИЧЕСКИ ИЗМЕНЯЮЩУЮСЯ ХАРАКТЕРИСТИКУ ПЕРЕКОСА | 2007 |
|
RU2418322C2 |
ИНТЕРФЕЙС ВЫСОКОСКОРОСТНОЙ ПЕРЕДАЧИ ДАННЫХ | 2004 |
|
RU2369033C2 |
Авторы
Даты
2018-03-26—Публикация
2013-06-24—Подача