СПОСОБ И СИСТЕМА ДЛЯ ОБОГАЩЕНИЯ АУДИОСИГНАЛА Российский патент 2008 года по МПК G01L11/00 H04N7/52 

Описание патента на изобретение RU2322654C2

Настоящее изобретение относится к способу и системе обогащения аудиосигнала в соответствии с выделенными характеристиками указанного звукового сигнала. Настоящее изобретение имеет, в частности, применение в системах, которые определяют и выделяют музыкальные характеристики аудиосигнала типа темпа и тональности, не исключающее и другое его применение.

Обогащение аудиосигнала с помощью видеосигнала не является чем-то новым. Наиболее широкое распространение это получило в музыкальной видеоиндустрии, где отдельная песня или альбом имеют видеопоследовательность, созданную для музыкального сопровождения обычно с целью трансляции комбинированного аудио- и видеосигнала по телевизионной сети. Видеосигнал создают вручную, используя опыт и талант ряда людей для выбора и/или создания подходящих видеопоследовательностей, обогащающих музыкальное сопровождение наилучшим образом. Квалификация привлекаемых специалистов является решающим фактором, влияющим на качество конечного продукта. Дело также в том, что такое обогащение - длительный и дорогостоящий процесс, не дающий реальной гарантии на соответствие конечного продукта требованиям для большого числа пользователей.

Программные инструментальные средства потребителей, позволяющие домашнему потребителю создавать презентации музыкального сопровождения и видео в соответствии с данными, вводимыми пользователем, также известны. Заявка на европейский патент EP0403118 описывает аудио/визуальную компиляцию в системе обработки данных типа домашнего персонального компьютера (ПК). Система содержит модули авторской разработки и редактирования библиотеки, звука и сюжета, которые позволяют пользователю осуществлять компиляцию аудио/визуальной презентации и ее вывод. Публикация WO01/18655 международной заявки раскрывает способ и систему для генерации видео- и музыкального сопровождения на компьютере, снабженном интерфейсом редактирования, который имеет кнопки выбора переднего плана, фона и средств импорта и кнопки специальных эффектов, а также временную шкалу для создания сценария команд компоновки графических изображений и обеспечения синхронизации этих изображений с музыкальным сопровождением, чтобы таким образом создать проект видео- и музыкального сопровождения.

Такие известные домашние/потребительские системы дают потребителю возможность создавать свое собственное видео для обогащения аудиосигнала. Однако как и в случае создания видео в профессиональной сфере, это требует времени и опять-таки зависит от квалификации самого потребителя.

Как правило, такие известные системы имеют только ограниченные возможности автоматизации, если таковые вообще существуют, и обычно не позволяют автоматически обогащать произвольный входной аудиосигнал видеосюжетной последовательностью, которая зависит от его семантического содержания и следует за ним.

Поэтому цель настоящего изобретения заключается в создании усовершенствованных способа и системы обогащения аудиосигнала.

Согласно первому аспекту настоящего изобретения предлагается способ обогащения аудиосигнала, включающий в себя этапы приема аудиосигнала, выделения характеристик из указанного аудиосигнала, генерации упорядоченной по времени таблицы сюжетных параметров, соответствующих выделенным признакам, получения медиафрагментов по меньшей мере частично в соответствии с таблицей сюжетных параметров и вывода указанных медиафрагментов.

Согласно второму аспекту настоящего изобретения предлагается система обогащения аудиосигнала, содержащая входное устройство для приема аудиосигнала и средство обработки для выделения характеристик из указанного принимаемого аудиосигнала, генерации упорядоченной во времени таблицы сюжетных параметров, ассоциированных с указанными выделенными характеристиками, получения медиафрагментов, по меньшей мере частично в соответствии со сформированной таблицей сюжетных параметров, а также по меньшей мере одно выходное устройство для вывода указанных медиафрагментов.

Согласно описанным выше аспектам изобретения выделенные из аудиосигнала параметры музыкального сопровождения типа тональности и темпа ассоциированы с сюжетными параметрами, дающими общее представление о медиафрагменте, который может содержать файл аудио/видеоданных. Например, быстрый темп может хорошо подходить для медиафрагмента, имеющего сцену преследования с быстрым и бурным развитием действия.

В предпочтительном варианте изобретения сюжетные параметры представляют такие характеристики сюжета, как эмоциональная окраска, скорость развития действия, конфликты и т.д. Сюжетные параметры также отображаются на выделенные характеристики аудиосигнала типа тональности и темпа.

В предпочтительном варианте медиафрагменты хранятся в базе данных, из которой их получают. В другом варианте изобретения фрагменты могут генерироваться в процессе воспроизведения в соответствии с сюжетным шаблоном, который содержит общее описание или повествовательную структуру для сюжета и соответствующие сюжетные параметры.

Например, шаблон романтического сюжета может иметь такие определенные требования, как музыкальные тональности, ассоциируемые с состоянием радости (мажорные тональности) или печали (минорные тональности). В сюжетном шаблоне представлена линия повествования с описанием развития романтического сюжета. Один пример линии повествования для романтического сюжета может содержать следующие этапы: случайную встречу, развитие отношений, трагическое событие и счастливый или печальный конец.

Следовательно, обеспечивается возможность генерировать, получить и представлять сюжет потребителю, причем сюжет основывается на выборе потребителем музыкального сопровождения.

Например, потребитель может выбрать четыре дорожки музыкального сопровождения, которые анализируются для определения, например, жанра (или потребитель может вводить предпочтительный жанр), и из этих дорожек выделяются музыкальные характеристики. Характеристики используются для определения сходного сюжетного шаблона, который затем применяется для получения соответствующих совпадающих медиафрагментов. Например, для составления сюжета при этом могут быть получены медиафрагменты, имеющие сюжетные параметры, указывающие на мажорные тональности (радостные) или минорные тональности (печальные) и, кроме того, романтическое содержимое.

Затем медиафрагменты воспроизводят потребителю вместе с выбранным им музыкальным сопровождением. Следовательно, потребитель испытывает впечатление от сюжета и одновременно наслаждается выбранным музыкальным сопровождением.

В предпочтительном варианте изобретения для определения таких сюжетных моментов, как нарастание и последующее ослабление напряженности, могут быть также использованы комбинации музыкальных тональностей (возможно изменение тональности в пределах дорожки музыкального сопровождения или при переходе от одной дорожки к другой).

В примере осуществления система содержит персональный компьютер, подключенный к базе данных, хранящей медиафрагменты и шаблоны сюжетов. Компьютер имеет доступ к коду программы, который обеспечивает извлечение музыкальных характеристик из аудиосигналов, представляющих выбранное музыкальное сопровождение, а также к коду программы, представляющему модуль построения сюжета, который обеспечивает выбор шаблонов и получение соответствующих медиафрагментов в зависимости от определенных сюжетных параметров, связанных с выделенными музыкальными характеристиками. Сюжетные параметры представлены на конфигурируемом метаязыке типа расширяемого языка разметки (XML). Компьютерная программа согласует шаблоны сюжета и медиафрагменты, имеющие теги ассоциированных сюжетных параметров, и представляет сюжет потребителю.

В предпочтительном варианте компьютер является частью домашней сети, имеющей устройства вывода, причем освещенность может применяться в определенные сюжетные моменты, и другими факторами эмпирической среды, окружающей потребителя, можно управлять для получения глубокого впечатления от сюжета во взаимосвязи с выбранным музыкальным сопровождением. Для реализации указанных выше эффектов может быть использован язык физической разметки (PML).

Согласно изобретению возможно обогатить звуковой сигнал без вмешательства человека, таким способом, который тем не менее обеспечивает обогащение, относящееся к этому аудиосигналу и согласующееся с ним.

Ниже приводится описание настоящего изобретения исключительно на примерах и со ссылками на прилагаемые чертежи, на которых

фиг.1 - блок-схема системы обогащения аудиосигнала,

фиг.2 - таблица соответствия между музыкальными характеристиками и сюжетными параметрами,

фиг.3 - пример полученного в результате генерации списка сюжетных параметров,

фиг.4 иллюстрирует пример хранимых сюжетных шаблонов,

фиг.5 иллюстрирует базу данных, хранящую медиафрагменты,

фиг.6 - блок-схема последовательности этапов в способе обогащения аудиосигнала,

фиг.7 - блок-схема реализации способа обогащения аудиосигнала с использованием PML.

Следует отметить, что на чертежах представлены схематичные изображения, приведенные без соблюдения масштаба. Относительные размеры и пропорции элементов чертежей показаны с увеличением или уменьшением из соображений обеспечения ясности и легкости в понимании чертежей. В большинстве случаев для обозначения соответствующих или сходных характеристик в модифицированных и различных примерах осуществления использованы одни и те же позиции.

На фиг.1 представлена блок-схема системы 100 обогащения аудиосигнала. Система 100 состоит из центрального процессора (ЦП) 102, подключенного к памяти (ПЗУ) 104 и памяти (оперативное запоминающее устройство) 106 посредством общей шины 108 данных. Компьютерный код или программное обеспечение 110 на носителе 112 информации может быть загружено в оперативное запоминающее устройство 106 (или в другом варианте изобретения храниться в ПЗУ 104), причем этот код при выполнении ЦП 102 обеспечивает исполнение команд, позволяющих осуществлять способ или способы согласно изобретению. ЦП 102 подключен к памяти 114 и выходным устройствам 116, 118. Имеется пользовательский интерфейс (UI) 120.

Система 100 может быть реализована как обыкновенный домашний персональный компьютер (ПК) с выходным устройством 116 в форме компьютерного монитора или дисплея. Память 114 может быть удаленной базой данных с доступом посредством сетевого соединения (ЛВС или ГС). Подобным же образом в домашней сети (ЛВС) устройства 116, 118 вывода могут быть распределены по дому и содержать, например, плоскопанельный дисплей, смонтированный на стене, домашние осветительные устройства с управлением от компьютера, аудиодинамики, размещенные по дому, и т.д. Связь между ЦП 102 и другими устройствами 116, 118 может быть беспроводной (например, с использованием стандартов радиосвязи IEEE802. 11, ZigBeeIEE802. 15.4 или Bluetooth) или проводной (например, с использованием стандартов проводной связи Ethernet, USB), или комбинированной.

Система 100 требует ввода аудиосигналов, из которых выделены характеристики. Описание процесса выделения музыкальных характеристик из аудиосигналов приведено в публикации "Querying large collections of music for similarity" (Matt Welsh с соавт., UC Berkeley Technical Report UCB/CSD-00-1096, November 1999), содержание которой включено в данное описание посредством ссылки. В публикации описывается процесс определения характеристик типа среднего темпа, громкости, шума и тональных переходов путем анализа входного аудиосигнала. Описание способа определения музыкальной тональности аудиосигнала приведено в патенте США US5038658 на имя Tsuruta et al., который включен в данное описание посредством ссылки.

В системе 100 ввод аудиосигналов в ЦП 102 осуществляется с помощью устройства 122 ввода. ЦП 102 принимает аудиосигналы и выделяет музыкальные характеристики типа громкости, темпа и тональности, как описано в указанных выше ссылках. В этом примере осуществления аудиосигнал обеспечивается посредством внутреннего устройства 122 ввода в составе ПК, например посредством дисковода для CD/DVD или жестких дисков. В другом варианте изобретения ввод аудиосигналов может быть осуществлен путем подключения к сетевой домашней развлекательной системе (Hi-Fi, домашний кинотеатр и т.д.).

Специалистам в данной области техники должно быть понятно, что важное значение имеют не точная конфигурация аппаратного/программного обеспечения и механизм обеспечения ввода аудиосигнала, а обеспечение доступа таких сигналов к указанной системе 100.

Далее приводится описание типичной структуры данных и способов работы системы, иллюстрирующее аспекты настоящего изобретения, причем для простоты изложения и исключительно в качестве примера рассматривается система 100 на основе ПК.

На фиг.2 представлена типичная таблица 200, используемая компьютерной программой 110. Таблица иллюстрирует всевозможные ассоциации выделенных музыкальных характеристик 204 (MF) с заданными и определенными сюжетными параметрами 206 (DP). Например, известно, что обычно музыкальное сопровождение, имеющее мажорную тональность (MAJ key), ассоциируется с радостными или поднимающими настроение чувствами, в то время как музыка в минорной тональности (MIN key) способствует более грустному или печальному настроению.

Кроме того, используя квинтовый круг тональностей (известный людям, занимающимся музыкальным сопровождением), можно определить соответствующие музыкальные тональности, которые позволяют избежать дисгармонии при переходе от одной тональности к другой, способной вызывать у потребителя чувство тревоги. Обычно переход от одной тональности к соседней тональности в круге воспринимается потребителем как приемлемый гармоничный переход, в то время как резкое изменение одной тональности на несоседнюю тональность в этом круге является для пользователя звуковой дисгармонией. Например, близкими (соседними) для тональности C мажор/A минор являются F мажор/D минор и G мажор/E минор. Поэтому переход тональности от рассматриваемого C мажора (в пределах музыкальной дорожки или при переходе от одной дорожки к другой) к E мажору (несоседней тональности) воспринимается пользователем как звуковая дисгармония. Такие знания полезны при разработке правил, которые позволяют использовать музыкальные дорожки в приложении "автоматический диджей" для микширования с плавным увеличением уровня одного сигнала и плавным уменьшением уровня другого сигнала.

Такие знания могут быть использованы для указания на сюжетное изменение в сюжете (например, от сцены счастливого бракосочетания к печальной трагической сцене с музыкальным сопровождением, усиливающим впечатление от сюжета). Поэтому на фиг.2 музыкальная характеристика, соответствующая такой комбинации переходов между несоседними тональностями, представлена как (NAK) с сюжетным параметром CLASH. Таблица также показывает, что сюжетный параметр FAST или SLOW может быть ассоциирован с выделенным результатом TEMPO (в ударах в минуту). Например, числу ударов в минуту более 120 может быть назначен сюжетный параметр FAST, в то время как для песни или дорожки с более медленным темпом может быть назначен сюжетный параметр SLOW. Следовательно, в общих чертах эмоциональная окраска, вариации скорости развития действия и конфликты могут быть определены и представлены согласно выбранному музыкальному сопровождению.

Примеры сюжетных параметров приведены исключительно для иллюстративных целей со множеством возможных сюжетных параметров в форме тегов языка разметки (реализованных в XML, например) или других атрибутов. Например, могут быть определены другие музыкальные характеристики, такие как тип инструмента (виолончель может быть назначена атрибуту SAD/SLOW) и высокоуровневый описательный тег жанра. Многие архивы аудио CD или MP3 имеют дескрипторы жанра, ассоциированные с дорожкой или CD, например рок, романтика, транс и т.д., и они могут быть найдены и назначены сюжетным параметрам. Сайт www.gracenote.com - типичная музыкальная база данных и поставщик услуг, причем музыкальное сопровождение распределено по таким категориям, как рок, электронная/танцевальная музыка, джаз и т.д. Электронная/танцевальная музыка, предоставляемая такой службой, может быть ассоциирована с сюжетным параметром <FUTURE> или <CYBER>, который, как правило, указывает на жанр подходящего сюжета.

В качестве примера рассмотрим далее, как такие теги используются для помощи в построении сюжета, оживляемого музыкальным сопровождением. Потребитель, желая развлечений, выбирает на своем ПК три дорожки музыкального сопровождения для воспроизведения - дорожку 1 (TR1), дорожку 2 (TR2) и дорожку 3 (TR3). Аудиосигналы дорожек вводятся с помощью входного устройства 122 ввода в ЦП 102, который определяет и извлекает музыкальные характеристики из аудиосигналов. ЦП 102, работающий под управлением, обеспечиваемым командами компьютерной программы 110, коррелирует определенные музыкальные характеристики (MF) 204 с ассоциированными сюжетными параметрами (DP) 206 при помощи таблицы 200 (фиг.2) и затем формирует таблицу 300, как показано на фиг.3.

Таблица 300, упорядоченная во времени (чтобы создать временную шкалу TL 304), показывает, что ЦП 102 определил, что дорожка 1 начинается с темпа FAST и имеет ассоциированный сюжетный параметр HAPPY (т.е. мажорную тональность). Следующая дорожка - дорожка TR2 - должна вызывать чувство дисгармонии (определяемое характеристикой NAK) и имеет минорную тональность (с соответствующим сюжетным параметром SAD). Дорожка 3 подобно дорожке 1 была определена как в целом как FAST (высокий темп) и в мажорной тональности (HAPPY).

Таким образом, создано краткое высокоуровневое описание выбранного музыкального сопровождения, развитие которого осуществляется с высокой напряженностью - музыкальное сопровождение в быстром темпе (TEMPO TR1), HAPPY (мажорная тональность), звуковая дисгармония (NAK и минорная тональность, являющаяся признаком печали, TR2), а затем нарастание темпа и радостная эмоциональная окраска для дорожки 3. После создания этого краткого высокоуровневого сюжетного описания ЦП 102 подключается к памяти 114 для поиска структуры данных, содержащей сюжетный шаблон с приблизительно совпадающим кратким сюжетным описанием.

На фиг.4 показаны иллюстративные примеры коллекции сюжетных шаблонов, созданных для использования с системой 100. Коллекция может быть организована, как показано на чертеже, согласно жанру (GEN 1, GEN 2, GEN 3). Жанр может быть указан потребителем (с помощью UI 120) или определен, например, в результате считывания дескрипторных тегов выбранного музыкального сопровождения, как известно специалистам в данной области техники. GEN1 может, например, представлять простые детские сюжеты или ужастик, или романтическую историю, или любой другой жанр классификации сюжета, считающийся подходящим. Шаблоны 404 могут также хранить другую информацию, например, о приемлемом числе основных героев или главных действующих лиц (может быть только 3 человека необходимы для короткого романтического сюжета с участием любовного треугольника).

Каждый из сюжетных шаблонов 404 имеет ассоциированные сюжетные параметры, связанные со структурой повествования. Например, многие сюжеты (в частности, фильмы Голливуда) следуют трехактной структуре, при которой в акте I обрисовываются герои и заявляется сюжет, в акте II сюжет развивается, а в акте III происходит его развязка. Часто в конце акта I возникает конфликтная ситуация, способствующая раскрытию характера героя. Исходя из этого заявители представили себе, что музыкальные переходы или переходы между дорожками могут быть использованы (путем обнаружения NAK, например), чтобы очертить стадии сюжета или сценария. Поэтому на фиг.4 сюжетный шаблон 1 (ST1) имеет простую структуру повествования, при которой сюжетные параметры указывают сюжетную линию, в которой, например, первый акт является быстрым, затем следует переход к веселому акту II, а конечный третий акт состоит из быстрой сцены или сцен. Типичный сюжет, который может соответствовать такому шаблону, представляет собой простой детский сюжет, в котором дружественно настроенные животные состязаются в беге, участвуют в поздравлении победителя и затем бегут домой.

В то же время ST2 имеет другую сюжетную линию, в которой второе действие имеет сюжетные параметры, ассоциированные с грустными и медленными сценами. Вариабильность сюжетных шаблонов является функцией числа сюжетных параметров, которые могут быть определены на этапе выделения музыкальных характеристик с участием устройства 122. Кроме того, сюжетные шаблоны могут хранить информацию, связанную с продолжительностью каждого акта (и, следовательно, всего сюжета), вместе с короткими сюжетами, в которых длительность рассматриваемых актов приблизительно совпадает с одной или двумя музыкальными дорожками (в среднем 6-8 минут или т.п.), в то время как более длинные сюжеты могут иметь более длинные акты с большим числом сюжетных параметров DP для указания перемен сцены внутри акта. Специалисты по сочинению сюжетов и сценаристы могут определить другие параметры и критерии героев для сюжетных шаблонов.

В процессе работы ЦП 102 сравнивает DP сюжетных шаблонов с DP, определенными по выбранному музыкальному сопровождению (фиг.3), и выбирает наиболее подходящий шаблон. Например, сравнение DP, определенных на фиг.3, с ST2 на фиг.4 выявляет соответствие и поэтому выбирается ST2. После выбора сюжетного шаблона 404 ЦП 102 должен затем заполнить шаблон ST2 содержимым реального сюжета.

На фиг.5 показано типичное запоминающее устройство 114 в форме базы 500 данных, которая хранит множество различных медиафрагментов 502. Медиафрагмент - информационный объект, содержащий, например, закодированный сегмент фильма (иногда именуемый кадром, причем несколько кадров образуют сцену). Поэтому при воспроизведении медиафрагмент имеет определенную ассоциированную длительность. Фрагменты 502 охарактеризованы тегированными атрибутами, относящимися к сюжетным параметрам.

Медиафрагмент может храниться как, например, запись XML, содержащая описание аудио/визуального содержимого сцены (например, жанр - активные действия, актов - 1, начало - гонки на автомобилях, 4 минуты) и сюжетные параметры, ассоциированные с содержимым сцены. Конечно, при создании фрагментов весь сюжет может быть разработан с несколькими различными концовками и началами (например, сюжет может начинаться сценой гонок на автомобилях или велосипедах), каждая из которых подходит для различных сюжетных параметров (TEMPO). Это позволяет сохранить некоторую предсказуемость сюжета и в то же время показать различные фрагменты в соответствии с определенными сюжетными параметрами музыкального сопровождения. Могут быть также созданы подобные сцены, имеющие различную продолжительность.

Компьютерная программа подает ЦП 102 команду на поиск в базе данных медиафрагментов 502, которые приблизительно совпадают с выбранным сюжетным шаблоном по продолжительности, актам и сюжетным параметрам. Полученные фрагменты упорядочивают и кешируют в запоминающем устройстве 106 (или накопителе на жестком диске) и затем выводят вместе с музыкальным сопровождением. База 500 данных может также по выбору хранить для удобства сюжетные шаблоны 400, как показано на фиг5.

Рассмотрим, например, список DP, генерированный на фиг.3, и выбранный сюжетный шаблон (ST2) на фиг.4 и причем с указанием детского жанра (возможно самим ребенком через UI 120). Поиск сюжетных фрагментов, имеющих тег детского жанра, ведется на соответствие определенной временной шкале и сюжетным параметрам (DP). Если предположить, что длительность воспроизведения дорожки 1 (TR1) составляет 4 минуты, то тогда ведется поиск начального медиафрагмента, который имеет комбинацию DP (FAST-HAPPY) и который длится в течение приблизительно 4 минут. Точно так же осуществляется поиск медиафрагмента (связанного с первым выбранным фрагментом) для акта II, который имеет более медленную скорость развития действия и тему печали, и продолжительность которого будет приблизительно равна длительности воспроизведения дорожки 2. Наконец, для представления с дорожкой 3 выбираются медиафрагменты, тегированные как имеющие быструю/счастливую концовку и связанные с первым фрагментом.

Далее после идентификации и получения подходящих медиафрагментов 502 сюжет выводится, в этом примере осуществления с ПК, на монитор с дисплеем 116.

Фиг.6 иллюстрирует блок-схему последовательности описанных выше этапов. На этапе 602 осуществляется ввод аудиосигнала (IAS), представляющего выбранное музыкальное сопровождение, а на этапе 604 - выделение музыкальных характеристик (EMF).

На этапе 606 генерируется список сюжетных параметров (GEN DP), после чего на этапе 608 выбирается сюжетный шаблон (ST), используемый в сочетании с сюжетными параметрами для получения соответствующих медиафрагментов (OMF). Наконец, на этапе 610 обеспечивается вывод (O/P) сюжета вместе с выбранным музыкальным сопровождением.

Специалистам в данной области техники должно быть понятно, что сюжет не обязательно должен быть близким по времени. В медиафрагментах может быть использовано содержимое в форме стилизованных кадров-комиксов, позволяющих в результате сделать требования по согласованию временных промежутков менее жесткими и облегчить согласование воспроизведения сцены с определенными сюжетными моментами в выбранном музыкальном сопровождении. Такой "заготовленный" комикс, мультипликация или генерированное компьютером визуальное содержимое можно создать и индексировать сравнительно быстро, что позволяет за короткий период времени получить существенную базу данных с большим числом доступных сюжетных шаблонов и медиафрагментов. Фрагменты могут храниться в любой удобной форме, например как файлы MPEG со ссылками на записи, индексирующие эти файлы в терминах сюжетных параметров, жанров, героев и т.д.

В рассмотренном выше примере поиск заготовленного содержимого был осуществлен для пользователя в соответствии с сюжетным шаблоном, имеющим временную шкалу, которая приблизительно согласована с продолжительностью выбранного музыкального сопровождения. Однако после выбора конкретного сюжетного шаблона генерация медиафрагментов может осуществляться компьютером во время работы процессора 102 в динамическом режиме. Например, медиафрагмент может содержать генерированное компьютером содержимое в форме простой детской мультипликации. При этом согласование фрагментов с временной шкалой выбранного музыкального сопровождения осуществляется сравнительно просто, так как процессор 102 генерирует существующий медиафрагмент и его содержимое. Само собой разумеется, что в таком случае можно обойтись без сюжетных шаблонов и использовать простые правила (ACT 1, ACT 2, ACT 3, DP-HAPPY, FAST, HAPPY), поддерживающие генерацию медиафрагментов, составляющих сюжет.

В другом примере осуществления, иллюстрирующем преимущества окружающей интеллектуальной системы, модуль, представленный на фиг.1 пунктирной линией, реализован как домашний сетевой подключаемый модуль 124 с сетевыми линиями связи с различными выходными устройствами 116, 118, совместимыми с языком разметки и системой команд, разработанной для передачи впечатлений от реального мира. Пример такого языка физической разметки (PML) описан в поданной заявителями совместно рассматриваемой заявке WO 02/092183. PML содержит средство, позволяющее автору обмениваться впечатлениями и представлять эти впечатления конечному пользователю так, чтобы конечный пользователь испытал в определенной степени погружение внутрь реального физического пространства. Например, такие потребительские устройства с возможностью работы на PML как HI-FI и осветительные системы могут принимать от ведущего сетевого устройства команды (команды могут быть встроены, например, в поток видео DVD), которые вызовут изменения уровней освещенности или громкости звука от соответствующих устройств. Поэтому темная сцена в кинофильме приведет соответственно к снижению освещенности в доме потребителя.

PML является в общем описательным языком разметки высокого уровня, который может быть реализован в XML с дескрипторами, относящимися к событиям реального мира (<слабая освещенность>). Следовательно, PML позволяет обогащать впечатления потребителя с помощью находящихся в доме устройств стандартизированным способом.

Фиг.7 иллюстрирует типичную блок-схему для реализации аспектов настоящего изобретения с использованием PML. Сначала осуществляется ввод (IAS) 700 аудиосигналов и анализ (EMF) 702 на музыкальные характеристики. Характеристики выдаются в модуль 124 построения сюжета, который генерирует таблицу сюжетных параметров и временную шкалу, как описано выше. Модуль 124 выбирает сюжетный шаблон 400 в соответствии с полученной в результате генерации таблицей и получает подходящие медиафрагменты 502. Фрагменты (которые могут быть заготовками или получены в результате генерации при динамическом режиме работы) включают в себя дескрипторы PML, а также сюжетные параметры. Затем фрагменты собираются модулем 124 и выдаются в интерпретатор PML (PMLI) 704.

Поэтому команды PML, ассоциированные с фрагментами, подвергаются интерпретации и затем направляются в устройства 706, 708, 710 с возможностью использования PML в домашней сети. Например, устройства 706, 708 могут представлять собой осветительную PML-систему и PML-проектор. В ответ на PML-команды устройства, например, изменяют уровни освещенности и цвета стены, на которую направляется свет, причем в определенные моменты в процессе восприятия повествования и звука, ассоциированного с выбранным музыкальным сопровождением и полученными медиафрагментами. Управление другими устройствами 710 типа настольных вентиляторов или систем кондиционирования воздуха и нагрева может осуществляться в соответствии с сюжетными характеристиками, чтобы дополнительно обогатить впечатление от входных аудиосигналов и воспроизводимого сюжета.

Выше приведено описание системы, которая может быть использована для обогащения аудиосигналов путем обеспечения впечатления от повествовательного сюжета. Система может быть выполнена в форме специализированного модуля 124 или универсального компьютера, работающего автономно или в комбинации с другими устройствами в сети потребителя. Выделенные музыкальные характеристики типа тональности, изменений тональности, темпа и т.д. вводятся в компьютер, который затем связывает эти характеристики с сюжетными параметрами. При этом получаются соответствующие медиафрагменты, которые затем выводятся и воспроизводятся для пользователя. Для дополнительного улучшения и обогащения сюжета могут быть использованы другие устройства вывода.

Из приведенного выше описания специалистам в данной области техники должны быть очевидны другие модификации изобретения.

Такие модификации могут касаться других характеристик, которые уже известны в проектировании, изготовлении и использовании мультимедийной системы и компонентов этой системы и которые могут быть использованы вместо или в дополнение к характеристикам, уже описанным в данном изобретении, причем модификации, не выходящие за пределы сущности и объема настоящего изобретения. Кроме того, структуры повествования и медиафрагменты могут представлять собой вариации явно определенных примеров, описанных в данном изобретении, не выходящие за пределы сущности и объема настоящего изобретения.

Похожие патенты RU2322654C2

название год авторы номер документа
СЕМАНТИЧЕСКИЙ МИКШЕР ЗВУКОВЫХ ДОРОЖЕК 2012
  • Уле Кристиан
  • Херре Юрген
  • Попп Харальд
  • Риддербуш Фалько
RU2573228C2
СПОСОБ СОЗДАНИЯ МУЗЫКАЛЬНОГО ПРОИЗВЕДЕНИЯ 2000
  • Коренблит С.С.
RU2159965C1
СИСТЕМА И СПОСОБ ГЕНЕРАЦИИ ЗВУКОВОГО ФАЙЛА 2014
  • Кили Майкл Джон
  • Ти Конор
RU2662125C2
СПОСОБ АВТОМАТИЧЕСКОГО УПРАВЛЕНИЯ ТЕМБРОМ И АВТОМАТИЧЕСКИЙ РЕГУЛЯТОР 2005
  • Аванесян Гарри Романович
RU2290750C2
СПОСОБ ОЦЕНКИ ЭМОЦИОНАЛЬНОГО СЛУХА ЧЕЛОВЕКА 2002
  • Морозов В.П.
RU2221487C1
ПРИКЛАДНОЕ ИСПОЛЬЗОВАНИЕ СИСТЕМЫ ГОЛОС/ЗВУКОВОЕ СОПРОВОЖДЕНИЕ (Г/ЗС) 2001
  • Водри Майкл А.
  • Сондерс Уилльям Р.
RU2257676C2
СПОСОБ И УСТРОЙСТВО ДЛЯ ВЫЧИСЛЕНИЯ МЕТРИКИ ПОДОБИЯ МЕЖДУ ПЕРВЫМ ВЕКТОРОМ ПРИЗНАКОВ И ВТОРЫМ ВЕКТОРОМ ПРИЗНАКОВ 2006
  • Маккинни Мартин Ф.
  • Бребарт Дирк Й.
RU2451332C2
СПОСОБ НАПРАВЛЕННОЙ КОРРЕКЦИИ ПСИХОЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА 1997
  • Рябиков Вадим Вадимович
  • Куй-Беда Вячеслав Юрьевич
  • Ихсанова Светлана Геннадиевна
RU2122442C1
СПОСОБ И СИСТЕМА ДЛЯ ГЕНЕРИРОВАНИЯ ВЫХОДНОГО ЗВУКОВОГО ФАЙЛА ИЛИ ФАЙЛА MIDI ПОСРЕДСТВОМ ГАРМОНИЧЕСКОЙ КАРТЫ АККОРДОВ 2019
  • Кили Майкл Джон
RU2808611C2
ПРОСТРАНСТВЕННОЕ ВОСПРОИЗВЕДЕНИЕ ЗВУКА 2011
  • Хярмя Аки Сакари
  • Де Брюэйн Вернер Паулус Йосефус
RU2559713C2

Иллюстрации к изобретению RU 2 322 654 C2

Реферат патента 2008 года СПОСОБ И СИСТЕМА ДЛЯ ОБОГАЩЕНИЯ АУДИОСИГНАЛА

Изобретение относится к способу и системе обогащения аудиосигнала в соответствии с выделенными характеристиками указанного звукового сигнала. Техническим результатом является создание способа и системы обогащения аудиосигнала, которая позволяют автоматически обогащать входной аудиосигнал видеосюжетной последовательностью в зависимости от его семантического содержания. Технический результат достигается тем, что предложена система и способ, в которых мультимедийный сюжет представляют потребителю в соответствии с характеристиками, выделенными из аудиосигнала, представляющего, например, музыкальное сопровождение, выбранное потребителем. Характеристики типа изменений тональности и темпа выбранного музыкального сопровождения связаны с сюжетными параметрами, которые определяются сюжетными линиями, правилам построения повествовательного сюжета и структурой фильма или сюжета и ассоциированы с ними. В одном примере выбор нескольких музыкальных дорожек обеспечивает получение входных аудиосигналов, из которых выделяются музыкальные характеристики, после осуществляют генерацию списка сюжетных параметров и временной шкалы, далее получают медиафрагменты - фрагменты, имеющие сюжетное содержимое, ассоциированное с сюжетными параметрами, и выводят фрагменты с выбранным музыкальным сопровождением. 3 н. и 16 з.п. ф-лы, 7 ил.

Формула изобретения RU 2 322 654 C2

1. Способ дополнения аудиосигнала медиафрагментами, при котором принимают аудиосигнал, выделяют характеристики из аудиосигнала, генерируют упорядоченную по времени таблицу сюжетных параметров согласно выделенным характеристикам, получают медиафрагменты, по меньшей мере, частично в соответствии с таблицей сюжетных параметров и выводят полученные медиафрагменты.2. Способ по п.1, отличающийся тем, что характеристики, выделенные из аудиосигнала, включают в себя темп, тональность и/или громкость.3. Способ по п.1 или 2, отличающийся тем, что при генерации таблицы сюжетных параметров извлекают сохраненный список сюжетных параметров и ассоциированных характеристик аудиосигнала, сравнивают и согласуют выделенные характеристики с извлеченными ассоциированными характеристиками аудиосигнала и вставляют элемент списка в упомянутую таблицу, причем упомянутый элемент списка содержит сюжетный параметр, ассоциированный с характеристикой аудиосигнала.4. Способ по п.1, отличающийся тем, что сюжетный параметр включает в себя эмоциональную окраску в виде тональности, вариации скорости развития действия в виде изменения темпа и конфликты в виде случайных изменений параметров аудиосигнала.5. Способ по п.3, отличающийся тем, что в процессе получения медиафрагментов выбирают фрагмент из памяти, причем упомянутый фрагмент хранится вместе с ассоциированным сюжетным параметром, который совпадает с соответствующим элементом списка в таблице сюжетных параметров.6. Способ по п.1, отличающийся тем, что упомянутое получение медиафрагментов включает в себя генерирование фрагмента.7. Способ по п.1, отличающийся тем, что медиафрагменты включают в себя видеоданные.8. Способ по п.1, отличающийся тем, что упомянутый вывод включает в себя сохранение медиафрагментов и аудиосигнала.9. Способ по п.1, отличающийся тем, что упомянутый вывод включает в себя воспроизведение медиафрагментов и аудиосигнала.10. Способ по п.1, отличающийся тем, что дополнительно перед получением медиафрагментов выбирают сюжетный шаблон, по меньшей мере, частично в соответствии с указанной таблицей сюжетных параметров, причем указанный сюжетный шаблон влияет на процесс получения медиафрагментов.11. Способ по п.10, отличающийся тем, что сюжетный шаблон содержит данные по сюжетным параметрам, относящимся к структуре повествовательного сюжета.12. Способ по п.11, отличающийся тем, что при выборе медиафрагментов согласуют сюжетные параметры выбранного сюжетного шаблона с сюжетными параметрами медиафрагментов.13. Способ по п.10, или 11, или 12, отличающийся тем, что сюжетный шаблон для выбора генерируют согласно правилам логического построения сюжета и списку сюжетных параметров.14. Способ по п.1, отличающийся тем, что сюжетные параметры представлены тегами языка физической разметки.15. Способ по п.1, отличающийся тем, что комбинации выделенных характеристик имеют ассоциированные сюжетные параметры.16. Система дополнения аудиосигнала медиафрагментами, содержащая устройство ввода для приема аудиосигнала и средство обработки для выделения характеристик из принимаемого аудиосигнала, генерации упорядоченной по времени таблицы сюжетных параметров, ассоциированных с выделенными характеристиками, получения медиафрагментов, по меньшей мере, частично в соответствии с полученной в результате генерации таблицей сюжетных параметров, а также, по меньшей мере, одно устройство вывода для вывода указанных медиафрагментов.17. Система по п.16, отличающаяся тем, что дополнительно содержит память для сохранения медиафрагментов.18. Система по п.16 или 17, отличающаяся тем, что, по меньшей мере, одно устройство вывода содержит средство отображения, на котором отображаются медиафрагменты.19. Машиночитаемый носитель информации, содержащий программный код, который при выполнении процессором обеспечивает осуществление указанным процессором способа по любому из пп.1-15.

Документы, цитированные в отчете о поиске Патент 2008 года RU2322654C2

СПОСОБ ПРОИЗВОДСТВА И ПЕРЕДАЧИ УСИЛЕННОЙ ИНТЕРАКТИВНОЙ МУЛЬТИМЕДИА ИНФОРМАЦИИ 1993
  • Левис Скотт В.
RU2114518C1
Способ раздельного получения серы и битума из битуминозной серной руды 1925
  • Шаблыкин П.Н.
SU45597A1
US 5898119 A, 27.04.1999
US 5005459 A, 09.04.1991
JP 10304242 A, 26.02.1999.

RU 2 322 654 C2

Авторы

Ивз Дэвид А.

Коул Ричард С.

Торн Кристофер

Даты

2008-04-20Публикация

2003-12-10Подача