УРОВЕНЬ ТЕХНИКИ
Область техники, к которой относится изобретение
Реализации, описанные в данной работе, относятся к устройствам в целом и более точно к устройствам, определяющим объекты, содержащиеся в средствах информации.
Описание предшествующего уровня техники
Огорчительно видеть или слышать какого-либо человека в средствах информации (например, видеозапись, фотография, аудиозапись и т.д.) и не иметь возможности определить, что это за человек, или почему вы его помните. В настоящее время пользователи мобильных устройств связи могут определять песни с помощью мобильных устройств. Например, Song IDentityTM от Rocket Mobile, Inc. позволяет пользователю определять песни, записав на мобильное устройство несколько секунд звучания, после чего пользователю устройства сообщается исполнитель, альбом и название песни. К сожалению, этой системы идентификации недостаточно для определения людей в видеозаписях, фотографиях и аудиозаписях (отличных от песен) и предоставления информации об этих людях.
За последние несколько лет технология распознавания лиц значительно улучшилась, превратившись в эффективное средство для проверки прав доступа в здания и к компьютерам. Однако она по-прежнему не слишком полезна для определения неизвестных людей на людном стадионе или в аэропорту. Более того, в настоящее время технология распознавания лиц не способна определить все объекты, находящиеся в видео, изображениях и аудио, и не способна дать информацию об этих объектах.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
В соответствии с одним из аспектов способ может включать в себя получение медиаданных на устройство, идентификацию объекта, содержащегося в медиаданных, посредством распознавания изображений, видео- и аудиозаписей и отображения идентификационной информации на устройстве на основании распознанного объекта.
Дополнительно способ может включать в себя прием медиаданных посредством устройства.
Дополнительно способ может включать в себя захват медиаданных с помощью устройства.
Дополнительно может выполняться распознавание аудиоинформации в случае, если распознавание изображения/видео не позволяет определить медиаобъект в пределах заранее заданного уровня точности.
Дополнительно может выполняться распознавание изображения/видео информации в случае, если распознавание звука не позволяет определить медиаобъект в пределах заранее заданного уровня точности.
Дополнительно способ может включать в себя маркировку лица медиаобъекта для определения объекта посредством распознавания изображения/видео.
Дополнительно способ может включать в себя отображение результатов распознавания изображения/видео, идентифицирующих медиаобъект.
Дополнительно способ может включать в себя отображение идентификационной информации для выбранного пользователем результата распознавания изображения/видео.
Дополнительно способ может включать в себя отображение результатов распознавания аудио, идентифицирующих медиаобъект.
Дополнительно способ может включать в себя отображение идентификационной информации для выбранного пользователем результата распознавания аудио.
Дополнительно способ может включать в себя отображение результатов распознавания изображения/видео и аудио, идентифицирующих медиаобъект.
Дополнительно способ может включать в себя отображение идентификационной информации для выбранного пользователем результата распознавания изображения/видео и аудио.
Дополнительно медиаданные могут включать в себя одно из следующего: файл изображения, аудиофайл, видеофайл или файл с анимацией.
Дополнительно медиаобъект может включать в себя одно из следующего: человека, место или вещь.
Дополнительно идентификационная информация может включать в себя по крайней мере одно из следующего: биографическую информацию об идентифицированном медиаобъекте, ссылку на информацию об идентифицированном медиаобъекте или рекомендации, основанные на идентифицированном медиаобъекте.
В соответствии с другим аспектом устройство может включать в себя средства получения медиаданных на устройство, средства идентификации объекта, содержащегося в медиаданных, через распознавание лица и голоса, средства отображения идентификационной информации на устройстве на основании идентифицированного медиаобъекта.
В соответствии с еще одним аспектом устройство может включать в себя ассоциированный с устройством сборщик медиаинформации для получения медиаинформации и логику обработки. Логика обработки может обеспечивать идентификацию объекта в медиаданных с помощью распознавания лиц и голоса, отображение результатов распознавания лиц и голоса, идентифицирующих объект, и отображение идентификационной информации для одного из выбранных пользователем результатов распознавания лиц и голоса.
Дополнительно сборщик медиаинформации может включать по меньшей мере одно из следующего: камера, микрофон, устройство хранения медиаданных или устройство связи.
Дополнительно при идентификации медиаобъекта посредством распознавания лиц логика обработки может быть настроена для определения местоположения лица в медиаобъекте.
Дополнительно при идентификации медиаобъекта посредством распознавания лиц логика обработки может быть настроена для определения местоположения лица в медиаобъекте на основании пользовательского ввода.
В соответствии с дополнительным аспектом устройство может включать в себя память для хранения инструкций и процессор, выполняющий инструкции по получению медиаданных на устройство, обеспечению идентификации объекта в медиаданных посредством распознавания лица и голоса и отображению на устройстве идентификационной информации на основании идентифицированного медиаобъекта.
В соответствии с еще одним аспектом способ может включать получение видео на устройство, идентификацию объекта посредством распознавания лица и голоса в процессе воспроизведения видео и отображение на устройстве идентификационной информации на основании идентифицированного медиаобъекта.
В соответствии с еще одним аспектом способ может включать получение медиаданных на устройство, обеспечение идентификации объекта в медиаданных на основании сравнения этого объекта с объектами, имеющимися в базе данных и отображение на устройстве идентификационной информации на основании идентифицированного медиаобъекта.
Дополнительно вещь может включать в себя одно из следующих: животное, печатные издания, растение, дерево, скалу, персонажа мультфильма.
В соответствии с еще одним аспектом способ может включать в себя получение медиаданных на устройство, обеспечение идентификации местности в медиаданных на основании сравнения этой местности с имеющимися в базе, и отображение на устройстве идентификационной информации на основании идентифицированной местности.
Дополнительно местность может включать в себя по меньшей мере одно из следующего: строение, достопримечательность, дорогу или мост.
Дополнительно способ может включать отображение карты на устройстве на основании местоположения идентифицированной местности; карты, включающей в себя изображение идентифицированного места.
В соответствии с дополнительным аспектом способ может включать в себя получение медиаданных на устройство, обеспечение идентификации объекта, содержащегося в медиаданных, на основании распознавания голоса и текста, и отображение идентификационной информации на устройстве на основании идентифицированного медиаобъекта.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Прилагаемые чертежи включены в состав изобретения, составляют часть этого описания изобретения и иллюстрируют варианты осуществления изобретения и, вместе с описанием, служат для разъяснения принципов изобретения. На чертежах:
на Фиг.1 изображена примерная схема, иллюстрирующая понятия, ассоциирующиеся с принципами изобретения;
на Фиг.2 изображена схема примерного устройства, в котором могут быть реализованы системы и методы, согласующиеся с принципами изобретения;
на Фиг.3 изображена схема компонентов примерных компонент примерного устройства по Фиг.2;
на Фиг.4A-6B изображены схемы примерных способов идентификации, соответствующих реализациям, согласующимся с принципами изобретения; и
на Фиг.7A-8 изображены блок-схемы примерных процессов, соответствующих реализациям, согласующимся с принципами изобретения.
ПОДРОБНОЕ ОПИСАНИЕ
Следующее подробное описание изобретения относится к сопроводительным чертежам. Одинаковые номера на различных чертежах могут обозначать одинаковые или похожие элементы. Также нижеследующее детальное описание не ограничивает изобретение.
Реализации, согласующиеся с принципами изобретения, могут относиться к идентификации медиаданных на основании результатов распознавания лица и/или голоса и отображении идентификационной информации, относящейся к результатам распознавания лица и/или голоса. Используя идентификацию медиаданных (например, технологию распознавания лица для определения людей в изображениях и/или видео, и/или технологию распознавания голоса для определения людей в звуковых записях, например в части звуковой дорожки фильма), может быть определен человек, и информация о нем может быть отображена на устройстве. Например, устройство может извлечь медиаданные (например, изображение) из хранилища или посредством другого механизма (например, сфотографировав) и позволить пользователю выбрать лицо, показанное на изображении. Затем может быть выполнено распознавание лица и идентификация личности, показанной на изображении. Устройство может предоставить идентификационную информацию о личности, идентифицированной посредством распознавания лиц.
Термин «медиаданные», используемый в данном документе, должен интерпретироваться широко и может включать в себя любой машиночитаемый и машинохранимый продукт, документ, электронные средства информации и т.д.
Медиаданные могут включать, например, информацию, содержащуюся в документах, электронных газетах, электронных книгах, электронных журналах, онлайн-энциклопедиях, электронных носителях информации (например, файлах с изображениями, аудиофайлах, видеофайлах, анимационных файлах, интернет-передачах, подкастах - цифровых записях радио- или телепрограмм) и т.д. Термин «документ», используемый в данном документе, должен широко интерпретироваться и включать в себя любой машиночитаемый и машинохранимый продукт. Документ может включать в себя, например, e-mail, веб-сайт, файл, комбинацию файлов, один и более файлов с вложенными в них ссылками на другие файлы, сообщения в группах новостей, любое из вышеупомянутого и т.д. В контексте сети Интернет обычным документом является веб-страница. Документы часто включают в себя текстовую информацию и могут включать вложенные данные (такие как метаданные, изображения, гиперссылки и т.д.) и/или вложенные инструкции (такие как JavaScript и т.д.).
Термин «идентификационная информация», используемый в настоящем документе, должен интерпретироваться широко и может включать в себя любую информацию, относящуюся к любому объекту, определяемому в медиаданных. Объектами могут быть, например, личности (например, знаменитостей, музыкантов, певцов, звезд кино, спортсменов, друзей и/или любая личность, которую можно определить в медиаданных), места (например, здания, достопримечательности, дороги, мосты и/или любое место, которое можно определить в медиаданных) и/или живые и неживые существа (например, животные, печатные издания (книги, журналы и т.д.), персонажи мультфильмов, персонажи фильмов (например, Кинг-Конг), растения, деревья и/или любая «вещь», которую можно определить в медиаданных).
Термин «ссылка», используемый в настоящем документе, должен интерпретироваться широко и может обозначать любую ссылку из одного контента на другой контент или на другую часть того же самого контента.
Термин «устройство», используемый в настоящем документе, должен интерпретироваться широко и может обозначать радиотелефон; терминал персональной системы связи (PCS), который может совмещать в себе сотовый радиотелефон с возможностями обработки данных, передачи данных и факсов; карманный компьютер (PDA), который может включать в себя радиотелефон, пейджер, доступ к Интернету/интранету, веб-браузер, ежедневник, календарь, камеру (например, видео- или фотокамеру), средство звукозаписи (например, микрофон), доплеровский приемник и/или приемник глобальной системы позиционирования (GPS); ноутбук; устройство GPS; камеру (например, видео- или фотокамеру), устройство звукозаписи (например, микрофон); и/или любое другое вычислительное и коммуникационное устройство, способное отображать медиаданные, такое как персональный компьютер, домашний развлекательный центр, телевизор и т.д.
На Фиг.1 изображена примерная схема, иллюстрирующая понятия, ассоциированные с принципами изобретения. Как показано на Фиг.1, дисплей 100 устройства может включать в себя изображение или видео (изображение/видео) 110, выбранное пользователем. Например, в одной из реализаций изображение/видео 110 может являться фильмом или музыкальным видео, показываемым в текущий момент на дисплее 100. Дисплей 100 может включать в себя элемент 120 маркировки лица (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который при выборе позволяет пользователю маркировать (например, с помощью курсора 130) лицо на изображении/видео 110. Если лицо промаркировано курсором 130, пользователь может выбрать элемент 140 распознавания лица (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), предоставленные на дисплее 100, и произвести распознавание лица на изображении/видео 110, как это более детально описано ниже. Как показано дальше на Фиг.1 дисплей 100 может включать в себя элемент 150 аудиофайла (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который может отображаться при прослушивании пользователем аудиофайла. Например, в одной из реализаций пользователь может слушать на устройстве музыку (например, цифровую музыку, mp3, mp4 и т.д.). Пользователь может выбрать элемент 160 распознавания голоса (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), предоставленные на дисплее 100, и произвести распознавание голоса в аудиофайле, как это более детально описано ниже. В другой реализации пользователь может выбрать элемент 160 распознавания голоса и произвести распознавание голоса в фильме (например, видео 110), показываемом в текущий момент на дисплее 100. Еще в одной реализации пользователь может произвести распознавание и лица и голоса в медиаданных (например, в видео 110), воспроизводимых в текущий момент на дисплее 100.
ПРИМЕРНАЯ АРХИТЕКТУРА УСТРОЙСТВА
На Фиг.2 изображена схема примерного устройства 200 в соответствии с реализацией, согласующейся с принципами изобретения. Как показано на Фиг.2, устройство 200 может включать корпус 210, громкоговоритель 220, дисплей 230, кнопки 240 управления, клавиатуру 250, микрофон 260 и камеру 270. Корпус 210 может защищать компоненты устройства 200 от внешних воздействий. Громкоговоритель 220 может передавать пользователю устройства 200 звуковую информацию. Дисплей 230 может передавать пользователю визуальную информацию. Например, дисплей 230 может отображать информацию о входящих или исходящих звонках, медиаданные, игры, телефонные книги, текущее время и т.д. В реализации, согласующейся с принципами настоящего изобретения, дисплей 230 может передавать пользователю информацию в форме медиаданных, которые можно распознавать (например, посредством распознавания лица или голоса). Кнопки 240 управления могут позволять пользователю взаимодействовать с устройством 200 и выполнять на нем одну или более операций. Клавиатура 250 может включать в себя стандартную телефонную клавиатуру. Микрофон 260 может принимать звуковую информацию от пользователя. Камера 270 может позволять пользователю снимать и сохранять видео и/или фотоснимки (например, картинки).
На Фиг.3 изображена схема примерных компонентов устройства 200. Как показано на Фиг.3, устройство 200 может включать в себя логику 310 обработки, хранилище 320, пользовательский интерфейс 330, интерфейс 340 связи, антенный блок 350 и сборщик 360 медиаинформации. Логика 310 обработки может включать в себя процессор, микропроцессор, специализированную интегральную схему (ASIC), программируемую вентильную матрицу (FPGA) и тому подобное. Логика 310 обработки может включать в себя структуры данных или программное обеспечение, контролирующее работу устройства 200 и его компонентов. Хранилище 320 может включать в себя оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM) и/или другой тип памяти для хранения данных и инструкций, которые могут использоваться логикой 310 обработки.
Пользовательский интерфейс 330 может включать в себя механизмы ввода информации в устройство 200 и/или вывода информации на устройство 200. Примеры механизмов ввода и вывода могут включать в себя громкоговоритель (например, громкоговоритель 220), получающий электрические сигналы и выводящий аудиосигналы, камеру (например, камера 270), принимающая изображения и/или видеосигналы и выводящую электрические сигналы, микрофон (например, микрофон 260), принимающий аудиосигналы и выводящий электрические сигналы, кнопки (например, джойстик, кнопки 240 управления и/или кнопки клавиатуры 250), позволяющие вводить данные и команды управления в устройство 200, дисплей (например, дисплей 230) для вывода визуальной информации (например, информации с камеры 270) и/или вибратор, заставляющий устройство 200 вибрировать.
Интерфейс 340 связи может включать, например, передатчик, который преобразует немодулированные сигналы от логики 310 обработки в радиочастотные (RF) сигналы, и/или приемник, преобразующий радиочастотные сигналы в немодулированные сигналы. Альтернативно, интерфейс 340 связи может включать в себя приемопередатчик, выполняющий функции и приемника, и передатчика. Интерфейс 340 связи может соединяться с антенным блоком 350 для передачи и приема радиочастотных сигналов. Антенный блок 350 может включать в себя одну или более антенн для передачи и приема радиочастотных сигналов. Антенный блок 350 может принимать радиочастотные сигналы от интерфейса 340 связи и передавать их в эфир, принимать из эфира радиосигналы и передавать их в интерфейс 340 связи. Например, в одной из реализаций интерфейс 340 связи может обмениваться данными с сетью (например, с локальной сетью (LAN), глобальной сетью (WAN), телефонной сетью, такой как коммутируемая телефонная сеть общего пользования (PSTN), интранетом, Интернетом или комбинацией сетей).
Сборщик 360 медиаинформации может получать медиаинформацию от устройства 200. В одной из реализаций медиаинформация может соотноситься с медиаданными, сохраненными на устройстве 200 или принятыми устройством 200 (например, через интерфейс 340 связи). В этом случае сборщик 360 медиаинформации может включать в себя устройство хранения медиаданных (например, хранилище 320) или устройство связи (например, интерфейс 340 связи), способное принимать медиаданные от другого источника (например, посредством проводной или беспроводной связи с внешним хранилищем медиаданных). В другой реализации медиаинформация может соотноситься с медиаданными, записанными или полученными устройством 200. В этом случае сборщик 360 медиаинформации может включать в себя микрофон (например, микрофон 260), который может записывать аудиоинформацию, и/или камеру (например, камеру 270), которая может записывать изображения и/или видео. Записанные медиаданные могут сохраняться или не сохраняться в устройстве хранения медиаданных (например, хранилище 320).
Как будет детально описано ниже, устройство 200, в соответствии с принципами изобретения, может выполнять определенные действия, связанные с идентификацией медиаданных (например, распознавание лиц или голоса), на основании медиаинформации. Устройство 200 может выполнять эти операции в соответствии с командами логики 310 обработки, выполняющей программные инструкции приложения, хранящегося на машиночитаемом носителе, таком как хранилище 320. Машиночитаемый носитель может быть определен как физическое или логическое устройство памяти и/или несущая.
Программные инструкции могут быть записаны в хранилище 320 с другого машиночитаемого носителя или с другого устройства через интерфейс 340 связи. В соответствии с программными инструкциями, содержащимися в хранилище 320, логика 310 обработки может выполнять процессы, описанные ниже. Альтернативно, вместо программных инструкций или в комбинации с ними, для реализации процессов в соответствии с принципами настоящего изобретения могут использоваться аппаратные решения. Таким образом, реализации, соответствующие принципам изобретения, не ограничиваются какой-то специфической комбинацией аппаратных и программных решений.
ПРИМЕРНЫЕ МЕТОДЫ ИДЕНТИФИКАЦИИ МЕДИАДАННЫХ
Фиг.4A-6B - это схемы примерных методов идентификации медиаданных, соответствующих реализации, согласующейся с принципами изобретения. Способы Фиг.4A-6B могут быть осуществлены на устройстве 200 (например, на дисплее 230 устройства 200).
Распознавание лиц на изображениях или на видео
Как показано на Фиг.4А, дисплей 400 устройства (например, дисплей 230 устройства 200) может отображать изображения/видео 110. Дисплей 400 может включать элемент 120 маркировки лица (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который позволяет пользователю маркировать (например, с помощью курсора 130) лицо на изображении/видео 110. Если лицо промаркировано курсором 130, пользователь может выбрать элемент 140 распознавания лица (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), предоставленные на дисплее 400, и произвести распознавание лица на изображении/видео 110, как это более детально описано ниже. В одной из реализаций распознавание лица в изображении/видео 110 может быть выполнено с помощью программного обеспечения для распознавания лиц, установленного на устройстве (например, посредством логики 310 обработки и хранилища 320 устройства 200). В другой реализации распознавание лица в изображении/видео 110 может быть выполнено с помощью программного обеспечения для распознавания лиц, установленного на устройстве, обменивающемся данными с устройством 200 (например, через интерфейс 340 связи).
В программное обеспечение для распознавания лиц может входить любое обычное доступное программное обеспечение для распознавания лиц. Например, программное обеспечение для распознавания лиц может включать в себя технологии распознавания лиц, используемые для контроля и идентификации. Типичной задачей контроля является проверка того, что человек является тем, за кого он себя выдает, перед тем как разрешить ему доступ к устройству или данным. В этих случаях программное обеспечение для распознавания лиц может сравнить текущее изображение с изображениями, хранящимися в базе данных. Для этого метода степень совпадения может быть хорошей, поскольку снимки лиц могут выполняться в хороших условиях (например, фотосъемка знаменитости), и давать более высокое качество изображений, чем снимки, выполняемые в более сложных условиях.
В типичные задачи идентификации может входить сопоставление снимков неизвестных людей из таких источников, как цифровая фото- или видеокамера, с изображениями, хранящимися в базе данных. Поиск совпадения в случае задачи идентификации может быть затруднен, поскольку изображения, используемые для этой цели, в основном получаются без содействия объекта и в контролируемых условиях (например, фотографирование знаменитости в общественном месте).
В настоящее время программное обеспечение для распознавания лиц может использовать один из четырех базовых методов: по внешнему виду, по правилам, по свойствам и/или по текстурам. Методы, основанные на внешнем виде, в основном измеряют похожесть двух или более изображений, не пытаясь выделять в изображении особенности лица. Методы, основанные на правилах, анализируют части лица (например, глаза, нос и рот), измеряя их соотношение между двумя изображениями. Методы, основанные на свойствах, анализируют свойства лица (например, черты контура, форма, цвет кожи). Методы, основанные на текстурах, сравнивают различные образцы текстур лиц. Для каждого из этих методов программное обеспечение для распознавания лиц может генерировать шаблон, используя алгоритмы для определения и хранения данных. После записи изображения для контроля или идентификации программное обеспечение для распознавания лиц может обработать данные и сравнить их с информацией из шаблона.
В одном из вариантов реализации, соответствующих принципам изобретения, для распознавания лиц может быть использовано программное обеспечение от Cognitec Systems, Neven Vision, Identix, и Acsys Biometrics' FRS Discovery и/или подобное данному программному обеспечению.
Как показано далее на Фиг.4А, результаты 410 распознавания лица в изображении/видео 110 могут быть показаны на дисплее 400. Результаты 410 могут включать в себя список людей, совпадающих с лицом, показанным в изображении/видео 110. Например, в одной из реализаций результаты 410 могут включать в себя "знаменитая личность №1" 420 и отображение степени совпадения личности 420 (например, 98% вероятность того, что личность 420 совпадает с лицом, показанным на изображении/видео 110). Также результаты 410 могут включать в себя изображение 430 (которое может совпадать с изображением/видео 110 либо отличаться от него) для сравнения изображения/видео 110 с известным изображением личности 420. Результаты 410 могут быть организованы различными способами. Например, в одной из реализаций, как это показано на Фиг.4А, результаты 410 могут быть даны в виде списка подходящих личностей в порядке убывания, начиная с максимального совпадения и заканчивая личностью, процент совпадения с которой находится не ниже заранее заданного порога (например, 50%). Пользователь может выбрать личность из результатов 410 для того, чтобы отобразить информацию о ней. Например, в одной из реализаций каждая личность (например, личность 420) и/или каждое изображение 430 могут предоставлять ссылку на идентификационную информацию об этой личности.
Когда пользователь выбирает из результатов личность (например, выбирает личность 420), дисплей 400 может предоставить примерную идентификационную информацию, показанную на Фиг.4В. Может предоставляться самая разнообразная идентификационная информация. Например, если личность является кинозвездой, дисплей 400 может предоставить часть 440 меню и часть 450 идентификационной информации. Часть 440 меню может, например, включать ссылки (например, «Биография», «Карьера в кино», «Карьера на телевидении», «Веб-сайты» и/или «Оповещения») на части 450 идентификационной информации. В примерной реализации, показанной на Фиг.4В, часть 450 идентификационной информации может включать в себя биографическую информацию о личности (например, под заголовком «Биография»), информацию о карьере личности в кино (например, под заголовком «Карьера в кино», информацию о карьере личности на телевидении (например, под заголовком «Карьера на телевидении»), информацию о веб-сайтах, посвященных данной личности (например, под заголовком «Сайты о…»), и/или информацию для напоминания (например, под заголовком «Оповещения»). Информация для напоминания может включать в себя элемент 460 напоминания (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который при выборе пользователем может установить напоминание о том, что данная личность будет показана сегодня вечером по телевидению.
Хотя на Фиг.4А изображена маркировка лица только одного человека, в реализациях, соответствующих принципам данного изобретения, аналогичным образом могут отмечаться для идентификации и множество людей, мест или предметов. Соответственно, идентификационная информация может отображаться для каждого из отмеченных людей, мест или предметов. Более того, в одной из реализаций пользователь может не отмечать лицо на изображении или в видео, но при выборе элемента 140 распознавания лиц лицо на изображении или в видео будет автоматически найдено в этом изображении или видео (например, с помощью программного обеспечения для распознавания лиц).
Хотя на Фиг.4В и показана примерная идентификационная информация, в зависимости от идентифицируемых медиаданных может быть предоставлено больше или меньше идентификационной информации. Например, если идентифицируемая личность является музыкантом, идентификационная информация может включать в себя информацию об альбомах, информацию о видеоклипах, информацию о загрузке музыки, рекомендации (например, другие песни, видео и т.д. этого музыканта) и т.д. Более того, хотя на Фиг.4В и показана часть 440 меню, дисплей 400 может не включать в себя эту часть меню, но предоставлять идентификационную информацию (например, часть информации 450).
Распознавание голоса в аудио
Как показано на Фиг.5А, дисплей 500 устройства (например, дисплей 230 устройства 200) может отображать элемент 150 звукового файла (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора) и/или устройство (например, устройство 200) может проигрывать звуковой файл, ассоциированный с элементом 150 звукового файла. Пользователь может выбрать элемент 160 распознавания голоса (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), предоставленные на дисплее 500, и произвести распознавание голоса в звуковом файле. В одной из реализаций распознавание голоса в аудиофайле может быть выполнено с помощью программного обеспечения для распознавания голоса, установленного на устройстве (например, посредством логики 310 обработки и хранилища 320 устройства 200). В другой реализации распознавание голоса в аудиофайле может быть выполнено с помощью программного обеспечения для распознавания голоса, установленного на устройстве, обменивающемся данными с устройством 200 (например, через интерфейс связи 340).
В программное обеспечение для распознавания голоса может входить любое обычное доступное программное обеспечение для распознавания голоса. Например, программное обеспечение для распознавания голоса может включать в себя любые программы, способные распознавать людей по их голосам. Программное обеспечение для распознавания голоса может выделять из речи характерные черты, моделировать их и использовать для опознавания определенного человека по его/ее голосу. Программное обеспечение для распознавания голоса может использовать звуковые особенности речи, различающиеся от человека к человеку. Эти звуковые шаблоны могут отражать как анатомические особенности (например, размер и форма горла и рта), так и поведенческие шаблоны (например, высота голоса, стиль разговора). Из-за включения полученных моделей в голосовые шаблоны (например, «голосовые отпечатки») распознавание голоса относят к «поведенческой биометрии». Программное обеспечение для распознавания голоса может использовать три способа получения голосовых данных на вход: тексто-зависимый, с текстовой подсказкой и/или тексто-независимый. Тексто-зависимый способ ввода может включать в себя сопоставление произнесенного слова с хранящимся в базе данных правильных кодовых слов образцом, используя методы распознавания шаблонов. Ввод с текстовой подсказкой может выдавать пользователю каждый раз при использовании системы подсказку с новым ключевым предложением и принимать произнесенный текст только в том случае, если система решит, что он был произнесен зарегистрированным пользователем. Тексто-независимый ввод может включать предобработку голоса и выделение характерных особенностей определенного голоса, сопоставление характерных особенностей с шаблонами, сохраненными в базе данных, используя распознавание шаблонов, и идентификацию говорящего. Для обработки и хранения «голосовых отпечатков» могут использоваться различные технологии, включая скрытые модели Маркова, алгоритмы сопоставления шаблонов, нейронные сети, матричные представления и/или деревья решений.
В одном из вариантов реализации, соответствующих принципам изобретения, для распознавания голоса может быть использовано программное обеспечение от Gold Systems, PIKA Technologies Inc., RightNow Technologies, SearchCRM, и/или SpeechPhone LLC и/или подобное данному программному обеспечению.
Хотя Фиг.5А и показывает распознавание голоса из аудиофайла, в одной из реализаций, согласующихся с принципами настоящего изобретения, может быть выполнено распознавание голоса, звучащего в видео, отображаемом устройством (например, устройством 200). Например, если пользователь смотрит фильм на устройстве 200, он может выбрать элемент 160 распознавания голоса и выполнить распознавание голоса из фильма.
Как показано далее на Фиг.5А, результаты 510 распознавания голоса могут быть показаны на дисплее 500. Результаты 510 могут включать в себя список людей, чей голос совпадает с голосом из аудиофайла (или из видео). Например, в одной из реализаций результаты 510 могут включать в себя "знаменитая личность №1" 520 и отображение степени совпадения голоса личности 520 (например, 98% вероятность того, что голос личности 520 совпадает с голосом из аудиофайла или из видео). Результаты 510 могут также включать в себя изображение 530 личности 520, чей голос может совпадать с голосом из аудиофайла (или из видео). Результаты 510 могут быть организованы различными способами. Например, в одной из реализаций, как это показано на Фиг.5А, результаты 510 могут быть даны в виде списка подходящих личностей в порядке убывания, начиная с максимального совпадения и заканчивая личностью, процент совпадения с которой находится не ниже заранее заданного порога (например, 50%). Пользователь может выбрать личность из результатов 510 для того, чтобы отобразить информацию о ней. Например, в одной из реализаций каждая личность (например, личность 520) и/или каждое изображение 530 могут предоставлять ссылку на информацию об этой личности.
Аудиофайл (или звук в видео) может быть сопоставлен с человеком различными способами. Например, в одной из реализаций программное обеспечение для распознавания голоса может выделять характерные черты из речи в аудиофайле, моделировать их и использовать для определения личности по его/ее голосу. В других реализациях программное обеспечение для распознавания голоса может сравнивать слова, звучащие в аудиофайле (или музыку, проигрываемую в аудиофайле), с аналогичными образцами из базы данных (например, известными строками из фильмов, музыкальными файлами и т.д.). Еще в одной реализации программное обеспечение для распознавания голоса может использовать комбинацию вышеупомянутых методик для сопоставления аудиофайла с человеком.
Когда пользователь выбирает из результатов личность (например, выбирает личность 520), дисплей 500 может предоставить примерную идентификационную информацию, показанную на Фиг.5В. Может предоставляться самая разнообразная идентификационная информация. Например, если личность является кинозвездой, дисплей 500 может предоставить часть 540 меню и часть 550 идентификационной информации. Часть 540 меню может, например, включать в себя ссылки (например, «Цитаты», «Биография», «Карьера в кино», «Карьера на телевидении», «Веб-сайты» и/или «Оповещения») на части 550 идентификационной информации. В примерной реализации, показанной на Фиг.5В, часть 550 идентификационной информации может включать в себя информацию 560 о цитатах (например, под заголовком «Цитаты»), биографическую информацию о личности, которая произносила цитаты (например, под заголовком «Биография»), информацию о карьере личности в кино (например, под заголовком «Карьера в кино», информацию о карьере личности на телевидении (например, под заголовком «Карьера на телевидении»), информацию о веб-сайтах, посвященных данной личности (например, под заголовком «Сайты о…»), и/или информацию для напоминания (например, под заголовком «Оповещения»). Информация о цитатах 560 может, например, содержать название фильма и строки из фильма, распознанные программным обеспечением для распознавания голоса. Информация для напоминания может включать в себя элемент 570 напоминания (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который при выборе пользователем может установить напоминание о том, что данная личность будет показана сегодня вечером по телевидению. Хотя на Фиг.5В и показана часть 540 меню, дисплей 500 может не включать в себя эту часть меню, но предоставлять идентификационную информацию (например, часть 550 идентификационной информации).
Хотя на Фиг.5В и показана примерная идентификационная информация, в зависимости от идентифицируемых медиаданных может быть предоставлено больше или меньше идентификационной информации. Например, если личность (например, личность 520) является музыкантом, то в одной из реализаций, как показано на Фиг.5С, идентификационная информация может включать в себя данные, относящиеся к музыканту. Как показано на Фиг.5С, дисплей 500 может предоставлять часть 580 меню и часть 590 идентификационной информации. Часть 580 меню может, например, включать в себя ссылки (например, «Название песни», «Биография», «Альбомы», «Видео», «Загрузка» и/или «Оповещения») на части 590 идентификационной информации. В примерной реализации, показанной на Фиг.5С, часть 590 идентификационной информации может включать информацию о названии песни (например, под заголовком «Название песни»), биографическую информацию о музыканте (например, под заголовком «Биография»), информацию об альбомах музыканта (например, под заголовком «Альбомы», информацию о видео музыканта (например, под заголовком «Видео»), информацию о доступных загрузках (например, под заголовком «Загрузка») и/или информацию для напоминания (например, под заголовком «Оповещения»). Информация для напоминания может включать в себя элемент 570 напоминания (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который при выборе пользователем может установить напоминание о том, что музыкант может появиться сегодня вечером в телепрограмме. Хотя на Фиг.5С и показана часть меню 580, дисплей 500 может не включать эту часть меню, но предоставлять идентификационную информацию (например, часть 590 идентификационной информации).
Распознавание лица и/или голоса в Изображениях/Видео/Аудио, захваченных устройством
В одной из реализаций, как показано выше в Фиг.4A-5C устройство (например, устройство 200) может отображать и/или воспроизводить медиаданные, которые были сохранены на устройстве 200, сохранены на другом устройстве, к которому имеет доступ устройство 200, и/или загружены на устройство 200. Например, в одной из реализаций устройство 200 может сохранять медиаданные в хранилище 320 и позднее воспроизводить их. В другой реализации устройство 200 может подключаться к другому устройству (например, компьютер может подключаться к DVD-плееру) и воспроизводить медиаданные, хранящиеся на другом устройстве. В другой реализации устройство 200 может загружать медиаданные (например, из Интернета) и воспроизводить их на устройстве 200. Загруженные медиаданные могут сохраняться в хранилище 320 устройства 200.
В одной из реализаций, как показано выше в Фиг.6A и 6B, устройство (например, устройство 200) может записывать медиаданные, выполнять распознавание лица и/или голоса в медиаданных и отображать идентификационную информацию о медиаданных. Например, как показано на Фиг.6А, дисплей 600 устройства (например, дисплей 230 устройства 200) может обеспечивать механизм для фотографирования или записи видео (например, камера 270). Дисплей 600 может включать в себя элемент 620 камеры (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который при его выборе позволяет пользователю делать снимок 610 (например, фотографию) с помощью устройства 200 (например, посредством камеры 270 устройства 200). Дисплей 600 может включать в себя элемент 630 видео (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который при его выборе позволяет пользователю делать видеозапись (например, фильм) с помощью устройства 200 (например, посредством камеры 270 устройства 200). Также дисплей 600 может опционально включать в себя механизм 640, который может позволять пользователю увеличивать фотографию и/или видео с помощью устройства 200.
Как показано далее, дисплей 600 может включать в себя элемент 120 маркировки лица (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который позволяет пользователю маркировать (например, с помощью курсора 130) лицо на изображении/видео 610. Если лицо промаркировано курсором 130, пользователь может выбрать элемент 140 распознавания лица (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), предоставленные на дисплее 600, и произвести распознавание лица на изображении/видео 610, как это описано выше в связи с Фиг.4A и 4B.
Как показано на Фиг.6В, пользователь может выбрать элемент 630 видео и выполнить захват видео 650 с помощью устройства 200 (например, с помощью камеры 270 устройства 200). Пользователь может остановить воспроизведение видео 650 (например, как это показано текстом «пауза» 660) посредством механизма ввода устройства 200 (например, кнопками 240 управления и/или кнопками клавиатуры 250). Остановив воспроизведение видео, пользователь может выбрать элемент 120 маркировки лица (в одной из реализаций с помощью прямоугольника 670), который позволяет пользователю маркировать лицо на видео 650. Пользователь может маркировать остановленный кадр видео и/или найти прямым или обратным поиском нужный кадр и маркировать его. Если лицо промаркировано прямоугольником 670, пользователь может выбрать элемент 140 распознавания лица (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), предоставленные на дисплее 600, и произвести распознавание лица в видео 650, как это описано выше в связи с Фиг.4A и 4B. В альтернативной реализации лицо человека в видео 650 может быть промаркировано в процессе воспроизведения видео 650, т.е. без остановки видео 650. Дополнительно и/или альтернативно пользователь может выбрать элемент 160 распознавания голоса во время воспроизведения видео и выполнить распознавание звука из видео 650, как это описано выше в связи с Фиг.5A-5C.
В еще одной реализации пользователь может выбрать элемент 680 распознавания лица/голоса (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора) во время воспроизведения видео 650 и произвести распознавание лица и/или голоса в видео 650. Распознавание лица и голоса в видео 650 может быть, например, выполнено одновременно. Альтернативно сначала может быть выполнено распознавание лица в видео 650, а затем, если распознавание лица не даст уверенного совпадения, может быть выполнено распознавание голоса в видео 650 (например, перед распознаванием голоса может быть задан уровень совпадения). Еще в одном примере сначала может быть выполнено распознавание голоса в видео 650, а затем, если распознавание голоса не даст уверенного совпадения, может быть выполнено распознавание лица в видео 650 (например, перед распознаванием лица может быть задан уровень совпадения).
Хотя на Фиг.6A и 6B показан захват фото и/или видео с помощью устройства, также оно может выполнить захват звука (например, с помощью микрофона 260 устройства 200). Захваченный звук может сохраняться, либо не сохраняться на устройстве 200 (например, в хранилище 320). По захваченному звуку может быть выполнено распознавание голоса, как описано выше в связи с Фиг.5A-5C.
В одной из реализаций пользователь устройства 200 может управлять тем, как отображаются медиаданные на устройстве 200. Например, устройство 200 может включать в себя пользовательский управляемый механизм масштабирования медиаданных (например, кнопки 240 управления и/или кнопки клавиатуры 250), позволяющие пользователю увеличивать и уменьшать любую часть медиаданных. Функции масштабирования могут использоваться в сочетании с любым из способов, обсуждавшихся выше в связи с Фиг.4A-6B. Устройство 200 также может включать пользовательский управляемый механизм управления медиаданными (например, кнопки 240 управления и/или кнопки клавиатуры 250), позволяющие пользователю начинать и останавливать воспроизведение медиаданных (например, воспроизведение звука через громкоговоритель 220 устройства 200).
Примеры методов идентификации медиаданных, описанные выше в связи с Фиг.4A-6C, могут применяться в самых различных сценариях. Следующие сценарии иллюстрируют примерные способы реализации аспектов настоящего изобретения.
Идентификация людей
В одной из примерных реализаций, личности (например, знаменитости, музыканты, певцы, кинозвезды, спортсмены, друзья и/или любая другая личность, которую можно идентифицировать из медиаданных) могут быть идентифицированы при помощи следующих примерных методов идентификации. Например, кинозвезда может появляться в фильме, отображаемом на устройстве 200, и пользователь может пожелать узнать имя этой звезды и/или в каких еще фильмах она снималась. Пользователь может выполнить распознавание лица и/или голоса в данном фильме для того, чтобы идентифицировать кинозвезду и установить другую идентификационную информацию об этой кинозвезде (например, другие фильмы, в которых она снималась).
В другом примере в видеоклипе или в песне, проигрываемых на устройстве 200, может быть показан певец или музыкант, и пользователь может пожелать узнать имя певца/музыканта и/или название песни. Пользователь может выполнить распознавание лица (например, лица певца/музыканта в видеоклипе) и/или распознавание голоса (например, в видеоклипе и/или в песне) для определения идентификационной информации.
Еще в одном примере пользователь может иметь на устройстве 200 библиотеку фильмов, видеоклипов и/или музыки и при определении знаменитости устройство 200 может предоставить ссылки на те фильмы, видеоклипы и/или музыку в библиотеке, в которых снималась эта знаменитость.
В следующем примере идентификационная информация может включать номера телефонов и/или адреса, и устройство 200 может отображать изображения людей (например, друзей пользователя). При выборе пользователем изображений устройство 200 может сопоставлять изображение с номерами телефонов и/или адресами данного пользователя и отображать эту информацию пользователю. Устройство 200 может быть запрограммировано на автоматический набор телефонного номера человека на изображении.
Еще в одном примере примерные способы идентификации медиаданных, описанные выше, могут использоваться для обычных людей, в случае, если биометрическая информация (например, информация о внешности и/или голосе) доступна устройству 200. Например, если имеется информация о внешности человека (например, из досье преступника, паспорта и т.д.) и устройство 200 имеет доступ к этой информации, то устройство 200 может идентифицировать данного человека, используя примерные способы идентификации медиаданных. Это позволит людям опознавать преступников, находящихся в розыске, террористов и т.д. в публичных местах простым фотографированием человека и сравнением изображения с имеющейся биометрической информацией. Это позволит обычным гражданам помогать идентификации и поимке известных преступников, террористов и т.д.
Распознавание мест
В одной из примерных реализаций с помощью примерных способов идентификации, описанных выше, могут быть идентифицированы и места (здания, достопримечательности, дороги, мосты и/или любое другое место, которое можно идентифицировать из медиаданных). Например, пользователь устройства 200 может пытаться найти дорогу в городе. Пользователь может сделать с помощью устройства фотографию или видеозапись здания, и устройство 200 может идентифицировать здание с помощью примерных способов идентификации медиаданных, описанных выше (например, сделанное изображение может быть сравнено с изображениями зданий, находящимися в базе данных, доступной для устройства 200). Идентификация здания может показать пользователю его текущее положение в городе и помочь найти дорогу. В примерной реализации на основании идентифицированных зданий устройство 200 может отобразить пользователю карту, показывающую его текущее местоположение на основании идентифицированного здания, и/или снабдить его направлениями и изображением цели (например, гостиницы в городе).
В другом примере пользователь может пытаться идентифицировать достопримечательность в некоторой местности. Пользователь может сделать с помощью устройства 200 фотографию или видеозапись достопримечательности, и устройство 200 может определить достопримечательность с помощью примерных способов идентификации медиаданных, описанных выше (например, сделанное изображение может быть сравнено с изображениями достопримечательностей, находящихся в базе данных, доступной для устройства 200). Устройство 200 может также предоставить направления движения к другим достопримечательностям, расположенным неподалеку от достопримечательности, идентифицированной в настоящий момент устройством 200.
Еще в одном примере пользователь может получать направления, фотографируя изображение достопримечательности (например, на открытке) с помощью устройства 200, и устройство 200 может идентифицировать местоположение достопримечательности с помощью примерных способов идентификации медиаданных, описанных выше (например, сделанное изображение может быть сравнено с изображениями достопримечательностей, находящихся в базе данных, доступной для устройства 200).
Еще в одном примере пользователь может получать направления, фотографируя или снимая на видео уличные знаки с помощью устройства 200, и устройство 200 может идентифицировать местоположение уличных знаков с помощью примерных способов идентификации медиаданных, описанных выше (например, сфотографированное название улицы может быть сравнено с названиями, находящимися в базе данных, доступной для устройства 200). Устройство 200 может также предоставлять карту с улицами, зданиями, достопримечательностями и т.д., окружающими идентифицированную улицу.
Идентификация места может работать в сочетании с устройством GPS (например, находящимся в устройстве 200), дающим местоположение устройства 200. Например, может существовать множество «Первых улиц». Для того чтобы определить, возле какой из «Первых улиц» находится пользователь, сочетание идентификации медиаданных и устройства GPS может позволить пользователю правильно идентифицировать местоположение (например, поселок, город и т.д.) на основании информации о «Первой улице» и GPS-сигналов.
Такой способ идентификации мест может использовать «распознавание изображений/видео» вместо распознавания лиц (например, снятая фотография или видео могут сравниваться с изображением и/или видео, содержащимся в базе данных, доступной для устройства 200). Однако, используемое здесь «распознавание лиц» может считаться подмножеством «распознавания изображений/видео».
Распознавание вещей
В одной из примерных реализаций с помощью примерных способов идентификации медиаданных, описанных выше, могут распознаваться предметы и «вещи» (например, животные, печатные издания, персонажи мультфильмов, фильмов, растения, деревья и/или любые «вещи», которые можно идентифицировать в медиаданных). Например, пользователь устройства 200 может находиться на природе и увидеть животное, которое ему хотелось бы идентифицировать. Пользователь может сделать с помощью устройства 200 фотографию, видеозапись и/или звукозапись животного, и устройство 200 может идентифицировать животное с помощью примерных способов идентификации медиаданных, описанных выше (например, записанное изображение, видео и/или звук может быть сравнено с изображениями и/или звуками животных, находящимися в базе данных, доступной для устройства 200). Идентификация животных может предостеречь пользователя от приближения к опасным животным и/или может помочь наблюдателю животных (например, наблюдателю птиц) или натуралисту идентифицировать неизвестных животных в дикой природе.
В другом примере пользователь устройства 200 может захотеть идентифицировать растение (например, для научных, образовательных и т.д. целей определить, является ли растение ядовитым плющом). Пользователь может сделать с помощью устройства 200 фотографию и/или видеозапись растения, и устройство 200 может определить растение с помощью примерных способов идентификации медиаданных, описанных выше (например, сделанное изображение может быть сравнено с изображениями растений, находящимися в базе данных, доступной для устройства 200).
В другом примере пользователь устройства 200 может смотреть мультипликационный фильм и пожелать идентифицировать персонажа из этого фильма. Пользователь может выполнить распознавание лица и/или голоса в данном мультфильме для того, чтобы идентифицировать персонаж мультфильма и получить другую идентификационную информацию об этом персонаже (например, другие мультфильмы с этим персонажем).
Такой способ идентификации предметов может использовать «распознавание изображений/видео» вместо распознавания лиц (например, снятая фотография вещи или видео могут сравниваться с изображением и/или видео, содержащимся в базе данных, доступной для устройства 200). Однако, используемое здесь «распознавание лиц» может считаться подмножеством «распознавания изображений/видео». Далее такие способы идентификации предметов могут использовать «распознавание аудио» вместо распознавания голоса (например, запись звуков, издаваемых вещью, может сравниваться с аудиозаписями, содержащимися в базе данных, доступной для устройства 200).
Однако, используемое здесь «распознавание голоса» может считаться подмножеством «распознавания аудио».
Альтернативные/дополнительные методики
Распознавание лиц, голоса, изображений/видео и/или голоса, описанные выше, могут быть объединены с другими способами для идентификации медиаданных. Например, в одной из реализаций любое распознавание может происходить автоматически в фоновом режиме, в то время как медиаданные проигрываются или отображаются. Например, распознавание лица или голоса может происходить автоматически в фоновом режиме, в то время как проигрывается фильм и может определить медиаобъекты (например, актеров, актрис и т.д.) в фильме. Это может позволить методике распознавания идеально выбрать данные для распознавания лица и/или голоса (например, лучший снимок актера) и тем самым улучшить метод распознавания.
В другой реализации теги (например, ключевые слова, которые могут выступать в качестве темы или категории), имеющиеся в медиаданных (например, теги, идентифицирующие фильм, видео, песню и т.д.) могут быть использованы в соединении с любой методикой распознавания. Такие теги могут сузить область поисков для идентификации медиаданных. Например, такие теги может дать телевизионная программа, и они могут быть использованы для сужения области поиска для идентификации медиаданных. В другом примере после идентификации медиаданных теги могут быть добавлены к идентификационной информации.
Еще в одной реализации распознавание изображений/видео может быть использовано для сканирования текста печатных изданий (например, книг, журналов и т.д.). Печатные издания могут быть идентифицированы посредством оптического распознавания символов (OCR) в снятом изображении или видео. Например, фотография текста может быть распознана с помощью OCR, и текст может быть сравнен с текстами из базы данных для того, чтобы проверить имеется ли в ней сфотографированный текст.
ПРИМЕРНЫЕ ПРОЦЕССЫ
Фиг.7A-8 - это блок-схемы примерных процессов, соответствующих реализациям, согласующимся с принципами изобретения. Процесс на Фиг.7А может в целом быть описан как идентификация хранимых медиаданных. Процесс на Фиг.7B может в целом быть описан как идентификация хранимых медиаданных на основании распознавания лиц. Процесс на Фиг.7C может в целом быть описан как идентификация хранимых медиаданных на основании распознавания голоса. Процесс на Фиг.8 может в целом быть описан как идентификация хранимых медиаданных на основании распознавания лица и/или голоса.
Процесс идентификации хранимых медиаданных
Как показано на Фиг.7А, процесс 700 может получить медиаданные (блок 705). Например, в одной из реализаций, описанных выше в связи с Фиг.3, медиаданные могут соотноситься с медиаданными, сохраненными на устройстве 200 или принятыми устройством 200 (например, через интерфейс 340 связи). В этом случае сборщик 360 медиаданных может включать устройство хранения медиаданных (например, хранилище 320) или устройство связи (например, интерфейс 340 связи), способное принимать медиаданные от другого источника.
Как показано далее на Фиг.7А, процесс 700 может определять, было ли изображение или видео выбрано как медиаданные (блок 710). Если было выбрано изображение или видео (блок 710 - ДА), то могут быть выполнены блоки Фиг.7В. Например, в одной из реализаций, описанных выше в связи с Фиг.1, дисплей 100 устройства может отображать изображение/видео 110, выбранное пользователем. Например, в одной из реализаций изображение/видео 110 может являться фильмом или музыкальным видео, показываемым в текущий момент на дисплее 100.
Если изображение или видео не было выбрано (блок 710 - НЕТ), процесс 700 может определить, был ли в качестве медиаданных выбран аудиофайл (блок 715). Если был выбран аудиофайл (блок 715 - ДА), то могут быть выполнены блоки Фиг.7С. Например, в одной из реализаций, описанной выше в связи с Фиг.1, дисплей 100 может включать в себя элемент 150 с аудиофайлом (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который может отображаться при прослушивании пользователем аудиофайла. Например, пользователь может слушать на устройстве музыку (например, цифровую музыку, mp3, mp4 и т.д.). Если аудиофайл не был выбран (блок 715 - НЕТ), то процесс 700 может завершиться.
Процесс идентификации хранимых медиаданных на основании распознавания лиц
Как показано на Фиг.7В, процесс 700 может определить, необходимо ли пометить лицо на изображении или видео (блок 720). Например, в одной из реализаций, описанных выше в связи с Фиг.1 и 4А, дисплей 100 может включать элемент 120 маркировки лица (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который позволяет пользователю маркировать (например, с помощью курсора 130) лицо на изображении/видео 110. Если необходимо маркировать лицо (блок 720 - ДА), то процесс 700 может маркировать лицо в выбранном изображении или видео (блок 725). Если не требуется маркировать лицо (блок 720 - НЕТ), процесс 700 может выполнить блоки Фиг.7С.
Как показано далее на Фиг.7В, процесс 700 может определить, требуется ли выполнить распознавание лица (блок 730). Если распознавание лица не требуется (блок 730 - НЕТ), процесс 700 может выполнить блоки Фиг.7С. Если требуется выполнить распознавание лица (блок 730 - ДА), то процесс 700 может получить и отобразить пользователю результаты распознавания (блок 735). Например, в одной из реализаций, описанных выше в связи с Фиг.4А и 4В, в случае, если лицо помечено курсором 130, пользователь может выбрать элемент 140 распознавания лица (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), предоставленные на дисплее 400, и произвести распознавание лица на изображении/видео 110. В одной из реализаций распознавание лица в изображении/видео 110 может быть выполнено с помощью программного обеспечения для распознавания лиц, установленного на устройстве (например, посредством логики 310 обработки и хранилища 320 устройства 200). В другой реализации распознавание лица в изображении/видео 110 может быть выполнено с помощью программного обеспечения для распознавания лиц, установленного на устройстве, обменивающемся данными с устройством 200 (например, устройство 200 может посылать маркированное лицо на другое устройство, которое выполняет распознавание и возвращает результаты устройству 200). Результаты 410 распознавания лица в изображении/видео 110 могут быть предоставлены на дисплее 400. Результаты 410 могут включать в себя список людей, совпадающих с лицом, показанным в изображении/видео 110.
Процесс 700 может отображать идентификационную информацию на основании выбранных пользователем результатов распознавания лица (блок 740). Например, в одной из реализаций, описанной выше в связи с Фиг.4В, в случае если пользователь выбирает из результатов личность (например, выбирает личность 420), дисплей 400 может предоставить примерную идентификационную информацию, показанную на Фиг.4В. Может предоставляться самая разнообразная информация. Например, если личность является кинозвездой, дисплей 400 может предоставить часть 440 меню и часть 450 идентификационной информации. Часть 440 меню может, например, включать ссылки на части 450 идентификационной информации. В примерной реализации, показано на Фиг.4В, часть 450 идентификационной информации может включать в себя биографическую информацию о человеке, информацию о карьере в кино, на телевидении, информацию о веб-сайте, посвященном личности, и/или информацию для напоминания.
Процесс идентификации хранимых медиаданных на основании распознавания голоса
Если выбран аудиофайл (блок 715 - ДА, Фиг.7А), лицо не маркируется (блок 720 - НЕТ, Фиг.7В), и/или распознавание лица не выполняется (блок 730 - НЕТ, Фиг.7В), процесс 700 может выполнить блоки Фиг.7С. Как показано на Фиг.7С, процесс может определить, что требуется распознавание голоса (блок 745). Например, в одной из реализаций, описанных выше в связи с Фиг.5А и 5В, пользователь может выбрать элемент 160 распознавания голоса (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), предоставленные на дисплее 500, и произвести распознавание голоса в звуковом файле или в видеофайле. В одной из реализаций распознавание голоса в аудиофайле может быть выполнено с помощью программного обеспечения для распознавания голоса, установленного на устройстве (например, посредством логики 310 обработки и хранилища 320 устройства 200). В другой реализации распознавание голоса в аудиофайле может быть выполнено с помощью программного обеспечения для распознавания голоса, установленного на устройстве, обменивающемся данными с устройством 200 (например, через интерфейс 340 связи). Результаты 510 распознавания голоса могут быть предоставлены на дисплее 500. Результаты 510 могут включать в себя список людей, чей голос совпадает с голосом из аудиофайла (или из видео).
Если распознавание голоса не производится (блок 745 - НЕТ), то процесс 700 может завершиться. Если требуется выполнить распознавание голоса (блок 745 - ДА), то процесс 700 может получить и отобразить пользователю результаты распознавания голоса (блок 750).
Как показано далее на Фиг.7С, процесс 700 может отобразить идентификационную информацию на основании выбранных пользователем результатов распознавания голоса (блок 755). Например, в одной из реализаций, описанной выше в связи с Фиг.5В, в случае если пользователь выбирает из результатов личность (например, выбирает личность 520), дисплей 500 может предоставить примерную идентификационную информацию, показанную на Фиг.5В. Может предоставляться самая разнообразная информация. Если личность является кинозвездой, дисплей 500 может предоставить часть 540 меню и часть 550 идентификационной информации.
Часть 540 меню может, например, включать ссылки на части 550 идентификационной информации.
В примерной реализации, показано на Фиг.5В, часть 550 идентификационной информации может включать в себя информацию 560 о цитатах из фильма, биографическую информацию о человеке, произнесшем их, информацию о карьере этого человека в кино, на телевидении, информацию о веб-сайте, посвященном данному человеку, и/или информацию для напоминания.
Процесс идентификации захваченных медиаданных на основании распознавания лиц и/или голоса.
Как показано на Фиг.8, процесс 800 может получить медиаданные (блок 810). Например, в одной из реализаций, описанных выше в связи с Фиг.3, медиаданные могут соотноситься с медиаданными, полученными или захваченными устройством 200. В этом случае сборщик 360 медиаданных может включать в себя микрофон (например, микрофон 260), который может записывать аудиоинформацию, и/или камеру (например, камеру 270), которая может записывать изображения и/или видео.
Если требуется выполнить распознавание лица и голоса в захваченных медиаданных (блок 820 - ДА), то процесс 800 может получить результаты распознавания лица и голоса из захваченных медиаданных и отобразить идентификационную информацию (блок 830). Например, в одной из реализаций, описанных выше в связи с Фиг.6В, пользователь может выбрать элемент 630 видео и выполнить захват видео 650 с помощью устройства 200 (например, с помощью камеры 270 устройства 200). Остановив воспроизведение видео, пользователь может выбрать элемент 120 маркировки лица (в одной из реализаций с помощью прямоугольника 670), который позволяет пользователю маркировать лицо на видео 650. Если лицо маркировано, пользователь может выбрать элемент 140 распознавания лица, имеющийся на дисплее 600, начиная распознавание видео 650, после чего будет отображена идентификационная информация, как описано выше в связи с Фиг.4A и 4B. В альтернативной реализации лицо человека в видео 650 может быть отмечено в процессе воспроизведения видео 650, т.е. без остановки видео 650. Дополнительно пользователь может выбрать элемент 160 распознавания голоса во время воспроизведения видео 650, выполнить распознавание звука из видео 650 и отобразить идентификационную информацию, как это описано выше в связи с Фиг.5A-5C. Еще в одной реализации пользователь может выбрать элемент распознавания лица/голоса 680 во время воспроизведения видео 650 и выполнить распознавание лица и/или голоса из видео 650. Комбинация распознавания лица и голоса из видео 650, например, может быть выполнена одновременно или последовательно (например, распознавание лица может быть выполнено в первую очередь, а распознавание голоса - во вторую очередь, если распознавание лица не даст убедительного совпадения, и наоборот).
Как показано далее на Фиг.8, в случае, если распознавание лица и голоса в захваченных медиаданных не требуется (блок 820 - НЕТ), то процесс 800 может определить, требуется ли распознавание лица в захваченных медиаданных (блок 840). Если требуется выполнить распознавание лица в захваченных медиаданных (блок 840 - ДА), то процесс 800 может получить результаты распознавания лица из захваченных медиаданных и отобразить идентификационную информацию (блок 850). Например, в одной из реализаций, описанных выше в связи с Фиг.6А, дисплей 600 может включать элемент 120 маркировки лица (например, иконку, ссылку, кнопку и/или другие подобные механизмы выбора), который позволяет пользователю маркировать (например, в одной из реализаций с помощью курсора 130) лицо на изображении/видео 610. Если лицо маркировано, пользователь может выбрать элемент 140 распознавания лица, имеющийся на дисплее 600, начиная распознавание изображения 610, после чего будет отображена идентификационная информация, как описано выше в связи с Фиг.4A и 4B.
Как показано далее на Фиг.8, в случае, если распознавание лица в захваченных медиаданных не выполняется (блок 840 - НЕТ), то процесс 800 может определить, требуется ли распознавание голоса в захваченных медиаданных (блок 860). Если требуется выполнить распознавание голоса в захваченных медиаданных (блок 860 - ДА), то процесс 800 может получить результаты распознавания голоса из захваченных медиаданных и отобразить идентификационную информацию (блок 870). Например, в одной из реализаций, описанных выше в связи с Фиг.6A и 6B, устройство может выполнить захват звука (например, посредством микрофона 260 устройства 200). Захваченный звук может сохраняться, либо не сохраняться на устройстве 200 (например, в хранилище 320). По захваченному звуку может быть выполнено распознавание голоса, как описано выше в связи с Фиг.5A-5C.
Заключение
Варианты реализаций, согласующиеся с принципами изобретения, могут идентифицировать медиаданные на основании распознавания лица и/или голоса и могут отображать идентификационную информацию, относящуюся к результатам распознавания лица/голоса. Используя идентификацию медиаданных (например, технологию распознавания лица для идентификации людей в изображениях и/или видео, и/или технологию распознавания голоса для идентификации людей в звуковых записях, например в части звуковой дорожки фильма), может быть идентифицирован человек, и информация о нем может быть отображена на устройстве.
Вышеупомянутое описание предпочтительных вариантов осуществления настоящего изобретения предоставляет иллюстрации и описание, но не подразумевает быть исчерпывающим или ограничивающим изобретение какой бы то ни было точной раскрытой формой. Возможны модификации и вариации в свете вышеупомянутых идей или появившиеся при реализации изобретения на практике.
Например, хотя в Фиг.7А-8 и были описаны последовательности действий, порядок действий может быть изменен для того, чтобы вариант осуществления согласовывался с принципами изобретения. Далее, независимые действия могут выполняться параллельно. Также, хотя в вариантах осуществлений, описанных выше, и обсуждается использование биометрии лица и голоса, для идентификации медиаданных и предоставления идентификационной информации может использоваться и другая биометрическая информация (например, отпечатки пальцев, сетчатка глаза и радужной оболочки, мерки рук, рукопись, шаблоны походки, шаблоны печати и т.д.) Также, хотя на фигурах и изображены результаты распознавания лица и голоса, в одном из вариантов осуществления распознавание лиц и/или голоса может не дать результатов, однако может быть предоставлена идентификационная информация для ближайшего подходящего медиаобъекта, найденного посредством распознавания лица и/или голоса.
Должно быть подчеркнуто, что термин «содержит/содержащий», используемый в данном описании изобретения, применяется, чтобы показывать наличие изложенных признаков, целых частей, этапов или компонентов, но не исключает наличия или добавления одного или более других признаков, целых частей, этапов, компонентов или их групп.
Обычным специалистам в данной области техники будет очевидно, что аспекты настоящего изобретения, описанные выше, могут быть реализованы в различных видах программного, аппаратно реализованного программного обеспечения и аппаратных средств в вариантах осуществления, описанных в иллюстрациях. Программный код или специализированное управляющее аппаратное обеспечение, используемое для реализации аспектов, согласующихся с принципами настоящего изобретения, не ограничивают изобретение. Таким образом, функционирование и поведение аспектов было описано без ссылки на конкретный программный код - очевидно, что обычный специалист в данной области способен разработать программное обеспечение и управляющее аппаратное обеспечение для реализации аспектов на основании приведенного описания.
Никакой элемент, действие или инструкция, использованные в настоящей заявке, не должны быть истолкованы как критические или жизненно важные для изобретения, если только это не указано явно. Термины в единственном числе, используемые в материалах настоящей заявки, определены как один или более чем один. При использовании только одного объекта используется термин «один» или аналогичный. Далее, фраза «основанный на» подразумевает «основанный, по меньшей мере, частично, на», если только не указано явно обратное.
Настоящее изобретение относится к устройствам, определяющим объекты, содержащиеся в средствах информации. Техническим результатом является улучшение эффективности вычислительной обработки. Для достижения технического результата устройство идентификации объекта в медиаданных содержит сборщик медиаданных для получения медиаданных, ассоциированный с устройством, логику обработки для предоставления идентификации объекта в медиаданных посредством распознавания лица и голоса, причем одно из распознавания лица и распознавания голоса производится, когда другое из распознавания лица и распознавания голоса не позволяет идентифицировать медиаобъект в пределах заранее заданного уровня точности, сравнения идентифицированного медиаобъекта с множеством медиаобъектов, отображения упорядоченного списка этого множества медиаобъектов, совпадающих с идентифицированным медиаобъектом с заранее определенным процентом точности, отображения процента точности, ассоциированного с каждым из множества совпадающих медиаобъектов, приема выбора одного из множества совпавших медиаобъектов, и отображения идентификационной информации, ассоциированной с выбранным одним из множества совпавших медиаобъектов. 2 н. и 11 з.п. ф-лы, 8 ил.
1. Способ идентификации объекта в медиаданных, содержащий этапы, на которых:
получают медиаданные на устройстве;
представляют идентификацию объекта в медиаданных посредством распознавания изображений/видео и распознавания аудиоинформации, причем одно из распознавания аудиоинформации и распознавания изображения/видео производится, когда другое из распознавания аудиоинформации и распознавания изображения/видео не позволяет идентифицировать медиаобъект в пределах заранее заданного уровня точности;
сравнивают идентифицированный медиаобъект с множеством медиаобъектов;
отображают на устройстве упорядоченный список этого множества медиаобъектов, совпадающих с идентифицированным медиаобъектом с заранее определенным процентом точности; и
отображают на устройстве процент точности, ассоциированный с каждым из множества совпадающих медиаобъектов.
2. Способ по п.1, дополнительно содержащий этап, на котором принимают медиаданные посредством устройства.
3. Способ по п.1, дополнительно содержащий этап, на котором выполняют захват медиаданных с помощью устройства.
4. Способ по п.1, дополнительно содержащий этап, на котором выполняют маркировку лица медиаобъекта для идентификации объекта посредством распознавания изображения/видео.
5. Способ по п.1, дополнительно содержащий этапы, на которых:
принимают выбор одного из множества совпавших медиаобъектов; и отображают идентификационную информацию, ассоциированную с выбранным одним из множества совпавших медиаобъектов.
6. Способ по п.5, в котором идентификационная информация включает в себя информацию, ассоциированную с человеком, местом, предметом или существом.
7. Способ по п.1, в котором медиаданные включают в себя одно из следующего:
файл с изображением;
аудиофайл;
видеофайл;
файл с анимацией.
8. Способ по п.1, в котором медиаобъект включает в себя одно из следующего:
человек;
место;
предмет или существо.
9. Способ по п.5, в котором идентификационная информация содержит, по меньшей мере, одно из:
биографической информации об идентифицированном медиаобъекте;
ссылки на информацию об идентифицированном медиаобъекте;
рекомендаций, основанных на идентифицированном медиаобъекте.
10. Устройство идентификации объекта в медиаданных, содержащее:
сборщик медиаданных для получения медиаданных, ассоциированный с устройством; и
логику обработки для:
предоставления идентификации объекта в медиаданных посредством распознавания лица и голоса, причем одно из распознавания лица и распознавания голоса производится, когда другое из распознавания лица и распознавания голоса не позволяет идентифицировать медиаобъект в пределах заранее заданного уровня точности;
сравнения идентифицированного медиаобъекта с множеством медиаобъектов;
отображения упорядоченного списка этого множества медиаобъектов, совпадающих с идентифицированным медиаобъектом с заранее определенным процентом точности;
отображения процента точности, ассоциированного с каждым из множества совпадающих медиаобъектов;
приема выбора одного из множества совпавших медиаобъектов; и отображения идентификационной информации, ассоциированной с выбранным одним из множества совпавших медиаобъектов.
11. Устройство по п.10, в котором сборщик медиаданных включает в себя, по меньшей мере, одно из следующего:
камера;
микрофон;
устройство хранения медиаданных;
устройство связи.
12. Устройство по п.10, в котором при идентификации медиаобъекта посредством распознавания лиц логика обработки сконфигурирована для определения местоположения лица в медиаобъекте.
13. Устройство по п.10, в котором при идентификации медиаобъекта посредством распознавания лиц логика обработки сконфигурирована для определения местоположения лица в медиаобъекте на основании пользовательского ввода.
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
US 5666442 A, 09.09.1997 | |||
УСТРОЙСТВО И СПОСОБ ДЛЯ ОПИСАНИЯ, КОДИРОВАНИЯ, ХРАНЕНИЯ И ПОИСКА ИЗОБРАЖЕНИЙ ПО ИХ ГЕОМЕТРИИ | 2000 |
|
RU2238586C2 |
СПОСОБ КОМПЬЮТЕРНОГО РАСПОЗНАВАНИЯ ОБЪЕКТОВ | 1999 |
|
RU2191431C2 |
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
Авторы
Даты
2010-12-27—Публикация
2006-12-08—Подача