Показать метаданные Скрыть метаданные

(19)

(11)

2 635 066

(13)

(51)

МПК

G06K9/00(2006-01-01)

(21) (22)

Заявка

2015109072, 2013-09-12

(24)

Дата начала отсчета патента

2013-09-12

(22)

дата подачи заявки

2013-09-12

(45)

опубликовано

2017-11-08

(72)

авторы

Чжан ЧжунИнь ВэйхунВенетианер Питер

(73)

патентообладатели

Авиджилон Фортресс Корпорейшн

(56)

Документы, цитированные в отчете о поиске

СПОСОБ ОБНАРУЖЕНИЯ ЧЕЛОВЕЧЕСКИХ ОБЪЕКТОВ В ВИДЕО (ВАРИАНТЫ) Российский патент 2017 года по МПК G06K9/00

Описание патента на изобретение RU2635066C2

ПЕРЕКРЕСТНЫЕ ССЫЛКИ К РОДСТВЕННОЙ ЗАЯВКЕ

[0001] Настоящая заявка имеет приоритет заявки США No. 13/838,511, поданной 15 марта 2013 года, и предварительной заявки США 61/700,033, поданной 12 сентября 2012 года, содержание каждой из которых включено здесь в качестве ссылки во всей их полноте.

[0002] Область техники

[0003] Настоящее изобретение относится к видеонаблюдению, в частности, к способам и системам видеонаблюдения и к способам проверки таких систем. Раскрыты системы, устройства и способы видеонаблюдения, которые могут обнаружить присутствие людей. Системы, устройства и способы видеонаблюдения могут считывать людей и/или контролировать сценарии толпы людей в видеопотоках.

[0004] Предпосылки создания изобретения

[0005] Разумная система видеонаблюдения (IVS) может использоваться для обнаружения мероприятий в видеопотоках в режиме реального времени или оффлайн (например, путем просмотра ранее записанного и сохраненного видео). Обычно эта задача выполняется путем обнаружения и отслеживания целей представляющих интерес. Как правило, она хорошо работает, когда сцена не переполнена людьми. Однако производительность такой системы может значительно упасть в переполненных сценах. В действительности такие переполненные сцены часто происходят, и большой интерес представляет способность обнаружить определенных людей в толпе. Такое обнаружение людей может использоваться для подсчета числа и других характеристик толпы, таких как плотность толпы, формирование толпы и рассеяние толпы.

[0006] Более ранние работы по анализу толпы были направлены на некоторые определенные особенностей очень плотной толпы в связи со спортивными или религиозными событиями. Однако также существует потребность в общих сценариях наблюдения там, где иногда могут формироваться большие толпы. Они включают общественные места, такие как улицы, торговые центры, аэропорты, автобусные станции, вокзалы и т.д.

[0007] В последнее время проблема оценки плотности толпы или расчет людей в толпе получила большое внимание в научном мире, так же как и в промышленности. Существующие подходы, в основном, включают основанные на картографическом (косвенном) подходе и/или на подходе, основанном на прямом обнаружении.

[0008] Картографический подход направлен на отображение числа человеческих целей в извлеченном изображении, рассматривая пиксели движения, размер приоритетного блоба, приоритетные края, группы приоритетных углов и другие функции изображения. Картографический подход обычно требует подготовки по различным типам видео сценариев. Исследование, в основном, фокусируется на поиске надежных признаков, которые хорошо соответствуют технике учета числа людей, и на работе с некоторыми специальными особенностями, такими как тени и настройка камеры на перспективу. По многим сценариям картографический подход может обеспечить довольно точную оценку числа людей с помощью видео мониторинга. Однако производительность такого способа обычно зависит от сцены, и фактического местоположения отдельного человека в толпе бывает невозможно отследить.

[0009] Основанный на обнаружении подход может считать число людей в сцене путем идентификации каждой отдельной человеческой цели. Это исследование было сфокусировано на обнаружении человечка, обнаружении частей человека и общем обнаружении и отслеживании. Эти подходы могут обеспечить более точное обнаружение и расчет при большом скоплении людей. Если местоположение каждого человека может быть определено, появляется возможность вычислить локальную плотность толпы. Ключевые проблемы этих подходов заключаются в более высокой стоимости вычислений, зависящей от изучения, и относительно высоких требованиях к размерам изображения человека.

[0010] Описанные здесь варианты воплощения решают некоторые из этих проблем известных систем.

КРАТКОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

[0011] Раскрытые варианты воплощения обеспечивают способы, устройства и системы для интеллектуального анализа видеоизображений для обнаружения объектов, таких как человеческие объекты.

[0012] В некоторых вариантах воплощениях способ обнаружения человеческих объектов в видеокадрах включает определение, какие пиксели видеоизображения являются приоритетными пикселями, группой приоритетных пикселей, составляющих один блоб или несколько приоритетных блобов; для каждого из N местоположений в видеоизображении, где N является целым числом, предопределенная форма сравнивается с набором приоритетных блобов для получения соответствующей вероятности присутствия человека в контролируемом месте, получая, таким образом, N вероятностей, соответствующих N местоположениям; и используя N вероятностей для определение X личностей, представленных набором приоритетных блобов, где X - целое число.

[0013] Способ обнаружения человеческих объектов в видеоизображении может включить определение того, что пиксели видеоизображения сцены реального мира являются приоритетными пикселями, группой приоритетных пикселей, составляющих набор блобов из одного или нескольких приоритетных блобов; и для каждого из N местоположений в видеоизображении, где N является целым числом, сравнивая предопределенную форму с набором приоритетных блобов для определения людей X, которые представлены набором приоритетных блобов, где X целое - число.

[0014] Способы могут включать определение расположения каждого из людей X. Местоположения каждого из людей X могут быть определены как местоположение в горизонтальной плоскости реального мира, например местоположение физической плоскости земли реального мира.

[0015] Обнаружение человеческих объектов может использоваться для подсчета людей, анализа толпы и для других событий, связанных с обнаружением.

[0016] Для выполнения таких способов могут быть сконфигурированы системы и устройства, которые раскрыты здесь.

[0017] Дальнейшие варианты воплощения изобретения включают машиночитаемые носители, содержащие программное обеспечение, которое может использоваться в компьютере, выполняющем описанные здесь операции.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

[0018] Примерные варианты воплощения будут более ясно поняты из последующего подробного описания изобретения со ссылками на сопроводительные чертежи. Фигуры представляют описанные здесь не ограниченные примеры воплощений изобретения.

[0019] Фигура 1 - система видеонаблюдения согласно одному примерному варианту воплощения изобретения.

[0020] Фигура 2 - примерный кадр из видеопотока от системы видеонаблюдения согласно одному примерному варианту воплощения изобретения.

[0021] Фигура 3А - примерная блок-схема для обнаружения цели и расчета объектов согласно еще одному примерному варианту воплощения изобретения.

[0022] Фигура 3В - вариант воплощения, где несколько моделей человека в двумерном видеоизображении, причем каждая из них соответствует различному местоположению по отношению к двумерному видеоизображению.

[0023] Фигура 3С представляет одиночный ряд (х, y), идентифицирующих координат 321, каждая из которых связана с соответствующей моделью человека 320.

[0024] Фигура 3D представляет примерный способ для вычисления вероятностной диаграммы человека.

[0025] Фигура 3Е представляет примерный способ выполнения одного прохода вероятностной диаграммы как части нахождения оптимального числа моделей человека в видеоизображении.

[0026] Фигура 3F иллюстрирует способ выполнения множества проходов вероятностной диаграммы для нахождения оптимального числа моделей человека в видеоизображении.

[0027] Фигура 4 - стандартная модель человека, которая включает цилиндрическую модель 3D и ее соответствующую выпуклую модель 2D.

[0028] Фигура 5 - стандартная модель камеры на плоской поверхности, которая может быть калибрована с помощью нескольких выборок изображения человека.

[0029] На фигурах 6А, 6В и 6С показаны примерные результаты обнаружения объектов.

[0030] Фигуры 7А, 7В и 7С иллюстрируют пример оценки плотности людей в толпе на основе результатов обнаружения объектов.

[0031] Фигура 8 иллюстрирует примерные операции для обнаружения различных событий, связанных с толпой.

[0032] Фигура 9 иллюстрирует примерный способ определения и обнаружения области, заполненной толпой.

[0033] Фигура 10 иллюстрирует примерный процесс, связанный с каждой обнаруженной человеческой целью.

[0034] Фигура 11 иллюстрирует примерный процесс, связанный с каждой областью толпы.

[0035] Фигура 12 иллюстрирует способ, который может быть использован для определения и обнаружения событий «сбора» и «рассеяния» толпы.

[0036] Фигура 13 иллюстрирует один пример определения участка сбора толпы.

[0037] Фигуры 14А и 14В иллюстрируют пример участка сбора толпы.

[0038] Фигура 15 иллюстрирует примерный способ обнаружения участка сбора толпы.

[0039] Фигура 16 иллюстрирует примерный способ обновления участка сбора толпы и обнаружения событий «сбора» и «рассеяния» толпы.

[0040] Фигура 17 иллюстрирует примерное осуществление способа с помощью множества видеокамер.

ПОДРОБНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

[0041] Различные примерные варианты воплощения будут описаны ниже более подробно со ссылками на сопроводительные чертежи. Однако отметим, что настоящее изобретение может быть воплощено во многих различных формах и не должно быть ограничено вариантами воплощениями, приведенными здесь в качестве примера. Эти варианты воплощения являются просто примерами, и возможны многие другие реализации и изменения, которые не требуют их детального обсуждения здесь. Следует также подчеркнуть, что изобретение предоставляет подробную информацию альтернативных примеров, но такое перечисление альтернатив не является исчерпывающим. Кроме того, любое соответствие деталей в различных примерах не должно быть истолковано как требование необходимости применения именно такой детали - это невыполнимо для перечисления каждого возможного изменения для каждого описываемого здесь варианта. Язык пунктов патентования определяется требованиями к формуле изобретения. На фигурах размеры и относительные размеры уровней и областей могут быть увеличены для ясности. Цифровые позиции сходных элементов везде одни и те же.

[0042] Следует понимать, что хотя термины «первый», «второй», «третий» и т.д. могут здесь использоваться для описания различных элементов, эти элементы не должны быть ограничены этими терминами. Данные термины используются только для отличия одного элемента от другого. Таким образом, первый элемент, обсужденный ниже, можно было бы назвать вторым элементом, не выходя из духа существующего изобретательского уровня.

Как он используется здесь, термин «и/или» включает любой и все комбинации одного или нескольких связанных между собой позиций.

[0043] Следует понимать, что когда элемент упоминается как «соединенный» или «связанный» с другим элементом, он может быть непосредственно соединен или связан с другим элементом, или здесь могут присутствовать промежуточные элементы. В противоположность этому, когда элемент упоминается как "непосредственно соединенный» или «непосредственно связанный» с другим элементом, в данной цепи нет никаких промежуточных элементов. Другие слова, используемые для описания отношений между элементами, должны быть интерпретированы соответствующим образом (например, «между» по сравнению с «непосредственно между», «смежный» по сравнению с «непосредственно смежным» и т.д.).

[0044] Используемая здесь терминология служит только для описания определенных примерных воплощений изобретения и не предназначена для ограничения существующего изобретательного уровня. Как они используется здесь, формы единственного числа в английском тексте «a», "an" и "the" также включают формы множественного числа, если контекст ясно не указывает иное. Также подразумевается, что термины «содержит» и/или «содержащий», используемые в данном описании, определяют наличие заявленных признаков, целых чисел, стадий, операций, элементов и/или компонентов, но не исключают наличие или добавление одного или нескольких других признаков, целых чисел, стадий, операций, элементов, компонентов и/или их групп.

[0045] Если не определено иначе, все используемые здесь термины (включая технические и научные термины) имеют то же значение, которое обычно понимается специалистом в данной области техники, которому принадлежит это изобретательное понятие. Также подразумевается, что термины, используемые в обычных словарях, должны быть интерпретированы как имеющие значения, которое соответствуют их значению в контексте соответствующей области техники, и не должны интерпретироваться в идеализированном или чрезмерно формальном смысле.

[0046] Определения

В описании изобретения везде используются следующие определения.

[0047] «Видео» может относиться к изображениям движущихся объектов, представленным в аналоговом и/или цифровом виде. Примеры видео могут включать телевидение; фильмы; последовательность изображений от видеокамеры или другого источника; последовательность изображений от живого источника; машиногенерируемая последовательность изображений; последовательность изображений от устройства компьютерной графики; последовательность изображений от устройства хранения данных, такого как машиночитаемый носитель, цифровой видеодиск (DVD) или диск высокой четкости (HDD); последовательность изображений от интерфейса на основе IEEE 1394; последовательность изображений от видеоцифрового преобразователя или последовательность изображений от сети.

[0048] «Видеопоследовательность» может относиться к некоторым или ко всем видео изображениям.

[0049] «Видеокамера» может относиться к аппарату для визуальной записи. Примеры видеокамеры могут включать один или несколько следующих устройств: формирователь видеоизображения и фотокамера; видеокамера; цифровая видеокамера; цветная камера; монохромная камера; камера PC; веб-камера; инфракрасная видеокамера (IR); видеокамера для ночной съемки; тепловая видеокамера; телевизионная система с замкнутым каналом (CCTV); камера для панорамирования, наклона, изменения масштаба (PTZ) или видеодатчик. Видеокамера может быть предназначена для осуществления наблюдения и контроля сферы интересов.

[0050] «Обработка видеоданных» может относиться к любому процессу и/или анализу видео, включая, например, сжатие, редактирование, мониторинг и/или проверку.

[0051] «Кадр» может относиться к определенному изображению или другому дискретному модулю видео.

[0052] «Компьютер» может относиться к одному или нескольким устройствам и/или одной или нескольким системам, которые способны к приему структурированного ввода, обработке структурированного ввода согласно установленным правилам и приведению к результатам обработки данных в виде выхода. Примеры компьютера могут включать обычный компьютер; стационарный и/или портативный компьютер; компьютер, имеющий единственный процессор, многоядерные процессоры, которые могут работать параллельно и/или не параллельно; универсальный компьютер; суперкомпьютер; крупный компьютер; суперминикомпьютер; миникомпьютер; рабочая станция; микрокомпьютер; сервер; клиент; интерактивное телевидение; веб-устройство; устройство связи с доступом в Интернет; гибридная комбинация компьютера и интерактивного телевидения; портативный компьютер; планшетный персональный компьютер (PC); персональный цифровой секретарь (PDA); переносимый телефон; специализированные аппаратные средства для эмуляции компьютера и/или программного обеспечения, например, цифровой сигнальный процессор (DSP), программируемая на месте вентильная матрица (FPGA), интегрированный канал приложений (ASIC), специализированный процессор системы команд (ASIP), микросхема, микросхемы или чипсет; система на микросхеме (SoC) или многопроцессорная система на микросхеме (MPSoC); оптический компьютер; квантовый компьютер; биологический компьютер и аппарат, который может принимать данные, может обработать данные в соответствии с одной или несколькими сохраненными программами, может генерировать результаты и обычно может включать вход, выход, хранилище данных, арифметический блок, логику и блоки управления.

[0053] «Программное обеспечение» может относиться к заданным правилам управления компьютером. Примеры программного обеспечения могут включать общее программное обеспечение; сегменты кода; команды; апплеты; предварительный скомпилированный код; скомпилированный код; интерпретируемый код; компьютерные программы и программируемую логику.

[0054] «Машиночитаемый носитель» может относиться к любому устройству хранения, используемому для хранения данных, доступных компьютеру. Примеры машиночитаемого носителя могут включать магнитный жесткий диск; гибкий диск; оптический диск, такой как CD-ROM и DVD; магнитную ленту; флэш-память съемную память; микросхему памяти и/или другие типы носителей, которые могут сохранять считываемые компьютером команды.

[0055] «Компьютерная система» может относиться к системе, имеющей один или несколько компьютеров, где каждый компьютер может включать считываемое компьютером стандартное программное обеспечение в различных вариантах работы с компьютером. Примеры компьютерной системы могут включать распределенную компьютерную систему для обработки информации через компьютерные системы, объединенные в сеть; две или больше компьютерных систем, объединенных вместе через сеть для передачи и/или получения информации между компьютерными системами, и одно или несколько устройств и/или одну или несколько систем, которые могут принимать данные, могут обрабатывать данные в соответствии с одной или несколькими сохраненными в памяти программами, могут выдавать результаты и, как правило, включают вход, выход, хранилище данных, арифметический блок, логический блок и блоки управления.

[0056] «Сеть» может относиться к ряду компьютеров и к связанным с ними устройствами, которые могут быть подключены через средства связи. Сеть может включить постоянные соединения, такие как кабели, или временные соединения, например, осуществляемые по телефону или по другим каналам связи. Сеть может дополнительно включать проводные соединения (например, коаксиальный кабель, витую пару, оптоволокно, волноводы и т.д.) и/или беспроводные соединения (например, с помощью радиочастотных волн, оптических волн, акустических волн и т.д.). Примеры сети могут включать Интернет; интранет; локальную сеть (LAN); глобальную сеть (WAN) и комбинацию сетей, например, Интернет и интранет. Такие сети могут работать по любому из многих протоколов, например, по протоколу сети Интернет (IP), в режиме асинхронной передачи (ATM) и/или как синхронная оптическая сеть (SONET), протокол передачи пользовательских датаграмм (UDP), IEEE 802.x и т.д.

[0057] В некоторых вариантах воплощениях способ оценки плотности толпы, система и устройство могут быть основаны на существующих способах анализа видеоконтента, системах и устройствах. Помимо основного требования точности оценки, этот подход может обеспечить одно или несколько следующих преимуществ:

- независимость представления камеры, позволяющую работать в широком диапазоне сценариев приложений независимо от изменений в местоположении камеры, угла обзора, числа пикселей на цели и т.д.;

- относительно низкая стоимость вычислений при работе в режиме реального времени. Варианты воплощения могут быть реализованы во встроенной системе;

- сложная начальная установка и обучение могут быть уменьшены и/или устранены, обеспечивая больше удобств и более низкую стоимость эксплуатации.

[0058] Некоторые из раскрытых здесь примеров включают основанный на обнаружении подход, и может не требоваться никакого специального обучения. Эти примеры могут быть реализованы с общей системой IVS, которая уже выполняет основные задачи обнаружения и отслеживания и обеспечивает надежную маску переднего плана. Выпуклая модель области изображения человека может быть вычислена для каждого пикселя изображения, который может использоваться для оценки числа человеческих целей в каждой приоритетной области. Данные калибровки камеры могут обеспечить отображение плоского изображения на поверхности земли в материальном мире, который может использоваться для обеспечения фактических измерений плотности толпы в областях, представленных камерой. Используя фактическое измерение плотности толпы, могут быть обнаружены другие события, например «горячая точка толпы», «сбор толпы», «рассеивание толпы» и т.д.

[0059] На фигуре 1 представлена система видеонаблюдения 101 как один примерный вариант воплощениям изобретения. Система видеонаблюдения может быть сконфигурирована для обнаружения и мониторинга активности людей в толпе в видеопотоках. Система видеонаблюдения 101 может использоваться в ряде областей, где нужно обнаружить людей, например, ее использование для изучения плотности толпы. В частности, варианты воплощения могут использоваться для обнаружения сбора подозрительных людей, трафика пешеходов, необычное формирование толпы и/или ее рассеяние и т.д. Система видеонаблюдения 101 может включать источник видеосигнала 102 (например, видеокамеру или память, например, жесткий диск с сохраненным видео), модуль 103 обнаружения изменения, модуль 104 обнаружения движения, модуль 105 обнаружения приоритетного блоба, модуль 106 обнаружения человека, модуль отслеживания цели 107 и модуль 108 обнаружения событий. В этом примере источник видеосигнала (в частности, видеокамера) является стационарным. Однако специалистам понятно, что изобретение также применимо с мобильным источником видео. В этом примере источник видеосигнала обеспечивает один видеопоток. Однако изобретение также предусматривает использование и обработку множества видеопотоков.

[0060] Система видеонаблюдения может быть реализована на базе платформы обычной стационарной системы IVS. В качестве примера приведем патент США №7868912, выданный Венетианеру и др., и патент США №7932923, выданный Липтону и др., оба из которых включены здесь в качестве ссылки для примерных деталей системы IVS, которая может использоваться для реализации описанных здесь примеров воплощения изобретения. Патент США №7868912 и патент США №7932923 также включены как ссылки для примера создания видео (или метаданных) и последующей обработки (которая может быть выполнена в режиме реального времени или для дальнейшей обработки), чтобы получить информацию из этого видео, такую как обнаружение событий с помощью генерированных видеоданных, которые могут использоваться в раскрытых здесь вариантах воплощениями. Каждый модуль 103-108, а также их отдельные компоненты, взятые по одному или объединенные с другими модулями/компонентами, могут быть реализованы, используя специальное оборудование (схему), программное обеспечение и/или встроенное микропрограммное обеспечение. Например, все модули могут быть реализованы, используя обычный компьютер, снабженный соответствующим программным обеспечением. В данном случае машиночитаемые носители, содержащие программное обеспечение, которое может использоваться для конфигурирования компьютера для выполнения описанных здесь операций, включают дальнейшие варианты воплощения изобретения. В другом примере, для реализации описанных здесь систем и способов могут использоваться различные вычислительные и оптические компоненты, например, одно или несколько следующих устройств: универсальный компьютер; суперкомпьютер; большой компьютер; миникомпьютер; рабочая станция; микрокомпьютер; сервер; интерактивное телевидение; гибридная комбинация из компьютера и интерактивного телевидения; смартфон; планшет или специализированные аппаратные средства для эмуляции компьютера и/или программного обеспечения. Они могут включать один или несколько процессоров, одну или несколько программируемых вентильных матриц (FPGA), память компьютера, машиночитаемый носитель, например, любое устройство, используемое для хранения данных, доступных для компьютера (например, процессор может выполнять различные алгоритмы на данных, полученных из камеры, и память компьютера может затем сохранить информацию о различных пикселях и может сохранить результаты обнаружения блоба, обнаружения цели и обнаружения событий). Примеры машиночитаемого носителя включают магнитный жесткий диск; гибкий диск; оптический диск, например CD-ROM и DVD; магнитная лента; микросхема памяти; твердотельное устройство хранения и несущая, используемая для передачи считанных компьютером электронных данных, в частности, используемых при передаче и приеме электронной почты или в доступе к сети. Машиночитаемый носитель включает упомянутые выше считываемые компьютером носители, которые физически материальны. Кроме того, программное обеспечение может использоваться в сочетании с вычислительными и/или оптическими компонентами для реализации описанных здесь способов. Программное обеспечение может включать правила и/или алгоритмы для работы компьютером и может включать, например, сегменты кода, команды, компьютерные программы и программируемую логику. Источник видеосигнала 102 и модули 103-108 могут быть в единой системе или могут быть распределены. Например, источник видеосигнала 102 может включить видеокамеру, устанавливаемую в контролируемой области. Источник видеосигнала 102 обеспечивает видеопоток к контролирующему местоположению (например, отдельное второе местоположение, удаленное от контролируемого местоположения), где расположены модули 103-107. Модуль 108 обнаружения событий может находиться в третьем местоположении (например, центральная станция), отдельно от контролируемого местоположения и второго местоположения. Различные модули, компьютеры, камеры и другое описанное здесь оборудование могут быть соединены по сети, которая может включать постоянные соединения, такие как кабели, или временные соединения, например, осуществляемые по телефону или по другим каналам связи, а также может включать каналы беспроводной связи. Примеры сети включают Интернет; интранет; локальную сеть (LAN); глобальную сеть (WAN) и комбинацию сетей, например, Интернет и интранет. Описанные выше примеры аппаратного и программного обеспечения также подробно описаны в доступных документах, включенных здесь в качестве ссылок.

[0061] Изменяемые пиксели могут быть обнаружены модулем 103 обнаружения изменений как пиксели видеоизображения, предоставленного источником видеосигнала 102, которые отличаются от ранее полученного фонового изображения. Фоновое изображение может быть динамичным. Динамическая модель фонового изображения может постоянно создаваться и обновляться от входящих видеокадров. Таким образом, изменения в освещении, погоде и т.д., которые изменяют видеоизображение, могут учитываться в фоновом изображении. На стадии 104 изменения кадра могут использоваться для обнаружения движущихся пикселей. В 105 один или оба измененных пикселя от модуля 103 и движущиеся пиксели от модуля 104, как полагают, определяют приоритетные пиксели, которые пространственно сгруппированы в приоритетные блобы. Видеоизображение может быть обработано существующими системами анализа видеоконтента и способами для извлечения приоритетных пикселей и приоритетных блобов представляющих интерес (например, приоритетные блобы человека), в частности, описанными в патенте США No. 7825954 на имя Шанг и др., опубликованном 2 ноября 2010 года, содержание которого включено здесь в качестве ссылки. Информация от датчика глубины может дополнительно использоваться для оценки реальной высоты или размера каждого объекта, обнаруженного как потенциальный человек. В результате блобы, соответствующие потенциальным человеческим целям (в отличие от блобов не представляющих интереса), могут быть идентифицированы более точно. Информация от датчика глубины может дополнительно использоваться для устранения теней, зеркально отраженных компонентов, объектов, обнаруженных вне сферы интересов, слишком удаленных объектов (например, тех, которые удалены и не могут обеспечить точные данные) или других элементов видеоизображения, которое могут увеличить риск ошибочного анализа видеоизображения. Подробности использования информации о глубине объектов могут быть найдены в патентной заявке США №13/744,254 Шанга и др., содержание которой включено здесь в качестве ссылка. Блобы прослеживаются в течение определенного времени для формирования пространственно-временных целей в модуле 107 отслеживания целей, далее модуль 108 обнаружения событий обнаруживает событие, определенное пользователем, использующим выход обнаружения цели и процесс отслеживания цели. Вместо или в дополнение к простой пространственной группировке приоритетных пикселей в блобы, модуль 106 обнаружения человека использует информацию о калибровке и модель человека с выпуклой оболочкой для обнаружения людей даже в сценариях плотной толпы. В некоторых примерах в сцене для обнаружения человеческих объектов требуется минимальная предварительная тренировка. В случае модуля обнаружения 108 могут быть реализованы некоторые новые подходы обнаружения событий, в которых можно использовать результаты обнаружения людей в модуле 106 обнаружения человека.

[0062] На фигуре 2 представлены видеоизображения, соответствующие некоторым сценариям типового приложения для системы IVS 101, включая городские площади, улицы, достопримечательности, вокзалы, торговые центры, станции метро и т.д. Как хорошо видно на этом чертеже, в зависимости от положения камеры относительно объекта, снимаемые сцены отличаются по размеру и форме людей, занимающих видеоизображения.

[0063] На фигуре 3А показана блок-схема с подробной информацией о системе видеонаблюдения 101. Модуль 105 обнаружения приоритетных блобов может совпадать с модулем на фигуре 1. Модули 301, 302, 303, 304, 305 и 306 могут быть элементами модуля 106 обнаружения человека из фигуры 1. Модуль 301 обнаружения пикселей человеческого тела на основе результатов изменения пикселя, выданных модулем обнаружения изменения 103. Эти пиксели любо существенно отличаются от модели фонового изображения (например, изменение по яркости и/или цветовому различию превышают соответствующий порог), или расположены между достоверными краевыми приоритетными пикселями. Они считаются наиболее достоверными пикселями человеческого тела в изображении. Посмотрите, например, на позицию 301а фигуры 6А, как на пример обнаруженных пикселей человеческого тела. Другие изменяемые пиксели могут быть исключены из дальнейшей обработки обнаружения человека, так как они, скорее всего, представляют тени или отражения. Модуль 302 обнаружения граничных пикселей человека обнаруживает граничные пиксели человека там, где граница приоритетных блобов выравнивается с краями изображения текущего видеокадра. Посмотрите, например, на позицию 302а фигуры 6А, как на пример обнаруженных граничных пикселей человека. При выполнении операции обнаружения человека могут быть выполнены другие анализы (в дополнение к описанным выше или вместо них) для создания определения, что человеческое тело было обнаружено. Например, можно установить, чтобы каждый потенциальный человеческий блоб должен содержать определенное число граничных приоритетных краевых пикселей. В еще одном примере, другая обработка может распознать блоб, связанный с объектом, отличным от человека (например, механизмом), и исключить такой блоб из дальнейшей обработки обнаружения человека. Другие приоритетные блобы, которые, как полагают, не являются потенциальным человеком, могут быть исключены из набора приоритетных блобов. Кроме того, любой обнаруженный блоб может быть частью набора приоритетных блобов.

[0064] Модуль 303 стандартной модели человека обеспечивает 3D и двумерную модель человека. Например, модуль 303 стандартной модели человека может преобразовать 3D модель человека в двумерную модель человека путем отображения или проецирования 3D модели человека в реальном мире на плоскость видеоизображения 2D. На фигуре 4 показана примерная 3D модель 303а, отображенная на соответствующей 2D модели человека 303b на плоскости изображения 330. 3D модель человека 303а может быть рядом простых трехмерных форм, например, группой цилиндров (одного цилиндра для ног, одного цилиндра для туловища и одного цилиндра для головы). Эта же 3D модель человека 303а (например, цилиндрическая модель) может использоваться при различном положении видеокамеры так, чтобы различный угол видеокамеры относительно земли (поверхности земли реального мира) мог бы использоваться для получения 2D модели человека 303b различной формы в плоскости изображения видеокамеры. Например, взяв в качестве примера цилиндрическую 3D модель человека, угол камеры, обеспечивающий нисходящее представление определенного местоположения, может отобразиться на окружности в двумерной плоскости изображения, где угол камеры, создающий наклонное представление того же местоположения, может отобразить цилиндрическую 3D модель человека в различных формах, например в удлиненном виде. В примере, показанном на фигуре 17, камера 1702 может иметь возможность представить сверху вниз 3D модель человека 303а по сравнению с камерой 1704, которая может иметь больше возможностей на вид сбоку 3D модели человека 303а по сравнению с камерой 1702. Если расстояния камер 1702 и 1704 от 3D модели человека 303а равны, соответствующая двумерная модель человека, отображенная на плоскости изображения камеры 1702, будет более компактной (например, короче), чем двумерная модель человека, отображенная на плоскости изображения камеры 1704. Двумерная модель человека может иметь выпуклую форму, которая может быть получена путем интерполяции точек внешних краев проекции 3D модели человека на плоскость 2D изображения.

[0065] Фигура 4 иллюстрирует типовую модель человека, которая включает цилиндрическую 3D модель 303а и ее соответствующую двумерную модель 303b с выпуклой оболочкой, отображенную на 2D плоскости изображения 330. 3D модель человека 303 состоит из цилиндра ног, цилиндра туловища и цилиндра головы. Длина и радиус каждого цилиндра могут соответствовать физическим статистическим данным, представляющим типовые размеры обычного человека. Как показано на фигуре 4, эти три цилиндра имеют четыре ключевых плоскости: плоскость головы, плоскость плеча, плоскость бедра и плоскость ноги. Для получения соответствующей 2D модели человека в определенном местоположении мы можем выбрать объект неравномерно по периметру четырех ключевых плоскостей и спроецировать каждую пробную 3D точку на двумерную плоскость изображения, используя параметры калибровки камеры для определения соответствующего размера и ориентации относительно определенного местоположения пространстве двумерного изображения. Эти соответствующие пробные точки изображения могут затем использоваться для формирования выпуклой оболочки на изображении с помощью способа формирования выпуклой оболочкой, который может использоваться в качестве модели двумерного изображения человека.

[0066] На фигуре 5 представлена стандартная модель камеры на плоской поверхности земли, которая может быть калибрована с помощью нескольких выборок изображения человека. Модель камеры может иметь только три параметра: высоту камеры над уровнем земли, угол наклона и фокусное расстояние камеры. Эти параметры могут быть оценены с помощью трех или нескольких выборок человека из видеокадров, как описано в источнике «Robust Human Detection and Tracking System Using a Human-Model-Based Camera Calibration" (The 8th International Workshop on Visual Surveillance, 2008, Z. Zhang, P. L. Venetianer and A. J. Lipton) and U.S. Patent No. 7,801,330, to Zhang et al», опубликованном 21 сентября 2010 года и содержание которого включено здесь в качестве ссылки.

[0067] В альтернативном или дополнительном варианте, модуль 303 типовой модели человека может иметь предопределенную двумерную модель, которая может быть изменена (например, расширена, уменьшена, наклонена относительно вертикальной оси плоскости двумерного изображения и т.д.) в ответ на изменение угла наклона камеры видеокамеры, обеспечивающей видеоизображение. Несколько типовых моделей человека могут быть предоставлены модулем 303. Модели человека также могут включать моделирование типовых аксессуаров. Например, при использовании системы на открытом воздухе первая модель человека может использоваться для теплой погоды, вторая большая модель человека может использоваться при холодной погоде (когда предполагается ношение теплой одежды и рассматривается часть модели человека), и третья модель человека может использоваться для дождливой погоды (когда предполагается использование зонтиков и рассматривается часть модели человека).

[0068] Модуль 303 типовой модели человека также обеспечивает оценку различных размеров двумерной модели человека в соответствующих положениях в пространстве изображения. Пространство изображения может соответствовать двумерному пространству изображения в кадре видео, обеспечиваемого источником видеосигнала 102. Пространство изображения может быть измерено в приращениях пикселей, когда местоположения в пространстве изображения идентифицируются координатами пикселей. Видеокамера может взять видеоизображение, содержащее двухмерное изображение трехмерного реального мира. Когда человек будет присутствовать в определенном местоположении в реальном мире, можно ожидать, что этот человек займет некоторое количество приоритетных пикселей в определенном местоположении в двумерном видеоизображении. Если человек находится далеко от видеокамеры, то размер изображения человека будет относительно небольшим по сравнению с размером изображения человека, стоящего близко к видеокамере. Для каждого множества местоположений в пространстве двумерного видеоизображения модуль 303 типовой модели человека может обеспечить модель человека, имеющую размер, соответствующий местоположению пространстве двумерного изображения. Для каждого местоположения двумерная модель человека может иметь размеры и/или размер, быстро реагирующий на соответствующее местоположение двумерного видеоизображения в пространстве. Ориентация этих моделей человека также может быстро реагировать на местоположение пространстве двумерного изображения. Например, некоторые объективы фотокамеры (например, широкоугольные объективы) могут представлять вертикальное направление в реальном мире с первым направлением на одной стороне кадра видеоизображения и вторым, отличным направлением на второй стороне кадра видеоизображения. Двумерные модели человека могут иметь различную ориентацию на различных сторонах кадра видеоизображения (и другие местоположения) в ответ на различные представления вертикального направления реального мира.

[0069] Местоположения каждой из множества моделей человека в пространстве 2D видеоизображения могут быть связаны идентифицирующими координатами в пространстве двумерного видеоизображения. Идентифицирующие координаты могут соответствовать местоположениям пикселей видео, имеющего пространство двумерного видеоизображения. Например, местоположение, соответствующее десятому ряду 22-го столбца матрицы пикселей, может соответствовать идентифицирующей координате (10, 22). Для каждого из множества местоположений в пространстве двумерного видеоизображения модуль 303 типовой модели человека может связать определенную точку модели человека с идентифицирующей координатой. Например, определенная точка модели человека может быть вершиной модели человека, соответствующей голове человека, нижней частью модели человека, соответствующей ноге человека, центром модели человека, соответствующей туловищу человека. Остальная часть модели человека может быть отображена в пространстве двумерного видеоизображения, связанного с идентифицирующей координатой и размером человека, основанным на фиксированном отношении между определенной точкой модели человека и остальной частью модели человека. Предположим, например, что модель человека является окружностью. Для каждого пикселя в пространстве двумерного видеоизображения центр соответствующей окружности отображен (например, связан с (х, y) координатами двумерного пространства видеоизображения), где остальная часть окружности отображается на пространстве двумерного видеоизображения, учитывающем соответствующий размер окружности (и известным отношением окружности к его центру). Местоположение определенной части человека (например, верхней части головы человека, нижней части ноги, центральной части туловища человека) в реальном трехмерном мире может иметь уникальную связь со своим местоположением в двумерном видеоизображении и, таким образом, наличие этой определенной точки в двумерном видеоизображении человека может использоваться для определения местоположения человека в реальном трехмерном мире.

[0070] Модуль 303 типовой модели человека также может определить размер модели человека для каждого идентифицирующего положения пространстве двумерного изображения. Размер модели человека может быть получен из системы 101 калибровки системы видеонаблюдения. Например, калибровочная модель известного размера может перемещать контролируемую область, в то время как система видеонаблюдения 101 берет видео для калибровки. Калибровочная модель может быть человеком известной высоты, обходящего контролируемую область. Во время калибровки система может идентифицировать калибровочную модель видео как приоритетный блоб (например, путем доступа к информации о калибровке, предоставленной системе видеонаблюдения 101 относительно размера калибровочной модели), указывая, что приоритетный блоб соответствует предопределенному размеру (например, предопределенной высоте). Здесь при перемещении калибровочной модели через контролируемую область во время калибровки видео для различных местоположений видеоизображения система может коррелировать известную высоту калибровочной модели к размеру в двумерном видеоизображении. Например, когда центр калибровочной модели находится в местоположении (х1), (y1), высота калибровочной модели может составить 15 пикселей (или может быть измерена по другой методике измерения). Когда центр калибровочной модели находится в местоположении (х2, y2), калибровочная модель может составить 27 пикселей по высоте. Таким образом, система видеонаблюдения 101 может коррелировать размеры двумерного видеоизображения в определенных местоположениях (например, в координатах (х, y)) в 2D видеоизображении к размеру (например, высоты) в реальном мире путем корреляции размера 2D видеоизображения к известному размеру (например, высоте) калибровочной модели. На основе известной корреляции (полученный с помощью этой калибровки) между размерами реального мира и размерами в двумерном видеоизображении в определенных местоположениях (например, в координатах (х, y)) в 2D изображении двумерный размер модели человека в пространстве двумерного видеоизображения может быть вычислен для каждого местоположения (в координатах (х, y)) в двумерном видеоизображении для соответствия среднему размеру человека в реальном трехмерном мире.

[0071] Процедуры калибровки описаны в патенте США №7932923, выданном на имя Липтона и др., и в патенте США №7801330, выданном на имя Шанга и др.; содержание каждого из них включено здесь в качестве ссылки. В целом, с помощью ввода параметров или данных, полученных через процедуру калибровки, таких как высота камеры (Н), вертикальные и горизонтальные углы поля зрения камеры (θ_H, θ_V), угол наклона камеры (α) и другой информации, такой как обнаруженные внешние границы объекта (например, верх и низ человека), система камеры может определить размер реального мира и форму объекта.

[0072] Основанная на человеке модель 304 калибровки камеры может получить и сохранить модель человека соответствующего требованиям размера от модуля 303 модели человека вместе с соответствующими местоположениями в пространстве видеоизображения. Эти модели человека и соответствующие местоположения могут быть сохранены в таблице поиска. Например, каждое множество (х, y) координат внутри и вне пространства видеоизображения может использоваться для идентификации соответствующей модели человека. Например, когда идентифицирующая координата (х, y) соответствует центроиду модели человека, в оценке видеоизображении существующего человеческого объекта, центрируемого в местоположении (x1, y1), таблица поиска модели 304 калибровки камеры может получить местоположение (x1, y1), как входное значение, и обеспечить соответствующую модель человека (включая ее размер и местоположение двумерного изображения в пространстве). Например, выход может включать границу пространства двумерного изображения или может включать полный набор пикселей (например, координаты (х, у) всех пикселей) в пространстве изображения для описания соответствующей модели человека.

[0073] На фигуре 3В приведен пример, в котором несколько моделей человека занимают двумерное видеоизображение, причем каждая модель соответствует определенному местоположению по отношению к двумерному видеоизображению. Как показано на чертеже, четыре модели человека 320а, 320b, 320с и 320d связаны с различными идентифицирующими координатами (х, y) по отношению к двумерному видеоизображению. Модель человека 320а является наименьшей, соответствуя местоположению, наиболее удаленному от источника видеосигнала в реальном трехмерном мире. Модели человека 320b, 320с и 320d соответствуют местоположениям в реальном трехмерном мире, которые последовательно приближаются к источнику видеосигнала. Модели человека 320а, 320b, 320с и 320d могут быть все вместе получены из одной и той же полной модели человека. Однако следует отметить, что только часть полной модели человека может занять двумерное видеоизображение в определенных местоположениях. Предполагается, что полная модель человека, соответствующая формам человека 320с и 320d, только частично занимает пространство двумерного видеоизображения 330; модель человека 320с оценивается как комбинация головы и торса полной модели человека, где модель человека 320d соответствует только части головы полной модели человека.

[0074] Каждая модель человека 320а, 320b, 320с и 320d ассоциирована с идентифицирующей координатой (х, y) по отношению к двумерному видеоизображению. В этом примере, идентифицирующие координаты моделей человека 320а, 320b 320с и 320d соответствуют центроиду модели человека. Идентифицирующие координаты (х, y), связанные с предполагаемыми формами 320а, 320b и 320с, обозначены как 321а, 321b и 321с, соответственно, и находятся в пределах координат видеоизображения (х, y). Идентифицирующая координата (х, y), ассоциированная с оцененной формой 320d, проходит вне координат (х, y) видеоизображения. Иными словами, в этом примере центроид модели формы человека, связанной с 320d, расположен под видеоизображением и, таким образом, его идентифицирующая координата (х, y) имеет отрицательное значение по оси y, которая в этом примере расположена вне координат видеоизображения (и не показана на фигуре 3В). Для упрощения вычислений идентифицирующие координаты (х, y) могут постепенно увеличиться в пиксельных единицах с тем, чтобы идентифицирующие координаты 321а, 321b и 321с также идентифицировали пиксели видеоизображения.

[0075] На фигуре 3В для простоты объяснения приведены только четыре модели человека, связанные с соответствующими четырьмя идентифицирующими координатами. Однако основанная на человеке модель 304 калибровки камеры может сохранить модель человека для большего числа координат идентификации (х, y), так что несколько моделей человека могут наложиться друг на друга. Фигура 3С иллюстрирует один ряд идентифицирующих координат (х, y) 321, каждая из которых связана с соответствующей моделью человека 320. Для простоты изложения показан только один ряд, но модели человека могут быть обеспечены для множества рядов идентифицирующих координат (х, y), которые могут регулярно распределяться в направлениях x и y по пространству 330 изображения. Как обсуждено выше, размер форм может отличаться для различных местоположений (несмотря на то, что они, как показано на фигуре 3С, имеют тот же размер). Например, основанная на человеке модель 304 калибровки камеры может сохранить форму человека для каждого пикселя пространства двумерного изображения 330 так же как и идентифицирующие координаты (х, y) вне пространства 330 двумерного изображения, связанные с моделью человека, т.е. частично расположены в пространстве 330 двумерного изображения. Например, для всех координат пикселей (х, y) в пространстве видеоизображения модель 304 калибровки камеры может хранить идентифицирующую координату (х, y) и ассоциированную модель человека (которая может содержать границу или ряд пикселей) подпространства 330 видеоизображения, которое должно быть занято человеком, когда центроид модели человека расположен в идентифицирующей координате (х, y) пространства 330 видеоизображения. Идентифицирующие координаты (х, y) также могут включать все идентифицирующие координаты (х, y) за пределами пространства 330 видеоизображения, которые связаны с моделью человека в подпространстве в пределах пространства 330 видеоизображения (т.е. часть полной модели человека может быть расположена в подпространстве пространства 330 видеоизображения). В некоторых случаях вышеупомянутое подпространство может включать все пространство 330 видеоизображения (когда человек расположен так, что полностью занимает видеоизображение). Основанная на человеке модель 304 калибровки камеры может сохранить идентифицирующие координаты (х, y) и ассоциированную модель человека как таблицу поиска. Хотя центроид полной модели формы человека соответствует координатам идентификации (х, y) модели человека в этом примере, могут использоваться другие точки идентификации модели формы человека (например, глаза, нос, центр головы, верх головы, пальцы ноги, нижняя часть ноги и т.д.).

[0076] Вычислительный модуль 305 вероятностной диаграммы человека использует приоритетный набор блобов определенного кадра видеоизображения с выхода модуля обнаружения приоритетного блоба и моделей человека с их соответствующим выходом идентифицирующих координат от основанной на человеке модели 304 калибровки камеры для вычислений вероятности человеческой цели для каждого из множества местоположений в двумерном видеоизображении для каждого местоположения пикселя изображения. Множественно вычисленных вероятностей могут быть связаны со множественными местоположениями для создания вероятностной диаграммы. Множественные местоположения могут совпасть с идентифицирующими координатами (х, y) моделей человека.

[0077] Для каждой идентифицирующий координаты (х, y) можно вычислить соответствующую вероятность наличия человеческого объекта в видеоизображении. Когда идентифицирующие координаты (х, y) имеют однозначное соответствие с пикселям видеоизображения, вычисление вероятности делается для каждого из пикселей видеоизображения. Например, для каждого пикселя изображения соответствующая вероятность присутствия человека может быть вычислена как вероятность наличия человеческой цели, центр изображения которой находится на рассматриваемом пикселе. Может быть создана вероятностная диаграмма, отображающая каждое из вычислений вероятности по каждой идентифицирующей координате (х, y). Вероятностная диаграмма может быть сохранена в таблице поиска, связывая каждую координату (х, y) (как вход) с ассоциированной расчетной вероятностью. Эта таблица поиска может соответствовать таблице поиска основанной на модуле 304 модели калибровки камеры (хранение моделей человека как ввод) или может быть второй отдельной таблицей поиска.

[0078] Как отмечено выше, идентифицирующие координаты может выйти за пределы пространства видеоизображения и, таким образом, могут быть выполнены вычисления, чтобы определить соответствующую вероятность существования человеческого объекта видеоизображении (рассматривая часть соответствующей полной двумерные модели человека, находящейся в пределах пространства изображения, связанной с этими идентифицирующими координатами). Например, если центроид полной двумерной модели человека соответствует координатам идентификации, он может быть расположен вне пространства видеоизображения, но может соответствовать двумерной модели человека в пространстве видеоизображения, которое является частью полной модели человека. Например, плечи и голова полной модели человека могут составить двумерную модель человека (плечи и голова находятся в пределах пространства изображения) даже при том, что центроид этой полной модели человека (например, около пупка полной модели человека) выходит за пределы пространства изображения (центроид, соответствующий координатам идентификации, раньше идентифицировал соответствующие плечи/голову в двумерной модели человека). В некоторых примерах определенный процент от полной двумерной модели человека должен находиться в пределах пространства изображения для вычисления вероятности, которое будет сделано (или рассмотрено). Например, когда менее 10% или менее 20% полной двумерной модели человека в пространстве изображения (или, когда модель человека составляет меньше чем 10% или меньше чем 20% полной двумерные модели человека), значение вероятности, связанное с идентифицирующими координатами, может быть обнулено или проигнорировано. В некоторых примерах, когда имеет место менее 40% полной двумерные модели человека в пространстве изображения, может быть обнулено значение вероятности, связанное с идентифицирующими координатами.

[0079] Вычисление вероятности для каждой идентифицирующей координаты (х, y) может быть выборкой из моделей человека, связанной с соответствующей идентифицирующей координатой (х, y) и набором приоритетных блобов. Например, вычисление вероятности для каждой идентифицирующей координаты (х, y) может быть выборкой пикселей человеческого тела и граничных пикселей в модели человека, ассоциированной с соответствующей идентифицирующей координатой (х, y). Модель человека, ассоциированная с соответствующей идентифицирующей координатой (х, y), может быть выведена из основанной на человеке модели модуля 304 калибровки камеры (например, сохраненной в таблице поиска модуля 304). Набор приоритетных блобов может быть выведен из модуля 106 обнаружения приоритетных блобов. Полнота выборки оцененной формы с набором приоритетных блобов может быть вычислена как коэффициент область модели человека, которая перекрывает набор приоритетных блобов области модели человека. Можно не вычислять вероятности, которые не превышают определенный порог. Например, расчетные вероятности меньше чем 0,4 (в масштабе от 0 до 1) могут указать на то, что в этом местоположении нет никакой человеческой цели. Вычисления кроме вычисления по полноте выборки могут быть сделаны для определения вероятности наличия человеческого объекта в видеоизображении, соответствующем каждой множественной оценке формы. Следует понимать, что расчетные вероятности являются оценками. Таким образом, расчетная вероятность 1 (в масштабе от 0 до 1) не указывает на абсолютную достоверность наличия человека в соответствующем местоположении.

[0080] На фигуре 3D представлен примерный способ для вычисления вероятностной диаграммы человека, который может быть реализован системой, показанной на фигуре 3А. На стадии S340 модель 304 калибровки камеры может использоваться для отображения плоскости пространства двумерного изображения на плоской поверхности земли реального мира. На стадии S342 может быть получена модель человека для N местоположений в пространстве двумерного изображения (N может быть целым числом, равным или больше 2). Модель 304 калибровки камеры может использоваться для формирования соответствующей выпуклой оболочкой модели человека для каждого положения пикселя изображения в пространстве двумерного изображения. Каждая из моделей человека может быть связана с идентифицирующей координатой в пространстве двумерного изображения. Например, центроидная точка в модели человека может использоваться в качестве контрольной точки при выполнении отображения на идентифицирующую координату. Предполагая, что идентифицирующая координата пространства двумерного изображения является центроидом человека в пространстве изображения, его соответствующий физический отпечаток на плоской поверхности земли реального мира может быть вычислен с помощью модели калибровки камеры (например, как показано на фигуре 5). Базовая 3D модель человека (например, мультицилиндр) помещается на место этого отпечатка. Размер 3D модели может соответствовать ранее полученным калибровочным данным. Базовая 3D модель человека может быть спроектирована или отображена на двумерную плоскость изображения для получения модели человека в пространстве двумерного изображения. Например, проекция 3D мультицилиндрической модели человека может использоваться для формирования соответствующим двумерным изображением с выпуклой оболочкой, как изображение модели человека с центроидом в соответствующей идентифицирующей координате (например, в рассматриваемой точке изображения). Таким образом, каждый допустимый пиксель изображения может иметь сформированную модель человека в соответствующей выпуклой области с показом приблизительного размера и формы человека в этом изображении. Для снижения вычислительной стоимости сформированные модели человека с выпуклой оболочкой могут быть предварительно вычислены при инициализации системы и может использоваться прямоугольная ограничительная рамка выпуклой модели человека для получения приблизительного коэффициента выборки, используя интегральное изображение. На стадии S344 из видеоизображения может быть извлечен набор приоритетных блобов. Набор приоритетных блобов может включить один или несколько приоритетных блобов, обнаруженных, используя приоритетные пиксели человека, извлеченные модулем 301 и/или граничные пиксели человека, извлеченные модулем 302. На стадии S346 для каждого из местоположений вычисляется N вероятностей присутствия человека в этом местоположении для получения вероятностной диаграммы. Мера вероятности присутствия человека может быть определена как коэффициент полноты выборки моделей человека при наличии достаточного числа граничных пикселей человека в изображении выпуклой модели человека. Коэффициент полноты выборки человека в этом примере определяется числом приоритетных пикселей человека, вычисленных в 301 в изображении выпуклой модели человека по общей площади этой выпуклой модели человека. Порядок выполнения стадий процесса на фигуре 3D может быть изменен. Например, стадия 344 может быть выполнена до выполнения одной или обеих стадий 340 и 342.

[0081] Обращаясь к фигуре 3А, основанной на вероятностной диаграмме человека, вычисленной на стадии 305, отметим, что модуль 306 оценки человеческой цели может найти оптимальное число моделей человека (например, человеческих объектов) в видеоизображении и их местоположения. Для нахождения оптимального числа моделей человека и их местоположений может быть использован глобальный способ оптимизации. Если m (mi…, mM) обозначает набор M моделей человека из всех потенциальных моделей человека в пространстве изображения, цель этого способа состоит в том, чтобы найти оптимальный набор n* так, чтобы оценочная функция f(n*) достигла глобального максимума. Таким образом, цель состоит в этом, чтобы найти

где n является конкретным набором множества моделей человека в пространстве изображения, и f(n) является функцией, вычисленной для этого набора моделей человека.

[0082] Как обсуждено ниже, функция f(n) вычисляется для каждого из нескольких выбранных наборов моделей человека, причем каждый набор выбирает m_i местоположений из вероятностной диаграммы (m_i местоположения выбираются для каждого прохода, где число m_i может отличаться для каждого из этих проходов). Каждый набор моделей человека может быть выбран с проходом (или сканированием) вероятностной диаграммы с определенными критериями ограничения, используемыми для выбора местоположений, изменяемых для каждого прохода. Здесь, функция f(n) определяется как

где R - коэффициент полноты выборки моделей человека, который определяется как процент приоритетной области человека по всей области группы из n выбранных моделей человека; Р - точность выборки, которая является процентом приоритетной области, перекрывающей группу n выбранных моделей человека, и О - коэффициент перекрытия человека, который является отношением области перекрытия любой из n выбранных моделей человека к области, занятой выбранными моделями человека, n, и wR, wP и w0 - весовые коэффициенты. Может оказаться выгодным найти лучшее соответствие между приоритетной областью (приоритетным набором блобов) и объединением моделей человека (набор m моделей человека) при небольшом количестве людей в одном месте. На практике, если решить, что вышеупомянутые три весовые коэффициента могут значительно повлиять на результаты обнаружения, например, если больше веса направлено на уменьшение коэффициента перекрытия, это может закончиться более низким значением подсчета людей.

[0083] Каждая из выбранных m моделей человека может быть выбрана со ссылкой на вероятностную диаграмму, выведенную модулем 305 вычисления вероятностной диаграммы человека. Вычисление f(n) может быть выполнено в несколько проходов, причем за каждый проход выбирается подмножество m моделей человека из 2D моделей человека, обеспеченных модулем 303 стандартной модели человека и связанных с идентифицирующей координатой (х, y) в основанной на человеке модели 304 калибровки камеры (например, в таблице поиска). Как отмечено выше, значение m может быть различным для каждого из этих проходов. Критерии выбора моделей человека могут отличаться для каждого прохода так, что для различных проходов выбреются различные модели человека (и, возможно, для различных проходов выбирается различное число m моделей человека). Критерии выбора могут включать требование, чтобы выбранная модель человека была бы связана с порогом вероятности Р, определяемым вероятностной диаграммой. Критерии выбора также могут включать следующую выбранную двумерную модель человека на минимальном расстоянии D_min от любых ранее выбранных двумерных моделей человека. Минимальное расстояние D_min может быть расстоянием на поверхности земли реального мира. Например, центроиды двумерных моделей человека могут быть отображены или переведены в 3D местоположения реального мира, и расстояния между ними могут быть вычислены. Минимальные расстояния D_min могут быть вычислены в двумерной плоскости изображения, но расстояния в двумерной плоскости изображения могут отразить соответствующие 3D местоположения для моделей человека вблизи источника видеоизображения; в двумерной плоскости изображения может требоваться большее разделение, чем в случае большого числа удаленных моделей человека.

[0084] В некоторых примерных вариантах воплощения быстрое однопроходное сканирование вероятностной диаграммы используется для учета людей в толпе и в соответствующих местоположениях. Фигура 3Е иллюстрирует способ выполнения одного прохода вероятностной диаграммы как части нахождения оптимального числа моделей человека в видеоизображении. Способ фигуры 3Е может быть реализован модулем 306 оценки человеческой цели. На стадии S350 вероятностная диаграмма сканируется для нахождения локального максимума (который может быть квалифицирован определенными критериями выбора). Вероятностная диаграмма может быть отсканирована для определения местоположения ранее не выбранного локального максимума, который соответствует местоположению в реальном мире, самом близком к источнику видеосигнала. Нижняя часть вероятностной диаграммы может соответствовать нижней части видеоизображения. Во многих случаях видеокамера, выполняющая функцию наблюдения, может быть смонтирована выше уровня людей в контролируемой области. Таким образом, нижняя часть видеоизображения может соответствовать местоположению, наиболее близкому к источнику видеосигнала. Сканирование вероятностной диаграммы от нижней части в этом примере позволяет выбрать модели человека с меньшей вероятностью затенения объекта видеоизображения.

[0085] Вероятностная диаграмма может быть отсканирована снизу вверх для нахождения максимальной локальной точки, представляющей локальный максимум ранее рассчитанных вероятностей (сохраненных в вероятностной диаграмме) для каждого из множества местоположений в пространстве изображения. Локальный максимум может быть идентифицирующей координатой (х, y) (например, пиксель, имеющий величину вероятности выше, чем величины вероятности каждой из соседних идентифицирующих координат (х, y) (например, смежные пиксели). Как только локальная максимальная точка будет найдена, модель человека, ассоциированная с этой локальной максимальной точкой через координату идентификация, на стадии S352 выбирается как одна из набора m моделей человека. На стадии S354 все пиксели во внутренней области этой выбранной модели (например, находящиеся в пределах границ двумерной модели человека) и пиксели, соответствующие минимальному расстоянию D_min, удаленные из этой выбранной модели (например, пиксели видеоизображении, представляющем минимальное расстояние на поверхности земли реального мира), исключаются из дальнейшего рассмотрения в этом проходе (и могут быть временно удалены из вероятностной диаграммы для этого прохода). Отметим, что в этом примере, пиксели соответствуют координатам идентификации моделей человека, и это описание одинаково применимо к идентификации координат, которые не являются местоположениями пикселей. В некоторых примерах само видеоизображение не должно быть дополнительно анализировано на данном этапе, и пиксели могут быть исключены из дальнейшего просмотра просто их временным удалением из вероятностной диаграммы. Вероятностная диаграмма снова сканируется для выбора другой локальной максимальной точки вероятностной диаграммы человека, связанной с пикселями, которые превышают порог вероятности Ра и не могут быть исключены. На стадии S356 определяется, рассмотрены ли какие-либо полноценные пиксели. Иными словами, вероятность может рассматриваться для оценки того, не были ли они исключены критериями выбора или исключены выбором других моделей человека при этом сканировании вероятностной диаграммы. Сканирование вероятностной диаграммы продолжается до тех пор, пока все полноценные пиксели не будут рассмотрены или удалены из диаграммы. Таким образом, при таком сканировании вероятностной диаграммы могут быть выбраны m моделей человека. При этом проходе для набора m моделей человека вычисляется функция f(m).

[0086] Может быть выполнено дополнительное сканирование вероятностной диаграммы, причем при каждом однопроходном сканировании используется различный набор критериев выбора. Фигура 3F иллюстрирует способ выполнения множества проходов вероятностной диаграммы для нахождения оптимального числа моделей человека в видеоизображении. Способ фигуры 3F может быть реализован модулем 306 оценки человеческой цели. Здесь величина, по меньшей мере, одного из D_min (минимального расстояния) и Р (порога вероятности) может быть различной для каждого прохода сканирования. На стадии S360 критерии выбора устанавливаются для конкретного прохода сканирования. Число изменений критериев выбора (и, таким образом, число сканирований) может быть определено в зависимости от конкретного случая, учитывая желательную точность и стоимость вычисления. На стадии S362 сканирование вероятностной диаграммы делается для выбора ряда m моделей человека в соответствии с критериями выбора. Величина m является целым числом, равным нулю или больше нуля, и может отличаться для каждого выбора (например, для каждой стадии S362 фигуры 3F). Стадия S362 может соответствовать способу фигуры 3Е. На стадии S364 для выбранных m моделей человека вычисляется оценочная функция, например, соответствующая f(m) для m моделей человека, выбранных при этом сканировании. Дополнительные сканирования могут быть выполнены с новыми критериями выбора (стадия S366). Когда все сканирования вероятностной диаграммы завершены, определяется максимум f(n), ne{ni…mM} группы сканирований. Набор моделей человека, соответствующих этому максимальному значению, определяется так, чтобы соответствовать объектам человека в видеоизображении (S368). Используя идентифицирующие координаты (х, y) (например, местоположения пикселей) моделей человека, представляют человеческие объекты в видеоизображении и определяют местоположение на плоской поверхности земли реального мира.

[0087] В альтернативном воплощении, если m обозначает набор моделей человека от всех потенциальных моделей человека в пространстве изображения, цель может состоять в том, чтобы найти оптимальный набор m* так, чтобы оценочная функция g(m*) достигла глобального максимума. Иными словами, цель состоит в том, чтобы найти максимум

где n - определенная модель из множества моделей человека в пространстве изображения, m - множество выбранных моделей человека (которое может варьироваться для различных исчислений сумм), и f(n) - функция, вычисленная для каждой из m моделей человека, а не группы моделей.

[0088] Здесь, функция f(n) определяется как

[0089] где R - полнота выборки моделей человека, которая определяется как процент приоритетной области человека по всей области выбранных моделей человека; Ρ - точность модели человека, которая является процентом приоритетной области, которая перекрывает выбранные модели человека, и О - коэффициент перекрытия модели человека, который является перекрытием выбранной n модели человека с областями, занятыми с 1 до n моделей человека [области, занятые моделями человека, ранее выбранными в текущей вычислении, и wR, wP и w0 являются весовыми коэффициентами. Каждый из проходов сканирования вероятностной диаграммы может быть связан с вычислением Xf(n) с различными ограничениями по критериям выбора локальных максимумов вероятностной диаграммы для каждого прохода. Кроме описанных здесь функций могут использоваться и другие функции f(n).

[0090] На фигурах 6А, 6В и 6С показаны результаты обнаружения объектов системой видеонаблюдения 101 согласно одному примеру воплощения. Для одного входного кадра фигура 6А является выходом модуля 301 обнаружения человеческого тела и модуля 302 обнаружения граничных пикселей, где пиксели 301а обозначают обнаруженные пиксели человеческого тела, и пиксели 302а обозначают граничные пиксели человека. Набор приоритетных блобов представлен на фигуре 6А в виде комбинации 301а обнаруженных пикселей человеческого тела и граничных пикселей человека 302а. Обнаруженные пиксели человеческого тела и граничные пиксели человека накладываются на исходный кадр видеоизображения, определяющий пространство 330 видеоизображения. В этом примере остальная часть видеоизображения в этом кадре видеоизображения (кроме набора приоритетных блобов) является частью фонового изображения.

[0091] На фигуре 6В показана вероятностная диаграмма человека, вычисленная из фигуры 6А. В этом примере вероятностная диаграмма человека представляет вычисленные вероятности на шкале полутонов с черным цветом, соответствующим нулевой вероятности (0), и белым цветом, соответствующим вероятности «один» (1). Каждая из вычисленных вероятностей представлена в местоположении 330 в пространстве изображения соответствующей пикселю, соответствующему координатам идентификации соответствующей модели человека.

[0092] На фигуре 6С показан конечный результат обнаружения человека, иллюстрирующий множество моделей человека 320 (выпуклый розовый контур на фигуре), соответствующий обнаруженному человеку. Каждая из этих моделей человека может быть связана идентифицирующей координатой (например, центроидом), которая может идентифицировать местоположение обнаруженного человека в трехмерном реальном мире и отображенного на поверхности земли реального мира (не показано).

[0093] На фигурах 7А, 7В и 7С показан пример измерения плотности толпы людей на основе результатов обнаружения человека. На фигуре 7А показан примерный результат обнаружения объектов системой видеонаблюдения 101, показывающий множество двумерных моделей человека 320 (выпуклые розовые поверхности), каждая из которых соответствует обнаруженному человеку, наложенному на оригинальное видеоизображение. На фигуре 7В показано отображение обнаруженных людей на физической плоскости земли реального мира, представляя сверху вниз видеоизображение фигуры 7А с каждой из окружностей, представляющих модель человека 320, как она отображена на физической плоскости земли реального мира и, таким образом, идентифицирует местоположение обнаруженного человека в реальном мире. Обнаруженные человеческие цели могут быть отображены на физической плоскости земли, поскольку калибровка обеспечила корреляцию между известным размером калибровочной модели, местоположение в 2D изображении и соответствующий размер в пространстве изображения. При известных местоположениях можно вычислить число людей в определенной идентифицированной области (например, выбранной пользователем) или на всей сцене. Вычисления также могут определить число людей на область. Реальные плотности толпы на каждом участке земли также могут быть непосредственно вычислены. Фактическое определение плотности толпы может зависеть от реального применения, в частности, от размера контролируемой толпы. Например, для сценария, показанного на фигурах 6А, 6В и 6С, число людей в 2-метровом радиусе можно использовать как меру определения плотности толпы. В сценарии фигур 7А, 7В и 7С плотность толпы на месте также может быть определена как число людей в 6-метровом радиусе. Фигура 7С иллюстрирует диаграмму плотности толпы в радиусе 6 метров с более высокой интенсивностью, причем розовый цвет обозначает более высокую плотность толпы.

[0094] На основе измерения плотности толпы для каждого видеокадра можно обнаружить многие события, связанные с толпой и показанные на фигуре 8, включая обнаружение толпы, сбор толпы и рассеяние толпы, которые могут быть обнаружены модулями 801, 802 и 803, соответственно, модуля 108 обнаружения событий из фигуры 1. На фигуре 9 показан примерный способ определения и обнаружения переполненной людьми области. Блок 901 показывает, как определить событие в области толпы. Пользователь может сначала выбрать область интереса по изображению (например, в пространстве изображения). Затем может быть использован некоторый порог плотности толпы для определения интереса к толпе. Порогом может быть число людей в определенном радиусе. Для более надежных данных могут использоваться гистерезисные пороги. Например, если мы определяем плотность толпы как число людей в 3-метровом радиусе области, можно установить два порога плотности толпы: Т_{высокое} = 10 и Т_низкое = 8. Область можно рассматривать, как область толпы, только если соответствующая плотность толпы больше или равна Т_{высокое}. Область толпы становится разреженной толпой, если соответствующая плотность толпы становится меньше или равна Т_низкое, причем область толпы может быть определена идентификацией толпы и может измениться по местоположению и/или по форме от кадра к кадру. Для описания местоположения толпы можно использовать центроид области толпы. Минимальный порог продолжительности может определить минимальный отрезок времени, в течение которого область толпы должна сохраниться как толпа прежде, чем будет инициировано обнаружение событий. Для ввода нового видеокадра блок 902 просматривает все обнаруженные человеческие цели, чтобы определить, принадлежат ли они к области толпы, затем блок 903 проверяет все области толпы для обновления данных об их состоянии. После обнаружения толпы и их местоположения могут быть прослежены кадр за кадром видеоизображения. Например, поскольку толпа обнаружена и продолжает соответствовать минимальному порогу Т_низкое, модели человека, связанные с областью толпы, могут определить толпу в последующих кадрах видеоизображения, пока они остаются в области, отвечающей минимальной плотности толпы. Дополнительные модели человека могут быть добавлены к обнаруженной толпе, когда они перемещаются в обнаруженную область толпы.

[0095] На фигуре 10 показан примерный процесс по каждой обнаруженной человеческие цели. Блок 1001 проверяет, является ли текущая цель внутри или около существующей области толпы. Если это имеет место («да»), блок 1001 обновляет отсчет людей для этой области. Если «нет», блок 1002 вычисляет плотность толпы на месте текущей цели, а блок 1004 проверяет, является ли значение по плотности толпы больше порогового значения В_ысокое или равна ему. Если «да», то создается новая область толпы, центрируемая в текущей цели. Если «нет», блок продолжает обрабатывать следующую человеческую цель.

[0096] На фигуре 11 показан примерный процесс в каждой области толпы. Блок 1101 обновляет участок области и отсчет толпы на основе целевых результатов процесса; блок 1102 проверяет, является ли учетная плотность больше, чем определяемый пользователем порог; если «нет», область толпы удаляется из режима мониторинга. Блок 1104 затем проверяет, является ли продолжительность толпы в области толпы более длительной или равным порогу, определяемому пользователем. Если «да», блок 1105 проверяет, послано или нет сообщение о соответствующем событии сбора толпы, если «нет» блок 1106 принимает меры, такие как отчет о событие толпы и отмечает эту область толпы, как «доложенную в центр».

[0097] На фигуре 12 показан способ, который может быть использован, для определения и обнаружения события «сбора» и «рассеяния» толпы. Здесь «сбор» и «рассеяние» относятся к двум процессам формирования и окончания участка создания толпы. В этом примере участок сбора толпы относится к области с высокой локальной стационарной плотностью толпы и отличается, например, от движущейся толпы на праздничном мероприятии. Однако изобретение этим не ограничивается, и этот способ также может быть применен к обнаружению движущейся толпы. Блок 1201 показывает, как можно определить участок сбора толпы. Пользователь может сначала выбрать область интереса по полученному изображению. Затем, некоторый порог плотности толпы может быть использован для определения, насколько эта толпа представляет интерес. Минимальный порог продолжительности может определить минимальный отрезок времени, в котором область толпы должна сохраниться как толпа, рассматриваемая как надлежащий участок сбора. Блок 1202 обнаруживает участки сбора толпы. Блок 1203 обновляет и мониторит обнаруженные участки сбора толпы и обнаруживает события «сбора» и «рассеяния».

[0098] На фигуре 13 показан один пример определения участка сбора толпы. Это включает внутреннюю область, обозначенную как 1301, и внешнюю область, обозначенную как 1302. Эти две области могут быть определены центральной точкой О, коротким радиусом r и длинным радиусом R. В этом примере участок сбора толпы может удовлетворить следующие два критерия:

- плотность толпы внутренней области должна быть больше или равна предопределенному порогу;

- число людей во внешней области должно быть меньше (например, в 2 раза, 4 раза, 10 раз и т.д.) числа людей во внутренней области. Кроме того, плотность толпы во внешней области должна быть меньше (например, в 2 раза, 4 раза, 10 раз и т.д.) плотности толпы во внутренней области.

[0099] Вышеупомянутые два критерия могут указывать на то, что внутренняя область является участком сбора толпы, а не только областью в пределах многочисленной толпы.

[00100] На фигурах 14А и 14В показан пример участка сбора толпы. Каждая из фигур 14А и 14В показывает видеокадр и обнаруженные человеческие цели, отображенные на физической плоскости земли реального мира. Несмотря на то, что фигура 14А имеет больше человеческие целей, как описано выше, только фигура 14В содержит участок сбора толпы.

[00101] На фигуре 15 показан примерный способ обнаружения участка сбора толпы. Для каждой обнаруженной человеческие цели блок 1501 проверяет, принадлежит ли он существующей толпе. Если «да», он используется для обновления текущего статуса соответствующего участка сбора толпы в блоке 1502. Если «нет», блок 1503 дополнительно проверяет, является ли текущая цель центром нового участка сбора толпы. Если «да», блок 1504 переходит к новому участку сбора толпы для дальнейшего контроля. Если «нет», модуль продолжает проверять обнаружение отдельных людей.

[00102] На фигуре 16 показан примерный способ обновления участка сбора толпы и обнаружения событий «сбора» и «рассеяния» толпы. Блок 1601 обновляет местоположение и область участка сбора толпы с помощью новых результатов обнаружения человека на рассматриваемом видеокадре. Блок 1602 проверяет, было ли обнаружено событие «сбора» толпы на текущем участке. Если «нет», блок 1603 продолжает обнаружение событий «сбора» проверяя, был ли участок сбора толпы успешно обновлен на определенное время. Этот порог продолжительности может быть установлен пользователем при установлении правил. Как только участок сбора толпы инициализировал событие «сбора», блок 1604 дополнительно контролирует участок сбора для обнаружения события «рассеяния». Здесь событие «рассеяния» толпы определяется как участок сбора толпы, который становится пустым участком или участком с низкой плотностью (например, ниже минимального порога плотности толпы Т_низкое) в течение короткого промежутка времени. Блок 1604 обнаруживает два особых момента участка сбора толпы: время, когда он становится не переполненным людьми, и время, когда он становится пустым или низкой плотности. Если время между этими двумя моментами короче порога, определенного пользователем, обнаруживается событие «рассеяния» толпы.

[00103] На фигуре 17 показан пример системы с несколькими камерами, в которой может быть применено настоящее изобретение. В этом примере две камеры 1702 и 1704 отдельно берут видеоизображения представляющей интерес сцены с разных точек зрения. Система видеонаблюдения 101 и способы, описанные здесь, могут быть теми же, как и описанные выше для каждой камеры 1702 и 1704 для модуля 103 обнаружения изменения, модуля 104 обнаружения движения, модуля 105 обнаружения приоритетного блоба, модуля 303 типовой модели человека, основанной на модели человека, модели 304 калибровки камеры, и модуля 305 вычисления вероятностной диаграммы человека. Иными словами, каждая камера может иметь свой собственный модуль или функцию модуля (при схеме совместного использования) для этих модулей.

[00104] Двумерные модели человека, относящиеся к соответствующему пространству изображения, обеспечиваемому основанной на человеке моделью 304 калибровки каждой видеокамеры 1702, 1704, могут также быть связаны с координатой физической плоскости земли реального мира. Например, для основанного на человеке модуля модели 304 калибровки камеры для каждой камеры может быть сделан дополнительный вход для соответствующей координаты физической плоскости земли, соединяя, таким образом, каждую из N моделей человека с другой такой же моделью. При вычислении вероятностной диаграммы человека для каждой из камер 1702, 1704 вероятности каждой вероятностной диаграммы могут быть отображены на физической плоскости земли, а не в пространстве двумерного изображения.

[00105] В одном примере модуль 306 оценки человеческой цели, обнаруживающий оптимальное число людей, может выполнить сканирование первой вероятностной диаграммы одной камеры описанным выше способом. Иными словами, в ограничениях критериев поиска нужно искать локальный максимум первой вероятностной диаграммы. При вычислении оценочной функции для определения максимума для наборов М моделей человека m(mi…mM), причем цель состоит в том, чтобы найти

где n является определенным набором множества 3D моделей человека, которые могут иметь идентифицирующие координаты на физической плоскости земли, на которой отображаются вероятности каждой из двух вероятностных диаграмм человека. Иными словами, после выбора точки в реальном мире, ассоциированной с моделью человека для выбора модели, двумерные модели человека пространства изображения, связанные с этой точкой, идентифицируются для каждой системы камеры с одной моделью человека, используемой для вычисления f₁(n), и другой для вычисления f₂(n). F₁(n) и f₂(n) могут совпадать с описанными здесь функциями (в отношении набора приоритетных блобов человека или приоритетной области человека, извлеченной из соответствующего видеоизображения)

[00106] где (для соответствующих n выбранных двумерных моделей человека, связанных с видеоизображением, и приоритетной области человека этого видеоизображения) R - полнота выборки моделей человека, которая определяется как процент приоритетной области человека по всей области группы n выбранных моделей человека; Ρ - точность модели человека, которая составляет процент приоритетной области, перекрываемой группой n выбранных моделей человека, и О - коэффициент перекрытия модели человека, который является коэффициентом области перекрытия любой из выбранных n моделей человека в области, занятой всеми выбранными n моделями человека, где выбранная n модель человека с областями, занятыми от первой до n-й моделями человека (области, занятые моделями человека, ранее выбранными на текущей стадии вычисления f(n)), и wR, wP и w0 являются весовыми коэффициентами. Отметим, что весовые коэффициенты могут отличаться между функциями f₁(n) и f₂(n). Исключение пикселей из дальнейшего рассмотрения при выборе следующего локального максимума может спроецировать 3D модель человека, связанную с координатой плоской поверхности земли ранее выбранной модели человека, обратно к каждой из двух вероятностных диаграмм в соответствующей плоскости изображения.

[00107] В другой альтернативе одна вероятностная диаграмма может быть использована для множества камер. В примере фигуры 17 вычисления вероятности могут быть сделаны для каждого из двумерных видеоизображений, как описано здесь, и создать две вероятностной диаграммы плоскости изображения, каждая из которых соответствует двумерной плоскости изображения. Вероятности вероятностной диаграммы плоскости изображения могут быть обнулены, если они не превышают определенный порог (который может быть одним и тем же или отличающимся для каждой вероятностной диаграммы плоскости изображения). Идентифицирующие координаты в каждой вероятностной диаграмме плоскости изображения могут быть переведены в координату плоской поверхности земли в реальном мире для каждой из вероятностных диаграмм плоскости изображения, создавая вероятностную диаграмму плоской поверхности земли для каждого видеоизображения. Две вероятностные диаграммы плоской поверхности земли могут быть объединены путем умножения вероятностей, которые совместно используют те же координаты плоской поверхности земли для создания объединенной вероятностной диаграммы. Объединенная вероятностная диаграмма плоской поверхности земли может быть отсканирована для нахождения локальных максимумов. Каждый найденный локальный максимум может идентифицировать отдельные модели человека для каждого из видеоизображений в их соответствующем пространстве изображения, которое затем может быть использовано для вычисления f₁(n) или f₂(n) (описано выше) как соответствующего установленным требованиям. Выполнение многократного сканирования объединенной вероятностной диаграммы плоской поверхности земли для множества локальных максимумов позволить найти последующие модели человека (одну для каждого из видеоизображений) и вычислить f₁(n)+f₂(n).

[00108] Ограничения выбора (такие как минимальный порог вероятности и минимальное расстояние в трехмерном реальном мире) могут быть изменены, и выполняется новый проход сканирования для нахождения оптимального набора m трехмерных моделей человека (соответствующих в этом примере двумерным моделям человека).

[00109] В другом примере модуль 306 оценки человеческой цели, обнаруживающий оптимальное число людей, может выполнить сканирования первой вероятностной диаграммы одной камеры описанным выше способом, т.е. в пределах ограничения критериев поиска для поиска локального максимума первой вероятностной диаграммы. При вычислении оценочной функции для определения максимума для наборов m моделей человека цель состоит в нахождении максимума

[00110]

где n - координата идентификации на физической плоскости земли, на которой вероятности отображаются на каждой из двух вероятностных диаграмм человека. Иными словами, после выбора точки в реальном мире двумерные модели человека пространства изображения, связанные с этой точкой, идентифицируются для каждой системы камеры с одной моделью человека, используемой для вычисления f₁(n), и другой для вычисления f₂(n), f1(n) и f2(n) могут совпадать с описанной выше функцией (относящейся к набору приоритетных блобов человека или приоритетной области человека, извлеченной из соответствующего видеоизображения)

[00110]

[00111] где R - полнота выборки моделей человека, которая определяется как процент приоритетной области человека по всей области выбранных моделей человека; Р - точность модели человека, которая определяется процентом приоритетной области, которая перекрывается выбранными моделями человека, и О - коэффициент перекрытия, которое является перекрытием выбранной n-модели человека с областями, занятыми 1-n моделями человека [области, занятые моделями человека, ранее выбранные в текущем проходе при вычислении f(n)] и WR, wP и w0 - весовые коэффициенты. Отметим, что весовые коэффициенты могут отличаться между функциями f₁(n) и f₂(n). Исключение пикселей для дальнейшего рассмотрения при выборе следующего локального максимума может спроецировать 3D модель человека, связанную с координатой на плоской поверхности земли ранее выбранной модели человека обратно к каждой из двух вероятностных диаграмм в соответствующей плоскости изображения.

[00112] В еще одном альтернативном варианте одна вероятностная диаграмма может быть использована для множества камер. В примере фигуры 17 вычисления вероятности могут быть сделаны для каждого из двумерных видеоизображений и создать две вероятностные диаграммы плоскости изображения, каждая из которых соответствует соответствующей двумерной плоскости изображения. Вероятности вероятностной диаграммы плоскости изображения могут быть обнулены, если они не превышают определенный порог (который может быть одним и тем же или отличаться для каждой вероятностной диаграммы плоскости изображения). Идентифицирующие координаты в каждой вероятностной диаграмме плоскости изображения могут быть переведены в координату плоской поверхности земли в реальном мире для каждой из вероятностных диаграмм плоскости изображения, создавая вероятностную диаграмму исходной плоскости для каждого видеоизображения. Две вероятностных диаграммы исходной плоскости могут быть объединены путем умножения вероятностей, которые совместно используют одни и те же координаты плоской поверхности земли для создания объединенной вероятностной диаграммы. Объединенная вероятностная диаграмма плоской поверхности земли может быть отсканирована для нахождения локальных максимумов. Каждый найденный локальный максимум может идентифицировать отдельные модели человека для каждого из видеоизображений в их соответствующем пространстве изображения, которое затем может быть использовано для вычисления f₁(n) или f(n) (как описано выше), как соответствующего требованиям. Выполнение многократного сканирования объединенной вероятностной диаграммы плоской поверхности земли для множества локальных максимумов может быть сделано, чтобы найти последующие модели человека (одной для каждого из видеоизображений) и вычислить

[00113]

[00114] Ограничения выбора (например, минимального порога вероятности и минимального расстояния в трехмерном реальном мире) могут быть сняты путем реализации нового прохода сканирования для нахождения оптимального набора m трехмерных моделей (соответствующим в этом примере 2m 2D моделям человека).

[00115] Приведенное выше описание иллюстративно отражает варианты воплощений в качестве примера и не должно быть истолковано как ограничивающее настоящее изобретение. Несмотря на то, что в качестве примера было описано только несколько вариантов воплощения, квалифицированным специалистам понятно, что возможны многие модификации, не выходящие из духа и объема настоящего изобретения. Например, несмотря на то, что изобретение описано на примере обнаружения объектов видеоизображения человека, изобретение этим не ограничивается, и могут быть также обнаружены другие объекты представляющие интерес.

Иллюстрации к изобретению RU 2 635 066 C2

Реферат патента 2017 года СПОСОБ ОБНАРУЖЕНИЯ ЧЕЛОВЕЧЕСКИХ ОБЪЕКТОВ В ВИДЕО (ВАРИАНТЫ)

Изобретение относится к средствам обнаружения человеческих объектов в видео. Технический результат заключается в повышении точности обнаружения. Раскрыты способы, устройства и системы для выполнения анализа видеоконтента для обнаружения в видеоизображении людей или других объектов, представляющих интерес. Обнаружение людей может быть использовано для учета большого числа людей в толпе, определения местоположения каждого человека и/или выполнения анализа толпы в контролируемых областях. 5 н. и 30 з.п. ф-лы, 27 ил.

Формула изобретения RU 2 635 066 C2

1. Способ обнаружения человеческих объектов в видео, содержащий:

определение пикселей видеоизображения, которые являются приоритетными пикселями, группой приоритетных пикселей, составляющих набор приоритетных блобов одного или нескольких приоритетных блобов;

для каждой из N предопределенных форм в соответствующих местоположениях из N местоположений в видеоизображении, где N - целое число, сравнение соответствующей предопределенной формы с набором приоритетных блобов для получения соответствующей вероятности нахождения человека в этом соответствующем предопределенном местоположении, получая, таким образом, N вероятностей, соответствующих N местоположениям;

использование N вероятностей, определение X людей, представленных набором приоритетных блобов, где X - целое число; и

выдачу по меньшей мере одного из отчета, предупреждения и обнаружения события на основании определенного представления X людей.

2. Способ по п. 1, дополнительно включающий использование N вероятностей для определения местоположения каждого человека из X людей.

3. Способ по п. 2, в котором определенное местоположение каждого из группы X людей является местоположением в плоскости изображения, соответствующей видеоизображению.

4. Способ по п. 2, в котором определенное местоположение каждого из группы X людей является местоположением относительно физической плоскости земли, соответствующей реальному миру.

5. Способ по п. 1, в котором определение приоритетных пикселей видеоизображения включает сравнение первого кадра видеоизображения без объектов переднего плана со сравнением второго кадра видеоизображения, содержащего объекты переднего плана.

6. Способ по п. 1, в котором предопределенная форма является одной и той же для каждого из N местоположений.

7. Способ по п. 1, в котором предопределенная форма, по меньшей мере, некоторых N местоположений имеет различный размер.

8. Способ по п. 7,

в котором размер предопределенной формы для каждого из N местоположений определяется в ответ на калибровку видеосистемы и

в котором видеосистема используется для получения видеоизображения.

9. Способ по п. 1,

в котором калибровка видеосистемы включает определение размера изображения части видеоизображения, соответствующей среднему размеру человека в каждом из N местоположений, и

в котором размер предопределенной формы для каждою из N местоположений определяется в ответ на определение соответствующего размера изображения.

10. Способ по п. 1, дополнительно содержащий, перед определением пикселей видеоизображения, которые являются приоритетными пикселями для каждого из N местоположений, определение соответствующей предопределенной формы путем оценки приоритетной части изображения, которая будет занята видеоизображением, когда в соответствующем местоположении присутствует человек.

11. Способ по п. 10, в котором оценивают приоритетную часть изображения для каждого из N местоположений на основе проекции модели человека в реальном мире на плоскость видеоизображения.

12. Способ по п. 1, в котором видеоизображение включает множество кадров изображения, при этом каждый кадр изображения содержит двумерное изображение, имеющее N местоположений, причем каждое из N местоположений идентифицируется соответствующей парой координат х, у в двумерном изображении.

13. Способ по п. 12, в котором каждое из N местоположений ассоциировано с соответствующей одной из N предопределенных форм по отношению к плоскости изображения, соответствующей видеоизображению.

14. Способ по п. 1, дополнительно включающий для каждого из N местоположений вычисление коэффициента полноты выборки, соответствующей предопределенной формы и приоритетного блоба для определения ассоциированной вероятности.

15. Способ по п. 14, в котором вычисление коэффициента полноты выборки для каждого из N местоположений включает определение

(a) области, содержащей перекрытие области, занятой предопределенной формой и приоритетным блобом, и

(b) области приоритетного блоба.

16. Способ по п. 1, дополнительно содержащий:

создание вероятностной диаграммы с N вероятностями; и

определение локальных максимумов вероятностной диаграммы.

17. Способ по п. 16, дополнительно содержащий:

выбор первого местоположения из N местоположений, соответствующих локальному максимуму вероятностной диаграммы;

получение первой предопределенной формы, соответствующей первому местоположению; и

анализ количества перекрытия области, занятой первой предопределенной формой и приоритетным блобом.

18. Способ по п. 16, дополнительно содержащий:

получение первой предопределенной формы, соответствующей первому местоположению;

вычисление первого коэффициента

(a) области, включающей перекрытие области, занятой второй предопределенной формой и приоритетным блобом, и

(b) области приоритетного блоба; и

вычисление второго коэффициента

(a) области, включающей перекрытие области, занятой второй предопределенной формой и приоритетным блобом, и

(b) остальной области, занятой второй предопределенной формой, которая не перекрывается приоритетным блобом.

19. Способ по п. 17, дополнительно содержащий вычисление первого коэффициента (а) области, включающей перекрытие области, занятой первой предопределенной формой и приоритетным блобом, и (b) области приоритетного блоба, при этом первый коэффициент используется для определения, что X людей представлены приоритетным блобом.

20. Способ по п. 1, дополнительно содержащий:

выбор подмножества N предопределенных форм на основе N вероятностей; и

анализ перекрытия области, занятой выбранным подмножеством N предопределенных форм, и области, занятой приоритетным блобом.

21. Способ по п. 16, дополнительно содержащий вычисление величины точности и величины полноты выборки для каждого из m местоположений N местоположений, при этом m является целым числом, и каждое из m местоположений соответствует локальному максимуму вероятностной диаграммы.

22. Способ по п. 21, дополнительно содержащий последовательный выбор от 1 до m местоположений из N местоположений, при этом выбор местоположения (m-1) исключает выбор последующего местоположения из N местоположений, которое находится в пределах первого предопределенного расстояния местоположения (m-1).

23. Способ по п. 22, дополнительно содержащий последовательный выбор от 1 до m местоположений из N местоположений, при этом выбор следующего местоположения из N местоположений включает выбор местоположения, основанного на его близости к нижнему краю видеоизображения.

24. Способ обнаружения человеческих объектов в видео, содержащий:

определение пикселей видеоизображения сцены реального мира, которые являются приоритетными пикселями, группой приоритетных пикселей, составляющих набор приоритетных блобов одного или нескольких приоритетных блобов;

для каждого из N предопределенных форм в соответствующем местоположении из N предопределенных местоположений видеоизображения, где N является целым числом, сравнение соответствующей предопределенной формы с набором приоритетных блобов для определения X людей, представленных набором приоритетных блобов, где X - целое число, и местоположение каждого человека из этих X людей определяется как местоположение в горизонтальной плоскости реального мира; и

выдачу по меньшей мере одного из отчета, предупреждения и обнаружения события, когда плотность толпы превышает порог, на основании определения представления X людей.

25. Способ по п. 24, дополнительно содержащий обнаружение наличия толпы путем просмотра, по меньшей мере, некоторых местоположений этих X людей.

26. Способ по п. 24, дополнительно содержащий определение наличия толпы, когда найдено, что Y этих X людей расположены в первой области горизонтальной плоскости реального мира.

27. Способ по п. 26, в котором первая область включает предопределенную геометрическую фигуру, имеющую предопределенный размер области в реальном мире.

28. Способ по п. 26, в котором первая область включает область, определенную окружностью.

29. Способ по п. 26, дополнительно содержащий определение плотности толпы в первой области.

30. Способ по п. 29, дополнительно содержащий сравнение плотности толпы с порогом и отправку по меньшей мере одного отчета и предупреждения, когда плотность толпы превышает порог.

31. Способ по п. 24, дополнительно содержащий:

определение первой плотности толпы в первой области, соответствующей первому кадру видеоизображения;

определение второй плотности толпы в первой области, соответствующей второму кадру видеоизображения;

определение события сбора толпы в ответ на первую плотность толпы и вторую плотность толпы.

32. Способ по п. 24, дополнительно содержащий:

определение первой плотности толпы в первой области, соответствующей первому кадру видеоизображения;

определение второй плотности толпы в Y первой области, соответствующей второму кадру видеоизображения;

определение события рассеяния толпы в ответ на первую плотность толпы и вторую плотность толпы, превышающую число перечисленных ассоциированных элементов.

33. Способ обнаружения человеческих объектов в видео, включающий:

для каждой из N предопределенных форм в соответствующих местоположениях из N предопределенных местоположений в видеоизображении, где N - положительное целое число более единицы, вычисление первого значения путем сравнения перекрытия соответствующей предопределенной формы с набором приоритетных блобов, при этом первое значение используют для получения соответствующей вероятности нахождения человека в соответствующем предопределенном местоположении, получая, таким образом, N вероятностей, соответствующих N местоположениям;

использование N вероятностей для определения X людей, представленных набором приоритетных блобов, где X - целое число; и

выдачу по меньшей мере одного из отчета, предупреждения и обнаружения события на основании определения представления X людей,

при этом размер соответствующей предопределенной формы для каждого из N местоположений определяют в ответ на калибровку видеосистемы, и при этом сравнение соответствующей предопределенной формы с набором приоритетных блобов для каждой из N предопределенных форм включает в себя анализ величины области перекрытия соответствующей предопределенной формы с набором приоритетных блобов.

34. Способ обнаружения человеческих объектов в видео, включающий:

для каждой из N предопределенных форм в соответствующих местоположениях из N предопределенных местоположений в видеоизображении, где N - положительное целое число более единицы, вычисление первого значения путем сравнения перекрытия соответствующей предопределенной формы с набором приоритетных блобов, при этом первое значение используют для определения X людей, представленных набором приоритетных блобов, где X - целое число, и местоположение каждого человека из этих X людей определяют как местоположение в горизонтальной плоскости реального мира; и

выдачу по меньшей мере одного из отчета, предупреждения и обнаружения события, когда плотность толпы превышает порог, на основании определения представления X людей,

при этом размер соответствующей предопределенной формы для каждого из N местоположений определяют в ответ на калибровку видеосистемы,

при этом видеосистему используют для получения видеоизображения, и

при этом сравнение соответствующей предопределенной формы с приоритетным блобом для каждой из N предопределенных форм включает в себя анализ величины области перекрытия соответствующей предопределенной формы с набором приоритетных блобов.

35. Система видеонаблюдения, содержащая:

источник видеосигнала, выполненный с возможностью предоставления видеоизображения сцены реального мира;

модуль обнаружения приоритетных пикселей, выполненный с возможностью обнаружения приоритетных пикселей видеоизображения, группы приоритетных пикселей, составляющих набор приоритетных блобов одного или нескольких приоритетных блобов;

модуль обнаружения человека, при этом для каждой из N предопределенных форм в соответствующих местоположениях из N предопределенных местоположений в видеоизображении, где N - целое число, модуль обнаружения человека выполнен с возможностью сравнивать соответствующую предопределенную форму с набором приоритетных блобов для определения X людей, представленных набором приоритетных блобов, где X - целое число, и модуль обнаружения человека выполнен с возможностью сравнивать соответствующую предопределенную форму с приоритетным блобом для каждой из N предопределенных форм путем анализа величины области перекрытия соответствующей предопределенной формы с набором приоритетных блобов; и

модуль ответа, выполненный с возможностью выдачи по меньшей мере одного из отчета, предупреждения и обнаружения события, когда плотность толпы превышает порог, на основании определенного представления X людей.

Документы, цитированные в отчете о поиске Патент 2017 года RU2635066C2

Изложница с суживающимся книзу сечением и с вертикально перемещающимся днищем	1924	Волынский С.В.	SU2012A1
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок	1923	Григорьев П.Н.	SU2008A1
Колосоуборка	1923	Беляков И.Д.	SU2009A1
Способ и устройство для получения чистого водорода	1928	Ж. Беллей	SU45546A1
Способ приготовления лака	1924	Петров Г.С.	SU2011A1
Топчак-трактор для канатной вспашки	1923	Берман С.Л.	SU2002A1
Станок для изготовления деревянных ниточных катушек из цилиндрических, снабженных осевым отверстием, заготовок	1923	Григорьев П.Н.	SU2008A1
Пресс для выдавливания из деревянных дисков заготовок для ниточных катушек	1923	Григорьев П.Н.	SU2007A1

RU 2 635 066 C2

Авторы

Чжан Чжун

Инь Вэйхун

Венетианер Питер

Даты

2017-11-08—Публикация

2013-09-12—Подача

название	год	авторы	номер документа
СПОСОБ ОТСЛЕЖИВАНИЯ, ОБНАРУЖЕНИЯ И ИДЕНТИФИКАЦИИ ИНТЕРЕСУЮЩИХ ОБЪЕКТОВ И АВТОНОМНОЕ УСТРОЙСТВО C ЗАЩИТОЙ ОТ КОПИРОВАНИЯ И ВЗЛОМА ДЛЯ ИХ ОСУЩЕСТВЛЕНИЯ	2021	Глебов Константин Викторович Долгополов Алексей Владимирович Казанцев Павел Александрович Скрибцов Павел Вячеславович Суриков Сергей Олегович Сухоруков Владимир Юрьевич Тюляев Денис Владимирович	RU2789609C1
СПОСОБ АНАЛИЗА УГЛОВЫХ ПЕРЕМЕЩЕНИЙ ОПОРНЫХ ТОЧЕК СКЕЛЕТНОЙ МОДЕЛИ ОПОРНО-ДВИГАТЕЛЬНОГО АППАРАТА ЧЕЛОВЕКА	2022	Виноградов Илья Сергеевич Лукьян Дмитрий Михайлович Мельников Ярослав Сергеевич Морозов Антон Игоревич Морозов Игорь Владимирович Морозова Анна Игоревна Слепнева Полина Александровна	RU2786306C1
СПОСОБ И СИСТЕМА ВЫЯВЛЕНИЯ ТРЕВОЖНЫХ СОБЫТИЙ ПРИ ВЗАИМОДЕЙСТВИИ С УСТРОЙСТВОМ САМООБСЛУЖИВАНИЯ	2019	Балашов Александр Викторович Давидов Дмитрий Георгиевич	RU2713876C1
СПОСОБ ИДЕНТИФИКАЦИИ ОБЪЕКТОВ НА ЦИФРОВЫХ ИЗОБРАЖЕНИЯХ ПОДСТИЛАЮЩЕЙ ПОВЕРХНОСТИ МЕТОДОМ НЕЧЕТКОЙ ТРИАНГУЛЯЦИИ ДЕЛОНЕ	2018	Крамаров Сергей Олегович Храмов Владимир Викторович Повх Виктор Иванович Грошев Александр Романович Каратаев Алексей Сергеевич Храмов Виктор Владимирович	RU2729557C2
СПОСОБ И СИСТЕМА ДЛЯ ИДЕНТИФИКАЦИИ ЧЕЛОВЕКА ПО ИЗОБРАЖЕНИЮ ЛИЦА	2007	Тельных Александр Александрович Еремин Евгений Викторович Разумов Владимир Автандилович Беллюстин Николай Сергеевич Шемагина Ольга Владимировна Краева Татьяна Анатольевна Калафати Юрий Дмитриевич Джейн Аджай Кумар Рохаджи Упендра Сингх Яхно Владимир Григорьевич	RU2382408C2
СПОСОБ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ ЧЕЛОВЕКА	2012	Заварикин Дмитрий Николаевич Кадейшвили Алексей Андреевич Соколов Александр Юрьевич Степаненко Олег Владимирович Коробкова Светлана Викторовна	RU2488882C1
Способ управления бортовыми системами беспилотных транспортных средств при помощи нейронных сетей на основе архитектуры трансформеров	2024	Карим Атеф Абдельмагид Абдо Эльдакрури Хегази Мостафа Айман Ахмед Мохамед Рашид Бадер	RU2841111C1
СПОСОБ ПЕРЕДАЧИ ДВИЖЕНИЯ СУБЪЕКТА ИЗ ВИДЕО НА АНИМИРОВАННОГО ПЕРСОНАЖА	2019	Ашманов Станислав Игоревич Сухачев Павел Сергеевич	RU2708027C1
СПОСОБ ОТОБРАЖЕНИЯ ШИРОКОФОРМАТНОГО ОБЪЕКТА ДОПОЛНЕННОЙ РЕАЛЬНОСТИ	2017	Аверьянов Виталий Витальевич Комиссаров Андрей Валерьевич	RU2735066C1
Способ бесконтактного управления курсором мыши	2015	Карпов Алексей Анатольевич Ронжин Андрей Леонидович	RU2618389C2