Область техники
Настоящее изобретение относится к области машинного зрения, и, в частности, оно относится к способу высокоэффективного определения подвижного объекта на видео, основанного на принципах Codebook.
Уровень техники
С помощью способов определения подвижных объектов на основе Codebook можно эффективно устранять помехи на заднем фоне видео. Их основные недостатки следующие: (1) по мере смены видеокадров необходимо часто запрашивать освобождение внутренней памяти. В случае работы оборудования в автоматическом режиме высвобождение внутренней памяти будет влиять на надежность системы и ее работу в реальном времени. (2) Когда задний фон видео из-за освещения и прочих факторов постепенно изменяется, способы на основе Codebook будут постепенно становиться неэффективными, поэтому в случае этого необходимо заново обновлять информацию о заднем фоне, и в течение этого периода невозможно обнаружить подвижный объект. (3) Способы на основе Codebook характеризуются относительно медленной скоростью, что не способствует их выполнению на оборудовании с низкоуровневой конфигурацией.
В документе «» (номер публикации - 109427067A) предложен способ обработки изображений, включающий этапы, на которых: создают модель Codebook посредством алгоритма на основе кодовой книги (Codebook) в пространстве RGB; с помощью созданной модели Codebook определяют, относятся ли пиксели на подлежащем проверке изображении к переднему фону или заднему фону; получают результаты определения; с помощью алгоритма распространения степени уверенности и на основании суммарной ценности информации об указанных пикселях на подлежащем проверке изображении, которая получена путем передачи ценности информации в направлении нескольких соседних областей, проводят обработку нормализации и получают значение вероятности; указанная ценность информации характеризует однородность между одним пикселем и пикселями в соседних областях; с помощью указанного значения вероятности в указанные результаты определения вносят поправки. С помощью такого изобретения можно снизить цифровой шум, характерный для способов Codebook, и повысить точность определения объекта, но решение этих проблем применяемым способом отличается от решения способом согласно настоящему изобретению.
В документе «» (номер публикации - 107341816A), предложен способ проверки на предмет проникновения в определенную область, основанный на нескольких уровнях Codebook, в котором видеоизображение, применяемое для моделирования заднего фона, используют в качестве промежуточной модели заднего фона; если время обучения удовлетворяет заданному значению Tm, то ищут восемь областей с пикселями на заднем фоне в указанной промежуточной модели заднего фона и формируют связанную область; если площадь указанной связанной области удовлетворяет пороговому значению площади Sm и частоте обращения Fm, то все пиксели в указанной связанной области добавляют в постоянную модель заднего фона и удаляют эти пиксели из промежуточной модели заднего фона; среди всех пикселей на подлежащем проверке изображении в постоянной модели заднего фона ищут соответствующие пиксели, и если соответствующих пикселей нет, то указанное подлежащее проверке изображение определяют как передний фон. С помощью настоящего изобретения можно эффективно предотвращать добавление изолированных шумов в постоянную модель заднего фона и эффективно обрабатывать ложные данные, полученные в результате резкого изменения освещения из-за молний и фонарей поездов. С помощью такого изобретения можно снизить цифровой шум, характерный для способов Codebook, и повысить точность определения объекта, но решение этих проблем применяемым способом отличается от решения способом согласно настоящему изобретению.
В документе «» (номер заявки - 201610452894.7) предложен способ обработки изображений, основанный на улучшенном алгоритме определения переднего фона Codebook, характеризующийся тем, что цветовое пространство RGB заменяют на цветовое пространство YCbCr; улучшают алгоритм определения переднего фона Codebook; применяют улучшенный алгоритм Codebook для определения переднего фона. Применение способа согласно этому изобретению позволяет хорошо определять передний фон и при этом отличать передний фон от заднего фона, что уменьшает влияние изменения освещения на результаты определения, уменьшает расход внутренней памяти и повышает производительность. Объем вычислений в этом способе значительно выше, чем в обычных способах Codebook, поэтому требования к оборудованию слишком высокие.
В документе «» (номер заявки - 201610273831.5) согласно представленному в нем изобретению предложен способ оценки несоответствия качества изображений, основанный на кодировке словарей нескольких уровней, который в основном решает проблему, связанную с несоответствием оценки компьютером изображения шумов видимому человеческому глазу. В нем выполняют этапы, на которых: 1) разделяют базы данных изображений; 2) получают характеристический вектор отдельного экспериментального образца; 3. вычисляют величину характеристического вектора комплекта изображений с ухудшениями обучающего образец; 4) вычисляют характеристический вектор всего обучающего образца; 5) вычисляют величину характеристического вектора всех изображений с ухудшениями в обучающем образце; 6) с помощью характеристического вектора опорных изображений обучающего образца строят словарь первого уровня; 7) с помощью характеристического вектора изображений с ухудшениями обучающего образца строят словарь второго уровня; 8) вычисляют величину каждого центра кластера в словаре второго уровня; 9) экспериментальный образец проецируют на словарь второго уровня для вычисления величины экспериментального образца; 10) на основании величины образца оценивают качество образца. Результаты оценки, полученные согласно этому изобретению, соответствуют тому, что видит человеческий глаз, при этом через интернет изображения можно фильтровать, передавать и архивировать. С помощью такого изобретения можно снизить цифровой шум, характерный для способов Codebook, и повысить точность определения объекта, но решение этих проблем применяемым способом отличается от решения способом согласно настоящему изобретению.
В документе «» (номер публикации - 105825234A) согласно представленному в нем изобретению предложен способ определения переднего фона на основе сочетания суперпикселей и модели заднего фона Codebook, в котором путем разделения суперпикселей пиксели в видеоизображении комбинируют в блоки суперпикселей и с применением блоков суперпикселей в качестве единиц на основе их центров кластеров создают модель заднего фона Codebook, при этом не нужно на основе каждого пикселя в видео отдельно создавать модель заднего фона Codebook, что эффективно экономит внутреннюю память, необходимую для модели заднего фона, а то, что на стадии определения переднего фона выполняется определение лишь центров кластера, значительно сокращает время определения, и обеспечивается соответствие требованиям к платформам для отслеживания в реальном времени. В этом изобретении предусмотрено определение только центров кластеров, что повышает вероятность пропуска объекта и снижает точность определения на основе способов Codebook.
Суть изобретения
Согласно настоящему изобретению предложен способ высокоэффективного определения подвижного объекта на видео, основанный на принципах Codebook, который в основном предназначен для решения следующих проблем: (1) как исключить при применении внутренней памяти установленного размера частое запрашивание освобождения внутренней памяти и устранить системные задержки времени, вызванные управлением внутренней памятью. (2) как решить проблему того, что модель заднего фона становится неэффективной из-за постепенного изменения освещения в зависимости от времени, в результате чего устройству не нужно заново изучать задний фон, то есть оно может долгое время работать непрерывно. (3) как упростить вычислительный процесс согласно способу Codebook, чтобы повысить скорость выполнения.
Настоящее изобретение реализуется с помощью следующих технических решений:
Согласно настоящему изобретению предложен способ высокоэффективного определения подвижного объекта на видео, основанный на принципах Codebook, включающий этапы, на которых:
[1] из источника видеосигнала в реальном времени получают видеокадр;
[1] при этом видеокадр состоит из пикселей; пиксели состоят из нескольких компонентов канала; для каждого канала каждого пикселя обеспечена гистограмма установленных размеров; в случае изображения с разрешением WxL и C каналов каждого пикселя строят статистическую гистограмму H[W][L][C][D] и устанавливают ее начальное значение равным 0; при этом W представляет собой ширину изображения; L представляет собой высоту изображения; C представляет собой число каналов пикселей изображения; D представляет собой общее число уровней яркости каналов;
[1] при обновлении гистограммы пикселей нового кадра изображения используют коэффициент увеличения в качестве единицы увеличения гистограммы; при этом
каждый раз при получении изображения значение яркости каждого канала каждого пикселя в изображении добавляют в соответствующий элемент гистограммы, при этом конкретный способ добавления следующий: H[x][y][c][d] = H[x][y][c][d] + T, при этом (x, y) представляют собой координаты пикселя на изображении; c представляет собой номер канала пикселя; d представляет собой значение яркости пикселя в (x, y) в канале c; T представляет собой коэффициент увеличения яркости; R представляет собой коэффициент забывания; T при инициализации присваивают меньшее действительное численное значение; R устанавливают на основании необходимой скорости забывания; если ожидают уменьшение веса доли текущего изображения для гистограммы до 1/m после n изображений, то R^n = m, то есть R = m^(1/n);
[1] в отношении нового полученного кадра изображения способ определения того, относится ли каждый пиксель в изображении к переднему фону или заднему фону, является следующим: при яркости пикселя в (x, y) в канале c, составляющей d, на основании порогового значения P, если H[x][y][c][d] <P, то определяют, что пиксель (x, y) относится к пикселям на переднем фоне; если в отношении всех каналов c пикселя в (x, y) справедливо H[x][y][c][d] >=P, то определяют, что этот пиксель относится к пикселям на заднем фоне;
в частности, способ определения порогового значения P для пикселя в (x, y) в канале c является следующим: P = max(H[x][y][c]) * 0,5, то есть берут половину максимального значения статистической гистограммы для пикселя в (x, y) в канале c;
[1] перед получением следующего изображения коэффициент увеличения умножают на коэффициент забывания, то есть T = T * R.
Предпочтительно согласно вышеуказанному способу высокоэффективного определения подвижного объекта на видео, основанному на принципах Codebook, в случае черно-белого видеосигнала с разрешением VGA способ добавления в гистограмму следующий: H[x][y][d] = H[x][y][d] + T, T = T * R; 0<= x < 640, 0 <= y < 480, 0<= d < 256; начальное значение T составляет 1,0, R= 2^(1/1500) = 1,0004622.
Предпочтительно согласно вышеуказанному способу высокоэффективного определения подвижного объекта на видео, основанному на принципах Codebook, в случае цветного видеосигнала высокого разрешения способ добавления в гистограмму следующий: H[x][y][c][d] = H[x][y][c][d] + T, T = T * R; 0<= x < 1920, 0 <= y < 1080, 0 <= c < 3; 0<= d < 256; начальное значение T составляет 1,0, R= 2^(1/1500) = 1,0004622.
По сравнению с аналогами, известными из уровня техники, настоящее изобретение обладает следующими полезными эффектами:
(1) на основании [2000] с использованием гистограммы, в которой установлен размер внутренней памяти, заменяют структуру данных кодовой книги в Codebook, что исключает операции частого запрашивания и освобождения внутренней памяти;
(2) обновление гистограммы с помощью коэффициента забывания позволяет автоматически делать ретроспективные данные неактуальными, что исключает операции частой инициализации заднего фона в способе Codebook;
(3) обновление гистограммы по сравнению с обновлением кодовой книги согласно Codebook является более простым, при этом в процессе определения происходит непосредственное сравнение с гистограммой, поэтому эффективность выше;
(4) согласно способу [3005] в настоящем изобретении применяется структура гистограммы размерностью 16x3 для каждого пикселя, при этом для осуществления прямой адресации необходимо меньше затрат, поэтому эффективность выполнения выше.
Описание прилагаемых чертежей
На фиг. 1 представлено схематическое изображение процесса согласно настоящему изобретению.
Конкретный способ осуществления
Ниже со ссылкой на фиг. 1 представлено подробное описание изобретения.
(1) В качестве оборудования устройства применяют компьютер PC; в качестве операционной системы применяют Windows 7. Компьютер PC посредством сетевого кабеля соединен с сетевой видеокамерой; для видеопотока с видеокамеры применяется формат кодировки H.264.
(2) Из источника видеосигнала в реальном времени получают видеокадр.
Видеокадр состоит из пикселей; пиксели состоят из нескольких компонентов канала; каждый канал каждого пикселя характеризуется гистограммой установленных размеров.
В частности, в случае черно-белого видеоизображения с разрешением VGA, например с тепловизионной камеры, разрешение изображения составляет 640x480 пикселей, при этом каждый пиксель состоит из каналов отдельной яркости; диапазон значений компонентов канала яркости обычно составляет 0–255.
В частности, что касается цветного видеоизображения, например с видеокамеры с высоким разрешением, разрешение изображения составляет 1920x1080 пикселей, при этом каждый пиксель состоит из каналов трех основных цветов - красного, зеленого и голубого; диапазон значений каждого компонента канала основных цветов обычно составляет 0–255.
(3) В случае изображения с разрешением WxL и C каналов каждого пикселя строят статистическую гистограмму H[W][L][C][D] и устанавливают ее начальное значение равным 0. При этом W представляет собой ширину изображения; L представляет собой высоту изображения; C представляет собой число каналов пикселей изображения; D представляет собой общее число уровней яркости каналов.
В частности, в случае черно-белого видеосигнала с разрешением VGA, структура гистограммы представляет собой H[640][480][1][256], и ее можно упростить до H[640][480][256], при этом ширина изображения 640 пикселей, высота изображения 480 пикселей, число каналов пикселей составляет 1, а число уровней яркости каналов составляет 256.
В частности, что касается цветного видеосигнала высокого разрешения, то структура гистограммы представляет собой H[1920][1080][3][256], при этом ширина изображения 1920, высота изображения 1080 пикселей, число каналов пикселей составляет 3, а число уровней яркости каналов составляет 256.
Каждый раз при получении изображения значение яркости каждого канала каждого пикселя в изображении добавляют в соответствующий элемент гистограммы, при этом конкретный способ добавления следующий: H[x][y][c][d] = H[x][y][c][d] + T, где T = T * R. При этом (x, y) представляют собой координаты пикселя на изображении; c представляет собой номер канала пикселя; d представляет собой значение яркости пикселя в (x, y) в канале c; T представляет собой коэффициент увеличения яркости; R представляет собой коэффициент забывания; T при инициализации может получать меньшее действительное численное значение; R устанавливают на основании необходимой скорости забывания; если ожидается, что после n изображений вес доли текущего изображения для гистограммы уменьшится до 1/m, то R^n = m, то есть R = m^(1/n).
В частности, в случае черно-белого видеосигнала с разрешением VGA способ добавления в гистограмму следующий: H[x][y][d] = H[x][y][d] + T, T = T * R; 0<= x < 640, 0 <= y < 480, 0<= d < 256; начальное значение T составляет 1,0, R= 2^(1/1500) = 1,0004622.
В частности, в случае цветного видеосигнала высокого разрешения способ добавления в гистограмму следующий: H[x][y][c][d] = H[x][y][c][d] + T, T = T * R; 0<= x < 1920, 0 <= y < 1080, 0 <= c < 3; 0<= d < 256; начальное значение T составляет 1,0, R= 2^(1/1500) = 1,0004622.
(4) В отношении нового полученного кадра изображения способ определения того, относится ли каждый пиксель в изображении к переднему фону или заднему фону, является следующим: при яркости пикселя в (x, y) в канале c, составляющей d, на основании порогового значения P, если H[x][y][c][d] <P, то может быть определено, что пиксель (x, y) относится к пикселям на переднем фоне; если в отношении всех каналов c пикселя в (x, y) справедливо H[x][y][c][d] >=P, то может быть определено, что этот пиксель относится к пикселям на заднем фоне.
В частности, способ определения порогового значения P для пикселя в (x, y) в канале c является следующим: P = max(H[x][y][c]) * 0,5, то есть берут половину максимального значения статистической гистограммы для пикселя в (x, y) в канале c.
Изобретение относится к области вычислительной техники для обработки видеоданных. Технический результат заключается в повышении точности с одновременным снижением цифрового шума. Технический результат достигается за счет того, что при получении изображения значение яркости каждого канала каждого пикселя в изображении добавляют в соответствующий элемент гистограммы, при этом конкретный способ добавления следующий: H[x][y][c][d] = H[x][y][c][d] + T, при этом (x, y) представляют собой координаты пикселя на изображении; c представляет собой номер канала пикселя; d представляет собой значение яркости пикселя в (x, y) в канале c; T представляет собой коэффициент увеличения яркости; R представляет собой коэффициент забывания; T при инициализации присваивают меньшее действительное численное значение; R устанавливают на основании необходимой скорости забывания; если ожидают уменьшение веса доли текущего изображения для гистограммы до 1/m после n изображений, то R^n = m, то есть R = m^(1/n); при этом перед получением следующего изображения коэффициент увеличения умножают на коэффициент забывания, то есть T = T * R. 2 з.п. ф-лы, 1 ил.
1. Способ высокоэффективного определения подвижного объекта на видео, основанный на принципах Codebook, отличающийся тем, что включает этапы, на которых:
[1] из источника видеосигнала в реальном времени получают видеокадр;
[1] при этом видеокадр состоит из пикселей; пиксели состоят из нескольких компонентов канала; для каждого канала каждого пикселя обеспечена гистограмма установленных размеров; в случае изображения с разрешением WxL и C каналов каждого пикселя строят статистическую гистограмму H[W][L][C][D] и устанавливают ее начальное значение равным 0; при этом W представляет собой ширину изображения; L представляет собой высоту изображения; C представляет собой число каналов пикселей изображения; D представляет собой общее число уровней яркости каналов;
[1] при обновлении гистограммы пикселей нового кадра изображения используют коэффициент увеличения в качестве единицы увеличения гистограммы; при этом
каждый раз при получении изображения значение яркости каждого канала каждого пикселя в изображении добавляют в соответствующий элемент гистограммы, при этом конкретный способ добавления следующий: H[x][y][c][d] = H[x][y][c][d] + T, при этом (x, y) представляют собой координаты пикселя на изображении; c представляет собой номер канала пикселя; d представляет собой значение яркости пикселя в (x, y) в канале c; T представляет собой коэффициент увеличения яркости; R представляет собой коэффициент забывания; T при инициализации присваивают меньшее действительное численное значение; R устанавливают на основании необходимой скорости забывания; если ожидают уменьшение веса доли текущего изображения для гистограммы до 1/m после n изображений, то R^n = m, то есть R = m^(1/n);
[1] в отношении нового полученного кадра изображения способ определения того, относится ли каждый пиксель в изображении к переднему фону или заднему фону, является следующим: при яркости пикселя в (x, y) в канале c, составляющей d, на основании порогового значения P, если H[x][y][c][d] <P, то определяют, что пиксель (x, y) относится к пикселям на переднем фоне; если в отношении всех каналов c пикселя в (x, y) справедливо H[x][y][c][d] >=P, то определяют, что этот пиксель относится к пикселям на заднем фоне;
способ определения порогового значения P для пикселя в (x, y) в канале c является следующим: P = max(H[x][y][c]) * 0,5, то есть, берут половину максимального значения статистической гистограммы для пикселя в (x, y) в канале c;
перед получением следующего изображения коэффициент увеличения умножают на коэффициент забывания, то есть T = T * R.
2. Способ высокоэффективного определения подвижного объекта на видео, основанный на принципах Codebook, по п. 1, отличающийся тем, что
в случае черно-белого видеосигнала с разрешением VGA способ добавления в гистограмму следующий: H[x][y][d] = H[x][y][d] + T, T = T * R; 0<= x < 640, 0 <= y < 480, 0<= d < 256; начальное значение T составляет 1,0, R= 2^(1/1500) = 1,0004622.
3. Способ высокоэффективного определения подвижного объекта на видео, основанный на принципах Codebook, по п. 1, отличающийся тем, что в случае цветного видеосигнала высокого разрешения способ добавления в гистограмму следующий: H[x][y][c][d] = H[x][y][c][d] + T, T = T * R; 0<= x < 1920, 0 <= y < 1080, 0 <= c < 3; 0<= d < 256; начальное значение T составляет 1,0, R= 2^(1/1500) = 1,0004622.
Способ получения цианистых соединений | 1924 |
|
SU2018A1 |
Пломбировальные щипцы | 1923 |
|
SU2006A1 |
Токарный резец | 1924 |
|
SU2016A1 |
Устройство для закрепления лыж на раме мотоциклов и велосипедов взамен переднего колеса | 1924 |
|
SU2015A1 |
ОЦЕНКА ДВИЖЕНИЯ ПУТЕМ ТРЕХМЕРНОГО РЕКУРСИВНОГО ПОИСКА (3DRS) В РЕАЛЬНОМ ВРЕМЕНИ ДЛЯ ПРЕОБРАЗОВАНИЯ ЧАСТОТЫ КАДРОВ (FRC) | 2017 |
|
RU2656785C1 |
Авторы
Даты
2022-08-11—Публикация
2020-12-21—Подача