СПОСОБ И УСТРОЙСТВО ДЛЯ ОБНАРУЖЕНИЯ ПОЛОЖЕНИЙ ОБЪЕКТА, КОМПЬЮТЕРНОЕ УСТРОЙСТВО И НОСИТЕЛЬ ДАННЫХ Российский патент 2025 года по МПК G06T7/73 

Описание патента на изобретение RU2839268C2

Область техники, к которой относится настоящее изобретение

[0001] Настоящее изобретение относится к технической области машинного зрения, в частности, к способу и устройству для обнаружения положений объекта, компьютерному устройству и носителю данных этого устройства.

Предшествующий уровень техники настоящего изобретения

[0002] В таких сферах применения, как съемка коротких видеороликов, ведение прямых трансляций, вождение автономных транспортных средств, использование устройств дополненной реальности (AR) и робототехника, обычно выполняется 3D-обнаружение (трехмерное обнаружение) объектов. При этом информация о целевом объекте распознается в 3D-пространстве, и на ее основе выполняются такие процессы обработки, как добавление спецэффектов, планирование маршрутов и планирование траекторий движения.

Краткое раскрытие настоящего изобретения

[0003] Вариантами осуществления настоящего изобретения предложен способ и устройство для обнаружения положений объекта, компьютерное устройство и носитель данных этого устройства.

[0004] Согласно первому аспекту настоящего изобретения некоторыми вариантами его осуществления предложен способ обнаружения положений объекта.

[0005] Предложенный способ предусматривает: получение данных изображений, причем данные изображения включают в себя целевой объект;

[0006] детектирование двухмерной первой информации о трехмерной ограничивающей рамке по факту ее проецирования на данные изображения путем ввода данных изображения в двухмерную модель обнаружения, причем ограничивающая рамка выполнена с возможностью обнаружения целевого объекта; отображение двухмерной первой информации о положении на трехмерную вторую информацию о положении; и детектирование третьей информации о положении целевого объекта на основании трехмерной второй информации о положении.

[0007] Согласно второму аспекту настоящего изобретения некоторыми вариантами его осуществления предложено устройство для обнаружения положений объекта.

[0008] Это устройство включает в себя: модуль получения данных изображения, выполненный с возможностью получения данных изображения, причем данные изображения включают в себя целевой объект; модуль обнаружения первой информации о положении, выполненный с возможностью детектирования двухмерной первой информации о трехмерной ограничивающей рамке по факту ее проецирования на данные изображения путем ввода данных изображения в двухмерную модель обнаружения, причем ограничивающая рамка выполнена с возможностью обнаружения целевого объекта; модуль отображения второй информации о положении, выполненный с возможностью отображения двухмерной первой информации о положении на трехмерную вторую информацию о положении; и модуль обнаружения третьей информации о положении, выполненный с возможностью детектирования третьей информации о положении целевого объекта на основании трехмерной второй информации о положении.

[0009] Согласно третьему аспекту настоящего изобретения некоторыми вариантами его осуществления предложено компьютерное устройство.

[0010] Это компьютерное устройство включает в себя: по меньшей мере, один процессор; и память, выполненную с возможностью хранения в ней, по меньшей мере, одной программы; при этом во время загрузки и выполнения, по меньшей мере, одной программы, по меньшей мере, одним процессором инициируется реализация способа обнаружения положений объекта согласно описанию, представленному выше.

[0011] Согласно четвертому аспекту настоящего изобретения некоторыми вариантами его осуществления предложен машиночитаемый носитель данных. На этом машиночитаемом носителе данных хранится, по меньшей мере, одна компьютерная программа. При загрузке и выполнении процессором, по меньшей мере, одной компьютерной программы инициируется реализация этим процессором способа обнаружения положений объекта согласно описанию, представленному выше.

Краткое описание чертежей

[0012] На фиг. 1 представлена блок-схема, иллюстрирующая способ обнаружения положений объекта согласно некоторым вариантам осуществления настоящего изобретения;

[0013] На фиг. 2 приведена иллюстративная схема обнаружения положения целевого объекта согласно некоторым вариантам осуществления настоящего изобретения;

[0014] На фиг. 3 приведена иллюстративная схема одноступенчатой сети согласно некоторым другим вариантам осуществления настоящего изобретения;

[0015] На фиг. 4 приведена иллюстративная схема двухступенчатой сети согласно некоторым другим вариантам осуществления настоящего изобретения;

[0016] На фиг. 5 представлена блок-схема, иллюстрирующая способ обнаружения положений объекта согласно некоторым другим вариантам осуществления настоящего изобретения;

[0017] На фиг. 6 показана структурная схема устройства для обнаружения положений объекта согласно некоторым другим вариантам осуществления настоящего изобретения;

[0018] На фиг. 7 показана структурная схема компьютерного устройства согласно некоторым другим вариантам осуществления настоящего изобретения;

[0019] На фиг. 8 представлена блок-схема, иллюстрирующая детектирование двухмерной первой информации о трехмерной ограничивающей рамке по факту ее проецирования на данные изображения согласно некоторым другим иллюстративным вариантам осуществления настоящего изобретения;

[0020] На фиг. 9 представлена блок-схема, иллюстрирующая детектирование двухмерной первой информации о трехмерной ограничивающей рамке по факту ее проецирования на данные изображения согласно некоторым другим иллюстративным вариантам осуществления настоящего изобретения;

[0021] На фиг. 10 представлена блок-схема, иллюстрирующая отображение первой информации о положении на вторую информацию о положении в трехмерном пространстве согласно некоторым другим иллюстративным вариантам осуществления настоящего изобретения; и

[0022] На фиг. 1 представлена блок-схема, иллюстрирующая детектирование третьей информации о положении целевого объекта на основании второй информации о положении согласно некоторым другим иллюстративным вариантам осуществления настоящего изобретения.

Подробное раскрытие настоящего изобретения

[0023] В данной области техники существующие способы 3D-обнаружения целевых объектов, разбиты, в основном, на четыре категории, описанные ниже, которые отличаются друг от друга видом входных данных.

[0024] Первая категория предусматривает использование монокулярных изображений, т.е. ввод одного кадра данных изображения, захваченного одной единственной камерой.

[0025] Вторая категория предусматривает использование бинокулярных изображений, т.е. ввод двух кадров данных изображения, захваченных бинокулярной камерой с двух направлений.

[0026] Третья категория предусматривает использование облака точек, т.е. данных о точках в пространстве, захваченных лазерным дальномером.

[0027] Четвертая категория предусматривает использование комбинации облака точек и монокулярного изображения, т.е. одновременный ввод одного кадра данных изображения, захваченного одной камерой, и данных о точках в пространстве, захваченных лазерным дальномером.

[0028] Для мобильных терминалов обычно используются монокулярные изображения, поскольку бинокулярная камера и лазерный дальномер обладают более сложной конструкцией, их труднее встроить в мобильный терминал, и они дорого стоят.

[0029] В данной области техники 3D-обнаружение целевого объекта на основании монокулярных изображений совершенствуется, главным образом, с помощью центральной сети, при этом информация об объекте оценивается напрямую из сети в сквозном режиме. Однако этот метод более чувствителен к оценке вращения, и даже небольшая ошибка, например, в 0,01 градуса, приводит к большому искажению информации об объекте, что снижает стабильность и точность оценивания.

[0030] Для адаптации к указанным условиям некоторыми вариантами осуществления настоящего изобретения предложен способ и устройство для обнаружения положений объекта, компьютерное устройство и носитель данных для повышения стабильности и точности трехмерного (3D) обнаружения целевого объекта.

[0031] Далее по тексту настоящее изобретение описывается в привязке к прилагаемым чертежам и на примере некоторых вариантов его осуществления.

[0032] Первый вариант осуществления настоящего изобретения

[0033] На фиг. 1 представлена блок-схема, иллюстрирующая способ обнаружения положений объекта согласно некоторым вариантам осуществления настоящего изобретения. Во время обнаружения целевого объекта согласно вариантам осуществления настоящего изобретения трехмерное (3D) положение объекта распознается путем отображения двухмерного (2D) положения ограничивающей рамки на 3D-положение. Способ обнаружения положений объекта, описанный в рамках раскрытия вариантов осуществления настоящего изобретения, выполняется с помощью устройства для обнаружения положений объекта, которое реализовано в виде программных и/или аппаратных средств и сконфигурировано в компьютерном устройстве, которое выполняет функцию мобильного терминала. Компьютерное устройство может представлять собой, например, сотовый телефон, планшет, интеллектуальное носимое устройство или иное устройство подобного рода, а интеллектуальным носимым устройством могут служить, например, умные очки, умные часы или иные устройства подобного рода.

[0034] Некоторые варианты осуществления настоящего изобретения предусматривают выполнение стадий, описанных ниже.

[0035] На стадии 101 обеспечивается получение данных изображения.

[0036] В компьютерном устройстве установлена операционная система, такая как Android, iOS, HarmonyOS (Harmony System) или иная система подобного рода, и в эти операционные системы пользователи могут инсталлировать различные необходимые им приложения, такие как, например, приложения для ведения прямых трансляций, съемки коротких видеороликов, улучшения внешних данных, проведения встреч и иные приложения подобного рода.

[0037] Конфигурация компьютерного устройства предусматривает наличие одной или нескольких камер. Эти камеры располагаются спереди компьютерного устройства, и в этом случае они называется фронтальными камерами; или же они располагаются сзади компьютерного устройства, и в этом случае они называется задними камерами.

[0038] В качестве данных изображения для последующего использования указанные приложения могут использовать данные изображения из локальной галереи и сетевой галереи компьютерного устройства, или же для получения данных изображения они могут задействовать камеры.

[0039] Данные изображения содержат объект, являющийся целью обнаружения, который далее именуется целевым объектом. Целевой объект устанавливается в соответствии с требованиями сценария приложения; например, это может быть чашка 201, как показано на фиг. 2, блокнот, ручка, дисплей или иной объект подобного рода.

[0040] К примеру, приложения задействуют камеру, направляя ее на целевой объект с целью захвата видеоданных. Видеоданные включают в себя множество кадров, содержащих данные изображения, и целевой объект отслеживается в этих кадрах с помощью таких методов, как фильтрация Калмана, метод оптического потока или иные методы подобного рода.

[0041] На стадии 102 детектируется двухмерная первая информация о положении трехмерной ограничивающей рамки по факту ее проецирования на данные изображения путем ввода данных изображения в двухмерную (2D) модель обнаружения.

[0042] Целевой объект находится в реальном 3D-пространстве, и для описания его положения в этом пространстве используется трехмерная ограничивающая рамка. Как показано на фиг. 2, трехмерная ограничивающая рамка может иметь форму прямоугольного параллелепипеда 202, цилиндра, сферы или иной геометрической фигуры. Трехмерная ограничивающая рамка представляет собой каркас, внешний по отношению к целевому объекту 201, и служит для обнаружения целевого объекта 201.

[0043] В данных изображения целевой объект отображается в виде двухмерных пиксельных точек. Трехмерная ограничивающая рамка записывается в данные изображения проекционным способом, повторяя целевой объект, и отображается в виде двухмерных пиксельных точек. В этом случае положение трехмерной ограничивающей рамки рассчитывается так, как она представлена на двухмерном изображении, и полученные данные называются первой информацией о положении.

[0044] В некоторых вариантах осуществления настоящего изобретения модель, предназначенная для детектирования первой информации о положении ограничивающей рамки целевого объекта, которая называется двухмерной моделью обнаружения, проходит предварительное обучение, например, с использованием MobileNetV2, ShuffleNetV2 или иной сети подобного рода.

[0045] Для видеоданных предусмотрено следующее: или обработка всех кадров разом, когда все кадры данных изображения подаются на вход двухмерной модели обнаружения одновременно; или пошаговая обработка с трекингом, когда данные изображения вводятся в двухмерную модель обнаружения по отдельности с определенным интервалом времени, а расчет результатов по интервалам времени заменен трекингом.

[0046] Расчет результатов по интервалам времени заменен трекингом. Например, для получения результата по каждому кадру в модель должен вводиться каждый кадр. При такой настройке обработка каждого кадра моделью требует времени, что приводит к значительной задержке. В данном же случае нет необходимости обрабатывать каждый кадр отдельно. Например, можно обработать моделью нулевой кадр, а затем пятый кадр, но получить результат по каждому кадру. В этом случае результат по первому кадру можно получить путем трекинга результата по нулевому кадру.

[0047] На стадии 103 первая информация о положении отображается на трехмерную вторую информацию о положении.

[0048] К примеру, если известна первая информация о положении в системе координат камеры, то определение второй информации о положении в мировой системе координат рассматривается как задача PnP (восстановление точек в 3D-пространстве по их перспективной проекции на плоскость сенсора камеры). При этом часть первой информации о положении целевого объекта в системе координат камеры отображается на трехмерную вторую информацию о положении в мировой системе координат с использованием различных алгоритмов оценки положения, таких как алгоритмы PnP, DLT (прямое линейное преобразование), EPnP (эффективное PnP), UPnP или другие алгоритмы оценки положения.

[0049] В некоторых вариантах осуществления настоящего изобретения первая информация о положении включает в себя координаты центральной точки, координаты вершины и значение глубины. Вершина целевого объекта в системе координат изображения отображается алгоритмом оценки положения на вершину в мировой системе координат.

[0050] Например, глубина относится к расстоянию между объектом и камерой в момент проведения съемки.

[0051] К примеру, если рамка обнаружения объекта представляет собой прямоугольный параллелепипед, то вершинами называются восемь его вершин.

[0052] При использовании в качестве примера сценария, где алгоритмом оценки положения служит EPnP, этот алгоритм лучше справляется с определением положения камеры по совпадающим парам 3D-точка-2D-точка. В некоторых вариантах осуществления настоящего изобретения 2D-точка (например, вершина) в системе координат камеры отображается на 3D-точку (например, вершину) в мировой системе координат с помощью алгоритма EPnP. Затем с помощью модели прогнозируется глубина центральной точки, и путем деления этой глубины на глубину, рассчитанную алгоритмом EPnP, вычисляется соответствующее отношение. Полученное отношение умножается на каждую вершину, в результате чего получается 3D-точка (например, вершина) в системе координат камеры с реальной глубиной. Наконец, в результате внешнего умножения этой 3D-точки (например, вершины) на экстренику камеры получается 3D-точка (например, вершина) в мировой системе координат.

[0053] На стадии 104 детектируется третья информация о положении на основании второй информации о положении.

[0054] После определения второй информации о положении ограничивающей рамки в мировой системе координат, детектируется положение целевого объекта, находящегося внутри этой рамки, также в мировой системе координат. Это положение определяется в качестве трехмерной третьей информации о положении.

[0055] Кроме того, вторая информация о положении ограничивающей рамки в мировой системе координат включает в себя множество вершин, и на основании множества вершин рассчитывается положение и ориентация целевого объекта в мировой системе координат, причем эти данные служат третьей информацией о положении.

[0056] Первая информация о положении представляет собой двухмерную информацию о положении ограничивающей рамки в системе координат изображения.

[0057] Вторая информация о положении представляет собой трехмерную информацию о положении ограничивающей рамки в системе координат камеры.

[0058] Третья информация о положении представляет собой трехмерную информацию о положении целевого объекта в мировой системе координат.

[0059] В этих вариантах осуществления настоящего изобретения предусмотрено обратное отображение ограничивающей рамки 3D-объекта с помощью ограничивающей рамки 2D-изображения путем отображения трехмерной ограничивающей рамки на 2D-изображение.

[0060] Вариантами осуществления настоящего изобретения предусмотрено получение данных изображения, причем данные изображения включают в себя целевой объект. Данные изображения вводятся в двухмерную (2D) модель обнаружения, после чего детектируется двухмерная первая информация о положении трехмерной ограничивающей рамки по факту ее проецирования на данные изображения, причем ограничивающая рамка выполнена с возможностью обнаружения целевого объекта. Первая информация о положении отображается на трехмерную вторую информацию о положении, и на основании второй информации о положении детектируется третья информация о положении целевого объекта. Путем прогнозирования проекционного отображения ограничивающей рамки на данные изображения обеспечивается восстановление 3D-информации о положении. Это позволяет избежать дрожания изображения, вызванного неочевидными ошибками в прогнозировании угла поворота. Варианты осуществления настоящего изобретения обеспечивают более высокую точность и более стабильные результаты в сравнении с прямым прогнозированием 3D-информации о положении.

[0061] В некоторых иллюстративных вариантах осуществления настоящего изобретения двухмерная модель обнаружения представляет собой независимую полную сеть, т.е. одноступенчатую сеть. Как показано на фиг. 3, двухмерная модель обнаружения включает в себя кодер 310, декодер 320 и сеть 330 прогнозирования. В иллюстративных вариантах осуществления настоящего изобретения, как это показано на фиг. 8, стадия 102 включает в себя подстадии 1021 и 1023, описанные ниже.

[0062] На стадии 1021 обеспечивается получение первого признака изображения путем кодирования данных изображения в кодере.

[0063] Например, кодер считывает все исходные данные (то есть данные изображения) и преобразует их в код с фиксированной длиной (то есть в первый признак изображения).

[0064] К примеру, как показано на фиг. 3, кодер 310 включает в себя сверточный слой (Conv Layer) 311, первую остаточную сеть 312, вторую остаточную сеть 313, третью остаточную сеть 314, четвертую остаточную сеть 315 и пятую остаточную сеть 316. Все сети из числа первой остаточной сети 312, второй остаточной сети 313, третьей остаточной сети 314, четвертой остаточной сети 315 и пятой остаточной сети 316 включают в себя один или несколько остаточных блоков типа «бутылочное горлышко». Количество выходных каналов в остаточном блоке типа «бутылочное горлышко» в n раз больше количества входных каналов, причем n является целым положительным числом, например, 4.

[0065] В этих вариантах осуществления настоящего изобретения признак первого уровня извлекается путем выполнения процесса свертки в отношении данных изображения в сверточном слое 311; признак второго уровня извлекается путем обработки признака первого уровня в первой остаточной сети 312; признак третьего уровня извлекается путем обработки признака второго уровня во второй остаточной сети 313; признак четвертого уровня извлекается путем обработки признака третьего уровня в третьей остаточной сети 314; признак пятого уровня извлекается путем обработки признака четвертого уровня в четвертой остаточной сети 315; а признак шестого уровня извлекается путем обработки признака пятого уровня в пятой остаточной сети 316.

[0066] В первой остаточной сети 312, второй остаточной сети 313, третьей остаточной сети 314, четвертой остаточной сети 315 и пятой остаточной сети 316 выход остаточного блока типа «бутылочное горлышко» в текущем слое служит входом для остаточного блока типа «бутылочное горлышко» в следующем слое.

[0067] В этих вариантах осуществления настоящего изобретения все признаки из числа признака первого уровня, признака второго уровня, признака третьего уровня, признака четвертого уровня, признака пятого уровня и признака шестого уровня представляют собой первые признаки изображения.

[0068] В некоторых вариантах осуществления настоящего изобретения, как показано на фиг. 3, количество остаточных блоков типа «бутылочное горлышко» в первой остаточной сети 312 меньше количества остаточных блоков типа «бутылочное горлышко» во второй остаточной сети 313. Например, в первой остаточной сети 312 имеется один слой остаточных блоков типа «бутылочное горлышко», а во второй остаточной сети 313 имеется два слоя остаточных блоков типа «бутылочное горлышко». Количество остаточных блоков типа «бутылочное горлышко» во второй остаточной сети 313 меньше количества остаточных блоков типа «бутылочное горлышко» в третьей остаточной сети 314, количество остаточных блоков типа «бутылочное горлышко» в третьей остаточной сети 314 меньше количества остаточных блоков типа «бутылочное горлышко» в четвертой остаточной сети 315, а количество остаточных блоков типа «бутылочное горлышко» в четвертой остаточной сети 315 равно количеству остаточных блоков типа «бутылочное горлышко» в пятой остаточной сети 316. Например, во второй остаточной сети 313 имеется два слоя остаточных блоков типа «бутылочное горлышко», в третьей остаточной сети 314 имеется три слоя остаточных блоков типа «бутылочное горлышко», в четвертой остаточной сети 315 имеется четыре слоя остаточных блоков типа «бутылочное горлышко», и в пятой остаточной сети 316 имеется четыре слоя остаточных блоков типа «бутылочное горлышко».

[0069] Кроме того, размеры признака второго уровня превышают размеры признака третьего уровня, размеры признака третьего уровня превышают размеры признака четвертого уровня, размеры признака четвертого уровня превышают размеры признака пятого уровня, а размеры признака пятого уровня превышают размеры признака шестого уровня. Например, размеры признака второго уровня составляют 320×240×16, размеры признака третьего уровня составляют 160×120×24, размеры признака четвертого уровня составляют 80×60×32, размеры признака пятого уровня составляют 40×30×64, а размеры признака шестого уровня составляют 20×15×128.

[0070] Информация с низким разрешением в отношении данных изображения, полученная после многократной понижающей дискретизации, предоставляет собой семантическую информацию о целевом объекте, связывающую между собой контекст всех данных изображения. Эта семантическая информация отражает взаимосвязь между целевым объектом и его окружением, а первый признак изображения способствует обнаружению самого целевого объекта.

[0071] На стадии 1022 обеспечивается получение второго признака изображения путем декодирования первого признака изображения в декодере.

[0072] Например, декодер выдает целевые данные (т.е. второй признак изображения) путем декодирования кода (т.е. первого признака изображения).

[0073] К примеру, как это показано на фиг. 3, декодер 320 содержит слой 321 транспонированной свертки и шестую остаточную сеть 322. Шестая остаточная сеть 322 включает в себя множество остаточных блоков типа «бутылочное горлышко». Например, шестая остаточная сеть 322 включает в себя два слоя остаточных блоков типа «бутылочное горлышко».

[0074] Если первый признак изображения содержит множество признаков, таких как признак первого уровня, признак второго уровня, признак третьего уровня, признак четвертого уровня, признак пятого уровня, признак шестого уровня и т.д., то, по меньшей мере, один из этих признаков выбирается для повышающей дискретизации, а высокоуровневая семантическая информация объединяется с низкоуровневой семантической информацией, вследствие чего улучшается насыщенность речевой информации, повышается стабильность и точность двухмерной модели обнаружения, а также уменьшается количество ошибок, связанных с ложными срабатываниями и пропусками объектов.

[0075] В этих вариантах осуществления настоящего изобретения, как это показано на фиг. 3, признак седьмого уровня может быть получен в процессе выполнения свертки в отношении данных признака шестого уровня в слое 321 транспонированной свертки; признак восьмого уровня образуется путем объединения признака пятого уровня, полученного в результате повышающей дискретизации, с признаком седьмого уровня, вследствие чего обеспечивается сочетание высокоуровневой семантической информации и низкоуровневой семантической информации; а признак второго уровня может быть получен путем обработки признака восьмого уровня в шестой остаточной сети 322.

[0076] В шестой остаточной сети 322 выход остаточного блока типа «бутылочное горлышко» в текущем слое служит входом для остаточного блока типа «бутылочное горлышко» в следующем слое.

[0077] В некоторых вариантах осуществления настоящего изобретения размеры признака второго уровня превышают размеры признака шестого уровня. Например, размеры признака второго уровня составляют 40×30×64, а размеры признака шестого уровня составляют 20×15×128.

[0078] На стадии 1023 признак второго уровня отображается на двухмерную первую информацию о положении ограничивающей рамки в сети прогнозирования.

[0079] Первая информация о положении представляет собой двухмерную информацию о положении, соответствующую ограничивающей рамке.

[0080] Обычно двухмерная модель обнаружения включает в себя несколько сетей прогнозирования. Эти сети являются ветвящимися структурами, ориентированными на конкретные данные в первой информации о положении, и они реализованы в виде более компактных структур.

[0081] К примеру, как показано на фиг. 3, сеть 330 прогнозирования включает в себя первую сеть 331 прогнозирования, вторую сеть 332 прогнозирования, третью сеть 333 прогнозирования и четвертую сеть 334 прогнозирования. Первая сеть 331 прогнозирования включает в себя множество остаточных блоков типа «бутылочное горлышко», например, два слоя остаточных блоков типа «бутылочное горлышко»; вторая сеть 332 прогнозирования включает в себя множество остаточных блоков типа «бутылочное горлышко», например, два слоя остаточных блоков типа «бутылочное горлышко»; третья сеть 333 прогнозирования включает в себя множество остаточных блоков типа «бутылочное горлышко», например, два слоя остаточных блоков типа «бутылочное горлышко»; и четвертая сеть 334 прогнозирования включает в себя множество остаточных блоков типа «бутылочное горлышко», например, два слоя остаточных блоков типа «бутылочное горлышко».

[0082] В этих вариантах осуществления настоящего изобретения первая информация о положении включает в себя координаты центральной точки, значение глубины, масштабные размеры и координаты вершины; а второй признак изображения вводится в первую остаточную сеть 331, вторую остаточную сеть 332, третью остаточную сеть 333 и четвертую остаточную сеть 334.

[0083] Например, масштабные размеры обозначают длину, ширину и высоту реального объекта.

[0084] Посредством обработки второго признака изображения в первой сети 331 прогнозирования может быть получена тепловая карта центра ограничивающей рамки. По этой тепловой карте определяется центральная точка, которая также характеризуется определенной глубиной.

[0085] Значение глубины ограничивающей рамки может быть получено путем обработки второго признака изображения во второй сети 332 прогнозирования.

[0086] Масштабные размеры ограничивающей рамки могут быть получены путем обработки второго признака изображения в третьей сети 333 прогнозирования.

[0087] Расстояние, на которое вершина в ограничивающей рамке смещена относительно центральной точки, может быть получено путем обработки второго признака изображения в четвертой сети 334 прогнозирования, а координаты множества вершин могут быть получены путем добавления этого расстояния смещения к координатам центральной точки.

[0088] Количество вершин и относительное положение вершин в ограничивающей рамке может быть разным в зависимости от формы ограничивающей рамки. Например, если ограничивающая рамка имеет форму прямоугольного параллелепипеда, то она характеризуется наличием восьми вершин, которыми служат соответствующие угловые точки граней; если ограничивающая рамка имеет форму цилиндра, то она характеризуется наличием восьми вершин, которыми служат точки пересечения внешних окружностей его нижней и верхней граней; и пр.

[0089] В этих вариантах осуществления настоящего изобретения двухмерная модель обнаружения содержит небольшое число слоев и характеризуется простой структурой, благодаря чему она использует меньше вычислительных ресурсов и работает быстрее, обеспечивая высокую производительность в режиме реального времени.

[0090] В некоторых других иллюстративных вариантах осуществления настоящего изобретения двухмерная модель обнаружения состоит из двух независимых моделей, образуя двухступенчатую сеть. Как показано на фиг. 4, двухмерная модель обнаружения включает в себя модель 410 обнаружения целевого объекта и модель 420 кодирования. Модель 410 обнаружения целевого объекта соединена с моделью 420 кодирования по каскадной схеме. Иначе говоря, выход модели 410 обнаружения целевого объекта является входом для модели 420 кодирования. Двухступенчатая сеть характеризуется сложной структурой, что предотвращает группирование результатов прогнозирования, как это происходит при использовании малой модели, что обеспечивает более высокую стабильность двухмерной модели обнаружения.

[0091] В иллюстративных вариантах осуществления настоящего изобретения, как это показано на фиг. 9, стадия 102 включает в себя подстадии 1021'-1023', описанные ниже.

[0092] На подстадии 1021' в модели обнаружения целевого объекта детектируется часть двухмерной первой информации о положении ограничивающей рамки в данных изображения и область в данных изображения, в которой находится целевой объект.

[0093] Модель обнаружения целевого объекта может быть одноступенчатой или двухступенчатой. Одноступенчатая модель содержит архитектуру SSD (однократный многорамочный детектор), YOLO («достаточно посмотреть один раз») или иную архитектуру подобного рода. Двухступенчатая модель содержит серию архитектур на основе областей с признаками сверточных нейронных сетей (R-CNN), таких как R-CNN, fast-RCNN, fast-RCNN и т.п.

[0094] Данные изображения вводятся в модель обнаружения целевого объекта, и в этих данных изображения модель обнаружения целевого объекта детектирует часть двухмерной первой информации о положении ограничивающей рамки, а также область в данных изображения, в которой находится целевой объект.

[0095] В некоторых вариантах осуществления настоящего изобретения предусмотрено, что в качестве первой информации о положении в модели обнаружения целевого объекта определяется глубина и масштабные размеры ограничивающей рамки в данных изображения.

[0096] В данном описании в качестве примера модели обнаружения целевого объекта используется YOLOv5. Модель YOLOv5 состоит из трех частей: опорной сети, пирамидальной сети признаков и ветвящейся сети. Опорная сеть представляет собой сверточную нейронную сеть, которая извлекает и объединяет особенности изображения на разных уровнях детальности, формируя базовые признаки изображения. Пирамидальная сеть признаков относится к последовательности операций на сетевых уровнях, которые объединяют и комбинируют признаки изображения, а затем передают их на уровень прогнозирования. Типичным примером такой сети служит FPN (Feature Pyramid Network, пирамидальная сеть признаков) или PANet (Path Aggregation Network, сеть агрегации путей). Ветвящаяся сеть отвечает за прогнозирование признаков изображения. Она генерирует ограничивающую рамку целевого объекта, прогнозируя его класс, глубину и масштабные размеры. Таким образом, выход YOLOv5 может быть записан как YOLOv5 nc+5+3+1.

[0097] Величина nc обозначает количество классов объекта.

[0098] Число 5 указывает на наличие пяти переменных, в состав которых входит всего пять переменных, а именно: показатель (с) достоверности классификации, координаты центральной точки ограничивающей рамки (х, у), ширина и высота ограничивающей рамки (w, h).

[0099] Число 3 указывает на наличие трех переменных, включая масштабные размеры целевого объекта в трехмерном пространстве (длину, ширину и высоту).

[00100] Число 1 указывает на наличие одной переменной, а именно глубины целевого объекта в системе координат камеры, т.е. расстояния между объектом и камерой во время съемки.

[00101] На подстадии 1022' из данных изображения в определенной области извлекаются данные этой области.

[00102] Как показано на фиг. 4, область, где в данных 430 изображения находится целевой объект, определяется двухмерной ограничивающей рамкой. Беря эту область за основу, данные 430 изображения обрезаются, а данные (пиксельные точки) внутри этой области извлекаются и обозначаются как данные 431 области. Таким образом, обеспечивается масштабирование данных изображения.

[00103] На подстадии 1023' обеспечивается получение части двухмерной первой информации о положении ограничивающей рамки, что осуществляется путем кодирования данных области в модели кодирования.

[00104] Как показано на фиг. 4, данные 431 области передаются на вход модели 420 кодирования для их последующего кодирования, а на выходе получается оставшаяся двухмерная первая информация о положении ограничивающей рамки.

[00105] В некоторых вариантах осуществления настоящего изобретения данные области кодируются в модели кодирования, и обеспечивается получение координат центральной точки и вершины ограничивающей рамки в качестве первой информации о положении.

[00106] Первая информация о положении, детектируемая 2D-моделью обнаружения, формируется путем объединения двух частей: части первой информации о положении, обнаруженной модулем обнаружения целевого объекта; и другой части первой информации о положении, сгенерированной модулем кодирования.

[00107] Учитывая ограниченные вычислительные ресурсы мобильных устройств, обычно выбирается модель кодирования с простой структурой и малой вычислительной нагрузкой. В качестве примера рассмотрим случай, когда моделью кодирования является efficientnet-lite0. Модель efficientnet-lite0 включает в себя множество сверточных слоев размерами 1×1, множество сверточных слоев с разделением глубины, множество слоев остаточных соединений и множество полностью связанных слоев. Последний полностью связанный слой прогнозирует координаты центральной точки и вершины целевого объекта.

[00108] Помимо модели efficientnet-lite0, в качестве модели кодирования можно использовать легковесную сетевую архитектуру с меньшим количеством параметров или с большим объемом выразительных возможностей.

[00109] В этих вариантах осуществления настоящего изобретения подходящая 2D-модель обнаружения выбирается в соответствии с требованиями сценария применения. Если пользователь загружает видеоданные, то одноступенчатая будет быстрее, а двухступенчатая сеть - точнее. Если пользователь снимает видео в реальном масштабе времени, то двухступенчатая сеть дополнительно осуществляет трекинг с использованием 2D-детектора (трекинг, например, заключается в том, чтобы на основе информации о положении первого кадра получить информацию о возможном положении следующего кадра). Таким образом, отпадает необходимость в анализе каждого кадра данных изображения, что повышает скорость и точность обработки данных.

[00110] В некоторых других иллюстративных вариантах осуществления настоящего изобретения, как это показано на фиг. 10, стадия 103 включает в себя подстадии 1031-1034, описанные ниже.

[00111] На подстадии 1031 запрашиваются контрольные точки отдельно в мировой системе координат и в системе координат камеры.

[00112] Алгоритм EPnP вводит контрольные точки, при этом любая из опорных точек, например, вершина или центральная точка, может быть представлена в виде линейной комбинации четырех контрольных точек.

[00113] Контрольные точки обычно выбираются случайным образом. Однако в некоторых вариантах осуществления настоящего изобретения для повышения эффективности предлагается заранее проводить эксперименты и выбирать точки с наилучшими характеристиками в качестве контрольных. Координаты выбранных точек затем записываются и используются в качестве гиперпараметров при работе алгоритма.

[00114] На подстадии 1032 центральная точка и вершина отображаются в виде взвешенной суммы контрольных точек отдельно в мировой системе координат и в системе координат камеры.

[00115] Верхний индекс w обозначает принадлежность к мировой системе координат; верхний индекс с обозначает принадлежность к системе координат камеры; величина (i=1, 2,…, n) обозначает координаты i-ой опорной точки (вершины, центральной точки) в мировой системе координат; величина (i=1, 2,…, n) обозначает координаты i-ой опорной точки (вершины, центральной точки), спроецированные на систему координат камеры; величина (j=1, 2, 3, 4) представляет собой координаты четырех контрольных точек в мировой системе координат; а величина (j=1, 2, 3, 4) представляет собой координаты четырех контрольных точек, спроецированные на систему координат камеры.

[00116] Опорные точки в мировой системе координат представлены в виде четырех контрольных точек:

[00117] Величина aij отображает однородные барицентрические координаты, известные также как весовой показатель, представляющий собой гиперпараметр, сконфигурированный для контрольных точек.

[00118] Опорные точки в системе координат камеры представлены в виде четырех контрольных точек:

[00119] Величина aij отображает однородные барицентрические координаты, известные также как весовые показатели, сконфигурированные для контрольной точки.

[00120] Весовой показатель в мировой системе координат для одной и той же опорной точки будет таким же, что и весовой показатель в системе координат камеры, причем оба эти показателя представляют собой гиперпараметр.

[00121] На подстадии 1033 строится ограничительная зависимость в отношении глубины, центральной точки и вершины между мировой системой координат и системой координат камеры.

[00122] Ограничительная зависимость в контексте настоящего документа представляет собой ограничительную зависимость между глубиной, центральной точкой и вершиной в мировой системе координат и глубиной, центральной точкой и вершиной в системе координат камеры.

[00123] Например, исходя из уравнения проекции, может быть получена ограничительная зависимость между координатами опорной точки (например, вершины, центральной точки) в мировой системе координат и координатами опорной точки (например, вершины, центральной точки) в системе координат камеры.

[00124] Уравнение проекции выглядит следующим образом:

[00125] Величина wi обозначает глубину опорной точки (вершины, центральной точки); величины ui и vi обозначают х-координату и у-координату опорной точки (вершины, центральной точки) в системе координат камеры; величина А обозначает гиперпараметр; величины ƒu, ƒv, uc и uv обозначают внутренние параметры камеры; величины обозначают х-координату, у-координату и z-координату опорной точки (вершины, центральной точки) в мировой системе координат. Всего в уравнение для решения подставляется 12 неизвестных переменных.

[00126] В ограничительную зависимость вводится сумма весовых показателей aij контрольных точек, которая равна единице. Ограничительная зависимость для каждой опорной точки (вершины, центральной точки) преобразуется в следующие уравнения:

[00127] На подстадии 1034 обеспечивается получение линейного уравнения путем последовательного соединения ограничительных зависимостей.

[00128] Например, для каждой опорной точки существует две ограничительные зависимости, и соединение ограничительных зависимостей может быть охарактеризовано как формирование матрицы ограничительных зависимостей для девяти опорных точек, последовательно соединяемых строка за строкой.

[00129] На подстадии 1035 вершина отображается на трехмерное пространство путем решения линейного уравнения.

[00130] Если предусмотрено n-ое количество опорных точек (вершин, контрольных точек), где величина n является целым положительным числом, таким как 9, то путем последовательного соединения ограничительных зависимостей n-ого количества опорных точек может быть получено следующее однородное линейное уравнение:

Мх=0;

[00131] при этом . Величина х обозначает координаты (X, Y, Z) контрольной точки в системе координат камеры, представляя собой 12-мерный вектор. Всего предусмотрено 12 неизвестных переменных для четырех контрольных точек, а величина М представляет собой матрицу размерами 2n×12.

[00132] Следовательно, величина х обозначает нуль-пространство матрицы М. Величина vi обозначает правый сингулярный вектор матрицы М, а соответствующее сингулярное значение величины vi равно нулю. Это значение получено путем поиска собственного значения нуль-пространства матрицы МТМ:

[00133] Решение заключается в нахождении собственного значения и собственного вектора МТМ, а собственный вектор с собственным значением 0 обозначен величиной vi. Размеры МТМ всегда составляют 12×12, независимо от количества опорных точек. Сложность вычисления МТМ обозначена величиной О(n), и поэтому общая сложность алгоритма может быть записана как O(n).

[00134] Величина N обозначает количество опорных точек, контрольных точек, фокусное расстояние камеры и шум. Величина βi обозначает линейную комбинацию, для которой детерминированное решение может быть получено двумя способами: или путем прямой оптимизации решения, когда задается конкретное значение величины N; или с использованием приближенного решения.

[00135] В некоторых других иллюстративных вариантах осуществления настоящего изобретения третья информация о положении может быть получена путем сингулярного разложения второй информации о положении. В иллюстративных вариантах осуществления настоящего изобретения, как это показано на фиг. 11, стадия 104 включает в себя подстадии 1041-1047, описанные ниже.

[00136] На подстадии 1041 рассчитывается новая центральная точка на основании местоположения ее вершины отдельно в мировой системе координат и в системе координат камеры.

[00137] Для ограничивающей рамки, имеющей форму прямоугольного параллелепипеда, цилиндра, сферы или иной геометрической фигуры, система координат обычно устанавливается на основании координат центральной точки, которая впоследствии будет служить исходной точкой ограничивающей рамки.

[00138] К примеру, в качестве новой центральной точки рассчитывается среднее координат всех вершин в системе координат камеры, причем эта новая точка выражается следующим образом:

[00139] Величина обозначает местоположение новой центральной точки в системе координат камеры; величина обозначает местоположение вершины в системе координат камеры; величина N обозначает количество вершин; а величина i является целым числом.

[00140] В качестве новой центральной точки рассчитывается среднее всех вершин в мировой системе координат, причем эта новая точка выражается следующим образом:

[00141] Величина обозначает местоположение новой центральной точки в мировой системе координат; величина обозначает местоположение вершины в мировой системе координат; а величина N обозначает количество вершин.

[00142] На подстадии 1042 координаты новой центральной точки удаляются из координат вершины отдельно в мировой системе координат и в системе координат камеры.

[00143] Децентровка, т.е. удаление координат новой центральной точки, выполняется путем вычитания ее координат из координат множества вершин в системе координат камеры, что записывается следующим образом:

[00144] Величина обозначает местоположение вершины после децентровки в системе координат камеры; величина обозначает местоположение вершины в системе координат камеры; а величина обозначает местоположение новой центральной точки в системе координат камеры.

[00145] Децентровка, т.е. удаление новой центральной точки, выполняется путем вычитания ее координат из координат множества вершин в мировой системе координат, что записывается следующим образом:

[00146] Величина обозначает местоположение вершины после децентровки в мировой системе координат; величина обозначает местоположение вершины в мировой системе координат; а величина обозначает местоположение новой центральной точки в мировой системе координат.

[00147] На подстадии 1043 после децентровки новой центральной точки (удаления ее координат из координат вершины) рассчитывается самосопряженная матрица.

[00148] После завершения децентровки рассчитывается самосопряженная матрица Н. Самосопряженная матрица Н представляет собой произведение двух матриц, т.е. матрицы вершин в системе координат камеры и транспонированной матрицы вершин в мировой системе координат. Выражение для матрицы Н выглядит следующим образом:

[00149] Величина N обозначает количество вершин; величина обозначает местоположение вершин после децентровки в системе координат камеры; величина обозначает местоположение вершин после децентровки в мировой системе координат; а величина T обозначает транспонированную матрицу.

[00150] На подстадии 1044 проводится разложение по сингулярным значениям самосопряженной матрицы, в результате которого получается произведение трех матриц: первой ортогональной матрицы, диагональной матрицы и транспонированной матрицы второй ортогональной матрицы.

[00151] В этих вариантах осуществления настоящего изобретения используются две системы координат, в которых известны координаты вершин: мировая система координат и система координат камеры. Преобразование данных о положении в этих системах координат может быть осуществлено с помощью разложения по сингулярным значениям (SVD), т.е. путем выполнения SVD в отношении самосопряженной матрицы Н, которая записывается следующим образом:

Н=UΛVT

[00152] Величина U обозначает первую ортогональную матрицу; величина Λ обозначает диагональную матрицу; величина V обозначает вторую ортогональную матрицу; а величина Т обозначает транспонированную матрицу.

[00153] На подстадии 1045 рассчитывается произведение второй ортогональной матрицы и транспонированной матрицы первой ортогональной матрицы, которое определяется в качестве направления целевого объекта в мировой системе координат.

[00154] Получаем X=VUT, где величина U обозначает первую ортогональную матрицу; величина V обозначает вторую ортогональную матрицу; а величина T обозначает транспонированную матрицу.

[00155] В некоторых случаях R=X, причем величина R обозначает направление целевого объекта в мировой системе координат.

[00156] На подстадии 1046 обеспечивается получение точки проекции путем поворота новой центральной точки в мировой системе координат в рассчитанном направлении.

[00157] На подстадии 1047 рассчитывается местоположение целевого объекта в мировой системе координат. Это делается путем вычитания координат точки проекции из координат новой центральной точки в системе координат камеры.

[00158] Местоположение целевого объекта в мировой системе координат определяется путем вычитания из координат новой центральной точки в системе координат камеры координат его новой центральной точки в мировой системе координат после поворота в рассчитанном ранее направлении. Математически это записывается следующим образом:

[00159] Величина t обозначает местоположение целевого объекта в мировой системе координат; величина обозначает местоположение новой центральной точки в системе координат камеры; величина R обозначает направление целевого объекта в мировой системе координат; а величина обозначает местоположение новой центральной точки в мировой системе координат.

[00160] Другой пример первого варианта осуществления настоящего изобретения

[00161] На фиг. 5 представлена блок-схема, иллюстрирующая способ обнаружения положений объекта согласно некоторым вариантам осуществления настоящего изобретения. На основании вариантов осуществления, раскрытых выше, в эти варианты осуществления настоящего изобретения добавлена операция по обработке специальных эффектов, а предложенный способ предусматривает стадии, описанные ниже.

[00162] На стадии 501 обеспечивается получения данных изображения.

[00163] Данные изображения включают в себя целевой объект.

[00164] На стадии 502 детектируется двухмерная первая информация о положении трехмерной ограничивающей рамки по факту ее проецирования на данные изображения путем ввода данных изображения в двухмерную модель обнаружения.

[00165] Ограничивающая рамка выполнена с возможностью обнаружения целевого объекта.

[00166] На стадии 503 первая информация о положении отображается на трехмерную вторую информацию о положении.

[00167] На стадии 504 на основании второй информации о положении детектируется третья информация о положении целевого объекта.

[00168] На стадии 505 определяется трехмерный материал, адаптированный к целевому объекту.

[00169] В этих вариантах осуществления настоящего изобретения обслуживающий терминал, такой как сервер, заранее собирает 3D-материалы, подходящие для конкретных типов целевых объектов, исходя из требований сценария применения. Мобильный терминал заранее загружает этот материал с сервера в локальную память по определенным правилам (например, выбирая базовые или популярные материалы), или же он загружает конкретный материал с сервера в локальную память в зависимости от операции, которую инициирует пользователь во время работы. В альтернативном варианте пользователь выбирает трехмерный материал, подходящий для целевого объекта, из локальной памяти мобильного терминала; или же он выделяет часть данных, которые соответствует целевому объекту, и преобразует их в 3D-данные, после чего полученные 3D-данные определяет в качестве требуемого материала.

[00170] Например, материалом могут служить текстовые данные, данные изображения, анимационные данные или иные данные подобного рода.

[00171] Например, как это показано на фиг. 2, если целевым объектом 201 служит напиток определенного бренда, то в качестве материала используется логотип 203 этого бренда.

[00172] Например, если целевым объектом служит мяч (например, футбольный мяч, баскетбольный мяч, волейбольный мяч, волан для игры в бадминтон, шарик для настольного тенниса и тому подобное), то в качестве материала для спецэффекта может быть использована анимация, подходящая для мяча (например, перо, символ в виде молнии, язык пламени или нечто подобное).

[00173] Кроме того, если целевой объект - это емкость с водой, то в качестве материала могут быть использованы водные растения и животные (например, водоросли, рыбки, креветки и т.д.).

[00174] На стадии 506 для материала конфигурируется четвертая информация о положении.

[00175] Четвертая информация о положении адаптируется к первой информации о положении и/или третьей информации о положении.

[00176] На стадии 507 материал отображается в данных изображения в соответствии с четвертой информацией о положении.

[00177] В этих вариантах осуществления настоящего изобретения заранее определяется генератор спецэффектов. В генератор спецэффектов вводится первая информация о положении и/или третья информация о положении с целью генерирования для материала четвертой информации о положении. На основании четвертой информации о положении материал отображается в данных изображения, что позволяет подстроить его под состояние целевого объекта, вследствие чего создается более естественный спецэффект.

[00178] К примеру, часть первой информации о положении включает в себя масштабные размеры ограничивающей рамки, а третья информация о положении включает в себя направление и местоположение целевого объекта.

[00179] В этих вариантах осуществления настоящего изобретения местоположение целевого объекта смещается наружу на заданное расстояние, например, на 10 сантиметров, причем передняя сторона объекта используется в качестве опорной поверхности, а полученное смещенное положение затем используется как местоположение материала.

[00180] Четвертая информация о положении включает в себя местоположение материала.

[00181] Масштабные размеры ограничивающей рамки уменьшаются до заданной процентной величины (например, 10%), и затем эти уменьшенные масштабные размеры используются в качестве масштабных размеров материала.

[00182] Четвертая информация о положении включает в себя масштабные размеры материала.

[00183] Направление целевого объекта устанавливается как направление материала; таким образом, материал будет обращен в ту же сторону, что и целевой объект.

[00184] Четвертая информация о положении включает в себя направление материала.

[00185] Указанная четвертая информация о положении приведена исключительно в качестве примера, и при реализации вариантов осуществления настоящего изобретения может быть задана другая четвертая информация, что зависит от фактической ситуации. Например, масштабные размеры ограничивающей рамки могут быть увеличены до заданного соотношения (например, в полтора раза), и эти увеличенные масштабные размеры будут использованы в качестве масштабных размеров материала; или же направление целевого объекта может быть повернуто на определенный угол (например, на 90°), и это повернутое направление будет использовано в качестве направления материала. Более того, помимо четвертой информации о положении, описанной выше, специалисты в данной области техники могут использовать и другую четвертую информацию о положении в зависимости от практических потребностей.

[00186] Применительно к видеоданным предусмотрено, что по завершении добавления спецэффектов к адаптированным данным пользователь может разместить их, например, в коротком видеоролике, использовать при ведении трансляции в прямом эфире и т.д.

[00187] Для упрощения описания вариантов осуществления способа эти варианты осуществления настоящего изобретения представлены в виде последовательности комбинированных действий. Однако специалисты в данной области должны понимать, что возможны различные последовательности действий, поскольку согласно вариантам осуществления заявленного изобретения некоторые стадии могут выполняться в другом порядке или одновременно.

[00188] Второй вариант осуществления настоящего изобретения

[00189] На фиг. 6 показана структурная схема устройства для обнаружения положений объекта согласно некоторым вариантам осуществления настоящего изобретения.

[00190] Устройство для обнаружения положений объекта включает в себя: модуль 601 получения данных изображения, выполненный с возможностью получения данных изображения, причем данные изображения включают в себя целевой объект; модуль 602 обнаружения первой информации о положении, выполненный с возможностью детектирования двухмерной первой информации о положении трехмерной ограничивающей рамки по факту ее проецирования на данные изображения путем ввода данных изображения в двухмерную модель обнаружения, причем ограничивающая рамка выполнена с возможностью обнаружения целевого объекта; модуль 603 отображения второй информации о положении, выполненный с возможностью отображения двухмерной первой информации о положении на трехмерную вторую информацию о положении; и модуль 604 обнаружения третьей информации о положении, выполненный с возможностью детектирования третьей информации о положении целевого объекта на основании трехмерной второй информации о положении.

[00191] В некоторых вариантах осуществления настоящего изобретения двухмерная модель обнаружения содержит кодер, декодер и сеть прогнозирования.

[00192] Модуль 602 обнаружения первой информации о положении включает в себя: модуль кодирования, выполненный с возможностью получения первого признака изображения путем кодирования данных изображения в кодере; модуль декодирования, выполненный с возможностью получения второго признака изображения путем декодирования первого признака изображения в декодере; и модуль отображения, выполненный с возможностью отображения - в сети прогнозирования - второго признака изображения на двухмерную первую информацию о положении ограничивающей рамки.

[00193] В некоторых вариантах осуществления настоящего изобретения кодер включает в себя сверточный слой, первую остаточную сеть, вторую остаточную сеть, третью остаточную сеть, четвертую остаточную сеть и пятую остаточную сеть. Каждая сеть из числа первой остаточной сети, второй остаточной сети, третьей остаточной сети, четвертой остаточной сети и пятой остаточной сети включает в себя, по меньшей мере, один остаточный блок типа «бутылочное горлышко».

[00194] Модуль кодирования дополнительно выполнен со следующими возможностями: получения признака первого уровня путем выполнения процесса свертки в отношении данных изображения в сверточном слое; получения признака второго уровня путем обработки признака первого уровня в первой остаточной сети; получения признака третьего уровня путем обработки признака второго уровня во второй остаточной сети; получения признака четвертого уровня путем обработки признака третьего уровня в третьей остаточной сети; получения признака пятого уровня путем обработки признака четвертого уровня в четвертой остаточной сети; и получения признака шестого уровня путем обработки признака пятого уровня в пятой остаточной сети.

[00195] В некоторых вариантах осуществления настоящего изобретения количество остаточных блоков типа «бутылочное горлышко» в первой остаточной сети меньше количества остаточных блоков типа «бутылочное горлышко» во второй остаточной сети; количество остаточных блоков типа «бутылочное горлышко» во второй остаточной сети меньше количества остаточных блоков типа «бутылочное горлышко» в третьей остаточной сети; количество остаточных блоков типа «бутылочное горлышко» в третьей остаточной сети меньше количества остаточных блоков типа «бутылочное горлышко» в четвертой остаточной сети; а количество остаточных блоков типа «бутылочное горлышко» в четвертой остаточной сети равно количеству остаточных блоков типа «бутылочное горлышко» в пятой остаточной сети.

[00196] Размеры признака второго уровня превышают размеры признака третьего уровня, размеры признака третьего уровня превышают размеры признака четвертого уровня, размеры признака четвертого уровня превышают размеры признака пятого уровня, а размеры признака пятого уровня превышают размеры признака шестого уровня.

[00197] В некоторых вариантах осуществления настоящего изобретения декодер включает в себя слой транспонированной свертки и шестую остаточную сеть. Шестая остаточная сеть включает в себя множество остаточных блоков типа «бутылочное горлышко».

[00198] Модуль декодирования дополнительно выполнен со следующими возможностями: получения признака седьмого уровня путем выполнения процесса свертки в отношении данных признака шестого уровня в слое транспонированной свертки; формирования признака восьмого уровня путем объединения признака пятого уровня и признака седьмого уровня; и получения второго признака изображения путем обработки признака восьмого уровня в шестой остаточной сети.

[00199] В некоторых вариантах осуществления настоящего изобретения размеры второго признака изображения превышают размеры признака шестого уровня.

[00200] В некоторых вариантах осуществления настоящего изобретения сеть прогнозирования включает в себя первую сеть прогнозирования, вторую сеть прогнозирования, третью сеть прогнозирования и четвертую сеть прогнозирования. Каждая сеть из числа первой сети прогнозирования, второй сети прогнозирования, третьей сети прогнозирования и четвертой сети прогнозирования включает в себя множество остаточных блоков типа «бутылочное горлышко».

[00201] Модуль отображения дополнительно выполнен со следующими возможностями: получения координат центральной точки ограничивающей рамки путем обработки второго признака изображения в первой сети прогнозирования; получения значения глубины ограничивающей рамки путем обработки второго признака изображения во второй сети прогнозирования; получения масштабных размеров ограничивающей рамки путем обработки второго признака изображения в третьей сети прогнозирования; и получения расстояния, на которое вершина в ограничивающей рамке смещена относительно центральной точки, путем обработки второго признака изображения в четвертой сети прогнозирования.

[00202] В некоторых других вариантах осуществления настоящего изобретения двухмерная модель обнаружения включает в себя модель обнаружения целевого объекта и модель кодирования. Модель обнаружения целевого объекта и модель кодирования соединены друг с другом по каскадной схеме.

[00203] Модуль 602 обнаружения первой информации о положении включает в себя: модуль обнаружения целевого объекта, выполненный с возможностью детектирования в модели обнаружения целевого объекта части двухмерной первой информации о положении ограничивающей рамки в данных изображения и области в данных изображения, в которой находится целевой объект; модуль извлечения данных области, выполненный с возможностью извлечения данных из определенной области в данных изображения в качестве данных этой области; и модуль кодирования данных области, выполненный с дополнительной возможностью получения части двумерной первой информации о положении ограничивающей рамки путем кодирования данных области в модели кодирования.

[00204] В некоторых вариантах осуществления настоящего изобретения модуль обнаружения целевого объекта выполнен с дополнительной возможностью детектирования глубины и масштабных размеров ограничивающей рамки в данных изображения в модели обнаружения целевого объекта.

[00205] Модуль кодирования данных области выполнен с дополнительной возможностью получения координат центральной точки и вершины ограничивающей рамки путем кодирования данных области в модели кодирования.

[00206] В некоторых вариантах осуществления настоящего изобретения первая информация о положении включает в себя координаты центральной точки, координаты вершины и значение глубины.

[00207] Модуль 603 отображения второй информации о положении включает в себя: модуль запрашивания контрольных точек, выполненный с возможностью запрашивания контрольных точек отдельно в мировой системе координат и в системе координат камеры; модуль представления точки, выполненный с возможностью представления центральной точки и вершины в виде взвешенной суммы контрольных точек отдельно в мировой системе координат и в системе координат камеры; модуль построения ограничительной зависимости, выполненный с возможностью построения ограничительной зависимости в отношении глубины, центральной точки и вершины между мировой системой координат и системой координат камеры; модуль генерирования линейного уравнения, выполненный с возможностью получения линейного уравнения путем последовательного соединения ограничительных зависимостей; и модуль решения линейного уравнения, выполненный с возможностью отображения вершины на трехмерное пространство путем решения линейного уравнения.

[00208] В некоторых вариантах осуществления настоящего изобретения модуль 604 обнаружения третьей информации о положении включает в себя: модуль вычисления центральной точки, выполненный с возможностью вычисления координат новой центральной точки на основании координат вершины отдельно в мировой системе координат и в системе координат камеры; модуль удаления центральной точки, выполненный с возможностью удаления координат новой центральной точки из координат вершины отдельно в мировой системе координат и в системе координат камеры; модуль расчета самосопряженной матрицы, выполненный с возможностью расчета самосопряженной матрицы, причем самосопряженная матрица представляет собой произведение двух матриц, т.е. матрицы вершин в системе координат камеры и транспонированной матрицы вершин в мировой системе координат; модуль разложения по сингулярным значениям, выполненный с возможностью получения произведения трех матриц, а именно первой ортогональной матрицы, диагональной матрицы и транспонированной матрицы второй ортогональной матрицы, что реализуется путем разложения по сингулярным значениям самосопряженной матрицы; модуль расчета направления, выполненный с возможностью расчета произведения второй ортогональной матрицы и транспонированной матрицы первой ортогональной матрицы в качестве направления целевого объекта в мировой системе координат; модуль расчета точки проекции, выполненный с возможностью получения точки проекции путем поворота новой центральной точки в мировой системе координат в рассчитанном направлении; и модуль расчета местоположения, выполненный с возможностью получения местоположения целевого объекта в мировой системе координат путем вычитания координат точки проекции из координат новой центральной точки в системе координат камеры.

[00209] В некоторых вариантах осуществления настоящего изобретения дополнительно предусмотрены следующие модули: модуль определения материала, выполненный с возможностью определения трехмерного материала, адаптированного к целевому объекту; модуль конфигурирования четвертой информации о положении, выполненный с возможностью конфигурирования для материала четвертой информации о положении, причем четвертая информация о положении представляет собой информацию о положении, адаптированную к первой информации о положении и третьей информации о положении; и модуль отображения материала, выполненный с возможностью отображения материала в данных изображения в соответствии с четвертой информацией о положении.

[00210] В некоторых вариантах осуществления настоящего изобретения первая информация о положении содержит масштабные размеры ограничивающей рамки, а третья информация о положении содержит направление и местоположение целевого объекта.

[00211] Модуль конфигурирования четвертой информации о положении включает в себя: модуль смещения местоположения, выполненный с возможностью смещения местоположения целевого объекта на заданное расстояние и использования смещенного местоположения в качестве местоположении материала; модуль уменьшения масштабных размеров, выполненный с возможностью уменьшения масштабных размеров ограничивающей рамки до заданных размеров и использования уменьшенных масштабных размеров в качестве размеров материала; и модуль конфигурирования направления, выполненный с возможностью конфигурирования направления целевого объекта в качестве направления материала.

[00212] Устройство для обнаружения положений объекта согласно некоторым вариантам осуществления настоящего изобретения может реализовать способ обнаружения положений объекта согласно любому из вариантов его осуществления, при этом оно содержит функциональные модули и обеспечивает положительные эффекты, присущие указанному способу.

[00213] Третий вариант осуществления настоящего изобретения

[00214] На фиг. 7 показана структурная схема компьютерного устройства согласно некоторым другим вариантам осуществления настоящего изобретения. На фиг. 7 представлена блок-схема, иллюстрирующая один из примеров компьютерного устройства 12, применимого для реализации вариантов осуществления заявленного изобретения. Компьютерное устройство 12, показанное на фиг. 7, представлено исключительно в качестве примера.

[00215] Как показано на фиг. 7, компьютерное устройство 12 выполнено в виде универсального вычислительного устройства. В число компонентов компьютерного устройства 12 может входить один или несколько процессоров или блоков 16 обработки данных, системная память 28 и шина 18, соединяющая между собой различные компоненты системы. Различные компоненты системы включают в себя системную память 28 и блоки 16 обработки данных.

[00216] Системная память 28 может также называться просто памятью.

[00217] Шина 18 представляет собой шинную архитектуру одного или нескольких типов, включая шины памяти или контроллеры памяти, периферийные шины, быстродействующие графические порты, процессоры или локальные шины, использующие любую из множества шинных архитектур. Например, к таким типам архитектуры относится шина со стандартной промышленной архитектурой (ISA), шина с микроканальной архитектурой (МСА), шина с усовершенствованной стандартной промышленной архитектурой (EISA), шина стандарта VESA (Ассоциации по стандартам в области видеоэлектроники) и локальная шина для подключения периферийных компонентов (PCI).

[00218] Компьютерное устройство 12 обычно включает в себя множество носителей данных, считываемых компьютерной системой. Эти носители данных могут представлять собой любые доступные носители, к которым может иметь доступ компьютерное устройство 12, включая энергозависимые и энергонезависимые, съемные и несъемные запоминающие устройства.

[00219] Системная память 28 может включать в себя носитель данных, считываемый компьютерной системой и выполненный в виде энергозависимого запоминающего устройства, такого как оперативное запоминающее устройство (RAM) 30 и/или кэш-память 32. Компьютерное устройство 12 может включать в себя и другие съемные/несъемные, энергозависимые/энергонезависимые запоминающие устройства компьютерной системы. Например, система 34 хранения данных выполнена с возможностью считывания данных с несъемных, энергонезависимых магнитных запоминающих устройств (не показаны на фиг. 7) и записи на эти устройства. Кроме того, хотя это и не показано на фиг. 7, предусмотрен дисковод для считывания данных со съемного, энергонезависимого диска (например, дискеты) и записи на этот диск, а также оптический дисковод для считывания данных со съемного, энергонезависимого оптического диска (например, CD-ROM (запоминающее устройство на компакт-дисках), DVD-ROM (постоянное запоминающее устройство на цифровом видеодиске) или иного оптического запоминающего устройства) и записи на этот диск. В этих вариантах осуществления настоящего изобретения каждый дисковод может быть соединен с шиной 18 посредством одного или нескольких интерфейсов носителей данных. Системная память 28 может содержать, по меньшей мере, один программный продукт. Этот программный продукт включает в себя набор программных модулей (например, по меньшей мере, один программный модуль). Программные модули выполнены с возможностью выполнения функций различных вариантов осуществления настоящего изобретения.

[00220] В системной памяти 28 может храниться, например, программа/утилита 40, содержащая набор программных модулей 42 (по меньшей мере, один). Программные модули 42 могут включать в себя операционную систему, одно или несколько приложений, другие программные модули и данные о программе. Каждый из этих примеров или некоторые их комбинации могут предусматривать реализацию сетевых сред. Программный модуль 42 обычно выполняет функции и/или способы согласно вариантам осуществления настоящего изобретения, описанным в данной заявке.

[00221] Компьютерное устройство 12 может также взаимодействовать с одним или несколькими внешними устройствами 14 (например, клавиатурой, указательным устройством, дисплеем 24 и прочими устройствами подобного рода), а также с одним или несколькими устройствами, которые позволяют пользователю взаимодействовать с компьютерным устройством 12 и/или любыми устройствами, которые позволяют компьютерному устройству 12 обмениваться данными с одним или несколькими другими вычислительными устройствами (например, сетевой картой, модемом и т.п.). Такое взаимодействие может осуществляться через интерфейс ввода/вывода (I/O) 22. Кроме того, компьютерное устройство 12 может также подключаться - через сетевой адаптер 20 - к одной или нескольким сетям, таким как локальная сеть (LAN), глобальная сеть (WAN) и/или общедоступная сеть, причем общедоступной сетью может служить, например, сеть Интернет. Как показано на фиг. 7, сетевой адаптер 20 взаимодействует с другими модулями компьютерного устройства 12 через шину 18. В сопряжении с компьютерным устройством 12 могут также использоваться и другие аппаратные и/или программные модули. К другим аппаратным и/или программным модулям относятся: микрокод, драйверы устройств, блоки обработки данных с резервированием, массивы внешних дисководов, массивы независимых дисков с избыточностью (RATD), накопители на магнитной ленте и системы резервного копирования данных.

[00222] Блок 16 обработки данных приводит в исполнение самые разные функциональные приложения и осуществляет обработку данных, запуская программу, хранящуюся в системной памяти 28, например, для реализации способа обнаружения положений объекта согласно некоторым вариантам осуществления настоящего изобретения.

[00223] Четвертый вариант осуществления настоящего изобретения

[00224] Некоторыми другими вариантами осуществления настоящего изобретения дополнительно предложен машиночитаемый носитель данных. В этом машиночитаемом носителе данных хранится компьютерная программа. Эта компьютерная программа при ее загрузке и выполнении процессором инициирует выполнение этим процессором множества операций в рамках реализации способа обнаружения положений объекта, описанного выше, который позволяет получить один и тот же технический результат, и поэтому далее по тексту повторно не описывается.

[00225] Машиночитаемый носитель данных может, например, включать в себя систему или устройство, использующее электричество, магнетизм, свет, электромагнетизм, инфракрасный свет или полупроводники, или сочетание этих элементов. Машиночитаемый носитель данных, может представлять собой, например, электрическое соединение, снабженное одним или несколькими проводами; портативный компьютер; жесткий диск; оперативное запоминающее устройство (RAM); постоянное запоминающее устройство (ROM); стираемое программируемое постоянное запоминающее устройство (EPROM); флэш-память; оптическое волокно; портативное запоминающее устройство на компакт-дисках (CD-ROM); оптическое запоминающее устройство; магнитное запоминающее устройство; или любое подходящее сочетание перечисленных устройств. В данном случае машиночитаемым носителем данных может служить любой материальный носитель, содержащий или хранящий программу, которая может быть использована любой системой или устройством для исполнения команд или в сочетании с такой системой или устройством.

Похожие патенты RU2839268C2

название год авторы номер документа
СПОСОБ И УСТРОЙСТВО ДЛЯ ОБУЧЕНИЯ МОДЕЛИ РАСПОЗНАВАНИЯ ЛИЦА И УСТРОЙСТВО ДЛЯ ОПРЕДЕЛЕНИЯ КЛЮЧЕВОЙ ТОЧКИ ЛИЦА 2019
  • Чэнь, Дэцзянь
RU2770752C1
Способ обработки данных и система технического зрения для роботизированного устройства 2021
  • Бутов Павел Александрович
  • Шепель Илья Олегович
  • Суанов Тимур Александрович
RU2782662C1
СИСТЕМА, УСТРОЙСТВО И СПОСОБ ТЕКУЩЕГО КОНТРОЛЯ ПОЛОЖЕНИЯ И ОРИЕНТАЦИИ ТРАНСПОРТНОГО СРЕДСТВА, ПОГРУЗОЧНОГО УСТРОЙСТВА И ГРУЗА ПРИ РАБОТЕ ПОГРУЗОЧНОГО УСТРОЙСТВА 2012
  • Энгедаль Торбьерн
  • Некланн Харальд
  • Густавссон Давид
RU2623295C2
ОЦЕНКА ТРЕХМЕРНОЙ ТОПОЛОГИИ ДОРОГИ НА ОСНОВЕ ВИДЕОПОСЛЕДОВАТЕЛЬНОСТЕЙ ПОСРЕДСТВОМ ОТСЛЕЖИВАНИЯ ПЕШЕХОДОВ 2005
  • Бовырин Александр Владимирович
  • Родюшкин Константин Владимирович
RU2409854C2
Способ обеспечения компьютерного зрения 2022
  • Рухович Данила Дмитриевич
  • Воронцова Анна Борисовна
  • Конушин Антон Сергеевич
RU2791587C1
СПОСОБ КОНТРОЛЯ И ИЗМЕРЕНИЙ ОБРАЗЦОВ С ПОМОЩЬЮ ОПТИЧЕСКИХ СРЕДСТВ 2022
  • Мохамед Мустафа Эльсайед Ахмед
  • Шимановский Артур Николаевич
RU2797717C1
Способ получения информации о форме и размерах трехмерного объекта по его двухмерному изображению 2022
  • Конради Дмитрий Сергеевич
RU2816504C1
СПОСОБ УПРАВЛЕНИЯ РОБОТОМ ДЛЯ ИНТЕЛЛЕКТУАЛЬНОГО РАСПЫЛЕНИЯ НЕСКОЛЬКИХ МОДЕЛЕЙ ТРАНСПОРТНЫХ СРЕДСТВ 2019
  • Шэнь, Цин
  • Чэнь, Фэн
  • Сюй, Хайпин
  • Хуан, Лиша
  • Чжоу, Ханчао
  • Ли, Вэйлинь
  • Чжань, Юнгэнь
  • Ли, Бин
  • Ху, Инлян
  • Чэнь, Шицзюнь
  • Чэнь, Юнь
  • Цзян, Юньлян
  • Хуан, Лимин
  • Лоу, Цзюньган
  • Шэнь, Ипин
  • Хуан, Чжунюань
  • Мао, Лянь
RU2758692C1
СПОСОБЫ И УСТРОЙСТВО ДЛЯ УТОЧНЕНИЯ ПРОГНОЗИРОВАНИЯ ДЛЯ УТОЧНЕНИЯ ВЕКТОРА ДВИЖЕНИЯ НА СТОРОНЕ ДЕКОДЕРА С ПОМОЩЬЮ ОПТИЧЕСКОГО ПОТОКА 2020
  • Чэнь, Вей
  • Хэ, Юйвэнь
  • Ло, Цзяньцун
RU2820051C2
Программно-аппаратный комплекс, предназначенный для обработки аэрокосмических изображений местности с целью обнаружения, локализации и классификации до типа авиационной и сухопутной техники 2021
  • Татаринова Елена Александровна
  • Балакчин Виктор Сергеевич
  • Балакчина Анастасия Викторовна
  • Гасникова Евгения Владимировна
  • Благушина Лариса Желалудиновна
  • Гаврилов Дмитрий Александрович
  • Гамиловский Сергей Витальевич
  • Еременко Артем Геннадьевич
  • Гутор Мария Александровна
  • Ефанов Николай Николаевич
  • Ефимов Вячеслав Юрьевич
  • Каврецкий Илья Леонидович
  • Косицын Владимир Петрович
  • Лапушкин Андрей Георгиевич
  • Маслов Дмитрий Александрович
  • Местецкий Александр Моисеевич
  • Местецкий Леонид Моисеевич
  • Пунь Андрей Богданович
  • Родионов Павел Борисович
  • Семенов Андрей Борисович
  • Соколов Глеб Михайлович
  • Федоров Андрей Владимирович
  • Фонин Владимир Николаевич
  • Фонин Юрий Николаевич
  • Фортунатов Антон Александрович
RU2811357C2

Иллюстрации к изобретению RU 2 839 268 C2

Реферат патента 2025 года СПОСОБ И УСТРОЙСТВО ДЛЯ ОБНАРУЖЕНИЯ ПОЛОЖЕНИЙ ОБЪЕКТА, КОМПЬЮТЕРНОЕ УСТРОЙСТВО И НОСИТЕЛЬ ДАННЫХ

Изобретение относится к способу и устройству для обнаружения положений объекта, компьютерному устройству и носителю данных. Технический результат заключается в более точном прогнозировании двумерной информации о положении ограничивающей рамки. Способ предусматривает: получение данных изображения, причем данные изображения содержат целевой объект; детектирование двухмерной первой информации о положении трехмерной ограничивающей рамки по факту ее проецирования на данные изображения путем ввода данных изображения в двухмерную модель обнаружения, причем ограничивающая рамка выполнена с возможностью описания положения целевого объекта в 3D-пространстве; отображение двухмерной первой информации о положении на трехмерную вторую информацию о положении; и детектирование третьей информации о положении целевого объекта на основании трехмерной второй информации о положении, причем двухмерная модель обнаружения содержит кодер, декодер и сеть прогнозирования; а детектирование двухмерной первой информации о положении трехмерной ограничивающей рамки путем ввода данных изображения в двухмерную модель обнаружения предусматривает: получение первого признака изображения путем кодирования данных изображения в кодере; получение второго признака изображения путем декодирования первого признака изображения в декодере; и отображение - в сети прогнозирования - второго признака изображения на двухмерную первую информацию о положении ограничивающей рамки. 4 н. и 11 з.п. ф-лы, 11 ил.

Формула изобретения RU 2 839 268 C2

1. Способ обнаружения положений объекта, предусматривающий:

получение данных изображения, причем данные изображения содержат целевой объект;

детектирование двухмерной первой информации о положении трехмерной ограничивающей рамки по факту ее проецирования на данные изображения путем ввода данных изображения в двухмерную модель обнаружения, причем ограничивающая рамка выполнена с возможностью описания положения целевого объекта в 3D-пространстве;

отображение двухмерной первой информации о положении на трехмерную вторую информацию о положении; и

детектирование третьей информации о положении целевого объекта на основании трехмерной второй информации о положении,

причем двухмерная модель обнаружения содержит кодер, декодер и сеть прогнозирования; а

детектирование двухмерной первой информации о положении трехмерной ограничивающей рамки путем ввода данных изображения в двухмерную модель обнаружения предусматривает:

получение первого признака изображения путем кодирования данных изображения в кодере;

получение второго признака изображения путем декодирования первого признака изображения в декодере; и

отображение - в сети прогнозирования - второго признака изображения на двухмерную первую информацию о положении ограничивающей рамки.

2. Способ по п. 1, в котором:

кодер содержит сверточный слой, первую остаточную сеть, вторую остаточную сеть, третью остаточную сеть, четвертую остаточную сеть и пятую остаточную сеть, причем каждая сеть из числа первой остаточной сети, второй остаточной сети, третьей остаточной сети, четвертой остаточной сети и пятой остаточной сети содержит, по меньшей мере, один остаточный блок типа «бутылочное горлышко»; а

получение первого признака изображения путем кодирования данных изображения в кодере предусматривает:

получение признака первого уровня путем выполнения процесса свертки в отношении данных изображения в сверточном слое;

получение признака второго уровня путем обработки признака первого уровня в первой остаточной сети;

получение признака третьего уровня путем обработки признака второго уровня во второй остаточной сети;

получение признака четвертого уровня путем обработки признака третьего уровня в третьей остаточной сети;

получение признака пятого уровня путем обработки признака четвертого уровня в четвертой остаточной сети; и

получение признака шестого уровня путем обработки признака пятого уровня в пятой остаточной сети.

3. Способ по п. 2, в котором:

количество остаточных блоков типа «бутылочное горлышко» в первой остаточной сети меньше количества остаточных блоков типа «бутылочное горлышко» во второй остаточной сети, количество остаточных блоков типа «бутылочное горлышко» во второй остаточной сети меньше количества остаточных блоков типа «бутылочное горлышко» в третьей остаточной сети, количество остаточных блоков типа «бутылочное горлышко» в третьей остаточной сети меньше количества остаточных блоков типа «бутылочное горлышко» в четвертой остаточной сети, а количество остаточных блоков типа «бутылочное горлышко» в четвертой остаточной сети равно количеству остаточных блоков типа «бутылочное горлышко» в пятой остаточной сети; и

размеры признака второго уровня превышают размеры признака третьего уровня, размеры признака третьего уровня превышают размеры признака четвертого уровня, размеры признака четвертого уровня превышают размеры признака пятого уровня, а размеры признака пятого уровня превышают размеры признака шестого уровня.

4. Способ по п. 2, в котором:

декодер содержит слой транспонированной свертки и шестую остаточную сеть, причем шестая остаточная сеть содержит множество остаточных блоков типа «бутылочное горлышко»; а

получение второго признака изображения путем декодирования первого признака изображения в декодере предусматривает:

получение признака седьмого уровня путем выполнения процесса свертки в отношении данных признака шестого уровня в слое транспонированной свертки;

формирование признака восьмого уровня путем объединения признака пятого уровня и признака седьмого уровня; и

получение второго признака изображения путем обработки признака восьмого уровня в шестой остаточной сети.

5. Способ по п. 4, в котором размеры второго признака изображения превышают размеры признака шестого уровня.

6. Способ по п. 4, в котором:

сеть прогнозирования содержит первую сеть прогнозирования, вторую сеть прогнозирования, третью сеть прогнозирования и четвертую сеть прогнозирования, причем каждая сеть из числа первой сети прогнозирования, второй сети прогнозирования, третьей сети прогнозирования и четвертой сети прогнозирования содержит множество остаточных блоков типа «бутылочное горлышко»; а

отображение в сети прогнозирования второго признака изображения на двухмерную первую информацию о положении ограничивающей рамки предусматривает:

получение координат центральной точки ограничивающей рамки путем обработки второго признака изображения в первой сети прогнозирования;

получение значения глубины ограничивающей рамки путем обработки второго признака изображения во второй сети прогнозирования;

получение масштабных размеров ограничивающей рамки путем обработки второго признака изображения в третьей сети прогнозирования; и

получение расстояния, на которое вершина в ограничивающей рамке смещена относительно центральной точки, путем обработки второго признака изображения в четвертой сети прогнозирования.

7. Способ по п. 1, в котором:

двухмерная модель обнаружения содержит модель обнаружения целевого объекта и модель кодирования, причем модель обнаружения целевого объекта и модель кодирования соединены друг с другом по каскадной схеме; а

детектирование двухмерной первой информации о положении ограничивающей рамки путем ввода данных изображения в двухмерную модель обнаружения предусматривает:

детектирование в модели обнаружения целевого объекта части двухмерной первой информации о положении ограничивающей рамки в данных изображения и области в данных изображения, в которой находится целевой объект;

извлечение данных из определенной области в данных изображения в качестве данных этой области; и

получение части двумерной первой информации о положении ограничивающей рамки путем кодирования данных области в модели кодирования.

8. Способ по п. 7, в котором:

детектирование - в модели обнаружения целевого объекта - части двухмерной первой информации о положении ограничивающей рамки в данных изображения и области в данных изображения, в которой находится целевой объект, предусматривает:

детектирование - в модели обнаружения целевого объекта - глубины и масштабных размеров ограничивающей рамки в данных изображения; а

получение части двумерной первой информации о положении ограничивающей рамки путем кодирования данных области в модели кодирования предусматривает:

получение координат центральной точки и вершины ограничивающей рамки путем кодирования данных области в модели кодирования.

9. Способ по п. 1, в котором:

первая информация о положении содержит координаты центральной точки, координаты вершины и значение глубины; а

отображение двухмерной первой информации о положении на трехмерную вторую информацию о положении предусматривает:

запрашивание контрольных точек отдельно в мировой системе координат и в системе координат камеры;

представление центральной точки и вершины в виде взвешенной суммы контрольных точек отдельно в мировой системе координат и в системе координат камеры;

построение ограничительной зависимости в отношении глубины, центральной точки и вершины между мировой системой координат и системой координат камеры;

получение линейного уравнения путем последовательного соединения ограничительных зависимостей; и

отображение вершины на трехмерное пространство путем решения линейного уравнения.

10. Способ по п. 1, в котором обнаружение третьей информации о положении целевого объекта на основании трехмерной второй информации о положении предусматривает:

вычисление координат новой центральной точки на основании координат вершины отдельно в мировой системе координат и в системе координат камеры;

удаление координат новой центральной точки из координат вершины отдельно в мировой системе координат и в системе координат камеры;

расчет самосопряженной матрицы, причем самосопряженная матрица представляет собой произведение двух матриц, т.е. матрицы вершин в системе координат камеры и транспонированной матрицы вершин в мировой системе координат;

получение произведения трех матриц, а именно первой ортогональной матрицы, диагональной матрицы и транспонированной матрицы второй ортогональной матрицы, что реализуется путем разложения по сингулярным значениям самосопряженной матрицы;

расчет произведения второй ортогональной матрицы и транспонированной матрицы первой ортогональной матрицы в качестве направления целевого объекта в мировой системе координат;

получение точки проекции путем поворота новой центральной точки в мировой системе координат в рассчитанном направлении; и

получение местоположения целевого объекта в мировой системе координат путем вычитания координат точки проекции из координат новой центральной точки в системе координат камеры.

11. Способ по любому из предшествующих пп. 1-10, дополнительно предусматривающий:

определение трехмерного материала, адаптированного к целевому объекту;

конфигурирование для материала четвертой информации о положении, причем четвертая информация о положении представляет собой информацию о положении, адаптированную к первой информации о положении и/или третьей информации о положении; и

отображение материала в данных изображения в соответствии с четвертой информацией о положении.

12. Способ по любому из предшествующих пп. 1-11, в котором:

первая информация о положении содержит масштабные размеры ограничивающей рамки, а третья информация о положении содержит направление и местоположение целевого объекта; а

конфигурирование для материала четвертой информации о положении предусматривает:

смещение местоположения целевого объекта на заданное расстояние и использование смещенного местоположения в качестве местоположении материала;

уменьшение масштабных размеров ограничивающей рамки до заданных размеров и использование уменьшенных масштабных размеров в качестве размеров материала; и

конфигурирование направления целевого объекта в качестве направления материала.

13. Устройство для обнаружения положений объекта, содержащее:

модуль получения данных изображения, выполненный с возможностью получения данных изображения, причем данные изображения включают в себя целевой объект;

модуль обнаружения первой информации о положении, выполненный с возможностью детектирования двухмерной первой информации о положении трехмерной ограничивающей рамки по факту ее проецирования на данные изображения путем ввода данных изображения в двухмерную модель обнаружения, причем ограничивающая рамка выполнена с возможностью описания положения целевого объекта в 3D-пространстве;

модуль отображения второй информации о положении, выполненный с возможностью отображения двухмерной первой информации о положении на трехмерную вторую информацию о положении; и

модуль обнаружения третьей информации о положении, выполненный с возможностью детектирования третьей информации о положении целевого объекта на основании трехмерной второй информации о положении;

причем двухмерная модель обнаружения содержит кодер, декодер и сеть прогнозирования; а

детектирование двухмерной первой информации о положении трехмерной ограничивающей рамки путем ввода данных изображения в двухмерную модель обнаружения предусматривает:

получение первого признака изображения путем кодирования данных изображения в кодере;

получение второго признака изображения путем декодирования первого признака изображения в декодере; и

отображение - в сети прогнозирования - второго признака изображения на двухмерную первую информацию о положении ограничивающей рамки.

14. Компьютерное устройство, содержащее: по меньшей мере, один процессор; и

память, выполненную с возможностью хранения в ней, по меньшей мере, одной программы;

при этом во время загрузки и выполнения, по меньшей мере, одной программы инициируется реализация, по меньшей мере, одним процессором способа обнаружения положений объекта по любому из предшествующих пп. 1-12.

15. Машиночитаемый носитель данных, на котором хранится, по меньшей мере, одна компьютерная программа, причем, по меньшей мере, одна компьютерная программа при ее загрузке и выполнении процессором инициирует реализацию этим процессором способа обнаружения положений объекта по любому из предшествующих пп. 1-12.

Документы, цитированные в отчете о поиске Патент 2025 года RU2839268C2

CN 111968235 A, 20.11.2020
CN 112767489 A, 07.05.2021
US 10402978 B1, 03.09.2019
US 20200311977 A1, 01.10.2020
US 10373369 B2, 06.08.2019
US 20190355150 A1, 21.11.2019
CN 110930454 A, 27.03.2020
CN 111328396 A, 23.06.2020
US 20210004566 A1, 07.01.2021.

RU 2 839 268 C2

Авторы

Цзин, Сюэ

Чэнь, Дэцзянь

Чэнь, Цзяньцян

Цай, Цзяжань

Сян, Вэй

Даты

2025-04-28Публикация

2021-08-09Подача