Показать метаданные Скрыть метаданные

(19)

(11)

2 787 558

(13)

(51)

МПК

G16H30/00(2018-01-01)

G06N20/00(2019-01-01)

G06T7/00(2006-01-01)

(21) (22)

Заявка

2021129912, 2021-10-14

(24)

Дата начала отсчета патента

2021-10-14

(22)

дата подачи заявки

2021-10-14

(45)

опубликовано

2023-01-10

(72)

авторы

Сорокин Сергей ЮрьевичДрокин Иван СергеевичБухвалов Олег ЛеонидовичЕричева Елена Витальевна

(73)

патентообладатели

Общество С Ограниченной Ответственностью

(56)

Документы, цитированные в отчете о поиске

WO 2021035412 A1, 04.03.2021US 10282835 B2, 07.05.2019US 11094034 B2, 17.08.2021CN 111754532 A, 09.10.2020CN 111047563 A, 21.04.2020Jiancheng Yang и др., "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis", DOI:

СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ Российский патент 2023 года по МПК G16H30/00 G06N20/00 G06T7/00

Описание патента на изобретение RU2787558C1

ОБЛАСТЬ ТЕХНИКИ

Изобретение относится к области информационных и коммуникационных технологий для обработки медицинских данных, в частности, к системе и способу автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений.

Представленное решение может быть использовано в системах поддержки принятия врачебных решений (СППВР), врачами, например, врачами КТ-диагностики, врачами МРТ, радиологами, рентгенологами, маммологами, онкологами и другими специалистами, которые проводят анализ биомедицинских изображений, полученных с помощью различных методов диагностики (например, КТ-снимки, МРТ-снимки, УЗИ-снимки, рентгеновские снимки, маммография и др.).

УРОВЕНЬ ТЕХНИКИ

В патенте US10282835B2, дата публикации 07.05.2019, описаны способ и система автоматического анализа клинических изображений с использованием моделей, разработанных с использованием машинного обучения. Система включает в себя сервер с электронным процессором и интерфейсом для связи c источником данных. Электронный процессор сконфигурирован для приема обучающей информации от источника данных через интерфейс. Информация для обучения включает в себя множество изображений и графические отчеты, связанные с каждым из множества изображений. Каждый графический отчет включает в себя графический маркер, обозначающий часть одного из множества изображений и диагностическую информацию, связанную с частью одного из множества изображений. Электронный процессор также настроен на выполнение машинного обучения для разработки модели с использованием обучающей информации. Электронный процессор также сконфигурирован для приема изображения для анализа и автоматической обработки изображения с использованием модели для генерации диагноза для изображения.

В международной заявке WO2021035412A1, дата публикации 04.03.2021 описан способ автоматического машинного обучения (AutoML). Способ включает: получение системой AutoML целевой задачи пользователя и первого набора данных; определение, согласно целевой задаче, что исходная модель искусственного интеллекта (AI) используется для реализации целевой задачи пользователя; обучение системы AutoML, согласно полученному первому набору данных, начальной модели AI для получения обученной модели AI; дополнительно анализируют, согласно первому набору данных, обучение начальной модели AI для получения результата анализа, при этом результат анализа включает влияние по меньшей мере одного типа данных в первом наборе данных на обучение начальной модели AI. Также описана система AutoML, обеспечивающая, в зависимости от результата анализа и пользователя, режим оптимизации для обученной модели AI, при этом режим оптимизации может загружать второй набор данных для оптимизации обученной модели AI. С помощью данного решения, согласно анализу обучения исходной модели AI, режим оптимизации, предоставляемый системой AutoML пользователю, может эффективно оптимизировать степень точности прогнозирования модели AI.

Однако, в данных решениях отсутствует автоматический поиск нескольких моделей компьютерного зрения для анализа биомедицинских изображений, обучение найденных нескольких моделей и выбор лучшей из обученных моделей для ее последующей оценки, а также отсутствует автоматический сбор биомедицинских изображений.

Техническая проблема, на решение которой направлено заявляемое изобретение, заключается в разработке методов и систем автоматического обучения моделей компьютерного зрения для задач, связанных с биомедицинскими изображениями, разработке автоматизированных методов оценки и валидации обученных моделей, разработке системы управления данными и разметкой для обеспечения AutoML процесса, повышении точности AutoML моделей машинного обучения для анализа биомедицинских изображений.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Техническим результатом заявляемого изобретения является обеспечение расширения арсенал технических средств автоматизации создания моделей машинного обучения для анализа биомедицинских изображений (например, КТ-снимки, МРТ-снимки, УЗИ-снимки, рентгеновские снимки, маммография, ангиография и другие), повышение точности анализа биомедицинских изображений за счет выбора лучшей модели, снижение времени анализа биомедицинских изображений за счет автоматизации поиска, обучения и оценки моделей компьютерного зрения, повышение скорости обработки большого количества биомедицинских изображений одновременно с повышением точности, повышение способности к адаптации моделей компьютерного зрения к новым кейсам, аппаратам, режимам проведения исследований и т.д. – например, к появлению большого числа КТ-исследований с признаками вирусной пневмонии, повышение масштабируемости процессов построения моделей компьютерного зрения в задачах анализа биомедицинских изображений, снижение участия исследователей при построении моделей компьютерного зрения в задачах анализа биомедицинских изображений и, тем самым, экономия на самом дефицитном ресурсе - человеческой экспертизе, повышение качества получаемых моделей компьютерного зрения в задачах анализа биомедицинских изображений за счет автоматизации исследования пространства конфигураций моделей компьютерного зрения и параметров обучения.

Указанный технический результат достигается за счёт того, что

Компьютерно-реализуемая система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений содержит:

базу данных, причем база данных хранит данные биомедицинских изображений;

причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически;

сервер, содержащий:

- блок загрузки, причем с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения, из базы данных;

- блок трансформации, причем с помощью блока трансформации автоматически выполняют трансформацию данных биомедицинских изображений, полученных от блока загрузки, в формат, принимаемый блоками поиска, обучения и оценки;

- блок поиска, причем с помощью блока поиска автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе данных биомедицинских изображений, полученных от блока трансформации, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей;

- блок обучения, причем с помощью блока обучения автоматически выполняют обучение моделей компьютерного зрения, найденных блоком поиска, с помощью обучающей выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации, и с помощью параметров архитектуры, полученных от блока поиска;

причем автоматически выбирают лучшую из указанных обученных моделей и передают выбранную модель в блок оценки;

- блок оценки, причем с помощью блока оценки автоматически выполняют оценку лучшей выбранной модели компьютерного зрения, обученной блоком обучения, с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации.

В системе может быть автоматически осуществлен с помощью агента клиники сбор данных, на основе которых получают данные биомедицинских изображений.

В системе с помощью блока поиска может быть осуществлен поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск.

В системе с помощью блока обучения поиска может быть осуществлено дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученных от блока трансформации, в том случае, если указанная модель не прошла валидацию.

В системе блоки обучения и оценки могут быть выполнены с возможностью инициировать повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.

В компьютерно-реализуемом способе автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений:

- автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически;

- автоматически выполняют трансформацию загруженных данных биомедицинских изображений в формат, принимаемый для автоматического поиска, обучения и оценки;

- автоматически осуществляют поиск моделей компьютерного зрения с помощью обучающей и тестовой выборок, сформированных на основе трансформированных данных биомедицинских изображений, и автоматически осуществляют поиск и оптимизацию параметров архитектур найденных моделей;

- автоматически выполняют обучение найденных моделей компьютерного зрения с помощью обучающей выборки, сформированной на основе трансформированных данных биомедицинских изображений, и с помощью найденных и оптимизированных параметров архитектур найденных моделей;

причем автоматически выбирают лучшую из указанных обученных моделей;

- автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения с помощью валидационной выборки, сформированной на основе трансформированных данных биомедицинских изображений.

В способе может быть автоматически выполнена загрузка данных биомедицинских изображений с помощью блока загрузки, может быть осуществлен автоматический сбор данных, на основе которых получают данные биомедицинских изображений, с помощью агента клиники, может быть автоматически выполнена трансформация загруженных данных биомедицинских изображений с помощью блока трансформации, может быть автоматически осуществлен поиск моделей компьютерного зрения с помощью блока поиска, может быть автоматически выполнено обучение найденных моделей компьютерного зрения с помощью блока обучения, может быть автоматически выполнена оценка лучшей выбранной обученной модели компьютерного зрения с помощью блока оценки.

В способе может быть осуществлен поиск модели до достижения заданных значений метрик либо до исчерпания бюджета на поиск.

В способе может быть осуществлено дообучение модели компьютерного зрения, найденной блоком поиска, с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию.

В способе может быть дополнительно инициирован повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.

ОПИСАНИЕ ЧЕРТЕЖЕЙ

Реализация изобретения будет описана в дальнейшем в соответствии с прилагаемыми чертежами, которые представлены для пояснения сути изобретения и никоим образом не ограничивают область изобретения.

Заявляемое изобретение проиллюстрировано фигурами 1-6, на которых изображены:

Фиг. 1 – иллюстрирует пример общей архитектуры, частью которой является система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений.

Фиг. 2 – иллюстрирует общую схему построения AutoML моделей компьютерного зрения для анализа биомедицинских изображений с использованием гибридного интеллекта.

Фиг. 3 – иллюстрирует общую схему устройства агента обучения.

Фиг. 4 – иллюстрирует общую схему обновления AutoML моделей компьютерного зрения для анализа биомедицинских изображений.

Фиг. 5 – иллюстрирует общую схему устройства агента клиники.

Фиг. 6 – иллюстрирует общую схема вычислительного устройства для реализации настоящего изобретения.

ДЕТАЛЬНОЕ ОПИСАНИЕ ИЗОБРЕТЕНИЯ

В приведенном ниже подробном описании реализации изобретения приведены многочисленные детали реализации, призванные обеспечить отчетливое понимание настоящего изобретения. Однако, квалифицированному в предметной области специалисту будет очевидно, каким образом можно использовать настоящее изобретение, как с данными деталями реализации, так и без них. В других случаях хорошо известные методы, процедуры и компоненты не были описаны подробно, чтобы не затруднять излишне понимание особенностей настоящего изобретения.

Кроме того, из приведенного изложения будет ясно, что изобретение не ограничивается приведенной реализацией. Многочисленные возможные модификации, изменения, вариации и замены, сохраняющие суть и форму настоящего изобретения, будут очевидными для квалифицированных в предметной области специалистов.

Настоящее изобретение раскрывает систему автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений. Система предназначена для автоматизации этапов разработки и обучения моделей компьютерного зрения в задачах анализа биомедицинских изображений. Биомедицинские изображения – это медицинские изображения, полученные различными методами, например, методами лучевой диагностики (рентгенологический, магнитно-резонансный, радионуклидный, ультразвуковой и др.) - снимки компьютерной томографии (КТ), снимки магнитно-резонансной томографии (МРТ), ультразвуковые снимки (УЗИ), снимки позитронно-эмиссионной томографии (ПЭТ), рентгеновские снимки, маммографические снимки, снимки ангиографических исследований, эластографические изображения и др.), с помощью эндоскопа (эндоскопические изображения), с помощью фотографических методов (например, медицинские фотографии состояния кожи и других поверхностных состояний, таких как нёбо, родимые пятна, родинки и др.) и др.

Задача построения моделей машинного обучения состоит из следующих этапов:

1. Сбор данных:

- доступ к источникам данных;

- техническая интеграция;

- валидация данных;

- скачивание данных;

- хранение данных;

- поиск данных.

2. Подготовка данных: нормирование, очистка, поиск выбросов.

3. Разделение подготовленных данных на тестовую, валидационную и обучающую выборки.

4. Выбор архитектуры модели.

5. Выбор гиперпараметров.

6. Обучение выбранной модели.

7. Оценка модели.

Агент Клиники обеспечивает автоматизацию забора данных из клиник, опираясь на систему правил и фильтров. Агент клиники так же отвечает за техническую интеграцию и скачивание данных, валидацию и хранение. В основе работы агента клиники лежат комплекты правил, фильтров и списки тегов DICOM. Опираясь на эти данные, возможно автоматизировать процессы доступа, технической интеграции, валидации, скачивания, хранения и поиска данных биомедицинских изображений. Сбор данных осуществляется из внутренних источников (например, минио и постгре баз данных, хранящих биомедицинские изображения) путем автоматического копирования в точку работы - на сервер, где будет запущена модель для обучения.

За разделение подготовленных данных на тестовую, валидационную и обучающую выборки, выбор архитектуры модели, выбор гиперпараметров, обучение выбранной модели, оценку модели отвечает Агент обучения, который собирает все действия в цепочку задач, выполняющихся на вычислительных ресурсах в последовательном режиме.

Автоматическое разделение на выборки опирается на имеющиеся в AutoML отрасли подходы, основываясь на анализе разметки в данных для разбиения выборок стратифицированно.

Выбор архитектуры модели выполняется на базе методов Neural Architecture Serach (NAS) - отрасли машинного обучения, решающей задачу поиска наилучшей модели в контексте обучающей выборки. В рамках данного изобретения применяется метод, основанный на адаптации NAS методов под особенности медицинских данных - малые размеры выборок, задача сегментации биомедицинских изображений, как ключевая задача анализа, использование уже существующих решений как точки старта для поиска моделей компьютерного зрения для анализа биомедицинских изображений.

Обучение найденной архитектуры выполняется так же в автоматическом режиме, что снимает необходимость ручных запусков и подборов параметров обучения, что снижает участие человека в данном цикле.

Оценка модели выполняется на базе подготовленного протокола, который позволяет оценить все необходимые метрики модели в автоматическом режиме.

На Фиг. 1 представлен пример общей архитектуры, частью которой является система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений.

Botkin Main Platform – основная платформа, центральное облако экосистемы Botkin.AI. Осуществляет взаимосвязь между всеми агентами и подсистемами, в том числе управляет потоками данных, используемых для обучения и разметки моделей. Здесь находятся следующие группы сервисов:

1. Data Management - сервисы управления данными системы: исследования, медицинские изображения, поддержка стандарта DICOM, управление датасетами и группами исследований (DataSet, DataFolder).

2. User Management - сервисы управления пользователями, выполняющие следующие функции:

- учети и регистрация пользователей;

- ведение прав пользователей;

- аудит;

- сервисы авторизации OAuth 2.

3. Agent Manager - сервисы управления инфраструктурой, выполняющие следующие функции:

- учет и реестр агентов, дескрипторов агентов;

- взаимодействие с API облачных провайдеров для поднятия виртуальных машин, развертывания локальных кластеров Kubernetes;

- взаимодействие с контроллерами кластеров Kubernetes для развертывания и обновления сервисов агентов.

4. AutoML Management - сервисы управления обучения моделей, выполняющие следующие функции:

- учет метрик обучения моделей (Leader Board);

- хранение артефактов моделей (Model Registry).

5. Process Schedule Management - сервис планирования процессов. Данный сервис выполняет следующие функции:

- назначение процесса (в том числе подпроцесса), выбор агента;

- контроль утилизации ресурсов.

6. Platform Controller - сервис координации процессов системы.

Botkin Secondary Platform – вторичная вспомогательная платформа Botkin.AI. Она отличается от главной платформы тем, что здесь отсутствуют сервисы управления AutoML, а также задачи планирования процессов делегируются в главную платформу.

Inference Agent - агент вывода, задачей которого является обработка медицинских изображений с использованием уже обученных моделей.

Learning Agent – агент обучения, задачей которого является поиск и обучение новых моделей машинного обучения. Агент обучения содержит несколько подкомпонент: модуль взаимодействия с системой, модуль обучения моделей компьютерного зрения, модуль автоматической развертки модели в промышленный контур. Данный модуль разворачивается на серверах, имеющих достаточные вычислительные ресурсы. Может быть развернуто несколько копий.

Clinic Agent - агент клиники, разворачиваемый на стороне клиники и предоставляющий средства взаимодействия с информационными системами клиники.

Satellite - управляющий сервис агента.

ML Service – сервис, выполняющий обработку исследований моделью компьютерного зрения.

Report Service – сервис, генерирующий отчеты в DICOM стандарте, опираясь на результаты обработки серии исследований моделью машинного обучения.

Learning Service – сервис, выполняющий обучение моделей машинного обучения, включая алгоритмы машинного обучения.

Clinic Side – внутренняя сеть клиники.

Cloud Provider – поставщик облачных серверов.

HIS –информационная система клиники.

PACS – (англ. Picture Archiving and Communication System) — системы передачи и архивации DICOM изображений.

Scanners – устройства, выполняющие исследование (КТ аппарат, мат аппарат и др.).

User –пользователь системы.

Botkin Resource Layer – слой управления ресурсами.

3rd Party DICOM Viewer– просмотрщик для врачей, поставляемый третьей стороной, например веб-просмотрщик или автономный (standalone) просмотрщик, содержит все необходимые инструменты для анализа биомедицинских изображений, разметки биомедицинских изображений согласно требуем протоколам, а также взаимодействует с системой в части адресации данных и задач.

На Фиг. 2 представлена общая схема построения моделей компьютерного зрения для анализа биомедицинских изображений на основе двух ключевых технологий - технологии AutoML, автоматизирующей рутинную работу специалистов по компьютерному зрению, и гибридного интеллекта – группы методов, позволяющих учитывать обратную связь от человека (например, радиолога) и использовать ее для обновления AutoML моделей. Этапы, на которых используются AutoML и гибридный интеллект, выделены цветом. Например, врач(и) размечает пул данных биомедицинских изображений. В автоматическом режиме данные выгружаются на сервер для обучения. Запускается алгоритм AutoML, состоящий из следующих шагов: подготовка данных, поиск подходящих архитектур моделей, обучение выбранных архитектур, отбор лучшей модели, тестирование на отложенной выборке. Если качество модели превысило заданный порог, происходит обновление модели в промышленном контуре, иначе этот шаг пропускается. Данные обрабатываются текущей версией модели и предоставляются врачу на валидацию. При неудовлетворительном результате валидации (FAIL), данные возвращаются на разметку и процесс повторяется.

На Фиг. 3 приведена общая схема устройства агента обучения.

Агенты обучения – это управляемая сервисом Satellite группа сервисов, предназначенная для обучения моделей искусственного интеллекта для задач анализа биомедицинских изображений.

На Фиг. 3 представлены следующие сервисы агента обучения:

1. Satellite - управляющий сервис агента.

2. Learning Service - сервис, выполняющий обучение. Сервис состоит из следующих компонент:

- загрузчик данных (Data Loader) - блок, выполняющий загрузку данных, необходимых для обучения и тестирования моделей, из хранилища непосредственно на сервер, где развернут агент;

- модуль подготовки данных (Data Preprocessor) - блок, выполняющий трансформацию данных, полученных от блока загрузки данных, в формат, принимаемый блоками поиска моделей и их обучения;

- блок поиска модели (Model Search) - блок, реализующий наборы методов AutoML для поиска и оптимизации метапараметров. Запускает и контролирует процесс поиска модели;

- блок обучения модели (Model Train) - блок, выполняющий обучение модели по найденным параметрам архитектуры. При необходимости, может инициировать повторный процесс поиска обучения; (В случае некорректного завершения обучения или проблем инфраструктурного характера (временные проблемы с связью, перезагрузка оборудования и др.).

- блок тестирования модели (Model Test) - блок, выполняющий тестирование и оценку метрик модели на отложенной выборке. При необходимости, может инициировать повторный процесс поиска обучения, например, при недостижении заданных значений метрик на тестовой выборке.

На Фиг. 4 представлена общая схема обновления AutoML моделей компьютерного зрения для анализа биомедицинских изображений.

На Фиг. 5 представлена общая схема устройства агента клиники.

Агенты клиники - это управляемая сервисом Satellite группа сервисов, разворачиваемая на стороне клиники, предназначенная для интеграции с информационными системами клиники, аппаратами, инструментами радиологов и т.д. Агент клиники периодически, например, один раз в день в полночь, выбирает все исследования, попавшие в PACS клиники за последние 24 часа. Далее агент клиники отправляет собранные данные биомедицинских изображений на обработку в основную или вспомогательную платформу и возвращает результаты анализа биомедицинских изображений ответственному врачу.

Ниже приведен пример автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа маммографических изображений.

Агент обучения загружает из мест хранения, указанных в файле конфигурации, данные маммографических исследований в виде изображений и созданные аннотации к указанным изображениям. Аннотация создается врачами, и обычно состоит из класса исследования (норма или патология, например, рак молочной железы) и множества регионов интереса, привязанных к маммографическому изображению. В файле конфигурации указываются необходимые параметры для работы агента обучения, например, бюджет на поиск (сколько часов вычислительных ресурсов можно потратить на поиск), тип решаемой задачи (классификация, сегментация), сервисная информация (например, адреса серверов логирования), доля обучающих и тестовых примеров в выборке, параметры изображений в исследовании (их число) и количество каналов (классов) на которые происходит разбиение выборок и т.д. Далее агент обучения обрабатывает полученные данные (например, для сырых данных из DICOM окон просмотра, заложенных в файле, определяет проекции снимка) и сохраняет данные в принятом формате на сервере (например, в виде бинарных файлов, содержащих 4 изображения (изображения каждой молочной железы в двух проекциях, и изображения регионов интереса). Далее агент обучения запускает методы для подготовки разбиения данных на обучающие и тестовые данные. Например, стратифицированное разбиение по наличию нормы и патологии на две выборки согласно заданным долям. Один пациент может войти только в одну выборку - обучающую или тестовую, даже если у него больше одного исследования. Далее агент обучения запускает методы обучения, представляющие собой вариации метода под названием Neural Architecture Search (NAS), основанного на градиентом поиске архитектуры. Для этого используется базовая архитектура, состоящая из крупных блоков (например, Unet). Каждый блок ищется путем оптимизации связей между узлами. Таким образом, процесс поиска - это поиск такого набора весов, при котором достигается минимум ошибки обучения. Сама итоговая архитектура получается путем бинаризации (удаления) связей, которые имеют слишком низкий вес. В процессе обучения используются унифицированные модели, отличающиеся лишь параметрами. Логирование происходит в сервис ML Flow. На каждой эпохе обучения DS (Data Science) специалист имеет доступ к логам для оценки перформанса модели. Поиск подходящих моделей происходит до достижения заданных значений метрик. Поиск осуществляется путем запуска метода обучения с разными метапараметрами (размер шага обучения, параметров регуляризации, параметров аугментации данных и т.д.). Критерием выбора моделей для анализа маммограмм является, например, максимизация значения метрики AUC (площадь под ROC-кривой) для определения нормы/патологии для исследования на всей тестовой выборке. Традиционный порог значения AUC = 0.85. При его достижении обучение считается успешно завершенным, либо до исчерпания бюджета на поиск. Бюджет - это количество машино-часов, отведенных на поиск. Если за отведённое время не достигнуто заданное качество, процесс завершается. В этом случае DS специалист получает уведомление с указанием причины остановки «исчерпан бюджет на поиск». Если на какой-либо эпохе достигнуто качество модели, агент обучения выполняет развертывание модели в контур валидации. Для валидации модели формируется валидационный датасет Валидационная выборка создается из отдельного источника данных, который не представлен в тестовом или обучающем датасете, в остальном процесс аналогичен процессу создания обучающей и тестовой выборок. Далее запускается workflow, который отправляет маммографические данные из валидационного датасета на обученную модель, которая производит обработку, и в результате получают маммографические изображения с аннотацией, сгенерированный моделью. Маммографические изображения, обработанные обученной моделью, назначаются на врача, который проверяет качество работы модели на предоставленных данных. В случае, если модель не прошла валидацию, как правило принимается решение о добавлении обучающих данных и повторении процесса обучения.

На Фиг. 6 представлена общая схема вычислительного устройства (600), обеспечивающего обработку данных, необходимую для реализации заявленного решения.

В общем случае устройство (600) содержит такие компоненты, как: один или более процессоров (601), по меньшей мере одну память (602), средство хранения данных (603), интерфейсы ввода/вывода (604), средство В/В (605), средства сетевого взаимодействия (606).

Процессор (601) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (600) или функциональности одного или более его компонентов. Процессор (601) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (602).

Память (602), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал.

Средство хранения данных (603) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (603) позволяет выполнять долгосрочное хранение различного вида информации.

Интерфейсы (604) представляют собой стандартные средства для подключения и работы с серверной частью, например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п.

Выбор интерфейсов (604) зависит от конкретного исполнения устройства (N00), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.

В качестве средств В/В данных (605) в любом воплощении системы должна использоваться клавиатура. Аппаратное исполнение клавиатуры может быть любым известным: это может быть, как встроенная клавиатура, используемая на ноутбуке или нетбуке, так и обособленное устройство, подключенное к настольному компьютеру, серверу или иному компьютерному устройству. Подключение при этом может быть, как проводным, при котором соединительный кабель клавиатуры подключен к порту PS/2 или USB, расположенному на системном блоке настольного компьютера, так и беспроводным, при котором клавиатура осуществляет обмен данными по каналу беспроводной связи, например, радиоканалу, с базовой станцией, которая, в свою очередь, непосредственно подключена к системному блоку, например, к одному из USB-портов. Помимо клавиатуры, в составе средств В/В данных также может использоваться: джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.

Средства сетевого взаимодействия (606) выбираются из устройств, обеспечивающих сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п. С помощью средств (605) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM, 3G, 4G, 5G.

Компоненты устройства (600) сопряжены посредством общей шины передачи данных (607).

В настоящих материалах заявки представлено предпочтительное раскрытие осуществления заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

Специалисту в данной области техники должно быть понятно, что различные вариации заявляемого способа и системы не изменяют сущность изобретения, а лишь определяют его конкретные воплощения и применения.

Иллюстрации к изобретению RU 2 787 558 C1

Реферат патента 2023 года СИСТЕМА И СПОСОБ АВТОМАТИЧЕСКОГО МАШИННОГО ОБУЧЕНИЯ (AutoML) МОДЕЛЕЙ КОМПЬЮТЕРНОГО ЗРЕНИЯ ДЛЯ АНАЛИЗА БИОМЕДИЦИНСКИХ ИЗОБРАЖЕНИЙ

Изобретение относится к системе и способу автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений. Технический результат заключается в повышении точности анализа биомедицинских изображений за счет определения наиболее эффективной модели компьютерного зрения. В способе автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения для анализа биомедицинских изображений, трансформацию данных биомедицинских изображений в формат, принимаемый для поиска, обучения и оценки, осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений с помощью обучающей и тестовой выборок, сформированных на основе данных биомедицинских изображений, выполняют с помощью обучающей выборки обучение моделей компьютерного зрения для анализа биомедицинских изображений, имеющих найденные архитектуры, причем выбирают лучшую из указанных обученных моделей и передают выбранную модель для оценки, при этом критерием выбора лучшей модели является достижение моделью заданных значений одной или более метрик модели при тестировании модели с помощью тестовой выборки, выполняют оценку лучшей выбранной модели компьютерного зрения для анализа биомедицинских изображений с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений, при этом валидационная выборка создается на основе данных, которые не представлены в тестовой или обучающей выборке. 2 н. и 8 з.п. ф-лы, 6 ил.

Формула изобретения RU 2 787 558 C1

1. Компьютерно-реализуемая система автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений, содержащая:

базу данных, причем база данных хранит данные биомедицинских изображений;

причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически;

сервер, содержащий сервис, выполняющий автоматическое машинное обучение (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений, указанный сервис содержит следующие компоненты: блок загрузки, блок трансформации, блок поиска, блок обучения, блок оценки, причем

- с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения для анализа биомедицинских изображений, из базы данных;

- с помощью блока трансформации автоматически выполняют трансформацию данных биомедицинских изображений, полученных от блока загрузки, в формат, принимаемый блоками поиска, обучения и оценки;

- с помощью блока поиска автоматически осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений с помощью обучающей и тестовой выборок, сформированных на основе данных биомедицинских изображений, полученных от блока трансформации;

- с помощью блока обучения автоматически выполняют с помощью обучающей выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации, обучение моделей компьютерного зрения для анализа биомедицинских изображений, имеющих архитектуры, найденные блоком поиска;

причем автоматически выбирают лучшую из указанных обученных моделей и передают выбранную модель в блок оценки, при этом критерием выбора лучшей модели является достижение моделью заданных значений одной или более метрик модели при тестировании модели с помощью тестовой выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации;

- с помощью блока оценки автоматически выполняют оценку лучшей выбранной модели компьютерного зрения для анализа биомедицинских изображений, обученной блоком обучения, с помощью валидационной выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации, при этом валидационная выборка создается на основе данных, которые не представлены в тестовой или обучающей выборке.

2. Система по п. 1, характеризующаяся тем, что с помощью агента клиники автоматически осуществляют сбор данных, на основе которых получают данные биомедицинских изображений.

3. Система по п. 1, характеризующаяся тем, что с помощью блока поиска осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений с помощью обучающей и тестовой выборок на основе методов Neural Architecture Serach (NAS).

4. Система по п. 1, характеризующаяся тем, что осуществляют дообучение модели компьютерного зрения для анализа биомедицинских изображений с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию.

5. Система по п. 1, характеризующаяся тем, что блоки обучения и оценки выполнены с возможностью инициировать повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.

6. Компьютерно-реализуемый способ автоматического машинного обучения (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений, в котором:

- автоматически выполняют загрузку данных биомедицинских изображений, необходимых для тестирования, обучения и валидации моделей компьютерного зрения для анализа биомедицинских изображений; причем данные, на основе которых получают данные биомедицинских изображений, собирают автоматически;

- автоматически осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений с помощью обучающей и тестовой выборок, сформированных на основе трансформированных данных биомедицинских изображений;

- автоматически выполняют с помощью обучающей выборки, сформированной на основе трансформированных данных биомедицинских изображений, обучение моделей компьютерного зрения для анализа биомедицинских изображений, имеющих найденные архитектуры;

причем автоматически выбирают лучшую из указанных обученных моделей, при этом критерием выбора лучшей модели является достижение моделью заданных значений одной или более метрик модели при тестировании модели с помощью тестовой выборки, сформированной на основе данных биомедицинских изображений, полученных от блока трансформации;

- автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения для анализа биомедицинских изображений с помощью валидационной выборки, сформированной на основе трансформированных данных биомедицинских изображений, при этом валидационная выборка создается на основе данных, которые не представлены в тестовой или обучающей выборке.

7. Способ по п. 6, характеризующийся тем, что выполняют автоматическое машинное обучение (AutoML) моделей компьютерного зрения для анализа биомедицинских изображений с помощью сервиса, который содержит следующие компоненты: блок загрузки, блок трансформации, блок поиска, блок обучения, блок оценки, причем с помощью блока загрузки автоматически выполняют загрузку данных биомедицинских изображений, с помощью агента клиники осуществляют автоматический сбор данных, на основе которых получают данные биомедицинских изображений, с помощью блока трансформации автоматически выполняют трансформацию загруженных данных биомедицинских изображений, с помощью блока поиска автоматически осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений, с помощью блока обучения автоматически выполняют обучение моделей компьютерного зрения для анализа биомедицинских изображений, имеющих найденные архитектуры, с помощью блока оценки автоматически выполняют оценку лучшей выбранной обученной модели компьютерного зрения для анализа биомедицинских изображений.

8. Способ по п. 6, характеризующийся тем, что осуществляют AutoML поиск архитектур моделей компьютерного зрения для анализа биомедицинских изображений с помощью обучающей и тестовой выборок на основе методов Neural Architecture Serach (NAS).

9. Способ по п. 6, характеризующийся тем, что осуществляют дообучение модели компьютерного зрения с помощью обучающей выборки, в которую добавлены данные дополнительных биомедицинских изображений, полученные от блока трансформации, в том случае, если указанная модель не прошла валидацию.

10. Способ по п. 6, характеризующийся тем, что дополнительно инициируют повторный процесс поиска и обучения моделей компьютерного зрения для анализа биомедицинских изображений.

Документы, цитированные в отчете о поиске Патент 2023 года RU2787558C1

Токарный резец	1924	Г. Клопшток	SU2016A1
WO 2021035412 A1, 04.03.2021
US 10282835 B2, 07.05.2019
US 11094034 B2, 17.08.2021
CN 111754532 A, 09.10.2020
CN 111047563 A, 21.04.2020
Способ регенерирования сульфо-кислот, употребленных при гидролизе жиров	1924	Петров Г.С.	SU2021A1
Jiancheng Yang и др., "MedMNIST Classification Decathlon: A Lightweight AutoML Benchmark for Medical Image Analysis", DOI:

RU 2 787 558 C1

Авторы

Сорокин Сергей Юрьевич

Дрокин Иван Сергеевич

Бухвалов Олег Леонидович

Еричева Елена Витальевна

Даты

2023-01-10—Публикация

2021-10-14—Подача

название	год	авторы	номер документа
СПОСОБ АВТОМАТИЗАЦИИ СКВОЗНОГО (END-TO-END) ТЕСТИРОВАНИЯ С ПОМОЩЬЮ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ	2024	Константинов Евгений Сергеевич Зайцев Алексей Александрович	RU2839253C1
Способ обнаружения и классификации цветных изображений ядросодержащих клеток крови и костного мозга при формировании диагностического заключения в онкогематологии	2024	Поляков Евгений Валерьевич Дмитриева Валентина Викторовна Шувалова Екатерина Викторовна Сельчук Владимир Юрьевич Палладина Александра Дмитриевна Филатова Нелли Анатольевна	RU2837299C1
Программно-аппаратный комплекс, предназначенный для обучения и (или) дообучения алгоритмов обработки аэрофотоснимков видимого и дальнего инфракрасного диапазонов с целью обнаружения, локализации и классификации строений вне населенных пунктов	2020	Балакчин Виктор Сергеевич Балакчина Анастасия Викторовна Гасникова Евгения Владимировна Благушина Лариса Желалудиновна Гаврилов Дмитрий Александрович Гамиловский Сергей Витальевич Еременко Артем Геннадьевич Гутор Мария Александровна Ефанов Николай Николаевич Ефимов Вячеслав Юрьевич Каврецкий Илья Леонидович Косицын Владимир Петрович Лапушкин Андрей Георгиевич Маслов Дмитрий Александрович Местецкий Александр Моисеевич Местецкий Леонид Моисеевич Пунь Андрей Богданович Родионов Павел Борисович Семенов Андрей Борисович Соколов Глеб Михайлович Татаринова Елена Александровна Федоров Андрей Владимирович Фонин Владимир Николаевич Фонин Юрий Николаевич Фортунатов Антон Александрович	RU2747214C1
Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта	2017	Дрокин Иван Сергеевич Бухвалов Олег Леонидович Сорокин Сергей Юрьевич	RU2720363C2
Способ анализа медицинских данных с помощью нейронной сети LogNNet	2021	Величко Андрей Александрович Величко Татьяна Васильевна	RU2754723C1
Способ и система поддержки принятия врачебных решений с использованием математических моделей представления пациентов	2017	Дрокин Иван Сергеевич Бухвалов Олег Леонидович Сорокин Сергей Юрьевич	RU2703679C2
Система и способ защиты устройств пользователя	2020	Щетинин Евгений Игоревич Тихомиров Антон Владимирович	RU2770146C2
КОМПЬЮТЕРИЗИРОВАННЫЙ СПОСОБ РАЗРАБОТКИ И УПРАВЛЕНИЯ МОДЕЛЯМИ СКОРИНГА	2018	Травкин Олег Игоревич Берестнев Дмитрий Алексеевич Юдочев Дмитрий Владимирович Жуковская Екатерина Сергеевна	RU2680760C1
УСТРОЙСТВО И СПОСОБ ДЛЯ ОПРЕДЕЛЕНИЯ ПАТОЛОГИИ ОРГАНОВ ГРУДНОЙ КЛЕТКИ НА ОСНОВЕ РЕНТГЕНОВСКИХ ИЗОБРАЖЕНИЙ	2021	Монголин Александр Сергеевич Мустафаев Тамерлан Айдын Оглы	RU2782518C1
МЕТОД ПОИСКА ТЕРАПЕВТИЧЕСКИ ЗНАЧИМЫХ МОЛЕКУЛЯРНЫХ МИШЕНЕЙ ДЛЯ ЗАБОЛЕВАНИЙ ПУТЕМ ПРИМЕНЕНИЯ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ К КОМБИНИРОВАННЫМ ДАННЫМ, ВКЛЮЧАЮЩИМ ГРАФЫ СИГНАЛЬНЫХ ПУТЕЙ, ОМИКСНЫЕ И ТЕКСТОВЫЕ ТИПЫ ДАННЫХ	2022	Наумов Владимир Александрович Козлова Екатерина Сергеевна Озеров Иван Витальевич Алипер Александр Миронович Жаворонков Александр	RU2798897C1