Малогабаритный высокопроизводительный вычислительный модуль на базе многопроцессорной Системы-на-Кристалле Российский патент 2022 года по МПК G06F9/44 G06F13/38 

Описание патента на изобретение RU2778213C1

Изобретение относится к области вычислительной техники и может найти применение в системах цифровой обработки сигналов и изображений, серверах обработки больших массивов данных, системах видеонаблюдения и машинного зрения, рабочих местах медицинского персонала, в которых применяются глубокие нейронные сети (ГНС).

В последнее время глубокие нейронные сети находят применение во многих отраслях промышленности. Для реализации математических алгоритмов, заложенных в ГНС, требуется высокопроизводительный вычислитель.

В основе такого вычислителя лежит многопроцессорная Система-на-Кристалле (СнК) с тензорными процессорными ядрами. Также необходимым аппаратным ресурсом для реализации ГНС является большой объём оперативной памяти, а также высокая пропускная способность шины обмена данными СнК – оперативная память.

Немаловажным параметром вычислительных модулей такого класса является такой показатель, как вычислительная способность по отношению к потребляемой мощности.

Ближайшим аналогом является вычислительный модуль TESLA V100 PCIe GPU ACCELERATOR фирмы nVidia (см., например, https://images.nvidia.com/content/tesla/pdf/Tesla-V100-PCIe-Product-Brief.pdf). Известный модуль выполнен в форм-факторе PCIe, содержит 32 процессора, контроллеры внешней памяти, разъём PCIe К недостаткам данного модуля можно отнести его избыточну вычислительную мощность и, как следствие, избыточное энергопотребление, отсутствие возможности использования нескольких модулей для решения совместных задач и, как следствие, отсутствие возможности масштабирования вычислительной мощности под конкретные задачи.

Технический результат предлагаемого изобретения заключается в обеспечении масштабируемости вычислительной системы и снижении энергопотребления.

Для достижения технического результата малогабаритный высокопроизводительный вычислительный модуль содержит микросхему высокопроизводительной гетерогенной многопроцессорной Системы-на-Кристалле (СнК), включающую шестнадцать высокопроизводительных процессорных ядер, содержащих управляющий RISC-процессор и, по меньшей мере, два сопроцессора, которые выполняют цифровую обработку данных, предварительно загруженных в память устройства, пять многоядерных процессоров, микросхему оперативного запоминающего устройства динамического типа, контроллеры внешней памяти, интерфейс с хост-процессором на базе PCIe и четыре высокоскоростных коммуникационных порта для связи с внешними процессорными системами, обеспечивающих распараллеливание вычислений.

За счет наличия высокоскоростных коммуникационных портов для связи с внешними процессорными системами, обеспечивающих распараллеливание вычислений, обеспечивается масштабируемость вычислительной системы под конкретные задачи и снижение энергопотребления.

На фиг. 1 представлена упрощенная функциональная схема модуля.

Модуль предназначен для использования в качестве универсальной аппаратно-программной платформы для приёма, обработки, хранения и передачи больших потоков данных сигнальной информации в режиме реального времени в составе встраиваемой вычислительной техники и специализированных высокопроизводительных систем, а также для построения широкого класса систем цифровой обработки сигналов и машинного зрения.

Модуль может быть применён в таких областях как:

нейронные сети и искусственный интеллект;

телекоммуникационные и связные системы;

робототехнические системы;

суперкомпьютеры и серверы;

радиотехнические системы различного назначения;

системы автоматизации процессов в социальной и производственных сферах деятельности в различных областях народного хозяйства.

Малогабаритный высокопроизводительный вычислительный модуль на базе многопроцессорной микросхемы интегральной класса «Система-на-Кристалле» (СнК) представляет собой гетерогенную многопроцессорную систему на кристалле, в состав которой входят 16 процессорных ядер NeuroMatrix Core 4 и пять ядер ARM Cortex-A5, пять контроллеров внешней памяти типа DDR3, интерфейс с хост-процессором на базе PCIe Rev. 2.0 и четыре высокоскоростных коммуникационных порта для связи с внешними процессорными системами. Модуль выполнен в форм-факторе PCIe, имеет разъём PCIe х4 и занимает один слот расширения на материнской плате персонального компьютера или сервера.

Модуль представляет собой высокопроизводительное вычислительное устройство, выполненное в форм-факторе PCIe.

Модуль содержит:

интерфейс PCIe x4 Rev. 2.0;

интерфейс внешних полнодуплексных высокоскоростных коммуникационных портов для межмодульного обмена;

интерфейс Ethernet со скоростью передачи данных 100 Мбит/с с поддержкой протокола EDCL;

5 ГБ памяти DDR3L;

последовательный интерфейс SPI;

40 выводов GPIO.

Предлагаемое устройство обеспечивает:

номинальные напряжения питания: 12 В и 3,3 В;

типовую потребляемую мощность от 10 до 12 Вт;

максимальную потребляемую мощность не выше 25 Вт;

защиту от кратковременного перенапряжения;

защиту от короткого замыкания.

Конструктивно Модуль выполнен из следующих основных составных частей:

печатная плата с установленными элементами поверхностного и сквозного монтажа;

радиатор;

панель;

вентилятор.

Основными функциональными элементами Модуля являются:

микросхема высокопроизводительной гетерогенной многопроцессорной СнК;

микросхемы оперативного запоминающего устройства динамического типа (DDR3L SDRAM).

СнК отвечает за первоначальную загрузку модуля, цифровую обработку сигналов и интерфейс с внешними периферийными устройствами.

Энергозависимые микросхемы оперативного запоминающего устройства динамического типа DDR3L SDRAM отвечают за хранение данных обрабатываемых СнК во время работы Модуля.

Для обеспечения информационного взаимодействия с внешними устройствами в Модуле предусмотрены соединители.

СнК имеет пять универсальных блоков интерфейсов общего назначения (GPIO), доступные для взаимодействия с внешними устройствами, выведены на соединитель X5. Пользовательские выводы общего назначения GPIO.

Контроллер интерфейса SPI обеспечивает обмен информацией между СнК и устройствами, подключенными к последовательному интерфейсу SPI. Контроллер SPI обеспечивает подключение до четырёх устройств в режиме разделения времени. Последовательный интерфейс SPI обеспечивает максимальную скорость передачи данных не более 50 Мб/с.

Цепь EXT_RESET предназначена для использования в качестве сигнала внешнего сброса.

При работе в составе системного блока ПК внешний тактовый сигнал 100 МГц поступает с материнской платы на входной буфер, обеспечивающий тактовыми опорными сигналами блок PCIe и блоки коммуникационных портов СнК.

В СнК реализована аппаратная функция EDCL (Ethernet Debug Communications Link), встроенная в контроллер Ethernet, которая позволяет писать и читать физическую память, отправляя правильно сформированные Ethernet пакеты.

Соединитель X5, содержащий интерфейсы внешних высокоскоростных коммуникационных портов, обеспечивает дуплексную передачу типа точка-точка. Все физические интерфейсы синхронизированы от единого тактового сигнала 100 МГц, идущего с материнской платы ПК.

В составе одного ПК могут быть установлены от 2 до 5 Модулей. Для безопасной и надежной работы в этом случае необходимо обеспечить дополнительное охлаждение Модулей путем использования вспомогательной активной или пассивной систем охлаждения.

Масштабируемый интерфейс внешних высокоскоростных коммуникационных портов обеспечивает одновременное использование мощности двух и более Модулей для решения общей задачи. Для этого могут применятся различные схемы межмодульного обмена:

- топология кольцо (ring)

- топология звезда (star)

- топология шлейфового подключения (daisy chain).

Таким образом обеспечивается масштабируемое использование необходимого числа Модулей в каждом конкретном случае, исходя из предпологаемой вычислительной сложности, ограничений потребляемой электроэнергии, возможности использования удаленных Модулей одного или нескольких серверов.

Похожие патенты RU2778213C1

название год авторы номер документа
СПОСОБ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ ИНФОРМАЦИИ В ГЕТЕРОГЕННОЙ МНОГОПРОЦЕССОРНОЙ СИСТЕМЕ НА КРИСТАЛЛЕ (СнК) 2022
  • Петричкович Ярослав Ярославович
  • Янакова Елена Сергеевна
  • Мачарадзе Георгий Тамазьевич
  • Волков Алексей Николаевич
RU2790094C1
Высокопроизводительная вычислительная платформа на базе процессоров с разнородной архитектурой 2016
  • Лобанов Василий Николаевич
  • Чельдиев Марк Игоревич
RU2635896C1
Вычислительная система для научно-технических расчетов 2018
  • Терентьев Александр Борисович
RU2710890C1
КОМПЬЮТЕРНАЯ СИСТЕМА 2014
  • Осипенко Павел Николаевич
  • Королев Дмитрий Сергеевич
  • Константин Красик
  • Гурин Константин Львович
  • Хренов Григорий Юрьевич
RU2579949C2
УСТРОЙСТВО ПРЯМОГО ОТОБРАЖЕНИЯ АДРЕСОВ ДАННЫХ, РАСПОЛАГАЮЩИХСЯ ВО ВНЕШНЕМ ПОСЛЕДОВАТЕЛЬНОМ ПЗУ, В АДРЕСНОЕ ПРОСТРАНСТВО МИКРОПРОЦЕССОРНОГО ЯДРА, КОМПЬЮТЕРНАЯ СИСТЕМА И СПОСОБ ПЕРЕДАЧИ ДАННЫХ 2014
  • Осипенко Павел Николаевич
  • Королев Дмитрий Сергеевич
  • Константин Красик
  • Гурин Константин Львович
RU2579942C2
ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ПРОГРАММНО-АППАРАТНОГО КОМПЛЕКСА 2016
  • Моляков Андрей Сергеевич
RU2618367C1
Программно-аппаратная платформа и способ ее реализации для беспроводных средств связи 2016
  • Андреечкин Александр Евгеньевич
  • Архипкин Владимир Яковлевич
  • Завалин Юрий Викторович
  • Лихачёв Александр Михайлович
  • Присяжнюк Андрей Сергеевич
  • Присяжнюк Сергей Прокофьевич
  • Круковская Ирина Ярославовна
  • Круковский Ярослав Валентинович
  • Шпак Василий Викторович
RU2626550C1
ВЫЧИСЛИТЕЛЬНЫЙ МОДУЛЬ ДЛЯ МНОГОЗАДАЧНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ 2021
  • Будкина Ольга Анатольевна
  • Воротников Константин Игоревич
  • Демин Федор Вячеславович
  • Морозов Илья Александрович
  • Парамонов Виктор Викторович
  • Симонов Аркадий Васильевич
  • Цыбов Александр Альбертович
RU2780169C1
Вычислительный модуль гетерогенный и встраиваемое вычислительное устройство гетерогенное на его основе 2022
  • Велеславов Дмитрий Александрович
  • Салмин Сергей Анатольевич
RU2811324C1
Процессорный модуль системы хранения данных 2018
  • Фельдман Владимир Марткович
  • Зуев Александр Геннадиевич
  • Сахарова Дарья Григорьевна
RU2680744C1

Иллюстрации к изобретению RU 2 778 213 C1

Реферат патента 2022 года Малогабаритный высокопроизводительный вычислительный модуль на базе многопроцессорной Системы-на-Кристалле

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении масштабируемости и снижении энергопотребления вычислительной системы. Малогабаритный высокопроизводительный вычислительный модуль содержит микросхему высокопроизводительной гетерогенной многопроцессорной Системы-на-Кристалле (СнК), включающую шестнадцать высокопроизводительных процессорных ядер, содержащих управляющий RISC-процессор и по меньшей мере два сопроцессора, которые выполняют цифровую обработку данных, предварительно загруженных в память устройства, пять многоядерных процессоров, микросхему оперативного запоминающего устройства динамического типа, контроллеры внешней памяти, интерфейс с хост-процессором на базе PCIe и четыре высокоскоростных коммуникационных порта для связи с внешними процессорными системами, обеспечивающих распараллеливание вычислений, причем микросхема высокопроизводительной гетерогенной многопроцессорной СнК соединена двусторонней связью с микросхемой оперативного запоминающего устройства динамического типа, контроллерами внешней памяти, интерфейсом с хост-процессором на базе PCIe и четырьмя высокоскоростными коммуникационными портами. 1 ил.

Формула изобретения RU 2 778 213 C1

Малогабаритный высокопроизводительный вычислительный модуль, содержащий микросхему высокопроизводительной гетерогенной многопроцессорной Системы-на-Кристалле (СнК), включающую шестнадцать высокопроизводительных процессорных ядер, содержащих управляющий RISC-процессор и по меньшей мере два сопроцессора, которые выполняют цифровую обработку данных, предварительно загруженных в память устройства, пять многоядерных процессоров, микросхему оперативного запоминающего устройства динамического типа, контроллеры внешней памяти, интерфейс с хост-процессором на базе PCIe и четыре высокоскоростных коммуникационных порта для связи с внешними процессорными системами, обеспечивающих распараллеливание вычислений, причем микросхема высокопроизводительной гетерогенной многопроцессорной СнК соединена двусторонней связью с микросхемой оперативного запоминающего устройства динамического типа, контроллерами внешней памяти, интерфейсом с хост-процессором на базе PCIe и четырьмя высокоскоростными коммуникационными портами.

Документы, цитированные в отчете о поиске Патент 2022 года RU2778213C1

US 20190012350 A1, 10.01.2019
US 20170256017 A1, 07.09.2017
US 20180046900 A1, 15.02.2018
Способ получения простых эфиров бутадиена-1,3 1958
  • Богданова А.В.
  • Красильникова Г.К.
  • Шостаковский М.Ф.
SU117659A1
ВИДЕОКАРТА 2005
  • Куваев Владимир Яковлевич
RU2284565C1

RU 2 778 213 C1

Авторы

Павлов Павел Алексеевич

Мелодиева Галина Константиновна

Дадашев Магомедвели Сийидгусенович

Романов Александр Сергеевич

Даты

2022-08-15Публикация

2021-05-26Подача