Изобретение относится к области вычислительной техники и может найти применение в системах цифровой обработки сигналов и изображений, серверах обработки больших массивов данных, системах видеонаблюдения и машинного зрения, рабочих местах медицинского персонала, в которых применяются глубокие нейронные сети (ГНС).
В последнее время глубокие нейронные сети находят применение во многих отраслях промышленности. Для реализации математических алгоритмов, заложенных в ГНС, требуется высокопроизводительный вычислитель.
В основе такого вычислителя лежит многопроцессорная Система-на-Кристалле (СнК) с тензорными процессорными ядрами. Также необходимым аппаратным ресурсом для реализации ГНС является большой объём оперативной памяти, а также высокая пропускная способность шины обмена данными СнК – оперативная память.
Немаловажным параметром вычислительных модулей такого класса является такой показатель, как вычислительная способность по отношению к потребляемой мощности.
Ближайшим аналогом является вычислительный модуль TESLA V100 PCIe GPU ACCELERATOR фирмы nVidia (см., например, https://images.nvidia.com/content/tesla/pdf/Tesla-V100-PCIe-Product-Brief.pdf). Известный модуль выполнен в форм-факторе PCIe, содержит 32 процессора, контроллеры внешней памяти, разъём PCIe К недостаткам данного модуля можно отнести его избыточну вычислительную мощность и, как следствие, избыточное энергопотребление, отсутствие возможности использования нескольких модулей для решения совместных задач и, как следствие, отсутствие возможности масштабирования вычислительной мощности под конкретные задачи.
Технический результат предлагаемого изобретения заключается в обеспечении масштабируемости вычислительной системы и снижении энергопотребления.
Для достижения технического результата малогабаритный высокопроизводительный вычислительный модуль содержит микросхему высокопроизводительной гетерогенной многопроцессорной Системы-на-Кристалле (СнК), включающую шестнадцать высокопроизводительных процессорных ядер, содержащих управляющий RISC-процессор и, по меньшей мере, два сопроцессора, которые выполняют цифровую обработку данных, предварительно загруженных в память устройства, пять многоядерных процессоров, микросхему оперативного запоминающего устройства динамического типа, контроллеры внешней памяти, интерфейс с хост-процессором на базе PCIe и четыре высокоскоростных коммуникационных порта для связи с внешними процессорными системами, обеспечивающих распараллеливание вычислений.
За счет наличия высокоскоростных коммуникационных портов для связи с внешними процессорными системами, обеспечивающих распараллеливание вычислений, обеспечивается масштабируемость вычислительной системы под конкретные задачи и снижение энергопотребления.
На фиг. 1 представлена упрощенная функциональная схема модуля.
Модуль предназначен для использования в качестве универсальной аппаратно-программной платформы для приёма, обработки, хранения и передачи больших потоков данных сигнальной информации в режиме реального времени в составе встраиваемой вычислительной техники и специализированных высокопроизводительных систем, а также для построения широкого класса систем цифровой обработки сигналов и машинного зрения.
Модуль может быть применён в таких областях как:
нейронные сети и искусственный интеллект;
телекоммуникационные и связные системы;
робототехнические системы;
суперкомпьютеры и серверы;
радиотехнические системы различного назначения;
системы автоматизации процессов в социальной и производственных сферах деятельности в различных областях народного хозяйства.
Малогабаритный высокопроизводительный вычислительный модуль на базе многопроцессорной микросхемы интегральной класса «Система-на-Кристалле» (СнК) представляет собой гетерогенную многопроцессорную систему на кристалле, в состав которой входят 16 процессорных ядер NeuroMatrix Core 4 и пять ядер ARM Cortex-A5, пять контроллеров внешней памяти типа DDR3, интерфейс с хост-процессором на базе PCIe Rev. 2.0 и четыре высокоскоростных коммуникационных порта для связи с внешними процессорными системами. Модуль выполнен в форм-факторе PCIe, имеет разъём PCIe х4 и занимает один слот расширения на материнской плате персонального компьютера или сервера.
Модуль представляет собой высокопроизводительное вычислительное устройство, выполненное в форм-факторе PCIe.
Модуль содержит:
интерфейс PCIe x4 Rev. 2.0;
интерфейс внешних полнодуплексных высокоскоростных коммуникационных портов для межмодульного обмена;
интерфейс Ethernet со скоростью передачи данных 100 Мбит/с с поддержкой протокола EDCL;
5 ГБ памяти DDR3L;
последовательный интерфейс SPI;
40 выводов GPIO.
Предлагаемое устройство обеспечивает:
номинальные напряжения питания: 12 В и 3,3 В;
типовую потребляемую мощность от 10 до 12 Вт;
максимальную потребляемую мощность не выше 25 Вт;
защиту от кратковременного перенапряжения;
защиту от короткого замыкания.
Конструктивно Модуль выполнен из следующих основных составных частей:
печатная плата с установленными элементами поверхностного и сквозного монтажа;
радиатор;
панель;
вентилятор.
Основными функциональными элементами Модуля являются:
микросхема высокопроизводительной гетерогенной многопроцессорной СнК;
микросхемы оперативного запоминающего устройства динамического типа (DDR3L SDRAM).
СнК отвечает за первоначальную загрузку модуля, цифровую обработку сигналов и интерфейс с внешними периферийными устройствами.
Энергозависимые микросхемы оперативного запоминающего устройства динамического типа DDR3L SDRAM отвечают за хранение данных обрабатываемых СнК во время работы Модуля.
Для обеспечения информационного взаимодействия с внешними устройствами в Модуле предусмотрены соединители.
СнК имеет пять универсальных блоков интерфейсов общего назначения (GPIO), доступные для взаимодействия с внешними устройствами, выведены на соединитель X5. Пользовательские выводы общего назначения GPIO.
Контроллер интерфейса SPI обеспечивает обмен информацией между СнК и устройствами, подключенными к последовательному интерфейсу SPI. Контроллер SPI обеспечивает подключение до четырёх устройств в режиме разделения времени. Последовательный интерфейс SPI обеспечивает максимальную скорость передачи данных не более 50 Мб/с.
Цепь EXT_RESET предназначена для использования в качестве сигнала внешнего сброса.
При работе в составе системного блока ПК внешний тактовый сигнал 100 МГц поступает с материнской платы на входной буфер, обеспечивающий тактовыми опорными сигналами блок PCIe и блоки коммуникационных портов СнК.
В СнК реализована аппаратная функция EDCL (Ethernet Debug Communications Link), встроенная в контроллер Ethernet, которая позволяет писать и читать физическую память, отправляя правильно сформированные Ethernet пакеты.
Соединитель X5, содержащий интерфейсы внешних высокоскоростных коммуникационных портов, обеспечивает дуплексную передачу типа точка-точка. Все физические интерфейсы синхронизированы от единого тактового сигнала 100 МГц, идущего с материнской платы ПК.
В составе одного ПК могут быть установлены от 2 до 5 Модулей. Для безопасной и надежной работы в этом случае необходимо обеспечить дополнительное охлаждение Модулей путем использования вспомогательной активной или пассивной систем охлаждения.
Масштабируемый интерфейс внешних высокоскоростных коммуникационных портов обеспечивает одновременное использование мощности двух и более Модулей для решения общей задачи. Для этого могут применятся различные схемы межмодульного обмена:
- топология кольцо (ring)
- топология звезда (star)
- топология шлейфового подключения (daisy chain).
Таким образом обеспечивается масштабируемое использование необходимого числа Модулей в каждом конкретном случае, исходя из предпологаемой вычислительной сложности, ограничений потребляемой электроэнергии, возможности использования удаленных Модулей одного или нескольких серверов.
название | год | авторы | номер документа |
---|---|---|---|
СПОСОБ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ ИНФОРМАЦИИ В ГЕТЕРОГЕННОЙ МНОГОПРОЦЕССОРНОЙ СИСТЕМЕ НА КРИСТАЛЛЕ (СнК) | 2022 |
|
RU2790094C1 |
Высокопроизводительная вычислительная платформа на базе процессоров с разнородной архитектурой | 2016 |
|
RU2635896C1 |
Вычислительная система для научно-технических расчетов | 2018 |
|
RU2710890C1 |
КОМПЬЮТЕРНАЯ СИСТЕМА | 2014 |
|
RU2579949C2 |
УСТРОЙСТВО ПРЯМОГО ОТОБРАЖЕНИЯ АДРЕСОВ ДАННЫХ, РАСПОЛАГАЮЩИХСЯ ВО ВНЕШНЕМ ПОСЛЕДОВАТЕЛЬНОМ ПЗУ, В АДРЕСНОЕ ПРОСТРАНСТВО МИКРОПРОЦЕССОРНОГО ЯДРА, КОМПЬЮТЕРНАЯ СИСТЕМА И СПОСОБ ПЕРЕДАЧИ ДАННЫХ | 2014 |
|
RU2579942C2 |
ВЫЧИСЛИТЕЛЬНОЕ УСТРОЙСТВО ПРОГРАММНО-АППАРАТНОГО КОМПЛЕКСА | 2016 |
|
RU2618367C1 |
Программно-аппаратная платформа и способ ее реализации для беспроводных средств связи | 2016 |
|
RU2626550C1 |
ВЫЧИСЛИТЕЛЬНЫЙ МОДУЛЬ ДЛЯ МНОГОЗАДАЧНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ | 2021 |
|
RU2780169C1 |
Плата системная вычислительного модуля | 2024 |
|
RU2822305C1 |
Вычислительный модуль гетерогенный и встраиваемое вычислительное устройство гетерогенное на его основе | 2022 |
|
RU2811324C1 |
Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении масштабируемости и снижении энергопотребления вычислительной системы. Малогабаритный высокопроизводительный вычислительный модуль содержит микросхему высокопроизводительной гетерогенной многопроцессорной Системы-на-Кристалле (СнК), включающую шестнадцать высокопроизводительных процессорных ядер, содержащих управляющий RISC-процессор и по меньшей мере два сопроцессора, которые выполняют цифровую обработку данных, предварительно загруженных в память устройства, пять многоядерных процессоров, микросхему оперативного запоминающего устройства динамического типа, контроллеры внешней памяти, интерфейс с хост-процессором на базе PCIe и четыре высокоскоростных коммуникационных порта для связи с внешними процессорными системами, обеспечивающих распараллеливание вычислений, причем микросхема высокопроизводительной гетерогенной многопроцессорной СнК соединена двусторонней связью с микросхемой оперативного запоминающего устройства динамического типа, контроллерами внешней памяти, интерфейсом с хост-процессором на базе PCIe и четырьмя высокоскоростными коммуникационными портами. 1 ил.
Малогабаритный высокопроизводительный вычислительный модуль, содержащий микросхему высокопроизводительной гетерогенной многопроцессорной Системы-на-Кристалле (СнК), включающую шестнадцать высокопроизводительных процессорных ядер, содержащих управляющий RISC-процессор и по меньшей мере два сопроцессора, которые выполняют цифровую обработку данных, предварительно загруженных в память устройства, пять многоядерных процессоров, микросхему оперативного запоминающего устройства динамического типа, контроллеры внешней памяти, интерфейс с хост-процессором на базе PCIe и четыре высокоскоростных коммуникационных порта для связи с внешними процессорными системами, обеспечивающих распараллеливание вычислений, причем микросхема высокопроизводительной гетерогенной многопроцессорной СнК соединена двусторонней связью с микросхемой оперативного запоминающего устройства динамического типа, контроллерами внешней памяти, интерфейсом с хост-процессором на базе PCIe и четырьмя высокоскоростными коммуникационными портами.
US 20190012350 A1, 10.01.2019 | |||
US 20170256017 A1, 07.09.2017 | |||
US 20180046900 A1, 15.02.2018 | |||
Способ получения простых эфиров бутадиена-1,3 | 1958 |
|
SU117659A1 |
ВИДЕОКАРТА | 2005 |
|
RU2284565C1 |
Авторы
Даты
2022-08-15—Публикация
2021-05-26—Подача