Общепринятой архитектурой современных высокопроизводительных вычислительных систем для научно-технических расчётов – суперкомпьютеров - является кластер, то есть множество преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной локальной сетью передачи данных [Лацис А. Как построить и использовать суперкомпьютер. - М., Бестселлер, 2003 г.]. По этой архитектуре построены 437 из 500 самых мощных на сегодняшний день суперкомпьютеров (актуальный список Top500 за ноябрь 2017 года [www.top500.org]). При этом доминирующей элементной базой являются универсальные высокопроизводительные и очень сложные процессоры семейства Xeon или Xeon Phi производства фирмы Intel – их используют 471 суперкомпьютера из актуального списка Top500 [www.top500.org].
Данное единообразие при всех известных достоинствах (самые известные среди них – наличие большого количества совместимого системного и прикладного программного обеспечения и единообразие обслуживания), приводит и к ряду столь же существенных проблем. Во-первых, в силу фактически монопольного положения одного производителя цены держатся на очень высоком уровне. Во-вторых, прямым следствием высокой производительности и высокой сложности продуктов является их очень высокое энергопотребление, ставшее в последние годы фактически основным ограничителем повышения производительности суперкомпьютеров. В-третьих, процессоры, ориентированные на компьютеры общего назначения, имеют избыточный для чисто вычислительных установок набор встроенного периферийного оборудования, что также приводит к избыточному энергопотреблению. В-четвёртых, универсальная архитектура этих процессоров влечёт за собой избыточную сложность сетевой подсистемы вычислительного узла, что приводит, как известно, к существенным задержкам (латентности) при обмене данными между вычислительными узлами.
В последние годы, особенно в странах Европы и в Японии, активно проводятся работы по использованию в качестве основы для перспективных суперкомпьютеров более простых процессоров, имеющих более простую архитектуру и, как следствие, относительно невысокое быстродействие, но при этом радикально более низкое энергопотребление и радикальное более низкую цену (в первую очередь – процессоры семейства ARM, широко применяемые в бытовой, мобильной и коммуникационной технике) [https://www.hpcwire.com/2017/01/19/cea-riken-partner-arm-exascale/; https://atos.net/en/2017/press-release/general-press-releases_2017_06_19/atos-expands-range-supercomputers-include-arm-processors-new-bull-sequana-x1310]. К тому же в последнее время сформировалась новая группа полупроводниковых приборов – «системы на кристалле» (SoC, ‘System-on-Chip’) на базе этих процессоров, представляющих собой собранные на одном кристалле процессор, схемы управления памятью, схемы управления вводом-выводом и другие устройства и позволяющие получить законченный вычислитель простым добавлением к нему минимального количества внешних компонентов – электропитание, память и физические порты ввода-вывода. Часто такие SoC имеют в своём составе дополнительные специализированные вычислительные компоненты – графический процессор (GPU) с возможностью выполнения вычислительных задач, векторный сопроцессор либо иные. Например, широко распространённые продукты корпорации Texas Instruments включают в себя от двух до шести вычислителей различных архитектур, более десяти каналов цифрового и аналогового ввода-вывода и другое оборудование [http://www.ti.com/processors/dsp/media-processors/products.html].
Одним из существенных факторов, огранивающих на сегодняшний день широкое применение данной процессорной архитектуры в суперкомпьютерах, является относительно невысокая единичная производительность этих процессоров, что приводит к необходимости использовать большее количество процессоров (по сравнению, например, с процессорами Intel) для получения той же суммарной производительности.
Другая известная проблема является следствием первой – это высокая удельная стоимость и высокое энергопотребление оборудования локальной вычислительной сети – вследствие невысокой единичной производительности данных процессоров и невозможности создания многопроцессорных плат из-за отсутствия в них штатных аппаратных средств межпроцессорного взаимодействия требуемое количество портов системного коммутатора сети передачи данных оказывается существенно больше, чем в случае процессоров Intel.
Важнейшим достоинством мультипроцессорных вычислительных систем, построенных на базе процессоров ARM, является существенно меньшее энергопотребление как отдельных вычислительных узлов, так и всего кластера в целом по сравнению с традиционными системами на процессорах Intel. Например, на экспериментальной установке MontBlanc продемонстрировано снижение потребления электроэнергии при решении задач гидродинамики до 2-х раз по сравнению с суперкомпьютером MareNostrum, имеющим традиционную архитектуру [Oyarzun G. Efficient CFD code implementation for the ARM-based Mont-Blanc architecture [Электронный ресурс] / G. Oyarzun, R. Borrell, A. Gorobets, F. Mantovani, A. Oliva // Future Generation Computer Systems, 2018, № 79. – Режим доступа: https://doi.org/10.1016/j.future.2017.09.029, свободный]. Установка MontBlanc построена на процессоре Samsung Exynos 5 Dual, который не имеет в себе сетевого (Ethernet) интерфейса. Поэтому фактически к каждому процессору добавляется микросхема интерфейса USB-Ethernet, которая потребляет дополнительную электроэнергию и замедляет передачу данных между узлами.
Задачей предлагаемого изобретения является расширение арсенала технических средств, применимых для построения суперкомпьютеров.
По настоящему изобретению, для достижения поставленной цели используются процессоры, выполненные в виде «системы на кристалле» и включающие в себя многоядерный центральный процессорный элемент (ЦПЭ) и непосредственно подключённые к нему блок управления оперативной памятью и контроллер сети передачи данных. Процессор может также включать в себя интегрированный графический процессор (GPU) с возможностью выполнения вычислительных задач, либо векторный сопроцессор, либо иные специализированные вычислительные компоненты.
Каждый процессор совместно с подключёнными к нему элементами оперативной памяти представляет собой вычислительный модуль. В отдельных случаях вычислительные модули могут содержать в себе дополнительно подключенные к процессору внешние специализированные вычислители, выполненные, например, на основе графических процессоров (GPU), элементов программируемой логики (FPGA) или другие. Также некоторые модули могут дополнительно содержать в себе устройства внешней памяти или устройства ввода-вывода или устройства отображения информации или несколько дополнительных устройств.
При этом одно или более ядер многоядерного ЦПЭ могут быть выполнены с возможностью осуществления функций управления работой данного ЦПЭ, в том числе приём из сети передачи данных и загрузку системного программного обеспечения, приём из сети передачи данных и загрузку прикладного программного обеспечения и данных для каждого из ядер этого ЦПЭ, управление вычислительными процессами, выполняемыми на других ядрах этого ЦПЭ и на интегрированных и/или внешних специализированных вычислителях, управление оперативной памятью вычислительного модуля, выполнение обмена данными с другими вычислительными модулями и выполнения вычислительных процессов, а остальные ядра выполнены с возможностью выполнения только вычислительных процессов. Таким образом, вспомогательные задачи, требующие многочисленных переключений и взаимодействия с внешними устройствами, выносятся на отдельный аппаратный ресурс, а большая часть вычислительных ресурсов (вычислительных ядер) эффективно загружается непрерывным, последовательным счётом, чем достигается повышение общей вычислительной эффективности.
Несколько вычислительных модулей конструктивно объединяются в вычислительный узел, который дополнительно содержит объединяющий их высокоскоростной локальный коммутатор сети передачи данных. Локальный коммутатор содержит также один или более внешних портов, посредством которых он соединяется с высокоскоростным системным коммутатором сети передачи данных, объединяющим множество вычислительных узлов в кластер.
К данному локальному коммутатору предъявляется по сути только одно существенное требование – минимальное время задержки при передаче пакетов. При этом от него не требуется никаких возможностей по каскадированию (объединению в группы), удалённому доступу, управлению потоками данных и прочих интеллектуальных функций (при этом исключаются сложные схемы управления и память большого объёма), а количество портов и подключаемых сетевых узлов минимальны (также минимальные требования к объёму памяти). Кроме того, вычислительные модули подключаются к нему в пределах одного конструктива, что делает ненужными схемы внешних физических интерфейсов (front-end) как на самом коммутаторе (за исключением внешних портов), так и на всех вычислительных модулях. Таким образом, и локальный коммутатор, и сетевая подсистема в целом могут иметь минимальную сложность и, как следствие, минимальные энергопотребление и стоимость.
название | год | авторы | номер документа |
---|---|---|---|
Малогабаритный высокопроизводительный вычислительный модуль на базе многопроцессорной Системы-на-Кристалле | 2021 |
|
RU2778213C1 |
Высокопроизводительная вычислительная платформа на базе процессоров с разнородной архитектурой | 2016 |
|
RU2635896C1 |
АРХИТЕКТУРА НАКРИСТАЛЬНОГО МЕЖСОЕДИНЕНИЯ | 2015 |
|
RU2625558C2 |
КЛАСТЕРНАЯ СИСТЕМА С ПРЯМОЙ КОММУТАЦИЕЙ КАНАЛОВ | 2011 |
|
RU2461055C1 |
СПОСОБ ПАРАЛЛЕЛЬНОЙ ОБРАБОТКИ ИНФОРМАЦИИ В ГЕТЕРОГЕННОЙ МНОГОПРОЦЕССОРНОЙ СИСТЕМЕ НА КРИСТАЛЛЕ (СнК) | 2022 |
|
RU2790094C1 |
РЕКОНФИГУРИРУЕМАЯ ВЫЧИСЛИТЕЛЬНАЯ СИСТЕМА С МНОГОУРОВНЕВОЙ ПОДСИСТЕМОЙ МОНИТОРИНГА И УПРАВЛЕНИЯ | 2018 |
|
RU2699254C1 |
СПОСОБ, УСТРОЙСТВО И СИСТЕМА ДЛЯ ПРЕДВАРИТЕЛЬНОЙ РАСПРЕДЕЛЕННОЙ ОБРАБОТКИ СЕНСОРНЫХ ДАННЫХ И УПРАВЛЕНИЯ ОБЛАСТЯМИ ИЗОБРАЖЕНИЯ | 2013 |
|
RU2595760C2 |
ОБЩЕСТВЕННЫЙ КОМПЬЮТЕР | 2014 |
|
RU2571575C1 |
УСТРОЙСТВО ДЛЯ ПРИЕМА И ПЕРЕДАЧИ ДАННЫХ С ВОЗМОЖНОСТЬЮ ОСУЩЕСТВЛЕНИЯ ВЗАИМОДЕЙСТВИЯ С OpenFlow КОНТРОЛЛЕРОМ | 2014 |
|
RU2584471C1 |
Программно-аппаратная платформа и способ ее реализации для беспроводных средств связи | 2016 |
|
RU2626550C1 |
Изобретение относится к системам обработки данных, предназначенным для научно-технических расчетов. Технический результат заключается в расширении арсенала средств того же назначения. Вычислительная система для научно-технических расчётов, представляющая собой кластер из преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной сетью передачи данных, выполненный с возможностью одновременного решения по меньшей мере одной прикладной вычислительной задачи, при этом каждый вычислительный узел содержит по меньшей мере два вычислительных модуля и высокоскоростной локальный коммутатор сети передачи данных, причём локальный коммутатор сети передачи данных подключен своими портами к каждому вычислительному модулю, причём каждый вычислительный модуль включает процессор и оперативную память, процессор выполнен в виде «системы на кристалле» и включает центральный процессорный элемент и непосредственно подключённый к нему блок управления оперативной памятью и контроллер сети передачи данных. 3 з.п. ф-лы.
1. Вычислительная система для научно-технических расчётов, представляющая собой кластер из преимущественно однотипных по архитектуре, конфигурации и составу оборудования вычислительных узлов, объединённых высокоскоростной сетью передачи данных с помощью высокоскоростного системного коммутатора сети передачи данных, выполненный с возможностью одновременного решения по меньшей мере одной прикладной вычислительной задачи, отличающаяся тем, что каждый вычислительный узел содержит по меньшей мере два вычислительных модуля и высокоскоростной локальный коммутатор сети передачи данных,
причём локальный коммутатор сети передачи данных подключен своими портами к каждому вычислительному модулю, входящему в состав вычислительного узла, и по меньшей мере одним портом подключен к системному коммутатору сети передачи данных,
причём каждый вычислительный модуль включает процессор и оперативную память,
причём процессор выполнен в виде «системы на кристалле» и включает центральный процессорный элемент и непосредственно подключённый к нему блок управления оперативной памятью и контроллер сети передачи данных,
причём центральный процессорный элемент содержит, по меньшей мере, два независимых вычислительных ядра, имеющих одинаковую либо различную архитектуру, имеющих доступ к общей оперативной памяти.
2. Система по п. 1, отличающаяся тем, что по меньшей мере один вычислительный модуль дополнительно содержит в себе по меньшей мере один специализированный вычислитель.
3. Система по п. 1, отличающаяся тем, что по меньшей мере одно вычислительное ядро каждого центрального процессорного элемента выполнено с возможностью осуществления функций управления работой соответствующего центрального процессорного элемента и выполнения вычислительных процессов, а остальные ядра выполнены с возможностью выполнения только вычислительных процессов, причём набор функций управления включает в себя по меньшей мере
приём из сети передачи данных и загрузку системного программного обеспечения,
приём из сети передачи данных и загрузку прикладного программного обеспечения и данных для каждого из ядер этого центрального процессорного элемента,
управление вычислительными процессами, выполняемыми на других ядрах этого центрального процессорного элемента и на специализированных вычислителях,
управление оперативной памятью вычислительного модуля,
выполнение обмена данными с другими вычислительными модулями, входящими в состав любого вычислительного узла и образующими временную подгруппу вычислительных блоков, решающих совокупно одну задачу одновременно.
4. Система по п. 1, отличающаяся тем, что по меньшей мере один вычислительный модуль дополнительно содержит в себе устройства внешней памяти или устройства ввода-вывода или устройства отображения информации или несколько дополнительных устройств.
Токарный резец | 1924 |
|
SU2016A1 |
US 8667049 B2, 04.03.2014 | |||
0 |
|
SU151425A1 | |
Интегрированная вычислительная система самолета МС-21 | 2017 |
|
RU2667040C1 |
Устройство для ограничения уровня налива жидкости в резервуар | 1960 |
|
SU148689A1 |
Программно-аппаратная платформа и способ ее реализации для беспроводных средств связи | 2016 |
|
RU2626550C1 |
Устройство для измерения объемных изменений тампонажных цементов | 1960 |
|
SU137809A1 |
Высокопроизводительная вычислительная платформа на базе процессоров с разнородной архитектурой | 2016 |
|
RU2635896C1 |
Авторы
Даты
2020-01-14—Публикация
2018-10-08—Подача