Суперкомпьютер HPE с AMD EPYC и Instinct MI250X
Национальную лабораторию Ок-Ридж часто упоминают в новостях, как постоянно проводящую тестирования и создающую инновационные технологии для супер-компьютеровВ подразделении вычислительного центра лаборатории проводятся мероприятия по установке новейшего экзафлопсного супер-компьютера под названием Frontier, созданного на основе процессоров и ускорителей AMD.
Недавно появилась информация о характеристиках данного оборудования, так как Национальным центром вычислительных исследований был запущен в работу малый Crusher, оснащенный аналогичными узлами HPE Cray. Оборудование применяется как платформа раннего доступа и включает 2 отсека: в одном насчитывается 128 узлов, в другом – 64. В сумме максимальный уровень производительности предполагается в 40 Пфлопс.
В основе узлов лежит определенный вариант AMD EPYC 7A53. Ядра в количестве 64 штук разделены на 4 домена NUMA, которые обслуживаются при помощи отдельных контроллеров памяти. Восемью каналами DDR4 обеспечивается пропускная способность в 205 Гбайт в 1 секунду. Число ускорителей равно 4, однако, благодаря тому, что они являются современными AMD Instinct MI250X с двумя чипами, определяются как 8 самостоятельных GPU.
Домены NUMA оснащены 2 каналами Infinity Fabric, каждый из которых обеспечивает 36 Гбайт в 1 секунду по каждому направлению, к ним подключается 1 ускоритель. В MI250X чипы соединены каналом с большей скоростью (200 Г байт за 1 секунду в 2 стороны). Ускорители соединяются каналами со скоростью 50 Гбайт в 1 секунду, они также соединены с фабрикой посредством персональных адаптеров HPE Slingshot.
Через коммутатор PCIe к CPU подсоединяется всего 2 SSD с объемом в 1,92 Тбайт. Домены NUMA разделены на 2 поддомена L3, которые связаны при помощи одного ускорителя. За счет этого имеется возможность гибкого распределения нагрузки. Главным хранилищем является IBM Spectrum Scale, имеющая объем в 250 Пбайт и максимальную скорость, достигающую 2,5 Тбайт в 1 секунду.
Также оборудование подключается к NCSS, однако, не напрямую. Для любого проекта доступно 50 Гбайт и 90 суток сохранения информации в NFS, в то время как Spectrum Scale предоставляет объем в 50 Тбайт. Crusher оснащен множеством программных продуктов, имеет модульную среду для пользователей, которая базируется на Lmod (создана на языке Lua). Нагрузку распределяет Slurm, а аутентификация осуществляется при помощи токена-ключа RSA Secur ID.