140 likes | 356 Views
Высокопроизводительные вычисления в сетях Саратовского государственного университета. Соловьев Владимир Михайлович. Высокопроизводительные вычисления в университете.
E N D
Высокопроизводительные вычисления в сетях Саратовского государственного университета Соловьев Владимир Михайлович
Высокопроизводительные вычисления в университете В настоящее время вычислительные средства Саратовского государственного университета находятся в состоянии пере-хода от использования в образовании и научных исследованиях обычных персо-нальных компьютеров объединенных в вычислительную сеть к «недорогим» суперкомпьютерным установкам – вычис-лительным кластерам, grid-системам и cloud-системам. Вычислительные кластеры существенно преобладают в сетях совре-менных университетов, исходя из опыта западных университетов, партнеров СГУ(университет штата Колорадо, США; университет штата Теннесси, США (Окридж);университет г. Киль, Великобритания; университет Брюнель, Великобритания и другие). Они создаются на оборудовании cLAN, Myrinet, ServerNet, SCI, HP, SuperMicro и других производителей, давая возмож-ность практически каждому университету собрать у себя свой собственный вариант суперкомпьютера – вычислительный кластер. Совещание по развитию и повышению эффективности сети RUNNet, Новгород
Кластеры и суперкомпьютеры Традиционно понятие «клас-тер» употреблялось как «клас-терная» технология, исполь-зуемая для повышения надеж-ности серверов баз данных или web-серверов. В настоя-щее время о вычислительных кластерах стали говорить, как альтернативе традиционным вычислительным средствам – суперкомпьютерам. Университетский вычислительный кластер – это, как правило, совокупность компьютеров, объединенных в рамках вычислительной сети для решения одной задачи. В качестве вычислительных узлов можно использовать доступные на рынке однопроцессорные компьютеры, двух- или четырехпроцессорные SMP-серверы. Каждый узел работает под управлением своей копии операционной системы, в качестве которой чаще всего используются стандартные операционные системы: Linux, Windows server 2008, HPC и т.д. Состав и мощность узлов может меняться в рамках одного кластера, давая возможность создавать неоднородные системы. Выбор конкретной коммуникационной среды определяется многими факторами: особенностями класса решаемых задач, доступным финансированием, необходимостью масштабирования кластера и т.д. Обычно в конфигурацию кластера включают специализированные серверы (файл-серверы, серверы удаленного доступа на кластер через Internet и т.д.). Совещание по развитию и повышению эффективности сети RUNNet, Новгород
Вычислительные возможности кластера В СГУ применяют несколько способов оптимально задействовать вычислительные мощности универси-тетских кластеров: В небольших подразделениях университета (кафедрах, лабораториях, центрах и т.д.) используются «малые» кластерные системы с числом ядер до 50. На факультетах, в институтах и т.д. используются кластерные системы с числом ядер от 100 до 200. В университете в целом используется кластерная система с числом ядер до 400. Для решения задач, требующих большей производи-тельности университет участвует в программах «Университетский кластер» и им подобным. Альтернатива этому – использование cloud-систем. До 50% загрузки кластеров в СГУ – это плановые занятия по параллельному программированию, которые в основном обеспечивают «малые» кластерные системы. В этом случае можно рекомендовать также виртуализацию (Sun VirtualBox поддерживает до 32 виртуальных ядер) и grid-системы. До 30% загрузки кластеров в СГУ – это выполнение квалификационных работ дипломниками, магистрами, аспирантами. До 20% загрузки кластеров в СГУ – это плановые НИР и ОКР. Совещание по развитию и повышению эффективности сети RUNNet, Новгород
Кластеры Саратовского государственного университета Типовой университетский вычислительный кластер СГУ – это массив серверов (вычислительных узлов), объединенных коммуникационной сетью и размещенных в отдельной стойке. Каждый вычислительный узел имеет несколько многоядерных процессоров, свою оперативную память и работает под управлением своей операционной системы. Наибольшее распространение в СГУ получили однородные кластеры, то есть таких, где все узлы абсолютно одинаковы по своей архитектуре и производительности. Примером такого однородного 80-ядерного кластера, входящего в Российскую программу «Университетский кластер», является приведенная на слайде вычислительная система. Кластер установленный в РНЦ «Курчатовский институт» и изготовленный СГУ Кластер установленный в Саратовском государственном университете Совещание по развитию и повышению эффективности сети RUNNet, Новгород
Сеть Саратовского государственного университета Один из первых «кластерных» проектов, давший развитие целому классу параллельных систем СГУ – это вычислительный кластер, вошедший в дальнейшем в программу «Университетский кластер». Он был реализован в рамках инновационной образовательной программы. Для работы в ним были разработаны специальные средства, распределяющие трафик в вычислительной сети СГУ. Все узлы этого кластера работают под управлением RedHat Linux и доступны с любого компьютера сети. Совещание по развитию и повышению эффективности сети RUNNet, Новгород
Первый кластерный проект СГУ В первом кластере имелся выделенный сервер – головная машина (front-end). На этой машине был установлен интерфейс пользователя и программное обеспечение, которое управляло запуском программ на кластере. Собственно вычислительные процессы пользователей запускались на вычислительных узлах, причем они распределялись так, что на каждое ядро процессора приходилось не более одного вычислительного процесса. Университетский вычислитель-ный кластер работал под управлением одной из разновидностей ОС Linux – многопользовательской много-задачной сетевой опера-ционной системы. Все узлы кластера имели доступ к общей файловой системе, находящей-ся на файл-сервере. Совещание по развитию и повышению эффективности сети RUNNet, Новгород
Основы создания вычислительных кластеров Закон Амдала С увеличением количества ядер (процессоров) в кластере «n» ускорение определяться параллелизмом задачи «a», а не параметрами аппаратной части серверов (тактовой частотой процессора) . Качество телекоммуникационной сети Закон Амдала не отражает потерь времени на межпроцессорный обмен сообщениями. Эти потери зависят от качества телекоммуникационной сети (коэффициента сетевой деградации вычислений с). Поэтому телекоммуникационная сеть кластера должна быть максимально доступной производительности (в настоящее время это не хуже 10 Гб/с). Совещание по развитию и повышению эффективности сети RUNNet, Новгород
Ускорение в параллельной системе Оптические магистрали Саратовского государственного университета При «хорошей» телекоммуникационной сети кластера на ускорение в параллельной системе может оказывать влияние и количеством ядер в многопроцессорной системе (масштабирование). Совещание по развитию и повышению эффективности сети RUNNet, Новгород 08.08.2014 9
Программное обеспечение кластера Узлы кластера работают под управлением собственной незави-симой локальной копии опера-ционной системы, в качестве которой в университетах исполь-зуется тот или иной дистрибутив ОС Linux. С учетом этих особенностей, для решения задачи по обеспечению возможности пользователей работать с класте-ром как с единой вычислительной системой коллективного пользова-ния в настоящее время предлага-ется использовать специализиро-ванные системы управления кластерами. Такие системы рабо-тают совместно с базовой, установленной на узлы опера-ционной системой и предлагают средства по инсталляции кластера, централизованного управления и мониторинга кластером, по обеспе-чению управления потоком заданий пользователей, выделению ресур-сов кластера для их решения и т.д. Нет специализированных операционных систем для кластеров. Совещание по развитию и повышению эффективности сети RUNNet, Новгород
Программное обеспечение кластера Программное обеспечение университетских кластеров СГУ, чаще всего, реализуется на базе свободно распро-страняемой ОС Linux (Fedora release 10 x86_64 kernel 2.6.27.19-170.2.35.fc10.x86 _64). Сейчас пробуем Fedora 12. Для удобства работы каталоги пользователей смон-тированы по сети, для чего на кластере настроена сетевая файловая система NFS. В качестве основного прог-раммного средства организа-ции параллельных вычисле-ний используются библиотеки MPICH/MPI. Совещание по развитию и повышению эффективности сети RUNNet, Новгород
Программное обеспечение кластера Кроме ОС на кластере СГУ установлен программный комплекс OSCAR, включающий в себя следующие пакеты: SIS (System Installation Suite) – инструмент для автоматизации установки и конфигурирования ОС Linux на узлах кластера. C3 (Cluster Command Control) – средства для удаленного запуска команд, копирования файлов на все или группу узлов кластера. HDF5 (Hierarchical Data Format) – программный продукт, включающий спецификацию форматов данных и поддержку библиотек. Mpich 1.2.7 - одна из реализаций MPI. OPIUM (OSCAR Password Installer and User Management) – средства для синхронизации учет-ных записей пользователей и конфигурирования протокола ssh. PBS Torque – система управления пакетной обработкой кластера. PVM (Parallel Virtual Machine) – пакет для поддержки параллельных вычислений в гетерогенных кластерах. Switcher – пакет, позволяющий при запуске заданий устанавливать переменные среды исполнения. Ganglia - пакет мониторинга кластера. Job Monarch - программа-плагин к пакету Ganglia для отслеживания информации по запущенным задачам (сбор статистики). MAUI - программа-планировщик заданий с набором политик планирования, динамической приоритизацией и наличием механизма предварительного резервирования. Open MPI - программный продукт, объединяющий технологии и ресурсы из других проектов (FT-MPI, LA-MPI, LAM/MPI, и PACX-MPI) для создания улучшенной MPI- библиотеки. LAM - пакет по созданию MPI библиотеки в гетерогенной среде (предшественник OpenMPI). Совещание по развитию и повышению эффективности сети RUNNet, Новгород
Выводы Таким образом, построение высокопроизводительного вычислительного кластера университета представляет собой сложную комплексную задачу, включающую несколько этапов. Важным этапом является проектирование кластера, где в качестве технических требований к университетскому кластеру рассматриваются характеристики (производительность, эффективность, масштабируемость и т.д.). В этом случае, в соответствии с техническими требуемыми и дополнительными требованиями (бюджетом проекта), производится расчет, и выбираются значения параметров аппаратной части кластера: выбор параметров вычислительного узла (разрядность, количество процессоров, объем памяти, объем кэша и т.д.), количество вычислительных узлов, характеристики коммуникационного оборудования, выбираются управляющий узел и параметры сети. В общем случае при проектировании кластера его характеристики обычно задаются для теста HPL (High Performance Linpack). Для случаев, когда кластер проектируется под определенный пакет прикладных программ, вместо теста HPL используются тесты, характеризующие соответствующий класс задач. После определения проектных параметров и с учетом дополнительных требований принимаются конструкционные решения о компоновке, системе энергоснабжения и охлаждения кластера. Совещание по развитию и повышению эффективности сети RUNNet, Новгород 08.08.2014 13
Высокопроизводительные вычисления в сетях Саратовского государственного университета Спасибо за внимание Докладчик – Владимир Михайлович Соловьев Е-Mail: svm@sgu.ru Телефон: (8452) 210660 Совещание по развитию и повышению эффективности сети RUNNet, Новгород