1 / 17

Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН. Григорий Шамов, Максим Астафьев. Отдел информационных технологий Казанского НЦ РАН. mailto:gas@iopc.knc.ru , mailto:maxast@if.kazan.ru. Проект КазНЦ РАН

jonco
Download Presentation

Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Организация распределённой вычислительной сети ЦВОИ Казанского НЦ РАН Григорий Шамов, Максим Астафьев Отдел информационных технологий Казанского НЦ РАН. mailto:gas@iopc.knc.ru , mailto:maxast@if.kazan.ru

  2. Проект КазНЦ РАН «Создание центра высокопроизводительных вычислений для нужд институтов Казанского научного центра Российской академии наук и высших учебных заведений г. Казани» Реализован в 2000 г. при поддержке ФЦП «Интеграция» • Обеспечение удаленного доступа к вычислительным ресурсам ЦВОИ сотрудников институтов КазНЦ и ВУЗов г.Казани • Интеграция фундаментальной науки и образования, изучение и внедрение технологий высокопроизводительных вычислений на многопроцессорных системах в научные исследованияи учебный процесс.

  3. SPEC fp 95 DS10L 47,9 Пропускная способность (блоки данных > 1Мбайт) ~9 Мбайт\с SPEC fp 95 DS20E 83,6 Латентность ( на уровне MPI ) ~140 мксек LINPAK 1000x1000 ~ 6,7 GFLOPs Вычислительный кластер ЦВОИ КазНЦ РАН Управляющий сервер Диспетчер заданий - PBS Коммутатор FastEthernet Сервер доступа (SSH) WWW - страничка SENet - Tatarstan Оценка максимальной производительности вычислительного кластера с процессорами ALPHA 21264 Параметры производительности коммуникационной среды кластера

  4. Кластер КГТУ(КХТИ) Кластер химфака КГУ Новые кластеры (2001-2002 гг.) 7AMD Athlon 900 MHz 11 AMD Athlon 1.2 GHz Channel bonding (объединение каналов) для трёхканалов Fast Ethernet Медный Gigabit Ethernet Intel e1000 NICs in PCI-32 slot • Кластеры были выполнены в виде учебных классов, и предназначались, помимо научных расчётов для использования в учебном процессе. • При создании кластеров использовались экономичные варианты коммуникационной среды: Гигабитный Ethernet и объединение нескольких каналов 100Мб Ethernet.

  5. Пропускная способность для одного, двух и трёх каналов Fast Ethernet, по данным программы NetPIPE на уровне TCP/IP. Латентности составлют 41, 43 и 44 мс, соответственно. Сравнение результатов прогона NetPIPE для TCP/IP для Gigabit Ethernet и объединения трёх каналов Fast Ethernet. Латентность Gigabit Ethernet равна 93 мс.

  6. Тестовая молекула для Задачи I, расчёта RHF/STO-3G градиента -- цеолитовый фрагмент Si24O60H24 Тестовая молекула для Задачи II, расчёта MP2/6-31G*оптимизации геометрии нитробензола

  7. Ускорение (speedup) ЗадачIиIIдляразличногочислапроцессоров (nCPU) кластераКГТУ, сиспользованием Fast Ethernet (realtek) и Gigabit Ethernet (intel). Ускорение ЗадачиII для различного числа процессоров кластеров КГTУ и КГУ с использованием channel bonding трёх Fast Ethernet (realtek) и Gigabit Ethernet (intel).

  8. Система управления заданиями локальных кластеров. • Должна обеспечить справедливое и надёжное обслуживание задач пользователей • Предотвратить неконтролируемую конкуренцию процессов пользователей за ресурсы вычислительных узлов • Предоставить пользователям возможно более удобный интерфейс для запуска, мониторинга и управления задачами Maui http://www.supercluster.org Scheduler PBS Pro 5.2 http://www.pbspro.com Resource manager User commands Linux cluster Доступ пользователей

  9. Статистика загрузки вычислительных кластеров Загрузка, % Ожидание в очереди, час Alpha – кластер ЦВОИ КазНЦ РАН Учебный кластер КГТУ

  10. Компьютерная химияна кластереЦВОИ КазНЦ • Анализ электронной структуры молекул • Изучение механизмов химических реакций • Исследования физических и химических свойств веществ • Изучение влияния различных сред Программное обеспечение, наиболее популярное среди пользователей ЦВОИ: GAMESS-US, Gaussian98, Priroda

  11. Опыт использования кластеров Казанского НЦ РАН • Большая загрузка кластера затрудняет выполнение параллельных задач на большом количестве CPU. Невозможно обеспечить одновременно полную загрузку кластера и минимальное время ожидания задач в очереди • Пользователи не в состоянии распределить свои задачи по кластерам даже для таких единообразно устроенных кластеров как наши. • Пользователям особенно трудно правильно задать свои запросы для учебных кластеров, которые периодически переводятся в другие режимы работы. Возможным решением этих проблем является объединение локальных кластеров в распределённую вычислительнуюсеть. • Такая сеть должна обеспечивать увеличение загрузки входящих в неё кластеров и одновременно уменьшать время ожидания в очереди. • Кроме того, она должна предоставить пользователям единый интерфейс ко всем доступным вычислительным ресурсам.

  12. Распределенная вычислительная сеть г.Казани Вычислительный кластер ЦВОИ КазНЦ РАН Учебный кластер КГУ Учебный кластер КГТУ

  13. Трудности создания РВС Выгоды от РВС • Отсутствие опыта создания и использования РВС • Неотработанность технологий, нестабильность ПО • Необходимо выделения ресурсов локального кластера • Необходимо согласовать политики использования кластеров, политики планирования заданий • Необходимо организовать учёт использования ресурсов • Необходимо вмешаться в работу локальных кластеров на этапе инсталляции/тестирования РВС • Уменьшение простоев • Улучшение оборачиваемости • Единый интерфейс для всех локальных кластеров • Развитие инфраструктуры для метакомпьютинга. Компоненты РВС • Метапланировщик • Grid environment • Локальные планировщики • Локальные менеджеры ресурсов • Портал доступа

  14. Silver design overview. http://www.supercluster.org

  15. Преимущества Silver • Гибкое выделение ресурсов основанное на т.н. «резервировании» • Совместимость Silver/Maui с широким кругом менеджеров ресурсов: PBS Pro, OpenPBS, SGE, LSF, LoadLever • Минимально вторжение в политики локальных кластеров • Ограниченное использование информации от локальных кластеров • Возможность настройки и испытаний РВС в режиме симуляции, не прерывая нормальной работы локальных кластеров. • Возможность как использования Globus в качестве Grid Environmnt’a, так и создания собственных механизмов для stageing’a, авторизации и запуска задач • Возможность учёта использованных вычислительных ресурсов при помощи базы данных Q-bank • Высокая масштабируемость – Silver разработан так, чтобы управлять тысячами процессоров на десятках кластеров .

  16. Стендовые испытания Silver на кластерах Казанского НЦ РАН Silver 1.0.2 Сервер доступа Maui 3.2.0 Maui 3.2.0 PBS Pro 5.2 PBS Pro 5.2 Кластер КГТУ Кластер КазНЦ

  17. Заключение Проблемы организации использования высокопроизводительных вычислительных ресурсов имеют общий характер для большинства сайтов. Возможным решением их является объединение локальных вычислителей в распределённые вычислительные сети. Что требует как решения технических вопросов, так и сотрудничество заинтересованных в использовании высокопроизводительных вычислений организаций

More Related