240 likes | 432 Views
Распараллеливание вычислений на мультиядерных и многоядерных процессорах для исследования магнитодинамики в наномагнитных структурах. Пермский государственный национальный исследовательский университет Научно-образовательный центр «Параллельные и распределённые вычисления».
E N D
Распараллеливание вычислений на мультиядерных и многоядерных процессорах для исследования магнитодинамики в наномагнитных структурах Пермский государственный национальный исследовательский университет Научно-образовательный центр «Параллельные и распределённые вычисления» •Второй Национальный Суперкомпьютерный форум (г.Переславль-Залесский, ИПС имени А.К. Айламазяна РАН, 27-29 ноября 2013 г.) • Деменев Алексей Геннадьевич, к. ф.-м. н., доц. , директор НОЦ ПиРВ, доцент кафедры прикладной математики и информатики ПГНИУ; • Белозерова Татьяна Сергеевна, к.ф.-м.н., ведущий программист КЦ ММФ ПГНИУ; • Поляков Александр Владимирович, инженер НОЦ ПиРВ, аспирант кафедры прикладной математики и информатики ПГНИУ; • Хеннер Виктор Карлович, д.ф.-м.н., проф., профессор кафедры теоретической физики, директор ЦОНО ПГНИУ. Деменев А.Г., 2013 1
Введение • Фундаментальная проблема – создание высокопроизводительных и надежных программных систем и компьютерных технологий многомасштабного компьютерного моделирования процессов в системах взаимодействующих спинов. • Описание процессов - относительно небольшое число временных корреляционных функций, обычно используемых в физике магнитных явлений. • Необходимо разработать эффективные и надежные методы вычислений таких функций для далеких от равновесия систем спинов, связанных дальнодействующими межспиновыми взаимодействиям • Основная математическая трудность - наличие широкого квазинепрерывного спектра характерных времен процессов, определяющих многомасштабную динамику системы. • Технологический барьер - исследование реалистичных моделей приводит к необходимости решения задач, вычислительная сложность которых нелинейно растет с увеличением числа структурных элементов и времени наблюдения за системой. Деменев А.Г., 2013 2
Введение • Подход к преодолению технологического барьера – распараллеливание алгоритмов позволяет значительно увеличить число структурных элементов и диапазон времен эволюции исследуемых систем, доступных для изучения.. • Дополнительные трудности параллелизма: • классическая теория сходимости не применима к параллельным численным методам; • в параллельных алгоритмах могут специфические ошибки, не характерные для последовательных; • накладные расходы на организацию параллельной вычислений могут нивелировать выгоду от распараллеливания. • Дополнительно необходимы: • проведение исследований на предмет обеспечения корректности результатов, • анализ и оценку эффективности отображения вычислительных алгоритмов на • современные параллельные компьютерные архитектуры. • Перспективные суперкомпьютеры - с гибридной архитектурой (мультиядерные центральные процессоры + многоядерные ускорители) Деменев А.Г., 2013 3
О проекте РФФИ 11-07-96007 - р_урал_а • Цель - развитие и применение стратегических информационных технологий в исследовании процессов многомасштабной динамики наномагнитов в твердых телах. • Направлен на конкретную фундаментальную задачу развития и применения вычислительных и информационных технологий в моделировании многомасштабной молекулярной динамики многочастичных систем наномагнитов. • Барьер - использование традиционных методов и алгоритмов компьютерного моделирования не позволяет достигнуть необходимых результатов при исследовании многочастичных систем с размерами, требуемыми практикой. • Ожидания - применение суперкомпьютерных технологий при выполнении компьютерного моделирования в исследовании процессов в парамагнитных и ферромагнитных наноструктурах позволит использовать реалистичные модели из тысяч магнитных частиц. • Новизна - параллельные алгоритмы многомасштабной молекулярной динамики, реализованные в виде суперкомпьютерного ПО и апробированные при математическом моделировании магнитодинамических когерентных эффектов, в т.ч. числе сверхизлучения. Деменев А.Г., 2013 4
Предметная область моделирования • Сверхизлучение — необычный феномен для макроскопической физики, когда излучаемая мощность пропорциональная не числу спинов, а их квадрату, происходит из-за когерентизации спиновых переходов. • Когерентные эффекты - эффективные спин-спиновые взаимодействия не уменьшаются с расстоянием, шкала времени для процессов релаксации обратно пропорциональна числу спинов. • Условия проявления – при помещении низкотемпературного образца в пассивный резонатор. • Практическая перспектива - возможное использование больших скоростей когерентных процессов в высокоспиновых наномолекулах, кластерах и кристаллах, в различного рода датчиках и переключателях, особенно в наноустройствах, где традиционные механизмы релаксации выражены очень слабо. • Область приложения - разработки технологий получения нанодетекторов слабых излучений и создания компактных систем быстрой магнитной записи. Деменев А.Г., 2013 5
Предметная область моделирования Спин: - магнитный момент(в физике магнитных явлений); - аналог классического момента количества движения частицы (в квантовой механике). Взаимодействующие спины - внутри резонатора (LCR-контур). Спиновая прецессия наводит ЭДС в LCR-контуре. Обратная связь – через магнитное поле индуцируемого тока, влияя на процесс релаксацииспинов Деменев А.Г., 2013 6
Предметная область моделирования Деменев А.Г., 2013 7
Спины наномагнитных молекул Деменев А.Г., 2013 8
Математическая постановка задачи • «Классические» спины: движение магнитного момента каждой частицы описывается одним вектором. • Уравнения движения для k-го спина : • (1) • – безразмерный параметр спин-решеточной релаксации, • – гиромагнитное отношение для электронов Деменев А.Г., 2013 9
Математическая постановка задачи Поле в уравнении (1) – это общее магнитное поле, действующее на k-тый спин; Включает: 1) постоянное внешнее поле ; 2) одноосное анизотропное поле где n– единичный вектор оси легкого намагничивания, – анизотропная энергия частицы; 3) поле обратной связи , наведенное в резонансной катушке, ось которой направлена по оси Ox; 4) дипольное магнитное поле индуцируемое парными диполь-дипольными взаимодействиями спинов частиц. Деменев А.Г., 2013 10
Система уравнений движения Деменев А.Г., 2013 11
Потенциал распараллеливания алгоритмов MagnetoDynamics-F Методы: • анализ информационной структуры алгоритмов; • асимптотический анализ сложности алгоритмов. Вычислительная сложностьT(1) алгоритмов с ростом числа моделируемых наночастиц растет: • при постоянном шаге интегрирования - асимптотически квадратично; • при автоматическом выборе шага интегрирования – возможно асимптотически кубично. Асимптотические оценки ускорения и эффективности многопоточного распараллеливания алгоритмов, реализованных в коде MagnetoDynamics-F, на типичных задачах: • теоретические (по Амдалу); • полуэмпирические (с учетом накладных расходов на поддержку многопоточности на мультиядерных и многоядерных процессорах). Деменев А.Г., 2013 12
Потенциал распараллеливания алгоритмов Требования к оперативной памяти алгоритмов MagnetoDynamics-F с ростом числа наночастиц растут асимптотически линейно Гипотеза: пусть накладные расходы pτT(1) на многопоточное распараллеливание асимптотически растут также, как требования к оперативной памяти. Следствие: с ростом числа моделируемых наночастиц возможен рост масштабируемости распараллеливания. Деменев А.Г., 2013 13
OpenMP-распараллеливание вычислений правых частей уравнений движения • !$OMP PARALLEL SHARED(/Spins/, /Feqn/, /DelRnd/, /FieldPH/) PRIVATE(Mi,Hdx,Hdy,Hdz,PiD,WR) • !$OMP DO • DO 40 Mi = 1, Neqn • … тело цикла • 40 CONTINUE • !$OMP END DO • !$OMP END PARALLEL • ! Вычисляем правые части уравнений для WH и PH • SumD2x = 0 • !$OMP PARALLEL SHARED(/Spins/,/Feqn/,/DelRnd/,/FieldPH/,SumD2x) PRIVATE (Mi, Hdx, Hdy, Hdz, dHdx, dHdy, dHdz, PiD, Wr, d2eX) • !$OMP DO • DO 50 Mi = 1, Neqn • … тело цикла • ! Вычисляем сумму производных d2eX • !$omp atomic • SumD2x = SumD2x + d2eX • 50 CONTINUE • !$OMP END DO • !$OMP END PARALLEL Деменев А.Г., 2013 14
OpenMP-распараллеливание вычислений интенсивностей магнитодипольного излучения • !$OMP PARALLEL SHARED(/Spins/,/Feqn/,/DelRnd/,/OmRnd/,/FieldPH/,dFeqn) PRIVATE (Mi,Hdx, Hdy, Hdz, dHdx, dHdy, dHdz, PiD, Wr, Wr1) • !$OMP DO • DO 10 Mi = 1, Neqn • …тело цикла • 10 CONTINUE • !$OMP END DO • !$OMP END PARALLEL Распараллелены циклы по вычислению правых частей уравнений движения и цикл по вычислению интенсивностей магнитодипольного излучения. Команда компиляции параллельной программы: ifort -static MainMagDyn.f90 ServMagD.f90 -openmp -fast -xSSE4.1 -vec_report -openmp_report -o MagDynT Деменев А.Г., 2013 15
Тестовый пример 1 Деменев А.Г., 2013 16
Тестовый пример 1. OpenMP-версия Деменев А.Г., 2013 17
Тестовый пример 1. OpenMP-версия Деменев А.Г., 2013 18
Тестовый пример 1. CPU+OpenMP vs GPU+OpenACC • OpenACC-версия для графических ускорителей NVIDIA • Использовался компилятор PGI Аccelerator, поддерживающий стандарты OpenACC и OpenMP. • При 1000 частиц ускорение OpenACC-версии в вычислениях при расчёте на одном 448-ядерном графическом ускорителе NVIDIA Tesla 2050 на порядок превзошло ускорение порядок по сравнению с расчётом на одном из ядер процессора Intel Xeon 5670. • Это примерно в два раза лучше результата оптимизированной OpenMP-версии на 6-ядерном Intel Xeon 5670. Деменев А.Г., 2013 19
Тестовый пример 2 Деменев А.Г., 2013 20
Тестовый пример 2. CPU+OpenMP vs GPU+OpenACC Деменев А.Г., 2013 21
Заключение Параллельный код MagnetoDynamics-F: • последовательная часть - ввод параметров, создание выходных файлов, построение ансамбля Гиббса для заданной поляризации с помощью техники Монте-Карло; • подлежащая распараллеливанию часть - интегрирование системы уравнений движения и вычисление интенсивности магнитодипольного излучения. OpenMP-версия : • полученаэкспериментальная оценка на многопроцессорных системах с мультиядерными процессорами Intel Xeon; • получена полуэмпирическая формула для асимптотической оценки ускорения и эффективности распараллеливания; • отмечена возможность эффективного использования многоядерных сопроцессоров Intel Xeon Phi. OpenАСС-версия : • полученаэкспериментальная оценка на системах с многоядерными ускорителями NVIDIA Tesla 2050 и K20; • показана целесообразность эффективного использования многоядерных ускорителей уже при числе частиц порядка 1000; • отмечен существенный рост производительности при росте числа частиц. Деменев А.Г., 2013 22
Благодарности Работа выполнена на базе Научно-образовательного центра «Параллельные и распределенные вычисления» (НОЦ ПиРВ) ПГНИУ. Использовано дорогостоящее оборудование, приобретенное по гранту РФФИ 10-01-05021-б (руководитель Е.К. Хеннер): • программно-технический комплекс «Высокопроизводительный SMP-сервер». Использовано уникальное оборудование приобретенное по проекту "Развитие центра коллективного пользования высокопроизводительными вычислительными ресурсами — НОЦ ПиРВ" (руководитель А.Г. Деменев) Программы развития ПГНИУ: • суперкомпьютеры «ПГУ-Тесла» и «ПГНИУ-Кеплер». • Работа была выполнена при поддержке грантов РФФИ, 11-07-96007 - р_урал_а (руководители Е.К. Хеннер, А.Г. Деменев) и 13-02-96018 - р_урал_а (руководитель В.К. Хеннер). Деменев А.Г., 2013 23
Контакты Деменев Алексей Геннадьевич Тел. (342)2396409 Факс (342)2396584 E-mail: A-demenev@psu.ru http://Demenev.livejournal.com Деменев А.Г., 2013