10 likes | 155 Views
C alcul I ntensif pour le C L imat et l' E nvironnement.
E N D
Calcul Intensif pour le CLimat et l'Environnement « Le projet CICLE a pour objet de développer une nouvelle génération de modèles capables de tirer pleinement parti des supers calculateurs actuels et futurs afin de réaliser des ‘simulations frontières’qui permettront des avancées majeures tant dans la compréhension des phénomènes physiques que dans nos capacités de prédiction. » CIGC - 05 - 004 http://dods.ipsl.jussieu.fr/omamce/CICLE Objectifs IPSL • CNRM • Atmosphère globale (ARPEGE). • Atmosphère régionale (ALADIN). • Océan global et régional (OPA). • Assemblage et emboîtements à faire. • CERFACS • Coupleurs OASIS V3 et V4. • Océan (OPA). • Glace de mer (LIM). • Atmosphère (LMDZ). • Surface continentale et végétation (ORCHIDEE). • Chimie Atmosphérique et Aérosols (INCA). • Paralléliser les composantes. • Coupler les composantes parallèles. • Emboîter modèles régionaux et globaux. • Revisiter les interfaces entre composantes. • Réaliser des simulations de démonstration. Acteurs Le modèle couplé de l’IPSL Les difficultés de la parallélisation liées aux spécificités des modèles • La faible taille des grilles utilisées • Une simulation classique couvre ~ 200 ans par pas de temps de ~60 s => ~ 100 000 000 pas de temps/simulation. • Utilisation de grilles de faibles tailles : • Résolution moyenne : 96x72x19 => ~130 000 mailles. • Haute résolution (1°) : 360x180x55 => 3 500 000 mailles. • Limitation rapide des performances du parallélisme : les latences et les coûts en bande passante se font rapidement sentir : • Grille 96x72x19 : 16 proc : 8000 mailles /proc. • Grille 360x180x19 : 500 proc : 7000 mailles/proc. • La sphère et la dynamique des fluides • Système parfaitement conservatif : les algorithmes utilisables sont restreints par les conservations imposées : masse, énergie, moment cinétique, enstrophie… • Solution : • Diminuer le pas de temps : gaspillage énorme en temps de calcul sur les régions équatoriales. • Application d’un « filtre » aux hautes latitudes pour lisser les fluctuations de courtes longueurs d’onde. • méthode qui « n’aime pas » le parallélisme. La complexité du modèle couplé • 5 codes développés indépendamment, couplés à chaque pas de temps. Utilisation du coupleur parallèle OASIS • Deux points singuliers : x tend vers 0 aux pôles : un défi majeur à la stabilité numérique => Instabilité CFL (Courant – Freedich-Lewy). La parallélisation mixte : MPI/OpenMP Les stratégies de parallélisation des modèles • La parallélisation du cœur dynamique de LMDZ • Le cœur dynamique calcule et intègre les termes des équations de Navier-Stockes, le transport des traceurs et la dissipation. • Filtre des hautes latitudes => domaines de calcul inhomogènes • De nombreux échanges par • pas de temps • l’optimisation des communications est critique. • Open MP : parallélisation des boucles sur les indices verticaux. • Les boucles sur les indices verticaux sont les plus externes. • La parallélisation des boucles est plus simple et performante. • Elle n’entre pas en conflit avec la vectorisation • MPI : décomposition de domaines en bandes de latitude • Élimine le problème du filtre, simplifie la parallélisation du schéma d’advection. • Échange de « halos » de données entre processus proches voisins • La parallélisation de la partie physique de LMDZ, d’ORCHIDEE et d’INCA • L’ensemble de ces codes suivent le même principe : les mailles sur une colonne d’atmosphère sont indépendantes les unes des autres • Hormis les I/Os, pas ou peu de communications par pas de temps. L’optimisation des communications n’est pas critique. • Distribution des données en vecteur de mailles sur lesquelles repose une colonne d’atmosphère. • A Chaque processus MPI est assigné un vecteur de mailles, que se partage l’ensemble des tâches OpenMP lancées au sein du processus. Simulation ½° : 720x360x19 Quelques détails sur les performances… LMDZ4 1° 55 niveaux verticaux (360x180x55) : Résultats sur platine (CCRT) et sur le « Earth Simulator » : 1 jour (1920 itérations) LMDZ/INCA : Résolution standard 96x72x19 Temps et Speed-up pour 480 itérations (1 journée) Résolution 360x180x55 : courbe de speed-up SX8/Itanium Résolution 360x180x55 : Années simulées / mois en fonction du nombre de processeurs