Análisis Distribuido: IFIC ATLAS Tier-2

Análisis Distribuido: IFIC ATLAS Tier-2 Farida Fassi Secunda reunión de ATLAS Tier-2 Español 5-6 de Octubre, 2006; UAM Madrid

Contenido • Modelo de Análisis Distribuido de ATLAS (ADA) • Estrategia de ATLAS para ADA • Subsistemas de ADA en un Grid heterogenia • Aspectos comunes de ADA: DDM/DQ2 • Feedback breve sobre Ganga • ADA en el ejercicio SC4: contribución del IFIC

Modelo de Análisis Distribuido de ATLAS • El objetivo fundamental de ADA es permitir a los usuarios de ATLAS realizar el análisis distribuido de datos según el modelo de computación de ATLAS: • Datos para el análisis estarán disponibles y distribuidos en todos los centros Tiers1 y Tiers2 (ROD, ESD, AOD y TAG) • Tiers2 son facilidades para recibir los trabajos de análisis • Los usuarios envían los trabajos a los datos y extraen los relevantes datos (Ntuple, AAN, etc) • El modelo prevé que 50% de los recursos Grid de ATLAS estarán destinados al análisis

Estrategia de ATLAS para ADA (1) • La infraestructura Grid de ATLAS se basa sobre tres sabores Grid • La estrategia de ATLAS consiste en tener un sistema de ADA robusto y flexible, que hace uso de todos los recursos de ATLAS •  Sumisión directa a la Grid •  LCG/EGEE  LCG RB, gLite WMS y CondorG •  OSG  PANDA • Nordugrid ARC Middleware •  Sumisión indirecta a la Grid •  ProdSys acceso fluido a todos los recursos Grid de ATLAS

Estrategia de ATLAS para ADA (2) Front-end client GANGA Pathena AtCom ProdSys Back-end submission LCG RB CondorG ARC gLite RB Panda ATLAS GRID resources LCG OSG Nordugrid

Aspectos comunes de ADA: DDM/DQ2 • El sistema de gestion de datos distribuidos (DDM) es un aspecto central para el Análisis Distribuido  El objetivo de DDM es proporcional a los usuarios de ATLAS un acceso uniforme a datos en todos los sabores Grid • En LCG, LFC representa Local Replica Catalog • FTS se usa para transferir datos/datasets entere los sitios • Para poder llevar a cabo el análisis en los Tiers2, se requiere que los input datasets estén disponibles allí • ADA esta promoviendo la distribución de datos entre los Tiers1 y Tiers2  completar la “collection” de datos con el fin de lograr una distribución igualada entere los sitios  condición necesaria para poder programar ADA dentro el ejercicio SC4

Job Job Job Job LSF LSF store & retrieve job definition localhost localhost submit, kill gLite gLite prepare,configure LCG2 LCG2 get output update status Athena DIRAC DIRAC Gaudi DIAL DIAL scripts AtlasPROD AtlasPROD Ganga4 Feedback sobre Ganga: introducción Ganga: “user interface” para la definición y la gestion de trabajos  permite fácilmente intercambiar entre los múltiples “back-ends”  tiene tres formas de interaccionar con el “user”: CLI, GUI, Script  fácil de instalar y configurar

Feedback sobre Ganga (1)  Progreso significante en la actual versión de Ganga (4.2.0-beta10) • Integración total con DDM/DQ2 • Posibilidad de configurar los trabajos, especificando tanto el tipo del Input como del Output vía “inputdata” y “outputdata” “plugins” • Posibilidad de escoger el CE de colas cortas/Job Priority • Colas cortas: CERN, LYON, NIKHEF, FZK, RAL y IFIC • Job Priorities: NIKHEF, CERN, IFIC (PPS) • Posibilidad de combinar entre la ubicación del datasets y el CEs durante la sumisión del trabajo mediante la opción “inputdata.match_ce=True”

Feedback sobre Ganga (2) • Experiencia • Varios trabajos de análisis han sido envidos al CERN y al Lyon  Mayor colección de AODs en LCG  CE de colas cortas dedicada a los jobs de análisis • La duración del proceso de la ejecución/procesamiento de datos era del orden de algunos minutos, dependiendo tanto del tipo de análisis como del tamaño del “datasets” • Algunos trabajos enviado al IFIC tardaron mas tiempo • Input datasets no estaba disponible

ADA en el ejercicio SC4: contribución del IFIC • Disk Area • Disk-only area de capacidad de 4 TB está disponible en el Tier-2 del IFIC, junto con los dedicados storage endpoints • Job Priorities • IFIC esta contribuyendo in la implementación del “Job priorities” y “short queues”: • Short queue/CE para “jobs” de análisis • VOMS attribute para separar la produccion de análisis (PPS) (Javier)

Análisis Distribuido: IFIC ATLAS Tier-2